<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          人工智能的“眼睛”:計(jì)算機(jī)視覺究竟有多厲害?

          共 4933字,需瀏覽 10分鐘

           ·

          2021-05-25 16:31

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          本文轉(zhuǎn)自|新機(jī)器視覺

          計(jì)算機(jī)視覺是最強(qiáng)大和引人注目的AI之一,你幾乎肯定會(huì)以各種方式體驗(yàn)過它,當(dāng)時(shí)卻不知道。今天我們來好好研究一下它,包括它的工作原理以及它如此出色的原因(而且只會(huì)變得越來越好)。

          計(jì)算機(jī)視覺屬于計(jì)算機(jī)科學(xué)領(lǐng)域,其重點(diǎn)是復(fù)制一部分人類視覺系統(tǒng)的復(fù)雜性,并使計(jì)算機(jī)能夠以與人類相同的方式識(shí)別和處理圖像和視頻中的對(duì)象。 直到目前,計(jì)算機(jī)視覺仍然以有限的能力發(fā)揮著作用。得益于人工智能的進(jìn)步以及深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的創(chuàng)新,該領(lǐng)域近年來取得了長(zhǎng)足的飛躍,并且在與檢測(cè)和標(biāo)記物體有關(guān)的某些任務(wù)中已經(jīng)超越人類。

          計(jì)算機(jī)視覺增長(zhǎng)背后的驅(qū)動(dòng)因素之一是我們今天生成的數(shù)據(jù)量,這些數(shù)據(jù)隨后被用來訓(xùn)練和改善計(jì)算機(jī)視覺。伴隨著大量的可視數(shù)據(jù)(每天在線共享30億張圖像),現(xiàn)在可以訪問分析數(shù)據(jù)所需的計(jì)算能力。隨著計(jì)算機(jī)視覺領(lǐng)域的發(fā)展、新硬件和算法的進(jìn)步,物體識(shí)別的準(zhǔn)確率也隨之提高。在不到十年的時(shí)間里,當(dāng)今的系統(tǒng)已從50%的精度達(dá)到了99%的精度,使它們?cè)趯?duì)視覺輸入做出快速反應(yīng)時(shí)比人類更準(zhǔn)確。

          早期的計(jì)算機(jī)視覺實(shí)驗(yàn)始于1950年代,到1970年代首次在商業(yè)上用于區(qū)分打字文本和手寫文本,如今計(jì)算機(jī)視覺的應(yīng)用呈指數(shù)增長(zhǎng)。到2022年,計(jì)算機(jī)視覺和硬件市場(chǎng)預(yù)計(jì)將達(dá)到486億美元。

          一、計(jì)算機(jī)視覺如何工作?

          神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)中的主要開放問題之一是:我們的大腦究竟如何工作,如何用我們自己的算法更加接近它? 現(xiàn)實(shí)情況是,目前缺少全面有效的大腦計(jì)算理論。 因此,盡管事實(shí)上神經(jīng)網(wǎng)絡(luò)應(yīng)該“模仿大腦的運(yùn)作方式”,但沒人能確定這是否真的成立。同樣的悖論在計(jì)算機(jī)視覺中也適用。由于我們尚未決定大腦和眼睛如何處理圖像,因此很難說生產(chǎn)中使用的算法能很好地逼近我們內(nèi)部的心理過程。

          在某種程度上,計(jì)算機(jī)視覺與模式識(shí)別有關(guān)。因此,訓(xùn)練計(jì)算機(jī)如何理解視覺數(shù)據(jù)的一種方法是,將大量的圖像-成千上萬個(gè)圖像(如果可能的話)、已標(biāo)記的圖像饋送給它,然后使它們經(jīng)受各種允許計(jì)算機(jī)追蹤的軟件技術(shù)或算法,找到與這些標(biāo)簽相關(guān)的所有元素中的圖案。

          因此,如果你向計(jì)算機(jī)喂入一百萬張貓的圖像,它將使它們?nèi)渴芩惴ㄓ绊懀瑥亩顾鼈兡軌蚍治稣掌械念伾螤睿螤钪g的距離,物體彼此相鄰的位置等等,以便可以識(shí)別“貓”的含義。完成后,如果再投放其他未標(biāo)記的圖像來查找屬于貓的圖像,則計(jì)算機(jī)(理論上)將能夠利用其經(jīng)驗(yàn)。

          一幅圖像需要大量?jī)?nèi)存,而算法要迭代需要很多像素。但是,要以有意義的精度訓(xùn)練模型,尤其是在你談?wù)撋疃葘W(xué)習(xí)時(shí),通常需要成千上萬張圖像,并且更多。

          二、計(jì)算機(jī)視覺的演變

          在深度學(xué)習(xí)出現(xiàn)之前,計(jì)算機(jī)視覺可以執(zhí)行的任務(wù)非常有限,并且需要開發(fā)人員和人工操作人員進(jìn)行大量的手工編碼和工作。例如,如果要執(zhí)行面部識(shí)別,則必須執(zhí)行以下步驟:

          創(chuàng)建數(shù)據(jù)庫:你必須以特定格式捕獲要跟蹤的所有主題的單個(gè)圖像。

          注釋圖像:然后,對(duì)于每個(gè)單獨(dú)的圖像,你都必須輸入幾個(gè)關(guān)鍵數(shù)據(jù)點(diǎn),例如眼睛之間的距離,鼻梁的寬度,上唇和鼻子之間的距離以及數(shù)十種定義獨(dú)特特征的其他度量每個(gè)人。

          捕獲新圖像:接下來,你必須捕獲新圖像,無論是照片還是視頻內(nèi)容。然后,你必須再次執(zhí)行測(cè)量過程,在圖像上標(biāo)記關(guān)鍵點(diǎn)。你還必須考慮拍攝圖像的角度。

          經(jīng)過所有這些手動(dòng)工作,應(yīng)用程序最終將能夠?qū)⑿聢D像中的測(cè)量結(jié)果與數(shù)據(jù)庫中存儲(chǔ)的測(cè)量結(jié)果進(jìn)行比較,并告訴你它是否與它正在跟蹤的任何配置文件相對(duì)應(yīng)。實(shí)際上,涉及的自動(dòng)化很少,大部分工作都是手動(dòng)完成的。而且誤差幅度仍然很大。

          機(jī)器學(xué)習(xí)提供了解決計(jì)算機(jī)視覺問題的另一種方法。通過機(jī)器學(xué)習(xí),開發(fā)人員不再需要將每個(gè)規(guī)則手動(dòng)編碼到他們的視覺應(yīng)用程序中。相反,他們編寫了“功能”,這些較小的應(yīng)用程序可以檢測(cè)圖像中的特定圖案。然后,他們使用統(tǒng)計(jì)學(xué)習(xí)算法(例如線性回歸,邏輯回歸,決策樹或支持向量機(jī)(SVM))來檢測(cè)模式,對(duì)圖像進(jìn)行分類并檢測(cè)其中的對(duì)象。

          機(jī)器學(xué)習(xí)幫助解決了許多傳統(tǒng)軟件開發(fā)工具和方法歷來具有挑戰(zhàn)性的問題。例如,幾年前,機(jī)器學(xué)習(xí)工程師能夠創(chuàng)建一種可以比人類專家更好地預(yù)測(cè)乳腺癌生存期的軟件。但是,構(gòu)建軟件的功能需要數(shù)十名工程師和乳腺癌專家的努力,并且花費(fèi)了大量的時(shí)間進(jìn)行開發(fā)。

          深度學(xué)習(xí)為進(jìn)行機(jī)器學(xué)習(xí)提供了根本不同的方法。深度學(xué)習(xí)依賴于神經(jīng)網(wǎng)絡(luò),這是一種通用功能,可以解決通過示例表示的任何問題。當(dāng)你為神經(jīng)網(wǎng)絡(luò)提供特定類型數(shù)據(jù)的許多帶標(biāo)簽的示例時(shí),它將能夠提取這些示例之間的常見模式并將其轉(zhuǎn)換為數(shù)學(xué)方程式,從而有助于對(duì)將來的信息進(jìn)行分類。

          例如,使用深度學(xué)習(xí)創(chuàng)建面部識(shí)別應(yīng)用程序只需要你開發(fā)或選擇一種預(yù)先構(gòu)建的算法,然后使用必須檢測(cè)的人臉示例對(duì)其進(jìn)行訓(xùn)練。給定足夠的示例(大量示例),神經(jīng)網(wǎng)絡(luò)將能夠檢測(cè)面部,而無需進(jìn)一步說明特征或測(cè)量。

          深度學(xué)習(xí)是進(jìn)行計(jì)算機(jī)視覺的一種非常有效的方法。在大多數(shù)情況下,創(chuàng)建良好的深度學(xué)習(xí)算法歸結(jié)為收集大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù)并調(diào)整參數(shù),例如神經(jīng)網(wǎng)絡(luò)和訓(xùn)練時(shí)期的類型和層數(shù)。與以前的機(jī)器學(xué)習(xí)類型相比,深度學(xué)習(xí)的開發(fā)和部署既簡(jiǎn)單又快速。

          當(dāng)前大多數(shù)計(jì)算機(jī)視覺應(yīng)用程序(例如癌癥檢測(cè),自動(dòng)駕駛汽車和面部識(shí)別)都利用深度學(xué)習(xí)。由于可用性以及硬件和云計(jì)算資源的進(jìn)步,深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)已從概念領(lǐng)域轉(zhuǎn)變?yōu)閷?shí)際應(yīng)用。

          三、解密圖像需要多長(zhǎng)時(shí)間

          總之,耗費(fèi)的時(shí)間不多。這就是為什么計(jì)算機(jī)視覺如此令人興奮的關(guān)鍵:在過去,即使是超級(jí)計(jì)算機(jī)也可能需要數(shù)天、數(shù)周甚至數(shù)月的時(shí)間才能完成所有所需的計(jì)算,而當(dāng)今的超高速芯片和相關(guān)硬件以及快速可靠的互聯(lián)網(wǎng)和云網(wǎng)絡(luò),使計(jì)算過程如閃電般快速。許多從事AI研究的大公司愿意共享他們的工作,比如Google,IBM和Microsoft,特別是通過開源一些他們的機(jī)器學(xué)習(xí)。

          這樣一來,其他人就可以繼續(xù)工作,而不是從頭開始。因此人工智能行業(yè)正在不斷發(fā)展,不久前進(jìn)行的實(shí)驗(yàn)需要花費(fèi)數(shù)周的時(shí)間才能運(yùn)行,而今天的實(shí)驗(yàn)可能需要15分鐘。對(duì)于計(jì)算機(jī)視覺的許多實(shí)際應(yīng)用,此過程都在幾微秒內(nèi)連續(xù)發(fā)生,因此當(dāng)今的計(jì)算機(jī)能夠成為科學(xué)家所謂的“情境感知”。

          四、計(jì)算機(jī)視覺的應(yīng)用

          計(jì)算機(jī)視覺是機(jī)器學(xué)習(xí)的領(lǐng)域之一,核心概念已被集成到我們每天使用的主要產(chǎn)品中。

          1)無人駕駛汽車

          并非只有科技公司在圖像應(yīng)用中利用機(jī)器學(xué)習(xí)。計(jì)算機(jī)視覺使無人駕駛汽車能夠感知周圍環(huán)境。攝像頭從汽車周圍的不同角度捕獲視頻,并將其提供給計(jì)算機(jī)視覺軟件,然后該軟件會(huì)實(shí)時(shí)處理圖像,以查找道路的末端,讀取交通標(biāo)志,檢測(cè)其他汽車,物體和行人。然后,自動(dòng)駕駛汽車可以在街道和高速公路上駕駛,避免撞到障礙物,并(希望)安全地將其乘客送至目的地。

          2)面部識(shí)別

          計(jì)算機(jī)視覺在面部識(shí)別應(yīng)用程序中也起著重要作用,該技術(shù)使計(jì)算機(jī)能夠?qū)⑷藗兊拿娌繄D像與他們的身份進(jìn)行匹配。計(jì)算機(jī)視覺算法檢測(cè)圖像中的面部特征并將其與面部輪廓數(shù)據(jù)庫進(jìn)行比較。消費(fèi)類設(shè)備使用面部識(shí)別來驗(yàn)證其所有者的身份。社交媒體應(yīng)用程序使用面部識(shí)別來檢測(cè)和標(biāo)記用戶。執(zhí)法機(jī)構(gòu)還依靠面部識(shí)別技術(shù)來識(shí)別視頻源中的罪犯。

          3)增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)

          計(jì)算機(jī)視覺在增強(qiáng)和混合現(xiàn)實(shí)中也起著重要作用,該技術(shù)使智能手機(jī),平板電腦和智能眼鏡等計(jì)算設(shè)備能夠?qū)⑻摂M對(duì)象疊加并嵌入到現(xiàn)實(shí)世界的圖像中。利用計(jì)算機(jī)視覺,AR設(shè)備可以檢測(cè)現(xiàn)實(shí)世界中的物體,從而確定設(shè)備顯示屏上放置虛擬物體的位置。例如,計(jì)算機(jī)視覺算法可以幫助AR應(yīng)用程序檢測(cè)諸如桌面,墻壁和地板之類的平面,這是確定深度和尺寸并將虛擬對(duì)象放置在物理世界中的重要組成部分。

          4)醫(yī)療健康

          計(jì)算機(jī)視覺也是健康技術(shù)進(jìn)步的重要組成部分。計(jì)算機(jī)視覺算法可以幫助自動(dòng)化任務(wù),例如檢測(cè)皮膚圖像中的癌痣或在X射線和MRI掃描中發(fā)現(xiàn)癥狀。

          五、計(jì)算機(jī)視覺的挑戰(zhàn)

          幫助計(jì)算機(jī)去“看”非常困難。發(fā)明一臺(tái)看起來像我們一樣的機(jī)器是一項(xiàng)看似困難的任務(wù),這不僅是因?yàn)楹茈y使計(jì)算機(jī)做到這一點(diǎn),而且還因?yàn)槲覀儾荒芡耆_定人類視覺的工作原理。

          研究生物視覺需要理解諸如眼睛的感知器官,以及對(duì)大腦內(nèi)部感知的解釋。在繪制流程圖和發(fā)現(xiàn)系統(tǒng)使用的技巧和捷徑方面都取得了很大的進(jìn)步,盡管與涉及大腦的任何研究一樣,還有很長(zhǎng)的路要走。

          六、計(jì)算機(jī)視覺的一些專業(yè)術(shù)語。例如:

          Object Classification 物體分類 :這張照片中物體的大致類別是什么?

          Object Identification 物體辨別 :照片中給定物體的類型是什么?

          Object Verification 物體驗(yàn)證 :照片中是否有物體?

          Object Detection 物體檢測(cè) :照片中的物體在哪里?

          Object Landmark Detection 物體位置檢測(cè) :照片中物體的關(guān)鍵點(diǎn)是什么?

          Object Segmentation 對(duì)象分割 :圖像中的對(duì)象屬于哪些像素?

          Object Recognition 物體識(shí)別 :這張照片中有哪些物體,它們?cè)谀睦铮?/span>

          除了公正的認(rèn)識(shí)之外,其他分析方法還包括:

          視頻運(yùn)動(dòng)分析使用計(jì)算機(jī)視覺來估計(jì)視頻中對(duì)象或攝像機(jī)本身的速度。

          在圖像分割中,算法將圖像劃分為多組視圖。

          場(chǎng)景重建可創(chuàng)建通過圖像或視頻輸入的場(chǎng)景的3D模型。

          在圖像還原中,使用基于機(jī)器學(xué)習(xí)的濾鏡從照片中消除了諸如模糊之類的噪點(diǎn)。

          任何其他通過軟件了解像素的應(yīng)用程序都可以安全地標(biāo)記為計(jì)算機(jī)視覺。

          小結(jié)

          盡管最近取得了令人印象深刻的進(jìn)步,但我們甚至還沒有解決計(jì)算機(jī)視覺問題。

          在人工智能愈發(fā)熱門的大背景下,學(xué)習(xí)、體驗(yàn)新技術(shù)的需求也日漸增多。學(xué)以致用才能真正掌握一門技術(shù)。化繁為簡(jiǎn),簡(jiǎn)單3步,只需5分鐘。

           End 



          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 65
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩性爱视频网站 | 五月丁香综合在线 | 69av豆花视频 | 国产黄色网色视频 | 高清无码国产在线观看 |