<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          理解卷積神經(jīng)網(wǎng)絡的局限

          共 3586字,需瀏覽 8分鐘

           ·

          2021-10-13 19:00

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          URL:?https://bdtechtalks.com/2020/03/02/geoffrey-hinton-convnets-cnn-limits/? ???2020 AAAI中的keynote,Hinton


          ?
          1.?相關背景

          早期的計算機視覺利用符號人工智能(symbolic artificial intelligence),但需要人類制定每條規(guī)則,該方式難以成功。另一種方法是使用機器學習,與符號AI相反,機器學習算法具有一般結構,并通過訓練樣本學到它們自身的行為。但早期的機器學習算法仍然需要大量的人工設計來檢測圖像中的相關特征。


          CNNs是一種端到端的AI模型能自動學習特征提取的機制。訓練好的多層CNN模型可以以分層的方式自動識別特征,從簡單的邊緣、角到像臉、椅子、狗等復雜的目標。CNNs最早由當時還在Hinton實驗室的LeCun在1980年代提出,但尤其當時缺少計算能力和數(shù)據(jù),沒有得到快速發(fā)展,當然現(xiàn)在已是今非昔比。

          2. CNNs與人類視覺系統(tǒng)的不同


          CNNs以端到端的方式學習所有事情,如果一個特征在某個位置是有效的,那在其他某些位置也是有效的,那么CNNs就可以跨位置整合這些信息并很好地歸納。但與人類感知有很大不同。

          CV的一個關鍵挑戰(zhàn)是處理現(xiàn)實世界的數(shù)據(jù)波動(variance of data)。人類的視覺系統(tǒng)可以在不同角度、不同背景和不同光照條件下識別目標。當被部分遮擋或顏色變化,人類視覺系統(tǒng)可以利用線索或其他知識來填補缺少的信息,解釋我們所看到的內(nèi)容。

          創(chuàng)造對相同目標具有識別能力的AI是很困難的。(Creating AI that can replicate the same object recognition capabilities has proven to be very difficult.)

          CNNs旨在處理翻譯(translations)。意味著一個訓練好的卷積網(wǎng)絡可以識別一個物體,無論它出現(xiàn)在圖像中的什么位置(具有空間不變性?)。但是不能很多地處理視點變化(viewpoints)的影響,如旋轉和縮放(所以數(shù)據(jù)增強中有這樣的操作)。

          解決上述問題的一個方法是使用4D或6D圖(4D or 6D maps)訓練AI,然后再執(zhí)行目標檢測,但這樣做的代價很大。

          目前最好的解決方式是收集大量圖像,每個目標在圖像以不同的位置顯示(gather massive amounts of images that display each object in various positions),也就是說收集的數(shù)據(jù),圖像中目標的位置是多種多樣的,ImageNet數(shù)據(jù)集就起到了這樣的作用。事實上ImageNet作為CV領域的基準數(shù)據(jù)集已經(jīng)展現(xiàn)出了一些問題。盡管數(shù)據(jù)量巨大,但無法包含所有可能的角度和目標位置。數(shù)據(jù)通常是在理想光照和已知角度下獲得的。

          對于人類視覺系統(tǒng),從幾個角度觀察目標就可以相信出其他不同的情況。但是CNNs訓練時需要各自情況的樣本,它不具備人類的這種相信能力。通常使用數(shù)據(jù)增強(data augmentation)解決這個問題,進行翻轉或旋轉圖像。CNNs在每個圖像的多個副本上訓練,它們之間稍有不同,一定程度上提高系統(tǒng)的魯棒性。但是數(shù)據(jù)增強也不能涵蓋所有的角度情況,現(xiàn)實生活中可能存在的奇怪的情況,如放倒的椅子,床上的T恤,這些CNNs和其他神經(jīng)網(wǎng)絡就難以處理。下圖是一個新的數(shù)據(jù)集ObjectNet中的樣本和ImageNet中的比較。但是跨視角、光照、顏色等問題依然影響著現(xiàn)有模型。


          3.?不同所帶來的危害


          上述差異導致的影響不僅局限于模型的泛化能力以及對更多數(shù)據(jù)的需要。CNNs產(chǎn)生的目標表示形式也與人腦的生物神經(jīng)網(wǎng)絡非常不同。對于一幅圖像,施加人類無法察覺的微小擾動或噪聲,CNNs就會識別成完全不同的目標。這種增加微小擾動的圖像就是所謂的對抗樣本(adversarial examples),是目前的研究熱點。對于像自動駕駛等應用,對抗擾動就是很危險的。只要我們的計算機視覺系統(tǒng)以與人類視覺以根本不同的方式工作,除非得到激光雷達和雷達測繪等互補技術的支持,否則它們將是不可預測且不可靠的。


          4.?坐標框架和部分與整體間的關系


          CNNs無法根據(jù)目標和它的部分理解圖像,而是以不同模式的圖像塊識別目標,缺少對于實體和其關系的顯式內(nèi)部表征。CNNs觀測不同的像素位置,根據(jù)越來越多的上下文信息,得到關于像素位置發(fā)生什么越來越豐富的描述。最后獲得的如此豐富的描述使網(wǎng)絡識別出圖像中的目標,但沒有明確地解析圖像。對物體組成的理解有助于理解世界和前所未見的事物,如下面這個奇怪的茶壺。


          CNNs也缺少坐標系統(tǒng),而這是人類視覺的重要部分。當人類觀測一個目標時會在心里構建一個方向,以幫助解析不同的特征。如下圖,將左圖上下翻轉就是右圖。但是人類沒有必要真的翻轉,對于左圖只需在心里挑戰(zhàn)觀察的坐標就能看的右圖。


          根據(jù)所施加的坐標系,人類會有完全不同的內(nèi)部感知,而CNNs卻無法完全理解這一點。CNNs對于輸入的感知與坐標系無關,這可能與對抗樣本有關,也可能是因為與人類視覺不機制同。

          5.?從計算機圖形學中學習


          解決CV問題的一個方便方法是做逆圖像學。3D計算機圖形模型由目標(object對象)的層次結構組成。每個目標都有一個轉換矩陣,用于定義與其父目標相比的平移、旋轉和縮放。每個層次結構中頂層對象的變換矩陣定義了其相對于世界原點的坐標和方向。

          例如一輛汽車的3D模型,基本目標具有4×4的轉換矩陣,說明汽車的中心位于(X=10, Y=10, Z=0),旋轉度數(shù)為(X=0, Y=0, Z=90)。汽車本身又由許多物體組成,例如車輪、底盤、方向盤、發(fā)動機等。每個目標都有自己的轉換矩陣,這些轉換矩陣定義了相對于與父矩陣(汽車的中心)的位置和方向。假如左前輪位于(X=-1.5, Y=2, Z=-0.3),左前輪的世界坐標可以通過將其轉換矩陣乘以其父矩陣得到。其中一些目標可能具有自己的子集,車輪由輪胎、輪輞、輪轂、螺母等組成。這些子集中的每個子目標都有自己的轉換矩陣。

          使用這種坐標系層次結構,可以非常輕松地定位和可視化對象,而不管它們的姿勢和方向或視點如何。當要渲染對象時,將3D目標中的每個三角形乘以其轉換矩陣和父級的轉換矩陣。然后將其與視點對齊(另一個矩陣乘法),再在柵格化為像素之前轉換為屏幕坐標。

          當你讓從事計算機圖形學的研究者從另一個角度展示3D目標時,他不會說因為沒有從這個角度訓練所以無法展示。而是會很自然地展示另外視角下的3D目標。因為他們將空間結構建模為零件和整體之間的關系,而這些關系完全不依賴于視點。

          膠囊網(wǎng)絡(capsule networks)就是嘗試做逆計算機圖形。盡管膠囊網(wǎng)絡有自己的一系列文章,但其背后的基本思想:獲取圖像,提取其目標及部分,定義其坐標系并創(chuàng)建圖像的模塊化結構(modular structure)。膠囊網(wǎng)絡仍在研究中,自2017年推出以來,經(jīng)歷了多次更新迭代。如果能成功地使發(fā)揮作用,將使網(wǎng)絡模型更接近復制人類視覺。

          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 49
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  麻豆亚洲一级女 | 操逼视频一级片 | 麻豆A片| 操多水美女在线视频 | www.久久久久久 |