<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超全!深度學習在計算機視覺領域的應用一覽

          共 4072字,需瀏覽 9分鐘

           ·

          2021-08-01 12:23

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          本文轉(zhuǎn)自|新機器視覺

          計算機視覺領域正在從統(tǒng)計方法轉(zhuǎn)向深度學習神經(jīng)網(wǎng)絡方法。


          計算機視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而,深度學習方法正在針對某些特定問題取得最新成果。


          在最基本的問題上,最有趣的不僅僅是深度學習模型的表現(xiàn);事實上,單個模型可以從圖像中學習意義并執(zhí)行視覺任務,從而無需使用專門的手工制作方法。


          在這篇文章中,您將發(fā)現(xiàn)九個有趣的計算機視覺任務,其中深度學習方法取得了一些進展。


          讓我們開始吧。


          概觀


          在這篇文章中,我們將研究以下使用深度學習的計算機視覺問題:


          圖像分類

          具有本地化的圖像分類

          物體檢測

          對象分割

          圖像樣式轉(zhuǎn)移

          圖像著色

          影像重建

          圖像超分辨率

          圖像合成

          其他問題


          注意,當涉及圖像分類(識別)任務時,已采用ILSVRC的命名約定。雖然任務集中在圖像上,但它們可以推廣到視頻幀。


          我試圖關注您可能感興趣的最終用戶問題的類型,而不是深度學習能夠做得更好的學術問題。


          每個示例都提供了問題的描述,示例以及對演示方法和結(jié)果的論文的引用。


          圖像分類


          圖像分類涉及為整個圖像或照片分配標簽。


          該問題也被稱為“對象分類”,并且可能更一般地稱為“圖像識別”,盡管后一任務可以應用于與分類圖像內(nèi)容相關的更廣泛的任務集。


          圖像分類的一些示例包括:


          1、將X射線標記為癌癥與否(二元分類)。

          2、對手寫數(shù)字進行分類(多類分類)。

          3、為臉部照片指定名稱(多類別分類)。


          用作基準問題的圖像分類的流行示例是MNIST數(shù)據(jù)集。

          分類數(shù)字照片的流行真實版本是街景房號(SVHN)數(shù)據(jù)集。


          有許多圖像分類任務涉及對象的照片。兩個流行的例子包括CIFAR-10和CIFAR-100數(shù)據(jù)集,這些數(shù)據(jù)集的照片分別分為10類和100類。


          大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)是一項年度競賽,其中團隊在從ImageNet數(shù)據(jù)庫中提取的數(shù)據(jù)上競爭一系列計算機視覺任務的最佳性能。圖像分類方面的許多重要進步來自于發(fā)布在該挑戰(zhàn)或來自該挑戰(zhàn)的任務的論文,最值得注意的是關于圖像分類任務的早期論文。例如:


          使用深度卷積神經(jīng)網(wǎng)絡的ImageNet分類,2012。


          用于大規(guī)模圖像識別的非常深的卷積網(wǎng)絡,2014。


          圍繞卷積更深入,2015年。


          圖像識別的深度殘留學習,2015年。


          具有本地化的圖像分類


          具有本地化的圖像分類涉及為圖像分配類標簽并通過邊界框(在對象周圍繪制框)來顯示圖像中對象的位置。


          這是一個更具挑戰(zhàn)性的圖像分類版本。


          本地化圖像分類的一些示例包括:


          1.將X射線標記為癌癥或在癌癥區(qū)域周圍畫一個盒子。

          2.在每個場景中對動物的照片進行分類并在動物周圍畫一個盒子。


          用于具有定位的圖像分類的經(jīng)典數(shù)據(jù)集是PASCAL視覺對象類數(shù)據(jù)集,或簡稱為PASCAL VOC(例如VOC 2012)。這些是多年來在計算機視覺挑戰(zhàn)中使用的數(shù)據(jù)集。

          該任務可以涉及在圖像中的同一對象的多個示例周圍添加邊界框。因此,該任務有時可稱為“對象檢測”。

          用于本地化圖像分類的ILSVRC2016數(shù)據(jù)集是一個流行的數(shù)據(jù)集,包含150,000張照片和1000種對象。


          關于本地化圖像分類的論文的一些例子包括:


          選擇性搜索對象識別,2013年。


          用于精確對象檢測和語義分割的豐富特征層次結(jié)構(gòu),2014年。


          快速R-CNN,2015年。


          物體檢測


          物體檢測是具有定位的圖像分類的任務,盡管圖像可能包含需要定位和分類的多個對象。


          與簡單的圖像分類或具有定位的圖像分類相比,這是一項更具挑戰(zhàn)性的任務,因為在不同類型的圖像中通常存在多個對象。


          通常,使用并展示用于具有定位的圖像分類的技術用于對象檢測。


          對象檢測的一些示例包括:


          繪制邊界框并標記街道場景中的每個對象。


          繪制邊界框并在室內(nèi)照片中標記每個對象。


          繪制邊界框并在橫向中標記每個對象。


          PASCAL Visual Object Classes數(shù)據(jù)集或簡稱PASCAL VOC(例如VOC 2012)是用于對象檢測的常見數(shù)據(jù)集。


          用于多個計算機視覺任務的另一個數(shù)據(jù)集是Microsoft的上下文數(shù)據(jù)集中的公共對象,通常稱為MS COCO。

          關于物體檢測的論文的一些例子包括:


          OverFeat:使用卷積網(wǎng)絡的集成識別,本地化和檢測,2014年。


          更快的R-CNN:利用區(qū)域提案網(wǎng)絡實現(xiàn)實時目標檢測,2015年。


          您只看一次:統(tǒng)一,實時對象檢測,2015年。


          對象分割


          對象分割或語義分割是對象檢測的任務,其中在圖像中檢測到的每個對象周圍繪制線。圖像分割是將圖像分成段的更普遍的問題。


          對象檢測有時也稱為對象分割。


          與涉及使用邊界框來識別對象的對象檢測不同,對象分割識別圖像中屬于對象的特定像素。這就像一個細粒度的本地化。


          更一般地,“圖像分割”可以指將圖像中的所有像素分割成不同類別的對象。


          同樣,VOC 2012和MS COCO數(shù)據(jù)集可用于對象分割。


          KITTI Vision Benchmark Suite是另一種流行的對象分割數(shù)據(jù)集,提供用于自動駕駛車輛訓練模型的街道圖像。


          關于對象分割的一些示例論文包括:


          同步檢測和分割,2014年。


          用于語義分割的完全卷積網(wǎng)絡,2015。


          用于對象分割和細粒度本地化的超級列,2015。


          SegNet:用于圖像分割的深度卷積編碼器 - 解碼器架構(gòu),2016。


          Mask R-CNN,2017年。


          風格轉(zhuǎn)移


          風格轉(zhuǎn)移或神經(jīng)風格轉(zhuǎn)移是從一個或多個圖像學習風格并將該風格應用于新圖像的任務。


          該任務可以被認為是一種可能沒有客觀評價的照片濾波器或變換。


          例子包括將特定著名藝術品(例如Pablo Picasso或Vincent van Gogh)的風格應用于新照片。

          數(shù)據(jù)集通常涉及使用公共領域的著名藝術作品和標準計算機視覺數(shù)據(jù)集中的照片。


          一些論文包括:


          藝術風格的神經(jīng)算法,2015。


          使用卷積神經(jīng)網(wǎng)絡的圖像樣式轉(zhuǎn)移,2016。


          圖像著色


          圖像著色或神經(jīng)著色涉及將灰度圖像轉(zhuǎn)換為全色圖像。


          該任務可以被認為是一種可能沒有客觀評價的照片濾波器或變換。


          例子包括著色舊的黑白照片和電影。


          數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建模型必須學習著色的照片的灰度版本。

          一些論文包括:


          彩色圖像著色,2016年。


          讓我們有顏色:全球和本地圖像的聯(lián)合端到端學習,用于同步分類的自動圖像著色,2016。


          深色著色,2016。


          影像重建


          圖像重建和圖像修復是填充圖像的缺失或損壞部分的任務。


          該任務可以被認為是一種可能沒有客觀評價的照片濾波器或變換。


          示例包括重建舊的,損壞的黑白照片和電影(例如照片恢復)。


          數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建模型必須學會修復的損壞版本的照片。

          一些論文包括:


          像素回歸神經(jīng)網(wǎng)絡,2016年。


          使用部分卷積的圖像修復不規(guī)則孔,2018年。


          使用具有帶通濾波的深度神經(jīng)網(wǎng)絡進行高度可擴展的圖像重建,2018年。


          圖像超分辨率


          圖像超分辨率是生成具有比原始圖像更高分辨率和細節(jié)的圖像的新版本的任務。


          通常為圖像超分辨率開發(fā)的模型可用于圖像恢復和修復,因為它們解決了相關問題。


          數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建縮小版照片,模型必須學會創(chuàng)建超分辨率版本。

          一些論文包括:


          使用生成對抗網(wǎng)絡的照片真實單圖像超分辨率,2017。


          深拉普拉斯金字塔網(wǎng)絡,快速準確的超分辨率,2017。


          Deep Image Prior,2017。


          圖像合成


          圖像合成是生成現(xiàn)有圖像或全新圖像的目標修改的任務。


          這是一個非常廣泛的領域,正在迅速發(fā)展。


          它可能包括圖像和視頻的小修改(例如圖像到圖像的翻譯),例如:


          更改場景中對象的樣式。


          將對象添加到場景中。


          將面添加到場景中。

          它還可能包括生成全新的圖像,例如:


          1、生成面孔。


          2、生成浴室。


          3、生成衣服。

          一些論文包括:


          用深度卷積生成對抗網(wǎng)絡學習無監(jiān)督表示,2015。


          使用PixelCNN解碼器生成條件圖像,2016。


          使用周期一致的對抗網(wǎng)絡進行不成對的圖像到圖像轉(zhuǎn)換,2017。


          其他問題


          還有其他重要且有趣的問題我沒有涉及,因為它們不是純粹的計算機視覺任務。


          值得注意的例子是圖像到文本和文本到圖像:


          1、圖像字幕:生成圖像的文本描述。


          Show and Tell:神經(jīng)圖像標題生成器,2014。


          2、圖像描述:生成圖像中每個對象的文本描述。


          用于生成圖像描述的深層視覺語義對齊,2015。


          3、文本到圖像:基于文本描述合成圖像。


          AttnGAN:使用注意生成對抗網(wǎng)絡生成細粒度文本到圖像,2017。


          據(jù)推測,人們學會在其他模態(tài)和圖像之間進行映射,例如音頻。



          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 26
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲系列日韩 | 五月丁香操逼网 | 亚洲无码视频一区 | 成人在线无码视频 | 欧洲一区在线观看 |