<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學習: 細粒度圖像分類 (fine-grained image recognition)

          共 5548字,需瀏覽 12分鐘

           ·

          2021-02-01 19:30





          向AI轉型的程序員都關注了這個號??????

          人工智能大數(shù)據與深度學習  公眾號:datayx



          細粒度圖像識別 (fine-grained image recognition),即 精細化分類。


          細粒度圖像分類(Fine-Grained Categorization),

          又被稱作子類別圖像分類(Sub-Category Recognition),
          是近年來計算機視覺、模式識別等領域一個
          非常熱門的研究課題. 其目的是對粗粒度的大類別
          進行更加細致的子類劃分, 但由于子類別間細微的
          類間差異和較大的類內差異, 較之普通的圖像分類
          任務, 細粒度圖像分類難度更大.



          目前, 絕大多數(shù)的分類算法都遵循這樣的流程框架:

          首先找到前景對象(鳥)及其局部區(qū)域(頭、腳、翅膀等), 之后分別對這些區(qū)

          域提取特征. 對所得到的特征進行適當?shù)奶幚碇? 用來完成分類器的訓練

          和預測.



          精細化分類


          識別出物體的大類別(比如:計算機、手機、水杯等)較易

          ,但如果進一步去判斷更為精細化的物體分類名稱,則難度極大。

          最大的挑戰(zhàn)在于,同一大類別下 不同 子類別 間的 視覺差異 極小。

          因此,精細化分類 所需的圖像分辨率 較高。



          目前,精細化分類的方法主要有以下兩類:

          1. 基于圖像重要區(qū)域定位的方法:

          該方法集中探討如何利用弱監(jiān)督的信息自動找到圖像中有判別力的區(qū)域,

          從而達到精細化分類的目的。

          2. 基于圖像精細化特征表達的方法:

          該方法提出使用高維度的圖像特征(如:bilinear vector)對圖像信息進行高階編碼,

          以達到準確分類的目的。


          按照其使用的監(jiān)督信息的多少 分為 強監(jiān)督 和 弱監(jiān)督

          信息的細粒度圖像分類模型


          A. 基于強監(jiān)督信息的細粒度圖像分類模型



          0. DeCAF Deep Convolutional Activation Feature



          1. 基于部件的CNN Part-based R-CNN

          https://arxiv.org/pdf/1407.3867.pdf


          2. 姿態(tài)歸一化CNN Pose Normalized CNN

          https://arxiv.org/pdf/1406.2952.pdf



          3. 基于部位分割模型的 Mask-CNN

          https://blog.csdn.net/cyiano/article/details/71440358



          B. 基于弱監(jiān)督信息的細粒度圖像分類模型



          1. 兩級注意力算法 Two Level Attention Model

          https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiao_The_Application_of_2015_CVPR_paper.pdf


           該模型主要關注兩個不同層次的特征, 分別是對象級(Object-Level)和

          局部級(Part-Level), 即在以往強監(jiān)督工作中所使用的標注框和局部區(qū)域位置

          這兩層信息.

            a. 在預處理階段, 主要是從原始圖像中檢測并提取前景對象, 以減少背景信息帶來的干擾.           僅僅使用卷積網絡來對ss算法產生的區(qū)域中的背景區(qū)域進行過濾. 這樣導致的結果是, 對于一張輸入圖像, 可能對應許多包含前景對象的候選區(qū)域.

                 b. 對象級模型,對對象級圖像進行分類。一個區(qū)域候選, 經過卷積網絡之后, 得到一個softmax 層的輸出. 對所有區(qū)域的輸出求平均, 作為該圖像最終的softmax層輸出.

                 c. 局部級模型, 為了從繁雜的候選區(qū)域中選出關鍵的局部區(qū)域           

          1. 首先利用對象級模型得到的網絡來對每一個候選區(qū)域提取特征.          

          2. 對這些特征進行譜聚類, 得到k個不同的聚類簇, 每個簇代表一個局部信息, 如頭部、腳等.        

          3. 將不同局部區(qū)域的特征級聯(lián)成一個特征向量,用來訓練SVM, 作為局部級模型給出的分類器.        


          d. 最后, 將對象級模型的預測結果與局部級模型的結果相結合, 作為模型的最終輸出.


          2. 星座(Constellations)算法

          https://arxiv.org/pdf/1504.08289v3.pd


          3. Bilinear CNN

          https://arxiv.org/pdf/1504.07889.pdf




          數(shù)據集

          CUB200-2011 Caltech-UCSD Birds-200-2011

               http://www.vision.caltech.edu/visipedia/CUB-200-2011.html

           共包含200 種不同類別, 其中每類都有30+ 個訓練圖像,共11,788張鳥類圖像數(shù)據. 每張圖像包含15個局部部位標注點(part annotation)用來標記鳥類的身體部位,312 個二值屬性, 1個標注框, 以及語義分割圖像 



          Stanford Dogs 120種不同種

          http://vision.stanford.edu/aditya86/ImageNetDogs/

          狗的圖像數(shù)據, 共有20,580 張圖, 只提供標注框 和 類別標注數(shù)據

          Oxford Flowers

          http://www.robots.ox.ac.uk/~vgg/data/flowers/

              分為兩種不同規(guī)模的數(shù)據 庫, 分別包含17種類別和102種類別的花. 其中,
          102種類別的數(shù)據庫比較常用, 每個類別包含了40到258 張圖像數(shù)據, 總共有8,189張圖像.
          該數(shù)據庫只提供語義分割圖像, 不包含其他額外標注信息.


          Cars

          http://ai.stanford.edu/~jkrause/cars/car_dataset.html


          提供196類不同品牌不同年份不同車型的車輛圖像數(shù)據, 一共包含有16,185張圖像,

          分成訓練集(8,144張)和測試集(8,041張)
          只提供標注框信息。

          FGVC-Aircraf Fine-Grained Visual Classification of Aircraft

          http://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/

              提供102 類不同的飛機照片,每一類別含有100 張不同的照片, 整個數(shù)據庫共
          有10,200張圖片, 只提供標注框信息.


          算法框架

          1. CNN  特征提取網絡(科目卷積層 、 屬目卷積層、種目卷積層)    提取不同層面的特征
          2. APN 注意力建議網絡   得到不同的關注區(qū)域
          3. DCNN 卷積細粒度特征描述網絡
          4. 全連接層之后得到粗細粒度互補的層次化特征表達,再通過 分類網絡softmax 輸出結果

          注意力模型(Attention Model) 注意力機制

          被廣泛使用在自然語言處理、圖像識別及語音識別等各種不同類型的深度學習任務中,
          是深度學習技術中最值得關注與深入了解的核心技術之一。 
          視覺注意力機制是人類視覺所特有的大腦信號處理機制。
          人類視覺通過快速掃描全局圖像,獲得需要重點關注的目標區(qū)域,也就是一般所說的注意力焦點,
          而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關注目標的細節(jié)信息,而抑制其他無用信息。
          這是人類利用有限的注意力資源從大量信息中快速篩選出高價值信息的手段,
          是人類在長期進化中形成的一種生存機制,人類視覺注意力機制極大地提高了視覺信息處理的效率與準確性。

          把Attention仍然理解為從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上,
          忽略大多不重要的信息,這種思路仍然成立。
          聚焦的過程體現(xiàn)在權重系數(shù)的計算上,權重越大越聚焦于其對應的Value值上,
          即權重代表了信息的重要性,而Value是其對應的信息。

          圖片描述(Image-Caption)

          是一種典型的圖文結合的深度學習應用,輸入一張圖片,人工智能系統(tǒng)輸出一句描述句子,

          語義等價地描述圖片所示內容。

          可以使用Encoder-Decoder框架來解決任務目標。
          1. 此時編碼部分Encoder輸入部分是一張圖片,一般會用CNN來對圖片進行特征抽取;
          2. 解碼Decoder部分使用RNN或者LSTM和注意力機制來輸出自然語言句子。

          RA-CNN

          MSRA通過觀察發(fā)現(xiàn),對于精細化物體分類問題,其實形態(tài)、輪廓特征顯得不那么重要,

          而細節(jié)紋理特征則起到了主導作用。

          因此提出了 “將判別力區(qū)域的定位和精細化特征的學習聯(lián)合進行優(yōu)化” 的構想,

          從而讓兩者在學習的過程中相互強化,

          也由此誕生了 “Recurrent Attention Convolutional Neural Network”

          (RA-CNN,基于遞歸注意力模型的卷積神經網絡)網絡結構。

             RA-CNN 網絡可以更精準地找到圖像中有判別力的子區(qū)域,

          然后采用高分辨率、精細化特征描述這些區(qū)域,進而大大提高精細化物體

          分類的精度: 論文地址


          http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Look_Closer_to_CVPR_2017_paper.pdf

          RA-CNN思想

          1. 首先原圖大尺度圖像通過 CNN 卷積網絡 提取特征,

          一部分進過APN(Attention Proposal Net 注意力建議網絡)得到注意力中心框(

          感興趣區(qū)域,例如上半身區(qū)域),

          另一部分通過全連接層再經過softmax歸一化分類概率輸出;
          2. 對第一步得到的注意力中心框(感興趣區(qū)域,例如上半身區(qū)域),再進行1的步驟,
          得到更小的注意力中心框,和分類概率;

          3. 對第二步得到的注意力中心框(感興趣區(qū)域,例如頭部區(qū)域),通過卷積網絡提取特征,

          通過全連接層再經過softmax歸一化分類概率輸出;




          閱讀過本文的人還看了以下文章:


          TensorFlow 2.0深度學習案例實戰(zhàn)


          基于40萬表格數(shù)據集TableBank,用MaskRCNN做表格檢測


          《基于深度學習的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團隊


          【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!


          《美團機器學習實踐》_美團算法團隊.pdf


          《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學習視頻,從入門到實戰(zhàn)項目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼


          《深度學習之pytorch》pdf+附書源碼


          PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據分析與挖掘實戰(zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)


          李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!


          《神經網絡與深度學習》最新2018版中英PDF+源碼


          將機器學習模型部署為REST API


          FashionAI服裝屬性標簽圖像識別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別


          yolo3 檢測出圖像中的不規(guī)則漢字


          同樣是機器學習算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據算法:風險概率預測


          【Keras】完整實現(xiàn)‘交通標志’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類


          VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目


          特征工程(一)


          特征工程(二) :文本數(shù)據的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學習


          如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識別手寫中文網站


          中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程



          不斷更新資源

          深度學習、機器學習、數(shù)據分析、python

           搜索公眾號添加: datayx  



          機大數(shù)據技術與機器學習工程

           搜索公眾號添加: datanlp

          長按圖片,識別二維碼



          瀏覽 129
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久性视频 | 盛世大厦和刚下班的银行打电话成人 | 欧美黄片在线免费观看 | 亚洲天堂网站 | 啪网址|