<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于深度卷積神經(jīng)網(wǎng)絡(luò)的小樣本分割算法綜述

          共 5739字,需瀏覽 12分鐘

           ·

          2021-06-08 23:58

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          本文轉(zhuǎn)自:視學(xué)算法
          介紹

          深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測、語義分割等許多視覺理解任務(wù)上都取得了重大突破。一個(gè)關(guān)鍵的原因是大規(guī)模數(shù)據(jù)集的可用性,比如 ImageNet,這些數(shù)據(jù)集支持對深度模型的培訓(xùn)。然而,數(shù)據(jù)標(biāo)記是昂貴的,特別是對于密集的預(yù)測任務(wù),如語義分割和實(shí)例分割。

          此外,在對模型進(jìn)行訓(xùn)練之后,很難將模型應(yīng)用于新類的預(yù)測。與機(jī)器學(xué)習(xí)算法不同的是,人類只看到幾個(gè)例子就能很容易地從圖像中分割出一個(gè)新概念。

          人類和機(jī)器學(xué)習(xí)算法之間的差距激發(fā)了對小樣本學(xué)習(xí)的研究,其目的是學(xué)習(xí)一個(gè)模型,可以很好地推廣到具有稀缺標(biāo)記的訓(xùn)練數(shù)據(jù)的新類別。

          小樣本分割的終極目的是利用支持集中的 K 個(gè)訓(xùn)練圖像對來“學(xué)習(xí)”一個(gè)模型,使得該模型能對訓(xùn)練圖像中出現(xiàn)的類別的新樣本實(shí)現(xiàn)分割。

          相關(guān)工作

          2.1 元學(xué)習(xí)

          元學(xué)習(xí)解決的是學(xué)習(xí)如何學(xué)習(xí)的問題。元學(xué)習(xí)的思想是學(xué)習(xí)「學(xué)習(xí)(訓(xùn)練)」過程。主要有基于記憶 Memory 的方法、基于預(yù)測梯度的方法、利用 Attention 注意力機(jī)制的方法、借鑒 LSTM 的方法、面向 RL 的 Meta Learning 方法、利用 WaveNet 的方法、預(yù)測 Loss 的方法等等等。

          2.2 小樣本學(xué)習(xí)

          小樣本學(xué)習(xí)是元學(xué)習(xí)在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用,F(xiàn)ew-shot Learning

          模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。

          其中 Model Based 方法旨在通過模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù),直接建立輸入 x 和預(yù)測值 P 的映射函數(shù);Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離,借助最近鄰的思想完成分類。

          Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場景下擬合,因此通過調(diào)整優(yōu)化方法來完成小樣本分類的任務(wù)。


          2.3 語義分割

          語義分割就是按照“語義”給圖像上目標(biāo)類別中的每一點(diǎn)打一個(gè)標(biāo)簽,使得不同種類的東西在圖像上被區(qū)分開來。可以理解成像素級別的分類任務(wù)。

          輸入:(H*W*3)正常的圖片;輸出:(H*W*class)可以看為圖片上每個(gè)點(diǎn)的 one-hot 表示,每一個(gè) channel 對應(yīng)一個(gè) class,對每一個(gè) pixel 位置,都有 class 數(shù)目個(gè) channel,每個(gè) channel 的值對應(yīng)那個(gè)像素屬于該 class 的預(yù)測概率。

          FCN 是語義分割的開山之作,主要特色有兩點(diǎn):全連接層換成卷積層,不同尺度的信息融合 FCN-8S,16s,32s。

          U-net 用于解決小樣本的簡單問題分割,比如醫(yī)療影片的分割。它遵循的基本原理與 FCN 一樣:

          1. Encoder-Decoder 結(jié)構(gòu):前半部分為多層卷積池化,不斷擴(kuò)大感受野,用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

          2. 更豐富的信息融合:如灰色剪頭,更多的前后層之間的信息融合。這里是把前面層的輸出和后面層 concat (串聯(lián))到一起,區(qū)別于 FCN 的逐元素加和。

          不同 Feature map 串聯(lián)到一起后,后面接卷積層,可以讓卷積核在 channel 上自己做出選擇。注意的是,在串聯(lián)之前,需要把前層的 feature map crop 到和后層一樣的大小。

          SegNet 和 U-net 在結(jié)構(gòu)上其實(shí)大同小異,都是編碼-解碼結(jié)果。區(qū)別在于,SegNet 沒有直接融合不同尺度的層的信息,為了解決為止信息丟失的問題,SegNet 使用了帶有坐標(biāo)(index)的池化。

          在 Max pooling 時(shí),選擇最大像素的同時(shí),記錄下該像素在 Feature map 的位置(左圖)。在反池化的時(shí)候,根據(jù)記錄的坐標(biāo),把最大值復(fù)原到原來對應(yīng)的位置,其他的位置補(bǔ)零(右圖)。后面的卷積可以把 0 的元素給填上。這樣一來,就解決了由于多次池化造成的位置信息的丟失。

          Deeplab V1 不同于之前的思路,他的特色有兩點(diǎn):

          1.由于 Pooling-Upsample 會丟失位置信息而且多層上下采樣開銷較大,把控制感受野大小的方法化成:帶孔卷積(Atrous conv)。

          2. 加入 CRF(條件隨機(jī)場),利用像素之間的關(guān)連信息:相鄰的像素,或者顏色相近的像素有更大的可能屬于同一個(gè) class。

          PSPnet:前面的不同 level 的信息融合都是融合淺層和后層的 Feature Map,因?yàn)楹髮拥母惺芤按螅Z義特征強(qiáng),淺層的感受野小,局部特征明顯且位置信息豐富。

          PSPnet 則使用了空間金字塔池化,得到一組感受野大小不同的 feature map,將這些感受野不同的 map concat 到一起,完成多層次的語義特征融合。

          Deeplab V2 在 v1 的基礎(chǔ)上做出了改進(jìn),引入了 ASPP(Atrous Spatial Pyramid Pooling)的結(jié)構(gòu),如上圖所示。我們注意到,Deeplab v1使用帶孔卷積擴(kuò)大感受野之后,沒有融合不同層之間的信息。

          ASPP 層就是為了融合不同級別的語義信息:選擇不同擴(kuò)張率的帶孔卷積去處理 Feature Map,由于感受野不同,得到的信息的 Level 也就不同,ASPP 層把這些不同層級的 feature map concat 到一起,進(jìn)行信息融合。

          Deeplab v3 在原有基礎(chǔ)上的改動是:1. 改進(jìn)了 ASPP 模塊。2.引入 Resnet Block。3. 丟棄 CRF。

          新的 ASPP 模塊:1. 加入了 Batch Norm。2. 加入特征的全局平均池化(在擴(kuò)張率很大的情況下,有效權(quán)重會變小)。全局平均池化的加入是對全局特征的強(qiáng)調(diào)、加強(qiáng)。

          在舊的 ASPP 模塊中:我們以為在擴(kuò)張率足夠大的時(shí)候,感受野足夠大,所以獲得的特征傾向于全局特征。但實(shí)際上,擴(kuò)張率過大的情況下,Atrous conv 出現(xiàn)了“權(quán)值退化”的問題,感受野過大,都已近擴(kuò)展到了圖像外面,大多數(shù)的權(quán)重都和圖像外圍的 zero padding 進(jìn)行了點(diǎn)乘,這樣并沒有獲取圖像中的信息。有效的權(quán)值個(gè)數(shù)很少,往往就是 1。于是我們加了全局平均池化,強(qiáng)行利用全局信息。

          Deeplab v3+可以看成是把 Deeplab v3 作為編碼器(上半部分)。后面再進(jìn)行解碼,并且在解碼的過程中在此運(yùn)用了不同層級特征的融合。此外,在 encoder 部分加入了 Xception 的結(jié)構(gòu)減少了參數(shù)量,提高運(yùn)行速遞。
          方法總結(jié)分類

          3.1 OSLSM

          motivition 就是學(xué)習(xí)一個(gè) one-shot 的分割模型,首次提出雙分支的網(wǎng)絡(luò)用于 few-shot segmentation,條件分支用 VGG 提取特征,生成權(quán)重(w,b),分割分支用 FCN-32s 結(jié)構(gòu)對 query image 進(jìn)行特征提取,將其與條件分支所得參數(shù)進(jìn)行點(diǎn)乘再通過 σ 函數(shù)得到分割結(jié)果。

          得到一個(gè)分割圖,上采樣到圖像大小,利用某個(gè)閾值產(chǎn)生分割的二值圖。

          輸出的時(shí)候,為了是參數(shù)量與分割分支的特征圖的通道數(shù)相對應(yīng),采用 weight hashing 的策略,將輸出的 1000 維向量映射為 4097 維(w:4096, b:1),這種映射機(jī)制是建模成固定權(quán)重參數(shù)的全連接層來實(shí)現(xiàn)的。


          3.2 co-FCN

          文章的主要比較驚奇的一點(diǎn)是僅對原始圖像做一些稀疏的標(biāo)注(目標(biāo)位置上點(diǎn)幾個(gè)關(guān)鍵點(diǎn),背景位置上點(diǎn)幾個(gè)關(guān)鍵點(diǎn))就卻能夠?qū)崿F(xiàn)對目標(biāo)的像素級的分割。

          網(wǎng)絡(luò)結(jié)構(gòu)和 BMVC 那篇 paper 設(shè)置類似,也是采用雙分支結(jié)構(gòu),將標(biāo)注信息與原始圖像 concate 后輸入 conditioning branch 得到輸入圖像的 embedding。

          利用 segmentation branch 對 qurey image 進(jìn)行特征提取,并將結(jié)果與 conditioning branch 得到的 embedding 進(jìn)行 concate,再進(jìn)行像素級分割。


          3.3 AMP-2

          motivation:如何得到一個(gè)更好的原型。

          方法:在 task 流中,不斷地更新每個(gè)類別地原型。


          3.4 SG-One

          訓(xùn)練任務(wù)的流程:


          網(wǎng)絡(luò)包含一個(gè)主干網(wǎng)絡(luò) Stem(代表的是 VGG-16 的前 3 個(gè) Block)和兩個(gè)分支:

          Guidance Branch 和 Segmentation Branch,需要注意的是兩個(gè)分支共用了三個(gè)卷積塊 ,個(gè)人的理解是,如果兩個(gè)分支完全獨(dú)立,那么 Guidance Branch 產(chǎn)生的指導(dǎo)就會一成不變;

          這就失去了意義,作者在論文最后的消融實(shí)驗(yàn)中做了相關(guān)的分析與實(shí)驗(yàn);

          與 Segmentation Branch 產(chǎn)生交互后就可以在優(yōu)化分割損失的同時(shí)對引導(dǎo)的特征圖進(jìn)行優(yōu)化,使之匹配相應(yīng)的真實(shí) mask。網(wǎng)絡(luò)在訓(xùn)練的時(shí)候加載了在 ILSVRC 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重。

          測試任務(wù)的流程:


          主要的創(chuàng)新點(diǎn):

          a. 提出使用 masked average pooling 來提取 support set 的中目標(biāo)的表征向量;

          b. 采用余弦相似度來度量 query set 的表征向量與 support set 的表征向量之間距離,用于指導(dǎo) query set 的分割;

          為什么 masked average pooling 會有用?

          解釋如下:全卷積網(wǎng)絡(luò)(FCN)能夠保留輸入圖像的中每個(gè)像素相對位置;所以通過將二值 mask 與提取到的特征圖相乘就可以完全保留目標(biāo)的特征信息,排除掉背景等無關(guān)類別的特征。

          3.5 PANet

          創(chuàng)新點(diǎn):

          利用了 prototypes 上的度量學(xué)習(xí),無參數(shù)。

          提出 prototypes 對齊正則化,充分利用 support 的知識。

          對于帶有弱注釋的少樣本直接使用。


          用同一個(gè) backbone 來提取 support 和 query 的深度特征,然后使用 masked average pooling 從 support 的特征將不同的前景物體和背景嵌入不同的 prototypes 中,每個(gè) prototype 表示對應(yīng)的類別,這樣 query 圖像的每個(gè)的像素通過參考離它的嵌入表達(dá)最近的特定類的 prototype 來標(biāo)記,得到 query 的預(yù)測 mask 后。

          訓(xùn)練的時(shí)候,得到mask后,再將剛才提取的 query feature 和 mask 作為新的“support set”,將之前的 support set 作為新的“query set”,再用“support set”對“query set”做一波預(yù)測,然后再算一個(gè) loss

          prototype 緊湊且魯棒的對每個(gè)語義類別進(jìn)行表達(dá);mask 標(biāo)記那塊就是無參度量學(xué)習(xí),通過和嵌入空間的逐像素匹配來執(zhí)行分割


          執(zhí)行一個(gè) prototype 對齊正則化,用 query 和他的 mask 建立新的 support,然后用這個(gè)來預(yù)測原始的 support set 的分割,實(shí)驗(yàn)證明能鼓勵 query 的 prototype 對齊他們的 support 的 prototype,只有訓(xùn)練的時(shí)候這么做(反向再推一次,看看是否真的相似)

          3.6 CANet

          主要貢獻(xiàn):

          開發(fā)了一種新穎的雙分支密集比較模塊,該模塊有效地利用來自CNN的多級特征表示來進(jìn)行密集的特征比較。

          提出迭代優(yōu)化模塊,以迭代方式改進(jìn)預(yù)測結(jié)果。迭代細(xì)化的能力可以推廣到具有少量鏡頭學(xué)習(xí)的看不見的類,以生成細(xì)粒度圖。

          采用注意機(jī)制有效地融合來自 k-shot 設(shè)置中的多個(gè)支持示例的信息,其優(yōu)于單次結(jié)果的不可學(xué)習(xí)的融合方法。

          證明給定的支持集具有弱注釋,即邊界框,我們的模型仍然可以獲得與昂貴的像素級注釋支持集的結(jié)果相當(dāng)?shù)男阅埽@進(jìn)一步減少了新類別對于少數(shù)鏡頭分割的標(biāo)記工作量。


          3.7 PGNet

          在 CANet 基礎(chǔ)上加了一個(gè)圖注意力機(jī)制


          3.8 FWB


          兩個(gè)主要創(chuàng)新點(diǎn):


          Feature Weighting

          支持集前后景差異標(biāo)準(zhǔn)化向量:


          最大化特征差異:


          最終得到的關(guān)聯(lián)向量:


          標(biāo)準(zhǔn)化處理后的余弦相似性:




          Feature Boosting 





          數(shù)據(jù)集介紹

          PASCAL-5i


          MS COCO-20i


          FSS-100

          評測指標(biāo)介紹

          Mean-IoU:


          IoU 就是每一個(gè)類別的交集與并集之比,而 mIoU 則是所有類別的平均 IoU。




          FB-IoU:
          前景和背景一起的準(zhǔn)確率



          結(jié)果陳列





          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 42
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人免费视频 网站 | 国产黄片乱伦 | 亚洲无码家庭乱伦 | 欧美成人无码一区二区三区 | chengrenavyingyin |