国产在线A片,AV大奶网,99精品在线观看视频,日韩黄片,亚洲九九精品成人视频,英国高跟熟妇XXX‘,美女在线扣穴,18日本XXXXXXXXX96-百度

點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

本文轉(zhuǎn)自：視學(xué)算法

介紹

深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測、語義分割等許多視覺理解任務(wù)上都取得了重大突破。一個(gè)關(guān)鍵的原因是大規(guī)模數(shù)據(jù)集的可用性，比如 ImageNet，這些數(shù)據(jù)集支持對深度模型的培訓(xùn)。然而，數(shù)據(jù)標(biāo)記是昂貴的，特別是對于密集的預(yù)測任務(wù)，如語義分割和實(shí)例分割。

此外，在對模型進(jìn)行訓(xùn)練之后，很難將模型應(yīng)用于新類的預(yù)測。與機(jī)器學(xué)習(xí)算法不同的是，人類只看到幾個(gè)例子就能很容易地從圖像中分割出一個(gè)新概念。

人類和機(jī)器學(xué)習(xí)算法之間的差距激發(fā)了對小樣本學(xué)習(xí)的研究，其目的是學(xué)習(xí)一個(gè)模型，可以很好地推廣到具有稀缺標(biāo)記的訓(xùn)練數(shù)據(jù)的新類別。

小樣本分割的終極目的是利用支持集中的 K 個(gè)訓(xùn)練圖像對來“學(xué)習(xí)”一個(gè)模型，使得該模型能對訓(xùn)練圖像中出現(xiàn)的類別的新樣本實(shí)現(xiàn)分割。

相關(guān)工作

2.1 元學(xué)習(xí)

元學(xué)習(xí)解決的是學(xué)習(xí)如何學(xué)習(xí)的問題。元學(xué)習(xí)的思想是學(xué)習(xí)「學(xué)習(xí)（訓(xùn)練）」過程。主要有基于記憶 Memory 的方法、基于預(yù)測梯度的方法、利用 Attention 注意力機(jī)制的方法、借鑒 LSTM 的方法、面向 RL 的 Meta Learning 方法、利用 WaveNet 的方法、預(yù)測 Loss 的方法等等等。

2.2 小樣本學(xué)習(xí)

小樣本學(xué)習(xí)是元學(xué)習(xí)在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用，F(xiàn)ew-shot Learning

模型大致可分為三類：Mode Based，Metric Based 和 Optimization Based。

其中 Model Based 方法旨在通過模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù)，直接建立輸入 x 和預(yù)測值 P 的映射函數(shù)；Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離，借助最近鄰的思想完成分類。

Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場景下擬合，因此通過調(diào)整優(yōu)化方法來完成小樣本分類的任務(wù)。

2.3 語義分割

語義分割就是按照“語義”給圖像上目標(biāo)類別中的每一點(diǎn)打一個(gè)標(biāo)簽，使得不同種類的東西在圖像上被區(qū)分開來。可以理解成像素級別的分類任務(wù)。

輸入:（H*W*3）正常的圖片；輸出:（H*W*class）可以看為圖片上每個(gè)點(diǎn)的 one-hot 表示，每一個(gè) channel 對應(yīng)一個(gè) class，對每一個(gè) pixel 位置，都有 class 數(shù)目個(gè) channel，每個(gè) channel 的值對應(yīng)那個(gè)像素屬于該 class 的預(yù)測概率。

FCN 是語義分割的開山之作，主要特色有兩點(diǎn)：全連接層換成卷積層，不同尺度的信息融合 FCN-8S,16s,32s。

U-net 用于解決小樣本的簡單問題分割，比如醫(yī)療影片的分割。它遵循的基本原理與 FCN 一樣：

1. Encoder-Decoder 結(jié)構(gòu)：前半部分為多層卷積池化，不斷擴(kuò)大感受野，用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

2. 更豐富的信息融合：如灰色剪頭，更多的前后層之間的信息融合。這里是把前面層的輸出和后面層 concat （串聯(lián)）到一起，區(qū)別于 FCN 的逐元素加和。

不同 Feature map 串聯(lián)到一起后，后面接卷積層，可以讓卷積核在 channel 上自己做出選擇。注意的是，在串聯(lián)之前，需要把前層的 feature map crop 到和后層一樣的大小。

SegNet 和 U-net 在結(jié)構(gòu)上其實(shí)大同小異，都是編碼-解碼結(jié)果。區(qū)別在于，SegNet 沒有直接融合不同尺度的層的信息，為了解決為止信息丟失的問題，SegNet 使用了帶有坐標(biāo)（index）的池化。

在 Max pooling 時(shí)，選擇最大像素的同時(shí)，記錄下該像素在 Feature map 的位置（左圖）。在反池化的時(shí)候，根據(jù)記錄的坐標(biāo)，把最大值復(fù)原到原來對應(yīng)的位置，其他的位置補(bǔ)零（右圖）。后面的卷積可以把 0 的元素給填上。這樣一來，就解決了由于多次池化造成的位置信息的丟失。

Deeplab V1 不同于之前的思路，他的特色有兩點(diǎn)：

1.由于 Pooling-Upsample 會丟失位置信息而且多層上下采樣開銷較大，把控制感受野大小的方法化成：帶孔卷積（Atrous conv）。

2. 加入 CRF（條件隨機(jī)場），利用像素之間的關(guān)連信息：相鄰的像素，或者顏色相近的像素有更大的可能屬于同一個(gè) class。

PSPnet：前面的不同 level 的信息融合都是融合淺層和后層的 Feature Map，因?yàn)楹髮拥母惺芤按螅Z義特征強(qiáng)，淺層的感受野小，局部特征明顯且位置信息豐富。

PSPnet 則使用了空間金字塔池化，得到一組感受野大小不同的 feature map，將這些感受野不同的 map concat 到一起，完成多層次的語義特征融合。

Deeplab V2 在 v1 的基礎(chǔ)上做出了改進(jìn)，引入了 ASPP（Atrous Spatial Pyramid Pooling）的結(jié)構(gòu)，如上圖所示。我們注意到，Deeplab v1使用帶孔卷積擴(kuò)大感受野之后，沒有融合不同層之間的信息。

ASPP 層就是為了融合不同級別的語義信息：選擇不同擴(kuò)張率的帶孔卷積去處理 Feature Map，由于感受野不同，得到的信息的 Level 也就不同，ASPP 層把這些不同層級的 feature map concat 到一起，進(jìn)行信息融合。

Deeplab v3 在原有基礎(chǔ)上的改動是：1. 改進(jìn)了 ASPP 模塊。2.引入 Resnet Block。3. 丟棄 CRF。

新的 ASPP 模塊：1. 加入了 Batch Norm。2. 加入特征的全局平均池化（在擴(kuò)張率很大的情況下，有效權(quán)重會變小）。全局平均池化的加入是對全局特征的強(qiáng)調(diào)、加強(qiáng)。

在舊的 ASPP 模塊中：我們以為在擴(kuò)張率足夠大的時(shí)候，感受野足夠大，所以獲得的特征傾向于全局特征。但實(shí)際上，擴(kuò)張率過大的情況下，Atrous conv 出現(xiàn)了“權(quán)值退化”的問題，感受野過大，都已近擴(kuò)展到了圖像外面，大多數(shù)的權(quán)重都和圖像外圍的 zero padding 進(jìn)行了點(diǎn)乘，這樣并沒有獲取圖像中的信息。有效的權(quán)值個(gè)數(shù)很少，往往就是 1。于是我們加了全局平均池化，強(qiáng)行利用全局信息。

Deeplab v3+可以看成是把 Deeplab v3 作為編碼器（上半部分）。后面再進(jìn)行解碼，并且在解碼的過程中在此運(yùn)用了不同層級特征的融合。此外，在 encoder 部分加入了 Xception 的結(jié)構(gòu)減少了參數(shù)量，提高運(yùn)行速遞。

方法總結(jié)分類

3.1 OSLSM

motivition 就是學(xué)習(xí)一個(gè) one-shot 的分割模型，首次提出雙分支的網(wǎng)絡(luò)用于 few-shot segmentation，條件分支用 VGG 提取特征，生成權(quán)重（w，b），分割分支用 FCN-32s 結(jié)構(gòu)對 query image 進(jìn)行特征提取，將其與條件分支所得參數(shù)進(jìn)行點(diǎn)乘再通過 σ 函數(shù)得到分割結(jié)果。

得到一個(gè)分割圖，上采樣到圖像大小，利用某個(gè)閾值產(chǎn)生分割的二值圖。

輸出的時(shí)候，為了是參數(shù)量與分割分支的特征圖的通道數(shù)相對應(yīng)，采用 weight hashing 的策略，將輸出的 1000 維向量映射為 4097 維（w:4096, b:1），這種映射機(jī)制是建模成固定權(quán)重參數(shù)的全連接層來實(shí)現(xiàn)的。

3.2 co-FCN

文章的主要比較驚奇的一點(diǎn)是僅對原始圖像做一些稀疏的標(biāo)注（目標(biāo)位置上點(diǎn)幾個(gè)關(guān)鍵點(diǎn)，背景位置上點(diǎn)幾個(gè)關(guān)鍵點(diǎn)）就卻能夠?qū)崿F(xiàn)對目標(biāo)的像素級的分割。

網(wǎng)絡(luò)結(jié)構(gòu)和 BMVC 那篇 paper 設(shè)置類似，也是采用雙分支結(jié)構(gòu)，將標(biāo)注信息與原始圖像 concate 后輸入 conditioning branch 得到輸入圖像的 embedding。

利用 segmentation branch 對 qurey image 進(jìn)行特征提取，并將結(jié)果與 conditioning branch 得到的 embedding 進(jìn)行 concate，再進(jìn)行像素級分割。

3.3 AMP-2

motivation：如何得到一個(gè)更好的原型。

方法：在 task 流中，不斷地更新每個(gè)類別地原型。

3.4 SG-One

訓(xùn)練任務(wù)的流程：

網(wǎng)絡(luò)包含一個(gè)主干網(wǎng)絡(luò) Stem（代表的是 VGG-16 的前 3 個(gè) Block）和兩個(gè)分支：

Guidance Branch 和 Segmentation Branch，需要注意的是兩個(gè)分支共用了三個(gè)卷積塊，個(gè)人的理解是，如果兩個(gè)分支完全獨(dú)立，那么 Guidance Branch 產(chǎn)生的指導(dǎo)就會一成不變；

這就失去了意義，作者在論文最后的消融實(shí)驗(yàn)中做了相關(guān)的分析與實(shí)驗(yàn)；

與 Segmentation Branch 產(chǎn)生交互后就可以在優(yōu)化分割損失的同時(shí)對引導(dǎo)的特征圖進(jìn)行優(yōu)化，使之匹配相應(yīng)的真實(shí) mask。網(wǎng)絡(luò)在訓(xùn)練的時(shí)候加載了在 ILSVRC 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重。

測試任務(wù)的流程：

主要的創(chuàng)新點(diǎn)：

a. 提出使用 masked average pooling 來提取 support set 的中目標(biāo)的表征向量；

b. 采用余弦相似度來度量 query set 的表征向量與 support set 的表征向量之間距離，用于指導(dǎo) query set 的分割；

為什么 masked average pooling 會有用？

解釋如下：全卷積網(wǎng)絡(luò)（FCN）能夠保留輸入圖像的中每個(gè)像素相對位置；所以通過將二值 mask 與提取到的特征圖相乘就可以完全保留目標(biāo)的特征信息，排除掉背景等無關(guān)類別的特征。

3.5 PANet

創(chuàng)新點(diǎn)：

利用了 prototypes 上的度量學(xué)習(xí)，無參數(shù)。

提出 prototypes 對齊正則化，充分利用 support 的知識。

對于帶有弱注釋的少樣本直接使用。

用同一個(gè) backbone 來提取 support 和 query 的深度特征，然后使用 masked average pooling 從 support 的特征將不同的前景物體和背景嵌入不同的 prototypes 中，每個(gè) prototype 表示對應(yīng)的類別，這樣 query 圖像的每個(gè)的像素通過參考離它的嵌入表達(dá)最近的特定類的 prototype 來標(biāo)記，得到 query 的預(yù)測 mask 后。

訓(xùn)練的時(shí)候，得到mask后，再將剛才提取的 query feature 和 mask 作為新的“support set”，將之前的 support set 作為新的“query set”，再用“support set”對“query set”做一波預(yù)測，然后再算一個(gè) loss

prototype 緊湊且魯棒的對每個(gè)語義類別進(jìn)行表達(dá)；mask 標(biāo)記那塊就是無參度量學(xué)習(xí)，通過和嵌入空間的逐像素匹配來執(zhí)行分割

執(zhí)行一個(gè) prototype 對齊正則化，用 query 和他的 mask 建立新的 support，然后用這個(gè)來預(yù)測原始的 support set 的分割，實(shí)驗(yàn)證明能鼓勵 query 的 prototype 對齊他們的 support 的 prototype，只有訓(xùn)練的時(shí)候這么做（反向再推一次，看看是否真的相似）

3.6 CANet

主要貢獻(xiàn)：

開發(fā)了一種新穎的雙分支密集比較模塊，該模塊有效地利用來自CNN的多級特征表示來進(jìn)行密集的特征比較。

提出迭代優(yōu)化模塊，以迭代方式改進(jìn)預(yù)測結(jié)果。迭代細(xì)化的能力可以推廣到具有少量鏡頭學(xué)習(xí)的看不見的類，以生成細(xì)粒度圖。

采用注意機(jī)制有效地融合來自 k-shot 設(shè)置中的多個(gè)支持示例的信息，其優(yōu)于單次結(jié)果的不可學(xué)習(xí)的融合方法。

證明給定的支持集具有弱注釋，即邊界框，我們的模型仍然可以獲得與昂貴的像素級注釋支持集的結(jié)果相當(dāng)?shù)男阅埽@進(jìn)一步減少了新類別對于少數(shù)鏡頭分割的標(biāo)記工作量。

3.7 PGNet

在 CANet 基礎(chǔ)上加了一個(gè)圖注意力機(jī)制

3.8 FWB

兩個(gè)主要創(chuàng)新點(diǎn)：

Feature Weighting

支持集前后景差異標(biāo)準(zhǔn)化向量：

最大化特征差異：

最終得到的關(guān)聯(lián)向量：

標(biāo)準(zhǔn)化處理后的余弦相似性：

Feature Boosting

數(shù)據(jù)集介紹

PASCAL-5i

MS COCO-20i

FSS-100

評測指標(biāo)介紹

Mean-IoU:

IoU 就是每一個(gè)類別的交集與并集之比，而 mIoU 則是所有類別的平均 IoU。

FB-IoU:

前景和背景一起的準(zhǔn)確率

結(jié)果陳列

下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程

在「小白學(xué)視覺」公眾號后臺回復(fù)：擴(kuò)展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版，涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

下載2：Python視覺實(shí)戰(zhàn)項(xiàng)目52講

在「小白學(xué)視覺」公眾號后臺回復(fù)：Python視覺實(shí)戰(zhàn)項(xiàng)目，即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目，助力快速學(xué)校計(jì)算機(jī)視覺。

下載3：OpenCV實(shí)戰(zhàn)項(xiàng)目20講

在「小白學(xué)視覺」公眾號后臺回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目，實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

交流群

歡迎加入公眾號讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群（以后會逐漸細(xì)分），請掃描下面微信號加群，備注：”昵稱+學(xué)校/公司+研究方向“，例如：”張三 + 上海交大 + 視覺SLAM“。請按照格式備注，否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告，否則會請出群，謝謝理解~

基于深度卷積神經(jīng)網(wǎng)絡(luò)的小樣本分割算法綜述