<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Image-Level 弱監(jiān)督圖像語義分割匯總簡析

          共 7813字,需瀏覽 16分鐘

           ·

          2022-07-26 21:35

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          來源:知乎
          作者:Uno Whoiam
          鏈接:https://zhuanlan.zhihu.com/p/80815225
          本文已由作者授權轉(zhuǎn)載,未經(jīng)允許,不得二次轉(zhuǎn)載。 


          總結(jié)


          Image-Level 的弱監(jiān)督語義分割基本都是以 CAM 作為起點,然后迭代訓練,過程中不斷恢復出 object 的 mask,各論文唯一重要的區(qū)別就在于這個恢復策略有所不同。

          Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation


          https://arxiv.org/abs/1803.10464



          成績:
          VOC 2012 val:61.7%
          VOC 2012 test:63.7%

          本論文僅使用 Label 級的圖片標注,利用CAM(class activation map)作為基礎,輔助以提出的 AffinityNet 得到 mask 標簽,最后以此訓練分割模型。

          AffinityNet 可以理解為對 CAM 進行優(yōu)化的模型,它的主要作用可以理解利用 background 與foreground 在 CAM 上的區(qū)別的找出 foreground 的邊界,從而形成較好的 Segmentation Mask。

          參考鏈接:
          論文筆記 Learning Pixel-level Semantic Affinity with Image-level Supervisionfor Weakly Supervised Semantic Segmentation - cv module | d
          Robert Yang:弱監(jiān)督語義分割psa算法筆記



          Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation


          https://arxiv.org/abs/1805.04574



          成績:
          VOC 2012 val:60.4
          VOC 2012 test:60.8

          此論文也是使用 CAM 作為起點,使用輔助模型 MDC (multiple dilated convolutional)來對無標注的數(shù)據(jù)進行標注,以此來訓練分割模型。

          MDC 則是利用了不同 dilation rate 的 dilated conv,通過綜合平均后來得到一個較為準確的 Segmentation Mask,取平均的公式:
          為普通的 conv3x3,其余的為不同 dilation rate 的 dilated conv。

          參考鏈接:《Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation》筆記

          Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning


          https://arxiv.org/abs/1802.09129


          成績:
          VOC 2012 val:null
          VOC 2012 test:55.6

          Image Level weakly supervised,從 image到instance再到pixel得到Segmentation mask,這個成績相比之下比較一般。


          Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing


          http://openaccess.thecvf.com/content_cvpr_2018/papers/Huang_Weakly-Supervised_Semantic_Segmentation_CVPR_2018_paper.pdf


          成績:
          VOC 2012 val:61.4
          VOC 2012 test:63.2

          這篇論文的想法其實也很簡單,由于 CAM 激活程度較高的是圖片最 discriminative 的地方,所以,將其作為 Segmentation Mask基本上是沒毛病的,而激活程度較低的就先忽略。隨著模型的訓練,待分割物體整體會由最 discriminative 的地方擴散開來,模型會開始能夠識別物體的其它部分, CAM 漸漸變高,整個物體也就慢慢被找出來。

          Benchmark:


          參考鏈接:
          MurphyAC:弱監(jiān)督下的語義分割:DSRG
          《Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing》筆記

          Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach


          https://arxiv.org/abs/1703.08448


          成績:
          VOC 2012 val:55%
          VOC 2012 val:55.7%

          此論文方法十分魔性: 

          loop:    step 1: 訓練好的分類網(wǎng)絡,它會找出圖片最 discriminative 的部分。    step 2: 擦掉分類網(wǎng)絡所找出的圖片最 discriminative 的部分,用這些圖片重新訓練分類網(wǎng)絡。


          循環(huán)多次后,把擦除的部分拼在一起,就可以當做 Segmentation Mask 了。

          此論文方法十分魔性: 


          思路有些類似 recursive training。

          FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference


          https://arxiv.org/abs/1902.10421


          成績:
          VOC 2012 val:64.9
          VOC 2012 test:65.3

          本論文想解決的問題是,使用 Image-Level 的標記,以 CAM 為基礎的弱監(jiān)督 Segmentation 存在的物體邊緣難恢復的問題。解決的方法是,利用 FickleNe, 即類似 2D 的 dropout,使模型隱藏層僅通過 分類訓練就可以更全面地關注物體整體的特征,而非僅關注物體最 discriminative 的部分,從而有機會通過 CAM 得到更完整的 Segmentation Mask。

          FickleNet 的實現(xiàn):

          在展開特征圖,我們在x上應用零填充,這樣最終輸出的大小就等于輸入的大小。補零后的特征圖大小為kx(h+s-1)(w+s-1),其中s為卷積核的大小(w方向或者h方向, 需要補充的部分實際上就是卷積核大小減去1的值)。
          我們展開零填充的特征圖,這樣連續(xù)的滑動窗口位置就不會重疊,并且展開的特征圖 x^expand的大小為kx(sh)x(sw)(相當于在每個wxh平面上的元素都對應著一個sxs大小的映射區(qū)域)。
          然后,我們使用保留中心的dropout技術來選擇x^expand上的隱藏單元。雖然擴展后的特征圖需要更多的GPU內(nèi)存,但是需要訓練的參數(shù)數(shù)量保持不變(因為還是那些卷積權重, 只是跨步大了些),GPU的負載沒有明顯增加,

          在展開特征圖,我們在x上應用零填充,這樣最終輸出的大小就等于輸入的大小。補零后的特征圖大小為kx(h+s-1)(w+s-1),其中s為卷積核的大小(w方向或者h方向, 需要補充的部分實際上就是卷積核大小減去1的值)。

          我們展開零填充的特征圖,這樣連續(xù)的滑動窗口位置就不會重疊,并且展開的特征圖 x^expand的大小為kx(sh)x(sw)(相當于在每個wxh平面上的元素都對應著一個sxs大小的映射區(qū)域)。

          然后,我們使用保留中心的dropout技術來選擇x^expand上的隱藏單元。雖然擴展后的特征圖需要更多的GPU內(nèi)存,但是需要訓練的參數(shù)數(shù)量保持不變(因為還是那些卷積權重, 只是跨步大了些),GPU的負載沒有明顯增加,

          訓練時的Classifier

          為了得到分類分數(shù):
          對dropout處理過的特征圖,用大小為s和步長為s的核進行卷積。
          2. 然后我們得到一個大小為cxwxh的輸出特征圖,其中c是對象類的數(shù)量。
          4. 將全局平均池化(會獲得一個長為c的向量)和一個sigmoid函數(shù)應用到特征圖上,得到一個分類得分s(1xc).
          5. 然后使用sigmoid交叉熵損失函數(shù)更新FickleNet,該函數(shù)廣泛用于多標簽分類。(這里使用的應該是softmax)

          最后 inference 的時候,dropout 依然開啟,多次推理得到 N 個 CAM, 采用了 Grad-CAM 的方式計算,即對每一類進行梯度加權疊加:

          最后,CAM 某像素位置達到了閾值,就給它打上相應的標簽,如果沒有就 ignore,如果有多個標簽,則對 N 組CAM 的 class score 求平均,把label給最高的類。

          參考鏈接:
          FickleNet: Weakly and Semi-supervised Semantic Image Segmentationusing Stochastic Inference · 語雀
          憑什么相信你,我的CNN模型?(篇一:CAM和Grad-CAM)
          spytensor.com/index.php

          Benchmark:

          Weakly Supervised Semantic Segmentation using Web-Crawled Videos 


          http://zpascal.net/cvpr2017/Hong_Weakly_Supervised_Semantic_CVPR_2017_paper.pdf


          成績:
          VOC 2012 val:58.1
          VOC 2012 test:58.7

          依舊是基于 CAM,方法大致步驟如下:
          1. 使用 VOC 2012 的 Image-Level label 訓練VGG。
          2. 使用 VGG 來檢測 video,刪除無關的幀。
          3. 使用篩選過的 video 通過解決圖優(yōu)化問題得到 Segmentation Mask,訓練得到 decoder。

          參考鏈接:
          論文筆記 Weakly Supervised Semantic Segmentation using Web-Crawled Videos - cv module | d

          Benchmark:

          Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation


          https://arxiv.org/abs/1506.04924


          成績 (0.5k mask+10k label):
          VOC 2012 val:62.1
          VOC 2012 test:62.5

          DecoupledNet 最大的特點就是分類網(wǎng)絡和分割網(wǎng)絡分別訓練,個人認為可以看做 coder-decoder。分類網(wǎng)絡使用 label 級的數(shù)據(jù)訓練,分割網(wǎng)絡使用 mask 級的數(shù)據(jù)訓練。
          參考鏈接:論文閱讀筆記十四:Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation(CVPR2015)

          Benchmark:

          Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network


          https://arxiv.org/abs/1703.09695


          成績(1.4k mask + 10k label):
          VOC 2012 on val:65.8
          VOC 2012 on val:null

          該論文對 GAN 在語義分割上的使用和以往有所不同,分割網(wǎng)絡沒有作為 Generator 而是 Discriminator。并且提出了 semi-supervised 訓練以及 weakly-supervised 訓練的框架:

          semi-supervised:

          在 VOC 上的實驗,使用 1.4K 的強標簽,其它將近 10K 張圖作為未標記數(shù)據(jù),以及 Generator 產(chǎn)生的假數(shù)據(jù)進行訓練。Discriminator 作為分割網(wǎng)絡則多了一類 Fake。對于未標記的數(shù)據(jù),Discriminator 要壓低 Fake 類的置信度;對于 Generator 產(chǎn)生的假數(shù)據(jù),要提高 Fake 類的置信度;強標簽的數(shù)據(jù)正常訓練就行。

          weakly-supervised :

          在 VOC 上的實驗,使用 1.4K 的強標簽,其它將近 10K 張圖作為帶 Image-Level label 的數(shù)據(jù),以及 Generator 產(chǎn)生的假數(shù)據(jù)進行訓練,這次輸入 Generator 的不止是 noise,還有 label。根據(jù)作者的意思,這樣可以提高 Discriminator 發(fā)現(xiàn)圖片與label 之間的關聯(lián)。


          The rationale of exploiting weak supervision in our framework lies on the assumption that when image classes are provided to the generator, it is forced to learn co- occurrences between labels and images resulting in higher quality generated images, which, in turn, help our multi- classifier to learn more meaningful features for pixel-level classification and true relationships between labels.

          同樣的,對于 Image-Level label 的數(shù)據(jù),Discriminator 要提高圖片中含有的相應類的的置信度;對于 Generator 產(chǎn)生的假數(shù)據(jù),要提高 Fake 類的置信度;強標簽的數(shù)據(jù)正常訓練就行。
          從結(jié)果來看,提升還是比較明顯的:

          Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features


          https://arxiv.org/abs/1806.04659


          成績:
          VOC 2012 val:60.3
          VOC 2012 val:61.2

          同樣是 CAM 為起點,然后迭代優(yōu)化 Segmentation Mask,算法簡要流程如下:


          1. 以 CAM 為初始 Object Seeds,訓練 RegionNet。

          2. RegionNet 的輸出經(jīng)過 Saliency-Guided Refinement (反正就是一種人為設計的先驗)優(yōu)化后得到 Segmentation Mask。

          3. 用得到的 Segmentation Mask 訓練分割網(wǎng)絡 PixelNet。

          4. 將 PixelNet 的輸出作為 Object Seeds。


          參考鏈接:《Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features》筆記

          Benchmark:


          Weakly Supervised Instance Segmentation using Class Peak Response


          https://arxiv.org/abs/1804.00880


          成績:
          VOC 2012 val:53.4
          此論文的主要發(fā)現(xiàn)在于,在分類網(wǎng)絡中, CAM 的 peak response 基本上可以定位被分類物體,而通過 peak 的反向傳播追根溯源,可以找到被分類物體的全貌。該論文應該是第一篇用于 Instance Segmentation 的 Image-Level supervised 工作。

          Adversarial Learning for Semi-Supervised Semantic Segmentation


          https://arxiv.org/abs/1802.07934


          成績:
          VOC 2012 val:68.4% (1.4k mask + 9k unlabeled)

          訓練數(shù)據(jù)上使用了兩類數(shù)據(jù)進行訓練:

          1. 帶segmentation mask 標注的數(shù)據(jù)

          2. 沒有標注的數(shù)據(jù)


          模型上分為兩部分:

          1. 生成網(wǎng)絡為 FCN-style 的網(wǎng)絡,輸入圖像生成 mask

          2. 判別網(wǎng)絡輸入 mask 生成 confidence map


          訓練生成網(wǎng)絡的損失函數(shù)有以下三個部分:

          1. Cross Entropy Loss

          2. Adversarial Loss

          3. Semi-Supervised Loss


          前兩個很好理解,就訓練分割常用的交叉熵損失和訓練GAN時的損失函數(shù),第三個則是對于未標注的數(shù)據(jù),取判別網(wǎng)絡認為置信度較高的部分對生成網(wǎng)絡進行訓練。

          好消息!

          小白學視覺知識星球

          開始面向外開放啦??????




          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~



          瀏覽 30
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91丨豆花丨国产熟女 | 国产精品高潮久久久久久无码 | 国产一卡二卡在线播放 | 日韩AVAV| 69一区二区 |