【新智元導(dǎo)讀】近日,由蘇黎世聯(lián)邦理工學(xué)院,商湯研究院和上交清源研究院共同提出的弱監(jiān)督語義分割,被ECCV2020大會(huì)作為Oral論文接收,在CVPR2020 LID Challenge WSSS賽道奪冠并榮獲CVPR2020 LID Workshop Best Paper。該研究創(chuàng)新性地提出了兩種注意力機(jī)制,有效提升了弱監(jiān)督語義分割效果,在PASCAL數(shù)據(jù)集上取得了多個(gè)SOTA。
近年來,基于圖像標(biāo)簽信息(image-level label)的弱監(jiān)督語義分割(WSSS)方法主要基于以下步驟:訓(xùn)練圖像分類器,通過分類器的CAM獲取每張圖像在分類中被激活的區(qū)域(物體定位圖),之后生成偽標(biāo)簽mask作為監(jiān)督信號(hào)訓(xùn)練語義分割模型。
?
這種方法面臨的挑戰(zhàn)是:CAM生成的物體定位圖僅關(guān)注物體中最具辨識(shí)度的區(qū)域,而不是物體整體。
最近由蘇黎世聯(lián)邦理工學(xué)院等研究機(jī)構(gòu)共同提出的弱監(jiān)督語義分割為這一問題的解決提供了新的思路。

本文設(shè)計(jì)了協(xié)同注意力分類器(co-attention classifier),在分類器中引入兩種注意力模型來幫助分類器識(shí)別更多的物體區(qū)域:協(xié)同注意力(co-attention)用于幫助分類器識(shí)別一對(duì)圖像之間共同的語義信息(common semantics),而且能夠在物體定位圖(object localization maps)的推理過程中利用上下文信息;對(duì)比協(xié)同注意力(contrastive co-attention)用于識(shí)別一對(duì)圖像之間不同的語義信息(unshared semantics)。
?
更加注重圖像間語義關(guān)系的弱監(jiān)督學(xué)習(xí)
當(dāng)前的研究主要關(guān)注如何通過改進(jìn)分類器結(jié)構(gòu)或者利用復(fù)雜多輪的訓(xùn)練方式,提升CAM的定位能力。盡管取得了不少進(jìn)展,但這些工作一般只關(guān)注于單張圖像的信息(如圖1 (a)所示),卻忽略了不同圖像之間的語義關(guān)系。
? ? ? ?

圖1 傳統(tǒng)的WSSS方法
?
不同于當(dāng)前的主流算法,本文通過挖掘圖像對(duì)(image pairs)之內(nèi)的語義關(guān)系(如圖2(b)所示),能夠使圖像中的物體有更多區(qū)域被分類器激活。
?
本文在傳統(tǒng)的分類器中引入了兩種注意力機(jī)制:協(xié)同注意力和對(duì)比協(xié)同注意力。前者幫助分類器發(fā)現(xiàn)兩張圖像之間共同的語義信息,后者幫助分類器關(guān)注兩張圖像之間不同的語義信息。
?
兩種注意力機(jī)制相互合作并互為補(bǔ)充,使得分類器在學(xué)習(xí)過程中更加全面的關(guān)注圖像中的物體。
?
除此之外,本文的注意力機(jī)制也能在獲取物體定位圖的過程(如圖2 (c)所示)中起作用。在獲取某張圖像的物體定位圖時(shí),通過使用相關(guān)的圖像(和該圖像包含某些相同的語義類別)發(fā)現(xiàn)更多的相似物體區(qū)域,從而獲得更高質(zhì)量的物體定位圖。

圖2 基于協(xié)同注意力機(jī)制的WSSS方法
?
本文的分類器基于孿生神經(jīng)網(wǎng)絡(luò)(Siamese network),作用于圖像對(duì),協(xié)同注意力模塊用于挖掘兩張圖像中相同的語義信息(Person),而對(duì)比協(xié)同注意力模塊則關(guān)注于兩張圖像中獨(dú)有的語義信息(Cow和Table)。?? ? ??
? ? ? ?圖3 本文提出的協(xié)同注意力分類器的整體框架和相關(guān)可視化中間結(jié)果。傳統(tǒng)分類器:首先,同時(shí)輸入兩張圖像,分別經(jīng)過編碼器encoder提取特征,再經(jīng)全局池化(GAP)和全連接層(FC),得到各自的分類概率。損失函數(shù)以Cross Entropy(CE)計(jì)算,可視為傳統(tǒng)學(xué)習(xí)傳統(tǒng)分類器的標(biāo)準(zhǔn)操作:? ? ? ?
? ? ? ?協(xié)同注意力機(jī)制:在標(biāo)準(zhǔn)分類器的基礎(chǔ)之上,將兩張圖像的特征Fm和Fn輸入?yún)f(xié)同注意力模塊,來挖掘兩張圖像中相同的語義信息,協(xié)同注意力矩陣P計(jì)算如下:?
? ? ? ?
? ? ? ?
? ? ? ?
? ? ?P包含著兩張圖像中每兩個(gè)位置間的相似度。之后通過以下矩陣操作,可以分別得到兩張圖像的協(xié)同注意力特征(co-attention feature):?
? ? ? ?每張圖的協(xié)同注意力特征僅包含兩張圖共有類(人)的語義信息(如上圖),因此可以用共同的類?
(Person)來監(jiān)督該特征的學(xué)習(xí)。損失函數(shù)計(jì)算如下:? ?
? ??直觀而言,對(duì)于上圖中的例子,通過協(xié)同注意力機(jī)制,不僅人的臉(最具分辨性的區(qū)域),人的其他部位,如手臂和腿,都被co-attention feature highlight出來,這時(shí),分類器根據(jù)分類信號(hào)?
(Person)能夠意識(shí)到,不僅人的臉和Person這一label相關(guān),其它highlight出來的區(qū)域也和Person相關(guān),從而能夠?qū)㈩悇e標(biāo)簽和更多的物體區(qū)域關(guān)聯(lián)起來。對(duì)比協(xié)同注意力機(jī)制:利用對(duì)比協(xié)同注意力分別關(guān)注兩張圖中獨(dú)有的語義信息。圖像In的特有類
是Cow,Im的特有類?
是Table。對(duì)比協(xié)同注意力特征計(jì)算如下:
? ? ? ?
? ? ?因?yàn)閷?duì)比協(xié)同注意力特征包含著兩張圖中特有的信息(如上圖),分別用兩張圖中特有的類別來監(jiān)督對(duì)比協(xié)同注意力特征的學(xué)習(xí)。損失函數(shù)計(jì)算如下:
? ? ? ?
? ? ?直觀而言,對(duì)于上圖中的例子,通過對(duì)比協(xié)同注意力機(jī)制,兩張圖像中的共有類(Person)的語義信息被濾掉。對(duì)比協(xié)同注意力機(jī)制的本質(zhì)是使共有與非共有信息解耦和。一方面分類器可以有機(jī)會(huì)直接關(guān)注到兩張圖像中非共有的物體。另一方面,如果Cow或Table的一部分也被錯(cuò)誤的認(rèn)為和person相關(guān)并被過濾掉了,此時(shí)分類器可能難以從剩余的對(duì)比協(xié)同注意力特征中分辨出Cow或Table。因此,對(duì)比協(xié)同注意力也以迫使分類器更好的區(qū)分不同類別的語義信息。損失函數(shù):協(xié)同注意力分類器的損失函數(shù)是以上三個(gè)損失函數(shù)之和:
? ? ? ?
? ? ?獲取物體定位圖:不同于以往算法只將單張圖像輸入到訓(xùn)練好的分類器生成物體定位圖。協(xié)同注意力分類器訓(xùn)練好后,在生成一張訓(xùn)練圖像中的某一個(gè)標(biāo)簽類的物體定位圖時(shí),同時(shí)采集若干張同時(shí)具有該類別的圖像,分別和該訓(xùn)練圖像輸入到協(xié)同注意力分類器,計(jì)算協(xié)同注意力特征,并將所產(chǎn)生的對(duì)應(yīng)于該類別的CAM相加平均得到該類的物體定位圖。由此,協(xié)同注意力分類器可以利用上下文信息輔助物體定位圖的推理。更深入的機(jī)理探討:從輔助任務(wù)學(xué)習(xí)(auxiliary-task learning)的角度,協(xié)同注意力分類器可以理解為在傳統(tǒng)的分類任務(wù)(識(shí)別單張圖像的語義信息)之外,引入了兩個(gè)任務(wù):預(yù)測(cè)兩張圖像中共有的以及獨(dú)有的語義信息,因此給訓(xùn)練分類器提供了更多的監(jiān)督信號(hào)。從圖像協(xié)同分割(image co-segmentation)的角度,既然數(shù)據(jù)集給出了兩張圖像是否含有相同的類別,那么這一信息也應(yīng)該被挖掘成為監(jiān)督信號(hào)來訓(xùn)練分類器。實(shí)驗(yàn)結(jié)果:抗干擾好遷移,拿到多個(gè)SOTA以標(biāo)準(zhǔn)設(shè)置,在PASCAL VOC 2012上進(jìn)行實(shí)驗(yàn),結(jié)果如下圖:
? ?
? ? ? ?
? ? ?該圖中(a),(b),(c)分別對(duì)應(yīng)三種不同的WSSS設(shè)置:(a)表示僅使用PASCAL VOC 2012數(shù)據(jù)集;(b)表示額外使用單標(biāo)簽圖像(如ImageNet);(c)表示額外使用網(wǎng)上抓取的數(shù)據(jù)(Web data)。實(shí)驗(yàn)結(jié)果表明,在三種設(shè)置中,本文所提出的方法都得到SOTA效果。針對(duì)單標(biāo)簽圖像引入的領(lǐng)域差異(domain gap)的問題,Co-attention矩陣WpF 具備將不同數(shù)據(jù)源數(shù)據(jù)映射到統(tǒng)一空間的能力,設(shè)置(b)下的實(shí)驗(yàn)表明,所提出的方法能有效的處理領(lǐng)域差異。而網(wǎng)上抓取的數(shù)據(jù)中不可避免包含很多噪音,因?yàn)楸疚牡乃惴ɡ枚鄰垐D像的上下文信息,能夠自然的增強(qiáng)分類器的魯棒性,設(shè)置(c)下的實(shí)驗(yàn)也清楚地證明了這一點(diǎn)。以本文算法為核心的方案,在CVPR2020 LID Challenge的WSSS 賽道,以絕對(duì)優(yōu)勢(shì)獲得冠軍。比賽最終結(jié)果如下圖所示。
? ? ? ?
? ? ?LID2019和LID2020使用相同數(shù)據(jù),但LID2019允許使用全監(jiān)督訓(xùn)練的顯著性(saliency)模型來提升結(jié)果。可以看到,在LID2020不允許使用額外顯著性數(shù)據(jù)的前提下,本文的性能甚至明顯超過了LID2019的冠軍。消融實(shí)驗(yàn)表明本文提出的協(xié)同注意力和對(duì)比協(xié)同注意力能夠有效提高WSSS的性能。?? ? ??
? ? ? ?不同于當(dāng)前主流算法只關(guān)注單一圖像中的信息,本文提出利用圖像之間豐富的語義關(guān)系,有效提升了CAM對(duì)物體整體的定位準(zhǔn)確度。主要亮點(diǎn)如下:1. 不同于之前細(xì)化分類網(wǎng)絡(luò)或多步驟訓(xùn)練方法,本文在思想上另辟蹊徑,設(shè)計(jì)了協(xié)同注意力(co-attention)和對(duì)比協(xié)同注意力(contrastive co-attention)機(jī)制,分別挖掘跨圖像的(cross-image)共同語義信息(common semantics)和獨(dú)有語義信息(unshared semantics),極大提高了CAM定位的準(zhǔn)確度。2. 協(xié)同注意力機(jī)制,不僅能在訓(xùn)練過程中促進(jìn)對(duì)物體整體模式的學(xué)習(xí),而且能夠在物體定位圖(object localization maps)的推理過程中利用上下文信息。3. 當(dāng)前的WSSS算法中,除了利用PASCAL數(shù)據(jù)集標(biāo)注訓(xùn)練(標(biāo)準(zhǔn)設(shè)置),有的工作還利用單標(biāo)簽數(shù)據(jù)(single-label image),或者使用網(wǎng)上抓取的數(shù)據(jù)(webly supervised)。但后兩者包含了領(lǐng)域遷移和噪聲干擾的難題。本文提出的方法利用一個(gè)統(tǒng)一的網(wǎng)絡(luò)架構(gòu),可以優(yōu)雅的解決以上三種設(shè)置,并在不同設(shè)置中都獲得SOTA。4. 以本文算法為核心的方案在CVPR2020 LID Challenge WSSS賽道以高出第二名7%IoU的優(yōu)勢(shì)奪冠。弱監(jiān)督語義分割近年來受到越來越廣泛的關(guān)注,雖然和全監(jiān)督學(xué)習(xí)語義分割的差距在逐漸縮小,但仍有很大差距。相信隨著技術(shù)的不斷進(jìn)步,弱監(jiān)督學(xué)習(xí)在其他領(lǐng)域的應(yīng)用也將逐漸鋪開。