CVPR 2021 | 目標(biāo)引導(dǎo)的人類注意力估計(jì)提升零樣本學(xué)習(xí)
點(diǎn)擊左上方藍(lán)字關(guān)注我們

作者 | zlbuaa@知乎
鏈接 | https://zhuanlan.zhihu.com/p/359732073
根據(jù)經(jīng)驗(yàn),當(dāng)人類看到一個(gè)新類別時(shí),往往能夠關(guān)注到新類別和以往所認(rèn)識(shí)類別共有的區(qū)別性屬性區(qū)域,通過屬性描述便可以確定新的類別。來自北京航空航天大學(xué)、東京大學(xué)、格里菲斯大學(xué)的研究者們共同提出了一種基于目標(biāo)引導(dǎo)的人類注意力估計(jì)的零樣本學(xué)習(xí)方法。這項(xiàng)工作被CVPR 2021接收。

論文地址:https://arxiv.org/abs/2103.03433
論文代碼即將開源:
https://github.com/osierboy/GEM-ZSL
在這一成果中,研究者們希望模型可以關(guān)注到人類所關(guān)注的語義區(qū)域,因此提出一個(gè)人類注意力估計(jì)模塊(Gaze Estimation Module,GEM)捕捉可區(qū)分性的語義信息來幫助屬性區(qū)域的定位。結(jié)合這些局部信息以及目標(biāo)的全局信息,模型可以更好的識(shí)別不可見類別。


全局視覺特征學(xué)習(xí)
首先,模型通過由ResNet-101實(shí)現(xiàn)的圖像編碼器來提取圖片的全局視覺特征,然后構(gòu)建視覺特征和語義特征的映射關(guān)系。這里通過Cosine距離來衡量視覺特征和語義中心:

Cosine相似可以緩解神經(jīng)元的方差,使得模型具備更好的泛化性能。

這一部分是模型的核心,用來提取人類所關(guān)注的局部特征。往往對(duì)一個(gè)新類別的識(shí)別,更重要的是能夠關(guān)注到了他們具備區(qū)分性信息的局部特征, 例如斑馬, 我們?cè)谥礼R的先驗(yàn)知識(shí)后加上黑白條紋便可以識(shí)別出這類動(dòng)物,這樣局部的條紋特征便成為我們關(guān)注的區(qū)域。
首先,模型通過屬性詞向量作為索引,對(duì)圖片的屬性區(qū)域進(jìn)行檢索。這由雙線性池化機(jī)制實(shí)現(xiàn)的注意模塊完成,將詞向量(query)和視覺特征(key)作為模塊的輸入得到屬性特征圖,再經(jīng)過注意力轉(zhuǎn)移模塊以及gaze loss將屬性特征圖轉(zhuǎn)變?yōu)槿祟愖⒁饬Γ╤uman gaze)。


零樣本學(xué)習(xí)
在傳統(tǒng)零樣本學(xué)習(xí)(ZSL)的設(shè)定下,在cosine空間,分類器對(duì)不可見類的樣本進(jìn)行分類:

在通用式零樣本學(xué)習(xí)(GZSL)設(shè)定下,因?yàn)榇嬖谥鴮?duì)可見類由較大偏移的問題,因此通過calibrated stacking技術(shù)對(duì)其緩解:


實(shí)驗(yàn)結(jié)果
為了對(duì)所提出方法的有效性進(jìn)行驗(yàn)證,研究者們和近幾年的state-of-the-art零樣本學(xué)習(xí)方法進(jìn)行對(duì)比:

在CUB上,GEM-ZSL超過了所有方法,達(dá)到最高性能。AWA2上,GEM-ZSL也表現(xiàn)優(yōu)異,達(dá)到第二的性能。對(duì)于SUN,因?yàn)榇嬖?00多個(gè)類別,基于生成模型模型的方法在此數(shù)據(jù)集上會(huì)表現(xiàn)的更好一些,但是GEM-ZSL在非生成模型中也是具有競爭力的。
為了對(duì)所提方法的各個(gè)模塊的性能進(jìn)行分析,研究者們進(jìn)行了大量消融實(shí)驗(yàn):


除了對(duì)零樣本學(xué)習(xí)任務(wù)的驗(yàn)證,研究者們?cè)贕aze Estimation任務(wù)中也進(jìn)行了定量與定性的分析:

在定量結(jié)果中,GEM超過了bottom-up的GBVS和top-down的GP兩個(gè)Gaze Estimation baseline方法。
在定性分析中,GEM對(duì)gaze區(qū)域的可視化結(jié)果也優(yōu)于GBVS和GP:

參考文獻(xiàn)
Wenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, and Zeynep Akata. Attribute prototype network for zero-shot learning. NeurIPS, 2020.
Dat Huynh and Ehsan Elhamifar. Fine-grained generalized zero-shot learning via dense attribute-based attention. CVPR, 2020.
Guo-Sen Xie, Li Liu, Fan Zhu, Fang Zhao, Zheng Zhang, Yazhou Yao, Jie Qin, and Ling Shao. Region graph embedding network for zero-shot learning. ECCV, 2020.
Nour Karessli, Zeynep Akata, Bernt Schiele, and Andreas Bulling. Gaze embeddings for zero-shot image classification. CVPR, 2017.
Yifei Huang, Minjie Cai, Zhenqiang Li, and Yoichi Sato. Predicting gaze in egocentric video by learning task-dependent attention transition. ECCV, 2018.
END
整理不易,點(diǎn)贊三連↓
