如何結(jié)合深度學(xué)習(xí)和視覺數(shù)據(jù)任務(wù)特點(diǎn)發(fā)展視覺弱監(jiān)督學(xué)習(xí)模型方法,成為近年來計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)。

視覺理解,如物體檢測、語義和實(shí)例分割以及動(dòng)作識(shí)別等,在人機(jī)交互和自動(dòng)駕駛等領(lǐng)域中有著廣泛的應(yīng)用并發(fā)揮著至關(guān)重要的作用。近年來,基于全監(jiān)督學(xué)習(xí)的深度視覺理解網(wǎng)絡(luò)取得了顯著的性能提升。然而,物體檢測、語義和實(shí)例分割以及視頻動(dòng)作識(shí)別等任務(wù)的數(shù)據(jù)標(biāo)注往往需要耗費(fèi)大量的人力和時(shí)間成本,已成為限制其廣泛應(yīng)用的一個(gè)關(guān)鍵因素。弱監(jiān)督學(xué)習(xí)作為一種降低數(shù)據(jù)標(biāo)注成本的有效方式,有望對(duì)緩解這一問題提供可行的解決方案,因而獲得了較多的關(guān)注。圍繞視覺弱監(jiān)督學(xué)習(xí),本文將以物體檢測、語義和實(shí)例分割以及動(dòng)作識(shí)別為例綜述國內(nèi)外研究進(jìn)展,并對(duì)其發(fā)展方向和應(yīng)用前景加以討論分析。在簡單回顧通用弱監(jiān)督學(xué)習(xí)模型,如多示例學(xué)習(xí)(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基礎(chǔ)上,針對(duì)物體檢測和定位,從多示例學(xué)習(xí)、類注意力圖機(jī)制等方面分別進(jìn)行總結(jié),并重點(diǎn)回顧了自訓(xùn)練和監(jiān)督形式轉(zhuǎn)換等方法;針對(duì)語義分割任務(wù),根據(jù)不同粒度的弱監(jiān)督形式,如邊界框標(biāo)注、圖像級(jí)類別標(biāo)注、線標(biāo)注或點(diǎn)標(biāo)注等,對(duì)語義分割研究進(jìn)展進(jìn)行總結(jié)分析,并主要回顧了基于圖像級(jí)別類別標(biāo)注和邊界框標(biāo)注的弱監(jiān)督實(shí)例分割方法;針對(duì)視頻動(dòng)作識(shí)別,從電影腳本、動(dòng)作序列、視頻級(jí)類別標(biāo)簽和單幀標(biāo)簽等弱監(jiān)督形式,對(duì)弱監(jiān)督視頻動(dòng)作識(shí)別的模型與算法進(jìn)行回顧,并討論了各種弱監(jiān)督形式在實(shí)際應(yīng)用中的可行性。在此基礎(chǔ)上,進(jìn)一步討論視覺弱監(jiān)督學(xué)習(xí)面臨的挑戰(zhàn)和發(fā)展趨勢,旨在為相關(guān)研究提供參考。
http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220604&flag=1
近年來,視覺理解技術(shù)的快速發(fā)展仍主要建立在監(jiān)督學(xué)習(xí)的基礎(chǔ)上。然而,物體檢測、語義和實(shí)例 分割以及視頻動(dòng)作識(shí)別等視覺理解任務(wù)往往需要大 量的全標(biāo)注數(shù)據(jù)集 D s = {(x, y s )},其中 x 為輸入 樣本,y s是全標(biāo)注。例如,對(duì)于分割任務(wù),圖像 x 中 包含各種物體,全標(biāo)注 y s為像素級(jí)別的類別標(biāo)簽。得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展,全監(jiān)督學(xué)習(xí)在各 種視覺理解任務(wù)中已經(jīng)取得了巨大成功,如目標(biāo)檢 測任務(wù)中的 YOLO ( you only look once) (Redmon 等,2016 )、 Fast R-CNN ( fast region-based convolutional neural network) (Girshick,2015;He 等,2017; Ren 等,2017 )、 FCOS ( fully convolutional one-stage object detector) (Tian 等,2019)和 DETR ( detection transformer) ( Carion 等,2020 ) 等, 語義分割中的 DeepLab ( Chen 等,2018 )、 PSPNet ( pyramid scene parsing network) (Zhao 等,2017)等。然而,大規(guī)模數(shù)據(jù)集的全標(biāo)注往往要耗費(fèi)大量的人力成本和時(shí)間成本。仍以圖像分割為例,為獲取全監(jiān)督訓(xùn)練數(shù)據(jù) 集如 CityScapes (Cordts 等,2016),需人工對(duì)圖像進(jìn) 行像素級(jí)別標(biāo)注。該數(shù)據(jù)集中包含 5 000 幅圖像, 使用 LabelMe 軟件(Russell 等,2008)進(jìn)行精細(xì)的像 素級(jí)標(biāo)注,每幅圖像平均需要花費(fèi)超過 1. 5 h 來保 證標(biāo)注的質(zhì)量,人工標(biāo)注的成本大約是每小時(shí) 6 10 美元。顯然,過高的標(biāo)注成本制約了語義分割在 其他類別上的更快發(fā)展。無監(jiān)督生成學(xué)習(xí)和自監(jiān)督 學(xué)習(xí)雖然在很大程度上能夠緩解標(biāo)注代價(jià),但仍需 要一定數(shù)量的全標(biāo)注數(shù)據(jù)用于模型微調(diào)。數(shù)據(jù)標(biāo)注 作為一種典型勞動(dòng)密集型工作,已成為關(guān)乎當(dāng)前整 個(gè) AI(artificial intelligence)產(chǎn)業(yè)的基礎(chǔ)。如何有效地降低標(biāo)注成本或者避免數(shù)據(jù)標(biāo)注,同時(shí)保證視覺 理解模型的性能,不僅是深度學(xué)習(xí)未來發(fā)展應(yīng)用的 關(guān)鍵問題,同時(shí)也是機(jī)器學(xué)習(xí)乃至于人工智能領(lǐng)域 的重要開放問題,在經(jīng)濟(jì)和社會(huì)層面上均具有重要 的研究意義。
弱監(jiān)督學(xué)習(xí)作為一種降低數(shù)據(jù)標(biāo)注成本的有效 方式,有望對(duì)緩解這一問題提供可行的解決方案,因而獲得了較多的關(guān)注。在視覺弱監(jiān)督學(xué)習(xí)方法中, 對(duì)于樣本 x 僅需提供弱標(biāo)注 y w構(gòu)成弱監(jiān)督數(shù)據(jù)集 D w = {(x, y w )}。如對(duì)于圖像分割任務(wù),圖像級(jí)別 和標(biāo)注框的弱監(jiān)督標(biāo)注,相較于像素級(jí)別的標(biāo)注的 代價(jià)顯著降低。仍以 CityScapes 數(shù)據(jù)庫為例,一個(gè) 邊界框的標(biāo)注需要 7 s,一個(gè)圖像的類別標(biāo)注只需要 1 s,弱標(biāo)注相較于像素級(jí)的全標(biāo)注顯著降低了成 本。視覺弱監(jiān)督學(xué)習(xí)旨在利用弱標(biāo)注數(shù)據(jù)集 D w , 通過發(fā)展有效的學(xué)習(xí)模型以縮小與全監(jiān)督模型的性 能差距。視覺弱監(jiān)督方法能夠顯著降低標(biāo)注成本,且 期望接近全監(jiān)督視覺模型的性能。因而如何結(jié)合深度學(xué)習(xí)和視覺數(shù)據(jù)任務(wù)特點(diǎn)發(fā)展視覺弱監(jiān)督學(xué)習(xí)模型方法,成為近年來計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)。