<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          清華 CVer 對自監(jiān)督學(xué)習(xí)的一些思考

          共 8293字,需瀏覽 17分鐘

           ·

          2021-01-11 14:03

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          推薦閱讀

          42個pycharm使用技巧,瞬間從黑鐵變王者

          Google C++項(xiàng)目編程風(fēng)格指南 (中文版) 分享

          來源 | Jack Cui
          責(zé)編 | 晉兆雨
          頭圖 | CSDN 下載自視覺中國
          轉(zhuǎn)自 | AI科技大本營

          眾所周知,機(jī)器學(xué)習(xí)大致可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

          自監(jiān)督學(xué)習(xí)作為無監(jiān)督學(xué)習(xí)的一個特例,可以理解它是一種沒有人工標(biāo)注標(biāo)簽的監(jiān)督學(xué)習(xí),即沒有人類參與的監(jiān)督學(xué)習(xí)。

          但標(biāo)簽仍然存在,只不過標(biāo)簽是從輸入數(shù)據(jù)中生成的,通常是使用啟發(fā)式算法生成。

          自監(jiān)督學(xué)習(xí)的流行是勢在必然的

          在各種主流有監(jiān)督學(xué)習(xí)任務(wù)都做到很成熟之后,數(shù)據(jù)成了最重要的瓶頸

          從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)有效信息一直是一個很重要的研究課題,其中自監(jiān)督學(xué)習(xí)提供了非常豐富的想象空間。

          今天為大家?guī)淼氖且晃槐究魄迦A,博士港中文畢業(yè)的大佬,對于自監(jiān)督學(xué)習(xí)的一些思考。

          如何定義自監(jiān)督學(xué)習(xí)?

          自監(jiān)督學(xué)習(xí)是指用于機(jī)器學(xué)習(xí)的標(biāo)注(ground truth)源于數(shù)據(jù)本身,而非來自人工標(biāo)注。

          如下圖,自監(jiān)督學(xué)習(xí)首先屬于無監(jiān)督學(xué)習(xí),因此其學(xué)習(xí)的目標(biāo)無需人工標(biāo)注。其次,目前的自監(jiān)督學(xué)習(xí)領(lǐng)域可大致分為兩個分支。

          圖1,自監(jiān)督學(xué)習(xí)和其他學(xué)習(xí)類型的關(guān)系

          第一個是用于解決特定任務(wù)的自監(jiān)督學(xué)習(xí),例如場景去遮擋,以及自監(jiān)督的深度估計(jì)、光流估計(jì)、圖像關(guān)聯(lián)點(diǎn)匹配等。

          另一個分支則用于表征學(xué)習(xí)。有監(jiān)督的表征學(xué)習(xí),一個典型的例子是 ImageNet 分類。而無監(jiān)督的表征學(xué)習(xí)中,最主要的方法則是自監(jiān)督學(xué)習(xí)。

          典型的方法包括:解決 Jigsaw Puzzles、運(yùn)動傳播、旋轉(zhuǎn)預(yù)測,以及最近很火的MoCo 等等。

          當(dāng)然還有其他分類方法,比如根據(jù)數(shù)據(jù)也可以分為 video / image / language 的自監(jiān)督學(xué)習(xí)。本文主要討論 image 上的自監(jiān)督學(xué)習(xí)。

          判斷一個工作是否屬于自監(jiān)督學(xué)習(xí),除了無需人工標(biāo)注這個標(biāo)準(zhǔn)之外,還有一個重要標(biāo)準(zhǔn),就是是否學(xué)到了新的知識。

          舉個簡單的例子,例如 image inpainting 是否屬于自監(jiān)督學(xué)習(xí)?

          如果一篇 image inpainting 的論文,其主要目的是提升 inpainting 的效果,那么它就不屬于自監(jiān)督學(xué)習(xí),雖然它無需額外標(biāo)注。

          但是如果它的目的是借助 inpainting 這個任務(wù)來學(xué)習(xí)圖像的特征表達(dá),那么它就是自監(jiān)督學(xué)習(xí)(參考論文:Context Encoders [1])。

          如下圖,以自監(jiān)督表征學(xué)習(xí)為例,我們通常需要設(shè)計(jì)一個自監(jiān)督的 proxy task,我們期望在解決這個 proxy task 的過程中,CNN 能學(xué)到一些圖像高級的語義信息。然后我們將訓(xùn)練好的 CNN 遷移到其他目標(biāo)任務(wù),例如圖像語義分割、物體檢測等等。

          圖2,典型的自監(jiān)督表征學(xué)習(xí)流程

          那么,自監(jiān)督的 proxy task 有哪些呢?如下圖舉了一些有代表性的例子,第一行中的思路是將圖像以某種方式破壞,然后用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)恢復(fù)原圖的過程,期望在此過程中能學(xué)到一些圖像語義信息。然而,將圖像破壞,可能帶來預(yù)訓(xùn)練的 domain 和目標(biāo)任務(wù) domain 不一致的問題。第二行中的 proxy tasks 則代表了無需破壞原圖的自監(jiān)督任務(wù)。第三行中的方法是利用運(yùn)動信息等多模態(tài)信息來學(xué)習(xí)圖像特征。當(dāng)然除了圖中這些例子之外,還有各種各樣其他有趣的自監(jiān)督任務(wù)。

          圖3,自監(jiān)督proxy tasks的例子

          為什么自監(jiān)督學(xué)習(xí)能學(xué)到新信息 ?

          1. 先驗(yàn)

          我們的世界是在嚴(yán)格的物理、生物規(guī)則下運(yùn)行的,那么對這個世界的觀測結(jié)果(圖像)也必然存在一些先驗(yàn)規(guī)律。例如圖像上色任務(wù),就是利用了物體類別和物體顏色分布之間的關(guān)聯(lián);image inpainting,則是利用了物體類別和形狀紋理之間的關(guān)聯(lián);旋轉(zhuǎn)預(yù)測任務(wù),利用了物體類別和其朝向之間的關(guān)聯(lián)。通過挖掘更多的先驗(yàn),我們也能設(shè)計(jì)自己的自監(jiān)督學(xué)習(xí)任務(wù)。

          那么什么樣的先驗(yàn)更有效呢?結(jié)論是,低熵的先驗(yàn)。如下圖,左邊的運(yùn)動預(yù)測任務(wù)(ICCV 2015: Dense Optical Flow Prediction From a Static Image [2]) ,是從單張圖片中直接預(yù)測運(yùn)動場,其利用的先驗(yàn)是物體的運(yùn)動傾向性。而運(yùn)動傾向性是比較歧義的,例如人在半蹲狀態(tài),難以預(yù)測下一時刻會站起來還是繼續(xù)下蹲。

          因而,運(yùn)動傾向性是一個高熵的先驗(yàn)。而右圖的運(yùn)動傳播任務(wù)(CVPR 2019: Self-Supervised Learning via Conditional Motion Propagation [3]),從給定的稀疏運(yùn)動來恢復(fù)完整運(yùn)動場,利用的則是物體的運(yùn)動學(xué)屬性先驗(yàn)。運(yùn)動學(xué)屬性,例如頭部是剛體,四肢是鉸接體等,是較為確定的先驗(yàn),那么這就是一個低熵的先驗(yàn)。從實(shí)驗(yàn)結(jié)果也可以發(fā)現(xiàn),在transfer到分割任務(wù)上,運(yùn)動傳播比運(yùn)動預(yù)測更好。

          圖4,運(yùn)動預(yù)測和運(yùn)動傳播的對比

          2. 連貫性
          圖片具有空間連貫性,視頻具有時空連貫性。那么就可以利用這些特點(diǎn)來設(shè)計(jì)自監(jiān)督任務(wù)。如下圖,Solving Jigsaw Puzzles [4] 利用圖片中物體空間上的語義連貫性,Temporal order verification [5]任務(wù)利用了視頻中物體運(yùn)動的時間連貫性。
          圖五,利用數(shù)據(jù)空間、時間連貫性的自監(jiān)督任務(wù)

          3. 數(shù)據(jù)內(nèi)部結(jié)構(gòu)

          目前很火的基于contrastive learning的方法,包括NPID, MoCo, SimCLR等,我們可以將它們統(tǒng)一為instance discrimination [6]任務(wù)。如下圖,這類任務(wù)通常對圖片做各種變換,然后優(yōu)化目標(biāo)是同一張圖片的不同變換在特征空間中盡量接近,不同圖片在特征空間中盡量遠(yuǎn)離。

          圖6,instance discrimination任務(wù)

          對于這類任務(wù),下圖假設(shè)了兩種可能的優(yōu)化后的特征空間。這兩種結(jié)果都是符合instance discrimination優(yōu)化目標(biāo)的,即同一張圖片的不同變換在特征空間中盡量接近,不同圖片在特征空間中盡量遠(yuǎn)離。

          然而,我們發(fā)現(xiàn),實(shí)際的優(yōu)化結(jié)果更偏向于第二種而非第一種,也就是說,雖然我們在解決instance discrimination的過程中并沒有用的物體的類別標(biāo)簽,但是在優(yōu)化后的特征空間中,同類的物體還是相對能夠靠攏。

          這就證明了,數(shù)據(jù)之間是具有結(jié)構(gòu)性和關(guān)聯(lián)性的。Instance discrimination則是巧妙地利用了這種結(jié)構(gòu)性和關(guān)聯(lián)性。類似地,最近的BYOL [7]也可能是利用了數(shù)據(jù)在特征空間中的分布結(jié)構(gòu)特點(diǎn)來拋棄負(fù)樣本對(個人理解)。

          圖7,instance discrimination的兩種可能的優(yōu)化后的特征空間

          設(shè)計(jì)一個自監(jiān)督學(xué)習(xí)任務(wù)還需要考慮什么?

          1. 捷徑(shortcuts)

          以 jigsaw puzzles 為例,如下圖,如果我們讓劃分的 patch 之間緊密挨著,那么神經(jīng)網(wǎng)絡(luò)只需要判斷 patch 的邊緣是否具有連續(xù)性,就可以判斷 patch 的相對位置,而不需要學(xué)到高級的物體語義信息。這就是一種捷徑,我們在設(shè)計(jì)任務(wù)的過程中需要避免這樣的捷徑。

          圖8,解決jigsaw puzzles時,patch之間不能緊密挨著

          對于這種捷徑,處理的方式也很簡單,我們只需要讓patch之間產(chǎn)生一些隨機(jī)的間隔就行,如下圖。

          圖9,讓patch之間產(chǎn)生隨機(jī)間隔

          Solving jigsaw puzzles的其他捷徑還包括色差、彗差、畸變、暗角等可以指示patch在圖像中的相對位置的信息。解決方案除了想辦法消除這些畸變外,還可以讓patch盡量靠近圖像中心。

          圖10,色差、彗差、畸變、暗角等可利用的捷徑

          2. 歧義性(Ambiguity)

          大多數(shù)利用先驗(yàn)來設(shè)計(jì)的自監(jiān)督任務(wù)都會面臨歧義性問題。

          例如 colorization 中,一種物體的顏色可能是多種多樣的,那么從灰度圖恢復(fù)顏色這個過程就具有 ambiguity ;再例如在 rotation prediction 中,有的物體并沒有一個通常的朝向(例如俯拍放在桌上的圓盤子)。

          有不少已有工作在專門解決特定任務(wù)的歧義性問題,例如 CVPR 2019 的 Self-Supervised Representation Learning by Rotation Feature Decoupling。
          另外就是設(shè)計(jì)低熵的先驗(yàn),因?yàn)榈挽氐南闰?yàn)也具有較低的歧義性。

          3. 任務(wù)難度

          圖11,solving jigsaw puzzles中的不同難度

          神經(jīng)網(wǎng)絡(luò)就像一個小孩,如果給他太簡單的任務(wù),他學(xué)不到有用的知識,如果給他太難的任務(wù),他可能直接就放棄了。設(shè)計(jì)合理的難度也是一個需要考慮的方面。

          展望

          我們的世界是在嚴(yán)格的物理學(xué)、化學(xué)、生物學(xué)規(guī)則下運(yùn)行的,視覺信號是這些內(nèi)在規(guī)則的外在反映,而深度學(xué)習(xí),正好非常擅長處理高維的視覺信號。
          所以,無監(jiān)督、自監(jiān)督學(xué)習(xí)的存在和發(fā)展是必然的,因?yàn)槭澜绫旧砭褪怯行虻摹⒌挽氐模@使得數(shù)據(jù)本身就已經(jīng)包含了豐富的信息。
          自監(jiān)督學(xué)習(xí)看似神奇,但理解了其本質(zhì)之后,也就會覺得是情理之中了。當(dāng)然,目前學(xué)術(shù)界對自監(jiān)督學(xué)習(xí)的理解程度,可能也只是九牛一毛而已。未來會走向什么方向,誰也說不準(zhǔn)。
          目前是基于數(shù)據(jù)之間的結(jié)構(gòu)的instance discrimination處于state-of-the-art,未來,基于priors的方法更勝一籌也是有可能的。
          所以,千萬不要受限于一類方法,不要讓自監(jiān)督學(xué)習(xí)變成了調(diào)參游戲,自監(jiān)督領(lǐng)域的想象空間其實(shí)非常大。
          最后,這個總結(jié)主要基于自己的思考,也許不一定非常到位,權(quán)當(dāng)拋磚引玉。希望大家都能夠設(shè)計(jì)出有趣又有用的自監(jiān)督學(xué)習(xí)任務(wù),為這個領(lǐng)域添磚加瓦。
          本文已由原作者授權(quán),不得擅自二次轉(zhuǎn)載。
          https://zhuanlan.zhihu.com/p/150224914
          References:
          1. Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting."Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

          2. Walker, Jacob, Abhinav Gupta, and Martial Hebert. "Dense optical flow prediction from a static image."Proceedings of the IEEE International Conference on Computer Vision. 2015.

          3. Noroozi, Mehdi, and Paolo Favaro. "Unsupervised learning of visual representations by solving jigsaw puzzles."European Conference on Computer Vision. Springer, Cham, 2016.

          4. Misra, Ishan, C. Lawrence Zitnick, and Martial Hebert. "Shuffle and learn: unsupervised learning using temporal order verification."European Conference on Computer Vision. Springer, Cham, 2016.

          5. Wu, Zhirong, et al. "Unsupervised feature learning via non-parametric instance discrimination."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

          6. Grill, Jean-Bastien, et al. "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning."arXiv preprint arXiv:2006.07733(2020).


          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目31講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目31講即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個基于OpenCV實(shí)現(xiàn)20個實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          下載4:leetcode算法開源書
          小白學(xué)視覺公眾號后臺回復(fù):leetcode即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!





          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


              
            瀏覽 82
            點(diǎn)贊
            評論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評論
            圖片
            表情
            推薦
            點(diǎn)贊
            評論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    亚洲涩网 | av资源站| 欧美怡红院视频一区二区三区 | A片免费看视频 | 国产区视频播放 |