<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一個框架統(tǒng)一Siamese自監(jiān)督學習,清華、商湯提出簡潔、有效梯度形...

          共 5164字,需瀏覽 11分鐘

           ·

          2022-03-17 13:40

          點擊上方“邁微AI研習社”,選擇“星標★”公眾號

          重磅干貨,第一時間送達


          來自清華大學、商湯科技等機構的研究者們提出一種簡潔而有效的梯度形式——UniGrad,不需要復雜的 memory bank 或者 predictor 網絡設計,也能給出 SOTA 的性能表現(xiàn)。


          當下,自監(jiān)督學習在無需人工標注的情況下展示出強大的視覺特征提取能力,在多個下游視覺任務上都取得了超過監(jiān)督學習的性能,這種學習范式也因此被人們廣泛關注。?在這股熱潮中,各式各樣的自監(jiān)督學習方法不斷涌現(xiàn),雖然它們大多都采取了孿生網絡的架構,但是解決問題的角度卻差異巨大,這些方法大致可以分為三類:以 MoCo、SimCLR 為代表的對比學習方法,以 BYOL、SimSiam 為代表的非對稱網絡方法,和以 Barlow Twins、VICReg 為代表的特征解耦方法。這些方法在對待如何學習特征表示這個問題上思路迥異,同時由于實際實現(xiàn)時采用了不同的網絡結構和訓練設置,研究者們也無法公平地對比它們的性能。?因此,人們自然會產生一些問題:這些方法之間是否存在一些聯(lián)系?它們背后的工作機理又有什么關系?更進一步的,具體是什么因素會導致不同方法之間的性能差異??為此,來自清華大學、商湯科技等機構的研究者們提出一個統(tǒng)一的框架來解釋這些方法。相較于直接去比較它們的損失函數,他們從梯度分析的角度出發(fā),發(fā)現(xiàn)這些方法都具有非常相似的梯度結構,這個梯度由三部分組成:正梯度、負梯度和一個平衡系數。其中,正負梯度的作用和對比學習中的正負樣本非常相似,這表明之前提到的三類方法的工作機理其實大同小異。更進一步,由于梯度的具體形式存在差異,研究者通過詳細的對比實驗分析了它們帶來的影響。結果表明,梯度的具體形式對性能的影響非常小,而關鍵因素在于 momentum encoder 的使用。

          c519dafe2384bfc57eb894cfb00698bf.webp


          論文鏈接:https://arxiv.org/pdf/2112.05141.pdf
          在這個統(tǒng)一框架的基礎上,研究者們提出了一種簡潔而有效的梯度形式——UniGrad。UniGrad 不需要復雜的 memory bank 或者 predictor 網絡設計,也能給出 SOTA 的性能表現(xiàn)。在多個下游任務中,UniGrad 都取得了不錯的遷移性能,而且可以非常簡單地加入其它增強技巧來進一步提升性能。

          0bf8869b1ab92d564c7aca80f0eb993e.webp

          圖 1 三類自監(jiān)督方法與 UniGrad 的對比?統(tǒng)一框架
          本節(jié)將分析不同方法的梯度形式,首先給出三類方法各自的梯度形式,然后歸納其中的共性結構。從梯度的角度讀者也可以更好地理解不同類型的方法是如何工作的。為了方便表述,作者用u表示當前樣本特征, v表示其它樣本特征,添加下標 ,16b21a670393fe519c3e4b55801ba4b5.webp表示不同的 augmented view,添加上標 ,a1f5ce9ac788531f3ebcc298e827d43d.webp表示孿生網絡中 online 或者 target 分支產生的特征。?對比學習方法
          對比學習方法希望當前樣本?d1f83e72b679e907a525ef638314d70c.webp拉近與正樣本?a155441ffa089b01c7856f6b55952ea2.webp的距離,提升與負樣本?287d0781f3e5bd321e3a1f57c3a24fcf.webp的距離,一般會使用以下的 InfoNCE Loss:


          2ede39f53bc2b33b7482c5911105fa14.webp


          具體實現(xiàn)時,兩類代表性方法 MoCo 和 SimCLR 有許多差異:MoCo 使用了 momentum encoder 作為 target branch 的編碼器,而 SimCLR 讓 target branch 與 online branch 共享參數;MoCo 使用 memory bank 來存儲負樣本,而 SimCLR 使用當前 batch 中其它樣本作為負樣本。?通過對 SimCLR 梯度的略微化簡(關閉 target branch 的梯度反傳,不會影響最終性能),對比學習方法的梯度可以統(tǒng)一成下面的形式:

          705d1860e8267e1f5e653a90b60152d3.webp


          在這個式子中,64532765a169cb1d75e76fa44c1340f3.webp的作用是將正樣本拉近,fc678feba3dad3680e19e8ec47b78370.webp的作用是將負樣本推離,因此作者將這兩項分別稱為正梯度和負梯度。?非對稱網絡方法
          非對稱網絡方法只使用正樣本來學習特征,并且通過非對稱網絡的設計來避免平凡解。這類方法一般會在 online branch 后增加一個 predictor 網絡17c802c88cb9da1cfb8d18356065ff66.webp,同時關閉 target branch 的梯度反傳,最終使用下面的損失函數

          e01ed773133ba34a8849625ccb8a3338.webp


          這類方法中,作為代表的 BYOL 和 SimSiam 非常相似,唯一的差異就是是否使用 momentum encoder。雖然這類方法表現(xiàn)出非常優(yōu)異的性能,人們對它們的工作原理卻所知甚少。最近 DirectPred 這篇文章從網絡優(yōu)化的動態(tài)過程出發(fā)對它們做了初步的解釋,這篇工作觀察到 predictor 網絡的特征空間會逐漸與特征的相關性矩陣的特征空間對齊,基于此,DirectPred 提出了 predictor 網絡的一種解析解。在此工作的基礎上,作者進一步展示出非對稱網絡方法與其它方法的聯(lián)系,特別地,它們的梯度可以推導為

          82258f470e6d3927cd9b2f1a042b611d.webp


          其中?86487b7b7c91ca71e4a1dc233658d89a.webp是 predictor 網絡的解析解。可以看到,上式同樣主要有兩個部分:21f7d87f7652bb24b437768257c32ec1.webp是正梯度,c9310d4c88482f08e525a924d1fd5027.webp是負梯度。?粗看起來這個結果非常反直覺:損失函數中沒有使用負樣本,但是梯度中卻出現(xiàn)了負梯度。實際上,這些負樣本來自于 predictor 在優(yōu)化過程中學習到的信息。根據 DirectPred 的結論,predictor 的特征空間會和相關性矩陣的特征空間逐漸對齊,因此 predictor 在訓練過程中很可能會將相關性矩陣的信息編碼到網絡參數中,在反傳時,這些信息就會以負樣本的形式出現(xiàn)在梯度中。?特征解耦方法
          特征解耦方法旨在減小各特征維度之間的相關性來避免平凡解。由于不同工作采用的損失函數在形式上差異很大,作者對它們分別進行討論。?Barlow Twins 采取如下?lián)p失函數:

          ead0ca6fee5aacb92a34b27e8598f85d.webp


          其中?f2c47ffc545e421c2742e438a7796739.webp是兩個 augmented view 之間的相關性矩陣。該損失函數希望相關性矩陣上的對角線元素接近 1,而非對角線元素接近 0。?該損失函數的梯度形式為:

          77b824682f9a27b0966988e5fbdef642.webp


          作者首先將第一項替換為407ea53059ec43c9c538fb6d1ce22f25.webp?,同時,原始的 Barlow Twins 對特征采取了 batch normalization,作者將其替換為?57c906327177544b7b2343c9cfc98e0a.webpnormalization,這些變換都不會影響到最終性能。?VICReg 在 Barlow Twins 的基礎上做了一些改動,為了去掉加在特征上的 batch normalization,它采取了如下?lián)p失函數:

          f814b2f4f9307a5c0b2aa4a85d63170e.webp

          ?其對應的梯度形式為

          805424740358bf61da7d5db453a4fe95.webp


          通過對特征施加f2e290ac9d1645fabaeb1cd3a2ad25b7.webp? normalization,作者可以去掉最后一項而不影響其性能。這樣,特征解耦方法的梯度形式就能統(tǒng)一為:

          a0b029d00bed933b286082e42732da03.webp

          ?該梯度形式依然包含兩項:7ea33acb47347e1d70c9e9c9b8361cc0.webp是正梯度,8aebe083174c117cc22306677e34a7f2.webp組成負梯度,它們分別來自相關性矩陣中的對角線和非對角線元素。因此,特征解耦方法本質上和其它兩類方法非常相似,它們只是在損失函數中將正負樣本用不同的形式組合起來了。
          統(tǒng)一形式
          對比以上三類方法的梯度形式,作者發(fā)現(xiàn)它們都具有相似的結構:

          6bf6f38de99a53316c8a71fdbc75e1b6.webp


          其中,add1e1e6734f00f8efcceb2c5f40c4d3.webp對應正樣本的特征,bfed9539b332b98fdda1956b5fe1f220.webp是負樣本特征的加權平均,b3c56583062990c3bf8ed0c8a4b1f7ae.webp是平衡兩者的系數,這種相似的結構說明三類方法的工作機理非常接近。
          性能對比
          盡管結構相似,不同方法的具體梯度形式依然存在區(qū)別,而且 target branch 的類型、負樣本集合的構成也都不一樣,本節(jié)將通過對比實驗來探究對最終性能的主要影響因素。?梯度形式
          為了方便對比,作者首先在各類方法內部進行化簡和對比,最終再對比不同方法。完整的實驗結果如表 1 所示。

          8fc72d6fb09f11e624615da42f9e183b.webp

          表 1 不同類型方法性能比較?表 1(ab) 展示了對比學習方法的結果。為了保持公平比較,SimCLR 采用了 momentum encoder,在這樣的情況下表現(xiàn)出了和 MoCo 相同的性能。在這里,SimCLR 只用了當前 batch 作為負樣本集合,MoCo 采用了 memory bank 作為負樣本集合,這說明在合適的訓練設置下,大量的負樣本并不是必須的。?表 1(c-e) 展示了非對稱網絡方法的結果。由于帶有 momentum encoder 的 SimSiam 就是 BYOL,這里只展示了 BYOL 的結果。表 1(cd) 分別是原始的 BYOL 和 DirectPred 形式的 BYOL,兩者的性能相當,這也和 DirectPred 的結論一致。表 1(e) 將正樣本梯度中的?45bd661f7f2453e889c17d10de3511ea.webp替換為單位陣而沒有影響性能,因此,非對稱網絡方法的梯度形式可以統(tǒng)一成表 1(e) 中的形式。?表 1(f-j) 展示了特征解耦方法的結果。對 Barlow Twins 來說,表 1(g) 將正梯度中的矩陣 A 替換為單位陣,表 1(h) 將特征的 batch normalization 替換為?9c2a16ebfc0c9296a958a2a3a9bb7d18.webpnormalization,這些替換都不會導致性能下降;對 VICReg 來說,表 1(j) 去掉梯度中最后一項,同時加上?82c559d70d2c2fe4fc5d3e521bd41d8a.webpnormalization,這對性能幾乎沒有影響。最后,比較表 1(hj),它們唯一的差異在于負樣本系數的計算方式,但是性能上卻差異很小,所以特征解耦方法的梯度形式可以統(tǒng)一成表 1(j) 中的形式。?最后,作者對比了三類方法的梯度,即表 1(bej) 的結果。在梯度結構中,正梯度的形式已經統(tǒng)一,平衡系數會通過搜索保持最優(yōu),唯一的差異就是負梯度形式,實驗結果表明不同的負梯度形式性能非常接近。還值得注意的是,表 1(ej) 的負樣本形式非常相似,區(qū)別在于表 1(e) 使用了之前所有樣本構成的負樣本集合,表 1(j) 只使用了當前 batch 集合,這也說明了負樣本集合的構建在自監(jiān)督學習中不是最關鍵的因素。?Target Branch 類型
          之前為了公平對比,作者對各類方法都使用了 momentum encoder,現(xiàn)在來研究不同類型的 target branch 對最終結果的影響,實驗結果如表 2 所示。

          f8bf3daa99c8eba632f68f268612b1f7.webp

          表 2 Target branch 類型影響?如果 target branch 采取 stop-gradient 的類型,三類方法都表現(xiàn)出類似的性能,這和之前的結論是一致的;如果 target branch 采取 momentum-encoder 的類型,三類方法都能在之前的基礎上提升大約 2 個點,這說明 momentum encoder 對不同的方法都能帶來提升。?更進一步的,作者觀察到一些方法里只有正梯度利用到了 momentum encoder 的特征,于是他們嘗試對三類方法都只在正梯度中采用 momentum encoder 的特征。實驗結果表明這和全部梯度采用 momentum encoder 具有類似的性能表現(xiàn)。這說明對于自監(jiān)督學習來說,一個緩慢更新的一致的更新目標是非常重要的。
          最終方法
          基于上述的統(tǒng)一框架,作者提出了一種簡潔有效的自監(jiān)督方法(UniGrad):

          ca0e1ad369dce8adf34085e31292551b.webp


          其中?612c9c5e04e0fd471fcb58f98eeb265e.webp是相關性矩陣的滑動平均。UniGrad本質上就是表 1(e) 的梯度形式,這種梯度不需要額外的 memory bank,也不需要設計額外的 projector,實驗表明無論是 linear evaluation 還是 transfer learning,它都能夠取得 SOTA 的實驗性能。?圖 2 從多個衡量指標的角度展示了不同方法的優(yōu)化過程??梢钥吹?,不同方法的優(yōu)化曲線沒有明顯的差異,這也說明了該方法和之前方法有著類似的工作機制。

          6da767a22b3ace83c337baf5af88f847.webp

          ?表 3 和表 4 展示了 UniGrad 的具體結果。UniGrad 自身能夠取得和之前方法相當的性能,并且能夠簡單地將之前的數據增強方式融合進來,進一步提升性能。在更長輪數的訓練中,UniGrad 也能取得不錯的性能。

          f18537d459c7784b81a5ff88237900ee.webp

          表 3 UniGrad 與數據增強方法結合的性能

          292e00c7b4ec0f25b872615b49161977.webp

          表 4 長輪數下與之前方法的對比

          更多細節(jié)可參考論文原文,更多精彩內容請關注邁微AI研習社,每天晚上七點不見不散!


          ??THE END?

          投稿或尋求報道微信:MaiweiE_com



          GitHub中文開源項目《計算機視覺實戰(zhàn)演練:算法與應用》,“免費”“全面“”前沿”,以實戰(zhàn)為主,編寫詳細的文檔、可在線運行的notebook和源代碼。


          b77b15c654de5dbd3ee62417e3790301.webp


          • 項目地址?https://github.com/Charmve/computer-vision-in-action

          • 項目主頁?https://charmve.github.io/L0CV-web/




          推薦閱讀

          (更多“摳圖”最新成果)

          邁微AI研習社

          微信號: MaiweiE_com

          GitHub:?@Charmve

          CSDN、知乎: @Charmve

          投稿: [email protected]

          主頁: github.com/Charmve


          如果覺得有用,就請點贊、轉發(fā)吧!

          瀏覽 62
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美中文字幕第一页 | 日韩日批网站 | 国产免费一区二区三区四区午夜视频 | 影音先锋每日资源啪啪AV | 中文字幕在线免费观看 |