<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          斯坦福李飛飛團隊新作:刷榜視覺自監(jiān)督

          共 6638字,需瀏覽 14分鐘

           ·

          2023-06-05 19:14

          僅作學術(shù)分享,不代表本公眾號立場,侵權(quán)聯(lián)系刪除
          轉(zhuǎn)載于:新智元

          在計算機視覺領(lǐng)域,想要建立圖像和場景(scene)之間之間的對應(yīng)關(guān)系是一項比較困難的任務(wù),尤其是在存在遮擋、視角改變或是物體外觀發(fā)生變化的情況下。


          最近,斯坦福大學李飛飛團隊對MAE進行擴展,提出了孿生掩碼自編碼器SiamMAE(Siamese Masked Autoencoders)以學習視頻中的視覺對應(yīng)關(guān)系。


          2d1a222a196a55226a13d7a596386967.webp

          論文鏈接: https://siam-mae-video.github.io/resources/paper.pdf


          先隨機采樣兩個視頻幀,并進行非對稱掩碼操作;然后SiamMAE編碼器網(wǎng)絡(luò)對兩個幀進行獨立處理,最后使用交叉注意層組成的解碼器來預測未來幀(future frame)中丟失的圖像塊。


          通過對未來幀中的大部分(95%)圖像塊進行掩碼,同時保持過去幀(past frame)圖像不變,Sia mMAE促使網(wǎng)絡(luò)專注于物體運動,并學習以物體為中心的表征。


          d4ab7b903a5807585d1af25878f76d67.webp


          盡管整個網(wǎng)絡(luò)的設(shè)計概念比較簡單,但通過SiamMAE學習到的特征在視頻物體分割、姿勢關(guān)鍵點傳播和語義部分傳播任務(wù)上都優(yōu)于最先進的自監(jiān)督方法。


          SiamMAE在不依賴于數(shù)據(jù)增強、基于手工跟蹤的前置任務(wù)或其他技術(shù)來防止表征崩潰的情況下,實現(xiàn)了非常有競爭力的性能。


          孿生掩碼自編碼器


          研究人員的目標是開發(fā)一種自監(jiān)督的方法來學習對應(yīng)關(guān)系,主要是將掩碼自編碼器(MAE)模型擴展到視頻數(shù)據(jù)中。


          987dea51dce6816cf17426bcda6f647c.webp


          Patchify


          給定具有L幀的視頻剪輯,首先隨機采樣兩個視頻幀,兩幀之間的距離通過從預定的potential frame gaps范圍中選擇一個隨機值來確定。


          與原始ViT模型類似,通過將每個幀轉(zhuǎn)換為一系列不重疊的N×N個patch來拼接視頻幀。


          最后,把位置嵌入加到線性投影上,并附加一個[CLS]標記,需要注意的是沒有使用時序位置嵌入。


          Masking


          像圖像和視頻這樣的自然信號是高度冗余的,分別表現(xiàn)為空間和時空上的冗余。

          為了創(chuàng)造一個具有挑戰(zhàn)性的預測性自監(jiān)督學習任務(wù),MAEs隨機掩碼了75%的圖像patch,視頻數(shù)據(jù)的掩碼率提升到90%,并且對每幀都使用相同的掩碼率。


          這種設(shè)計可以使網(wǎng)絡(luò)無法利用和學習到時間上的對應(yīng)關(guān)系,避免在對應(yīng)關(guān)系學習基準上達到次優(yōu)性能。


          研究人員認為,不對稱的掩碼可以創(chuàng)造一個更有挑戰(zhàn)性的自監(jiān)督學習任務(wù),并且可以鼓勵網(wǎng)絡(luò)學習時間上的相關(guān)性。


          所以對于采樣的兩個視頻幀,對第一幀選擇不掩碼,對第二幀選擇掩碼95%,這樣就可以將整個過去幀(entire past frame)作為輸入,網(wǎng)絡(luò)只需要將其擴散到未來中的適當位置即可,可以促進網(wǎng)絡(luò)對物體運動進行建模并關(guān)注物體的邊界。


          a64a3c2c41e3e9d1bb8f3bccb63aa3f2.webp


          為了進一步增加任務(wù)的難度,兩個視頻幀之間具有更大的時間間隔,盡管可能會導致對未來的預測變得模糊,并可能產(chǎn)生多種合理的結(jié)果,但為第二幀提供少量的patch作為輸入,可以讓網(wǎng)絡(luò)的自監(jiān)督學習變得更困難。


          編碼器


          研究人員探索了兩種不同的編碼器配置來處理輸入幀。


          聯(lián)合編碼器(joint encoder) 是圖像MAEs在一對視頻幀上的擴展,把兩幀未掩碼的圖像patch串聯(lián)起來,然后輸入到標準的ViT編碼器中進行處理。


          孿生編碼器(siamese encoder) 是用于比較實體的權(quán)重共享神經(jīng)網(wǎng)絡(luò),是對比表征學習方法的一個重要組件,用于對應(yīng)學習(corresponding learning)時通常需要一些信息瓶頸來防止網(wǎng)絡(luò)學習的解決方案,如使用顏色通道dropout來迫使網(wǎng)絡(luò)避免依賴顏色來匹配對應(yīng)關(guān)系。


          在這篇論文中,研究人員使用孿生編碼器來獨立處理兩幅圖像,使用非對稱掩碼作為信息瓶頸。


          解碼器


          編碼器的輸出通過線性層進行投影,并加入帶有位置嵌入的[MASK] token,以生成對應(yīng)于輸入幀的所有token


          研究人員探索了三種不同的解碼器配置:


          聯(lián)合解碼器(joint decoder) 在兩幀的token串聯(lián)上使用原版Transformer模塊,其主要缺點是對GPU內(nèi)存的需求大幅增加,特別是在使用較小的patch尺寸時。


          交叉自解碼器(cross-self decoder) 與原版Transformer模型的編碼-解碼器設(shè)計類似,每個解碼器塊由一個交叉注意力層和一個自注意力層組成,來自第二幀的token通過交叉注意力層與第一幀的token進行注意力操作,然后通過自注意力層進行相互融合。


          可以注意到,交叉注意力層在功能上類似于自監(jiān)督對應(yīng)學習方法中經(jīng)常使用的affinity矩陣。


          交叉解碼器(cross decoder) 由交叉注意力層的解碼器塊組成,其中來自第二幀的token與來自第一幀的token進行注意力操作。


          最后,解碼器的輸出序列被用來預測掩碼圖像塊中的歸一化像素值,在解碼器的預測和真實值之間使用L2損失。


          實驗結(jié)果


          c121ae331f62eea648cd575d9a0c30eb.webp


          視頻物體分割


          在多物體分割基準數(shù)據(jù)集DAVIS 2017上,使用480p分辨率的圖像對模型進行評估。


          實驗結(jié)果可以發(fā)現(xiàn)SiamMAE明顯優(yōu)于VideoMAE(從39.3%提升到62.0%),研究人員將其歸因于VideoMAE中使用了tube掩碼方案,使得模型無法學習時間上的對應(yīng)關(guān)系。


          76393a7e6347f6a7726abda80f8b2545.webp


          與DINO類似,研究人員也發(fā)現(xiàn)降低patch的尺寸會帶來明顯的性能提升。


          并且文中使用的ViT-S/8(+9.4%)模型優(yōu)于之前所有的對比學習和自監(jiān)督的對應(yīng)學習方法。


          9b6f498d94d778556f733ef41ad1a2c8.webp


          還可以注意到盡管較大的MAE-ST模型(ViT-L/16,304M參數(shù))在隨機掩碼的情況下比VideoMAE表現(xiàn)更好,但其性能仍然落后于SiamMAE相當多。


          而且在視頻上訓練的MAE與圖像MAE的表現(xiàn)相似,視頻與圖像的不同之處在于,圖像是(近似)各向同性的,時間維度是特殊的,并不是所有的時空方向都是同等可能的。


          因此,對稱地處理空間和時間信息可能是次優(yōu)的。


          視頻部分分割(Video Part Segmentation)


          在視頻實例解析(Video Instance Parsing, VIP)基準上對SiamMAE進行評估,該基準包括為20個不同的人體部位傳播語義掩碼。


          與評估的其他數(shù)據(jù)集相比,VIP特別具有挑戰(zhàn)性,因為包括更長的視頻(最長120秒)。


          與先前工作類似,使用560×560的圖像和單一背景幀進行評估后,可以發(fā)現(xiàn)ViT-S/8模型性能大大超越了DINO (從39.5提升到45.9)。


          21a15e9de28a1f834d6fdd6061050a01.webp


          SiamMAE從更小的patch尺寸中,比DINO受益更多,實現(xiàn)了+8.6的mIoU評分,比DINO的+3.3 mIoU有所提高。


          SiamMAE也優(yōu)于之前所有的對比學習和自監(jiān)督的對應(yīng)關(guān)系學習方法。


          姿勢追蹤(pose tracking)


          在關(guān)鍵點傳播的任務(wù)上對SiamMAE進行了評估,需要傳播15個關(guān)鍵點,并且要求空間上的精確對應(yīng)關(guān)系,使用320×320的圖像和一個單一的背景幀, SiamMAE的性能優(yōu)于所有其他模型,并且比DINO更受益于較小的patch尺寸(+14.9到+10.9 [email protected]


          154ec268f70e3c38b1d093439097f23c.webp


          瀏覽 77
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天干天天二 | 天天舔天天日 | 最新操碰 | 欧美np | 中文在线a天堂 |