<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR 2022 |?視頻Transformer自監(jiān)督預(yù)訓(xùn)練新范式,復(fù)旦、微軟云AI實(shí)現(xiàn)視頻識(shí)別新SOTA

          共 6264字,需瀏覽 13分鐘

           ·

          2022-04-27 17:13

          點(diǎn)擊下方AI算法與圖像處理”,一起進(jìn)步!

          重磅干貨,第一時(shí)間送達(dá)

          來(lái)源:機(jī)器之心編輯部

          復(fù)旦大學(xué)、微軟 Cloud+AI 的研究者將視頻表征學(xué)習(xí)解耦為空間信息表征學(xué)習(xí)和時(shí)間動(dòng)態(tài)信息表征學(xué)習(xí),提出了首個(gè)視頻 Transformer 的 BERT 預(yù)訓(xùn)練方法 BEVT。該研究已被 CVPR 2022 接收。

          在自然語(yǔ)言處理領(lǐng)域,采用掩碼預(yù)測(cè)方式的 BERT 預(yù)訓(xùn)練助力 Transformer 在各項(xiàng)任務(wù)上取得了巨大成功。近期,因?yàn)?Transformer 在圖像識(shí)別、物體檢測(cè)、語(yǔ)義分割等多個(gè)計(jì)算機(jī)視覺(jué)任務(wù)上取得的顯著進(jìn)展,研究人員嘗試將掩碼預(yù)測(cè)預(yù)訓(xùn)練引入到圖像領(lǐng)域,通過(guò)預(yù)測(cè)被掩碼圖像塊的離散視覺(jué) token 或像素值實(shí)現(xiàn)圖像表征學(xué)習(xí)。然而,目前還鮮有研究探索視頻 Transformer 的 BERT 預(yù)訓(xùn)練方法。

          不同于靜態(tài)圖像,除了空間先驗(yàn)信息,視頻中包含著運(yùn)動(dòng)、物體間交互等豐富的動(dòng)態(tài)信息,因此相比于圖像表示學(xué)習(xí),視頻表征學(xué)習(xí)更為復(fù)雜、困難。現(xiàn)有的視頻 Transformer 往往依賴大規(guī)模靜態(tài)圖像數(shù)據(jù)(如 ImageNet)上預(yù)訓(xùn)練的權(quán)重,并沒(méi)有考慮在視頻數(shù)據(jù)集上通過(guò)自監(jiān)督方法學(xué)習(xí)時(shí)間動(dòng)態(tài)信息。為了在下游視頻理解任務(wù)上取得良好的性能,視頻 Transformer 需要同時(shí)學(xué)習(xí)空間先驗(yàn)信息和時(shí)間動(dòng)態(tài)信息。

          基于上述觀點(diǎn),來(lái)自復(fù)旦大學(xué)、微軟 Cloud+AI 的研究者將視頻表征學(xué)習(xí)解耦為空間信息表征學(xué)習(xí)和時(shí)間動(dòng)態(tài)信息表征學(xué)習(xí),提出了首個(gè)視頻 Transformer 的 BERT 預(yù)訓(xùn)練方法 BEVT。

          BEVT 是由圖像通路和視頻通路組成的雙路聯(lián)合自監(jiān)督預(yù)訓(xùn)練框架。圖像通路通過(guò)預(yù)測(cè)被掩碼圖像塊的離散視覺(jué) token 來(lái)學(xué)習(xí)空間建模,視頻通路通過(guò)預(yù)測(cè)被掩碼三維視頻通道的離散視覺(jué) token 來(lái)學(xué)習(xí)時(shí)間建模,而通過(guò)模型參數(shù)共享實(shí)現(xiàn)的雙路聯(lián)合預(yù)訓(xùn)練則使得視頻 Transformer 模型能夠高效地同時(shí)學(xué)習(xí)到上述兩種能力。經(jīng)過(guò) ImageNet-1K 和 Kinetics-400 上的圖像 - 視頻聯(lián)合自監(jiān)督預(yù)訓(xùn)練后,使用 VideoSwin-Base 主干的 BEVT 在遷移到多種視頻理解下游任務(wù)上時(shí)都取得了優(yōu)于全監(jiān)督預(yù)訓(xùn)練、對(duì)比學(xué)習(xí)預(yù)訓(xùn)練和單流預(yù)訓(xùn)練的結(jié)果;其中在 Something-Something-v2 和 Diving48 上分別取得了 71.4% 和 87.2% 的 Top-1 準(zhǔn)確率,優(yōu)于許多先進(jìn)的視頻 Transformer 模型。


          • 論文地址:https://arxiv.org/abs/2112.01529

          • 源代碼:https://github.com/xyzforever/BEVT


          方法介紹

          對(duì)于視頻理解任務(wù),不同的視頻之間存在著很大差異,對(duì)不同視頻進(jìn)行類別預(yù)測(cè)所依賴的關(guān)鍵信息(即空間或時(shí)間線索)有著顯著區(qū)別。例如,Kinetics 等數(shù)據(jù)集中的動(dòng)作大多屬于類似 “涂口紅” 這種僅需空間知識(shí)即可完成預(yù)測(cè)的類別,因此使用二維特征就可以在相對(duì)靜態(tài)的 Kinetics 數(shù)據(jù)集上取得較好的性能;而對(duì)于 Something-Something 和 Diving48 等數(shù)據(jù)集,時(shí)間動(dòng)態(tài)信息則更為關(guān)鍵(例如區(qū)分多種細(xì)粒度跳水動(dòng)作)。

          BEVT 的目標(biāo)是通過(guò)自監(jiān)督方法學(xué)習(xí)對(duì)相對(duì)靜態(tài)視頻和動(dòng)態(tài)視頻都有效的視頻表征,從而在遷移到不同視頻數(shù)據(jù)集上時(shí)都能取得良好的性能。這意味著視頻 Transformer 需要同時(shí)學(xué)習(xí)到良好的空間信息表示和時(shí)間動(dòng)態(tài)信息表示。

          BEVT概覽。

          此外,相比于圖像預(yù)訓(xùn)練,在大規(guī)模視頻數(shù)據(jù)集上從頭進(jìn)行預(yù)訓(xùn)練需要消耗大量計(jì)算資源和時(shí)間。因此,為了高效地學(xué)習(xí)在不同視頻上均有效的視頻表征,BEVT 將自監(jiān)督視頻表征學(xué)習(xí)解耦為在圖像數(shù)據(jù)上進(jìn)行的空間表征學(xué)習(xí)和在視頻數(shù)據(jù)上進(jìn)行的時(shí)間動(dòng)態(tài)信息表征學(xué)習(xí)。這兩種表征學(xué)習(xí)具體實(shí)現(xiàn)為一個(gè)同時(shí)在圖像數(shù)據(jù)和視頻數(shù)據(jù)上進(jìn)行聯(lián)合訓(xùn)練的雙路架構(gòu),并分別通過(guò)一種 BERT 的掩碼預(yù)測(cè)自監(jiān)督任務(wù)進(jìn)行訓(xùn)練。

          雙路框架中的自監(jiān)督表征學(xué)習(xí) —— 掩碼圖像建模和掩碼視頻建模

          BEVT 采用 BERT objective,在圖像數(shù)據(jù)和視頻數(shù)據(jù)上分別執(zhí)行掩碼圖像建模任務(wù)(Masked Image Modeling)和掩碼視頻建模任務(wù)(Masked Video Modeling),其中掩碼圖像建模訓(xùn)練視頻 Transformer 學(xué)習(xí)空間先驗(yàn)知識(shí),掩碼視頻建模則幫助視頻 Transformer 學(xué)習(xí)視頻中的時(shí)間動(dòng)態(tài)信息表示。對(duì)于圖像通路,圖像會(huì)被切分為若干 patch 作為輸入 token,而掩碼圖像建模的訓(xùn)練目標(biāo)是從掩碼輸入中恢復(fù)對(duì)應(yīng)的離散視覺(jué) token。對(duì)于視頻通路,類似地,視頻會(huì)被切分為若干 3D patches,掩碼視頻建模的目標(biāo)也是從掩碼三維輸入中恢復(fù)對(duì)應(yīng)的離散視覺(jué) token。根據(jù)圖像 Transformer 預(yù)訓(xùn)練方法 BEiT,BEVT 也使用預(yù)訓(xùn)練的 VQ-VAE 將連續(xù)圖像內(nèi)容轉(zhuǎn)換為離散視覺(jué) token,作為自監(jiān)督預(yù)訓(xùn)練任務(wù)的預(yù)測(cè)目標(biāo)。

          圖像通路和視頻通路采取不同的掩碼策略。對(duì)于掩碼圖像建模任務(wù),使用 blockwise masking 方式。對(duì)于掩碼視頻建模任務(wù),則將 blockwise masking 方式擴(kuò)展為了適用于時(shí)空三維輸入的 tube masking 方式。

          BEVT 模型架構(gòu)

          BEVT 包含了圖像通路和視頻通路,而它們各自包含一個(gè)編碼器 - 解碼器模型架構(gòu)。BEVT 使用 Video Swin Transformer 作為圖像通路和視頻通路的編碼器,進(jìn)行自監(jiān)督表征學(xué)習(xí)。由于 Video Swin Transformer 是從 Swin Transformer 擴(kuò)展而來(lái)的層次化架構(gòu),token 序列組成的特征圖會(huì)在時(shí)空維度上被降采樣。

          為了將 Transformer 所提取的特征圖轉(zhuǎn)換為和 Groundtruth 視覺(jué) token 數(shù)量相匹配的尺寸,研究者還為圖像通路和視頻通路分別設(shè)計(jì)了一個(gè)輕量化解碼器。以視頻通路為例,解碼器先使用反卷積層對(duì) Video Swin stage 4 輸出的特征圖進(jìn)行空間上采樣,然后和 stage 3 輸出的特征圖進(jìn)行特征維度上的拼接;之后使用另一個(gè)反卷積層進(jìn)行時(shí)間上采樣,將特征圖恢復(fù)到合適的尺寸;最后使用一個(gè)線性分類器輸出各個(gè)位置離散視覺(jué) token 的預(yù)測(cè)。圖像通路解碼器的設(shè)計(jì)與之相似,只是移除了時(shí)間上采樣模塊。


          聯(lián)合訓(xùn)練目標(biāo)和訓(xùn)練策略

          在 BEVT 的雙路訓(xùn)練中,掩碼圖像建模和掩碼視頻建模的目標(biāo)都是最大化掩碼位置對(duì)應(yīng)的 Groundtruth 視覺(jué) token 的對(duì)數(shù)似然:




          雙路聯(lián)合預(yù)訓(xùn)練的目標(biāo)為上述兩個(gè)任務(wù)的組合:


          由于在大規(guī)模視頻數(shù)據(jù)上從頭開(kāi)始預(yù)訓(xùn)練視頻 Transformer 十分低效,BEVT 首先在 ImageNet-1K 上自監(jiān)督預(yù)訓(xùn)練圖像通路,使模型學(xué)習(xí)到良好的空間表征;之后再用圖像通路模型初始化視頻通路模型,進(jìn)行雙路聯(lián)合自監(jiān)督訓(xùn)練,其中掩碼圖像建模任務(wù)使 Transformer 模型保留了空間信息表征能力,掩碼視頻建模任務(wù)使模型學(xué)習(xí)如何提取視頻中的時(shí)間動(dòng)態(tài)信息。這種策略不僅使得 BEVT 更加高效,而且使得預(yù)訓(xùn)練得到的模型能夠?qū)Σ煌愋偷囊曨l提取不同的判別性特征。

          圖像 - 視頻雙路框架的 Transformer 權(quán)重共享機(jī)制

          為了使得同一套視頻 Transformer 模型權(quán)重能夠同時(shí)受益于圖像通路和視頻通路預(yù)訓(xùn)練,在雙路聯(lián)合訓(xùn)練時(shí),圖像通路編碼器和視頻通路編碼器將共享絕大部分模型權(quán)重。這種權(quán)重共享機(jī)制的實(shí)現(xiàn)主要得益于 Transformer 模型的良好性質(zhì) —— 自注意力模塊和 FFN 的權(quán)重都與輸入 token 序列的長(zhǎng)度無(wú)關(guān)。

          BEVT 所使用的 Video Swin Transformer 本是用于提取視頻特征的,研究者設(shè)計(jì)了以下策略來(lái)使其權(quán)重能夠用于圖像通路的計(jì)算:

          1. 圖像通路使用 2D patch 劃分方式,而視頻通路使用 3D patch 劃分方式;圖像通路和視頻通路采用獨(dú)立的 patch embedding 層分別將 2D patch 和 3D patch 投影到相同維度。

          2. 對(duì)于圖像通路,將 Video Swin Transformer 自注意力機(jī)制中的 3D shifted local window 轉(zhuǎn)變?yōu)?2D 版本(即 Swin Transformer 中的方式),此時(shí)圖像通路使用三維相對(duì)位置編碼中相對(duì)時(shí)間距離等于 0 的子矩陣作為二維相對(duì)位置編碼,而其他自注意力模塊權(quán)重可以完全共享。權(quán)重共享機(jī)制使得圖像通路和視頻通路的聯(lián)合預(yù)訓(xùn)練能夠真正優(yōu)化一個(gè)近乎統(tǒng)一的 Transformer 編碼器。


          實(shí)驗(yàn)結(jié)果

          在預(yù)訓(xùn)練階段,BEVT 的圖像通路在 ImageNet-1K 數(shù)據(jù)集上進(jìn)行訓(xùn)練,視頻通路在 Kinetics-400 數(shù)據(jù)集上進(jìn)行訓(xùn)練,編碼器采用 Video Swin-Base 作為主干。預(yù)訓(xùn)練得到的 Video Swin Transformer 編碼器將被遷移到多種視頻識(shí)別任務(wù)(Kinetics-400, Something-Something v2 和 Diving48)上進(jìn)行微調(diào)和測(cè)試。

          與不同預(yù)訓(xùn)練方式的比較

          為了說(shuō)明 BEVT 作為視頻 Transformer 預(yù)訓(xùn)練方式的有效性,研究者在多種視頻下游任務(wù)上全面對(duì)比了 ImageNet 全監(jiān)督預(yù)訓(xùn)練(Image Sup),對(duì)比學(xué)習(xí)預(yù)訓(xùn)練(Image CL),圖像通路預(yù)訓(xùn)練(BEVT-I),視頻通路預(yù)訓(xùn)練(BEVT-V)這 4 種 baseline。

          實(shí)驗(yàn)結(jié)果表明,BEVT 在 Something-Something v2 和 Diving48 上都要顯著優(yōu)于全監(jiān)督預(yù)訓(xùn)練(Top-1 準(zhǔn)確率分別高 4.3% 和 2.7%)和對(duì)比學(xué)習(xí)預(yù)訓(xùn)練,而在 Kinetics-400 上則取得了與 2 種 baseline 相當(dāng)?shù)慕Y(jié)果。

          相比于單流預(yù)訓(xùn)練,BEVT 的雙路聯(lián)合預(yù)訓(xùn)練在 3 個(gè)下游任務(wù)上都取得了更好的性能;其中在大規(guī)模視頻數(shù)據(jù)集上從頭進(jìn)行視頻通路預(yù)訓(xùn)練的結(jié)果明顯弱于雙路聯(lián)合預(yù)訓(xùn)練,這進(jìn)一步說(shuō)明了 BEVT 中解耦設(shè)計(jì)和聯(lián)合訓(xùn)練的有效性與高效性。


          數(shù)據(jù)集分析 —— 時(shí)間信息的重要性

          為了進(jìn)一步理解 BEVT 和其他預(yù)訓(xùn)練 Baseline 在不同數(shù)據(jù)集上的遷移性能差異,研究者設(shè)計(jì)實(shí)驗(yàn)探究了 3 種視頻識(shí)別下游任務(wù)對(duì)時(shí)間信息的依賴程度。將 Video Swin Transformer 在三種視頻數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),研究者嘗試通過(guò) 2 種方式將視頻輸入中的時(shí)間信息移除:(1)Single-frame:使用其中 1 個(gè)視頻幀代替視頻片段中其他幀;(2)Random-Shuffling:在時(shí)間維度上隨機(jī)打亂視頻幀輸入順序。

          研究者發(fā)現(xiàn),移除時(shí)間信息對(duì) Kinetics-400 的預(yù)測(cè)結(jié)果影響較小,而對(duì) Something-Something v2 和 Diving48 的預(yù)測(cè)結(jié)果影響相當(dāng)大。這說(shuō)明大部分 Kinetics-400 視頻僅需通過(guò)空間信息線索即可被正確識(shí)別,而時(shí)間動(dòng)態(tài)信息則對(duì)于 Something-Something v2 和 Diving48 視頻的識(shí)別非常重要。因此,對(duì)于空間信息線索占主導(dǎo)地位的數(shù)據(jù)集(如 Kinetics-400),大規(guī)模圖像數(shù)據(jù)集上的預(yù)訓(xùn)練便可帶來(lái)可觀的性能,額外的視頻通路預(yù)訓(xùn)練對(duì)性能提升影響不大;而對(duì)于十分依賴時(shí)間動(dòng)態(tài)信息的數(shù)據(jù)集(如 SSv2 和 Diving48),BEVT 中視頻通路預(yù)訓(xùn)練的作用十分關(guān)鍵。

          這項(xiàng)實(shí)驗(yàn)說(shuō)明不同視頻的識(shí)別確實(shí)依賴不同種類的信息線索。為了能夠在不同視頻數(shù)據(jù)集上都取得良好的性能,圖像通路和視頻通路的聯(lián)合預(yù)訓(xùn)練設(shè)計(jì)是必要的。


          與 SOTA 模型比較

          在 BEVT 預(yù)訓(xùn)練實(shí)驗(yàn)中,研究者使用了 2 種編碼離散視覺(jué) token 的 tokenizer,分別來(lái)自于 DALL-E 和 PeCo,其中 PeCo 是在 ImageNet-1K 上預(yù)訓(xùn)練的 tokenizer,在掩碼圖像建模任務(wù)上比 DALL-E tokenizer 更強(qiáng)??梢园l(fā)現(xiàn),使用更強(qiáng)的 tokenizer 能夠幫助 BEVT 在下游視頻任務(wù)上取得更好的性能。

          在與 SOTA 模型的比較中,可以看到,在 Something-Something v2 和 Diving48 上,BEVT 取得了明顯比現(xiàn)有 SOTA 視頻模型更好的性能;而在 Kinetics-400 上,BEVT 也取得了比計(jì)算量相近的 SOTA 模型更好或相當(dāng)?shù)男阅堋?/span>




          圖像通路預(yù)訓(xùn)練的重要性

          BEVT 在預(yù)訓(xùn)練時(shí)首先通過(guò)圖像數(shù)據(jù)集上的圖像通路 BERT 預(yù)訓(xùn)練來(lái)高效地學(xué)習(xí)空間表示,然后將其作為雙路聯(lián)合 BERT 預(yù)訓(xùn)練的初始化。

          研究者通過(guò)實(shí)驗(yàn)說(shuō)明了這種策略的重要性:(1)將圖像通路預(yù)訓(xùn)練得到的模型權(quán)重作為初始化,可以使得視頻通路預(yù)訓(xùn)練和雙路聯(lián)合預(yù)訓(xùn)練的效果均得到提升。(2)即使使用了圖像通路預(yù)訓(xùn)練作為初始化,將圖像通路和視頻通路進(jìn)行聯(lián)合訓(xùn)練仍是必要的,相比于純視頻通路預(yù)訓(xùn)練性能提升明顯。


          擴(kuò)展到其他視頻 Transformer 模型架構(gòu)

          研究者認(rèn)為 BEVT 中的雙路聯(lián)合預(yù)訓(xùn)練是一種通用的視頻 Transformer 預(yù)訓(xùn)練方法,可以推廣到其他視頻 Transformer 模型架構(gòu)。為了說(shuō)明這點(diǎn),研究者把 BEVT 框架擴(kuò)展到了 TimeSformer 架構(gòu)上。實(shí)驗(yàn)結(jié)果表明 BEVT 也能幫助 TimeSformer 在多種視頻下游任務(wù)上取得顯著優(yōu)于 ImageNet 全監(jiān)督預(yù)訓(xùn)練和圖像通路預(yù)訓(xùn)練的性能。


          總結(jié)

          作為首個(gè)視頻 Transformer BERT 預(yù)訓(xùn)練方法,BEVT 不僅將圖像 Transformer BERT 預(yù)訓(xùn)練中的掩碼圖像建模任務(wù)擴(kuò)展為了掩碼視頻建模任務(wù),還通過(guò)設(shè)計(jì)圖像 - 視頻雙路聯(lián)合預(yù)訓(xùn)練框架,避免了直接在大規(guī)模視頻數(shù)據(jù)上從頭訓(xùn)練這種相對(duì)低效的做法,并使得模型在不同類型的視頻數(shù)據(jù)集上均能取得良好的遷移性能。


          這種圖像 - 視頻聯(lián)合自監(jiān)督預(yù)訓(xùn)練方法為視頻 Transformer 上的表征學(xué)習(xí)提供了一種新的高效訓(xùn)練方式,且可以推廣到多種視頻 Transformer 架構(gòu)上。研究者希望后面的工作能在這種多源數(shù)據(jù)統(tǒng)一架構(gòu)預(yù)訓(xùn)練框架的基礎(chǔ)上,進(jìn)一步考慮在有限資源下的高效預(yù)訓(xùn)練、多種自監(jiān)督任務(wù)聯(lián)合訓(xùn)練、多模態(tài)數(shù)據(jù)聯(lián)合訓(xùn)練等具有挑戰(zhàn)性的問(wèn)題,實(shí)現(xiàn)圖像 - 視頻 / 多模態(tài)大一統(tǒng)模型研究的更大突破。


          努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺(jué)相關(guān)內(nèi)容,歡迎關(guān)注:

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有美顏、三維視覺(jué)、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群


          個(gè)人微信(如果沒(méi)有備注不拉群!
          請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會(huì)分享


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文


          瀏覽 50
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  午夜视频操一操 | 九九九成人 | 五月丁香综合久久 | 成人操骚逼 | 日韩人妻天天躁夜夜摸 |