<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR 2022丨無監(jiān)督預(yù)訓(xùn)練下的視頻場(chǎng)景分割

          共 3944字,需瀏覽 8分鐘

           ·

          2022-05-23 13:50

          點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號(hào)

          重磅干貨,第一時(shí)間送達(dá)

          前言?對(duì)于視頻場(chǎng)景分割任務(wù),如何更好地在無標(biāo)注長視頻上進(jìn)行自監(jiān)督預(yù)訓(xùn)練?如何運(yùn)用視頻特征對(duì)該任務(wù)進(jìn)行建模?騰訊優(yōu)圖實(shí)驗(yàn)室、深圳大學(xué)、KAUST等機(jī)構(gòu)的研究成果入選今年CVPR 2022會(huì)議。

          來源:騰訊優(yōu)圖實(shí)驗(yàn)室

          編輯:CV技術(shù)指南


          近年來,基于自監(jiān)督(Self Supervised Learning ,SSL)方法在各計(jì)算機(jī)視覺任務(wù)上表現(xiàn)出強(qiáng)大的學(xué)習(xí)能力和泛化性,并隨著如MoCo、SimCLR、SwAV、BYOL、SimSiam、MAE等SSL框架的誕生,使得基于的SSL方法受到越來越多的關(guān)注。


          一般而言,大多數(shù)SSL方法在圖像分類、視頻分類、目標(biāo)檢測(cè)等任務(wù)上進(jìn)行性能評(píng)估,并且其預(yù)訓(xùn)練范式并不適合視頻場(chǎng)景分割(Video Scene Segmentation,VSS)任務(wù),本工作主要討論和探究各SSL對(duì)比學(xué)習(xí)范式和特征質(zhì)量評(píng)估方案在VSS任務(wù)下的效果。主要研究動(dòng)機(jī)如下:


          01

          在大量未標(biāo)注的長視頻數(shù)據(jù)上,對(duì)特征提取器進(jìn)行預(yù)訓(xùn)練,使得模型能捕捉和建模長視頻中的時(shí)序依賴關(guān)系和內(nèi)容主題相關(guān)性。

          02

          常見的SSL訓(xùn)練范式在視頻場(chǎng)景分割下游任務(wù)上泛化能力不夠理想。

          03

          在先前的視頻場(chǎng)景分割相關(guān)工作中,下游監(jiān)督學(xué)習(xí)模型存在一定的歸納偏置,導(dǎo)致其對(duì)一些超參數(shù)較為敏感,以及較低的訓(xùn)練和推理效率。


          在本文介紹的《Scene Consistency Representation Learning for Video Scene Segmentation》工作中,提出了一種基于場(chǎng)景一致性自監(jiān)督表征學(xué)習(xí)方案(SCRL),使得相似場(chǎng)景的鏡頭表征在特征空間中分布得更為緊湊,如圖1(c)所示;


          同時(shí)采用歸納偏置更低的時(shí)序建模方法對(duì)特征質(zhì)量進(jìn)行評(píng)估,并對(duì)視頻場(chǎng)景分割任務(wù)進(jìn)行建模。該方案在VSS任務(wù)上達(dá)到了SOTA水平。


          圖1 SCRL算法動(dòng)機(jī)示意圖


          論文:

          https://arxiv.org/abs/2205.05487


          代碼:

          https://github.com/TencentYoutuResearch/SceneSegmentation-SCRL



          01

          任務(wù)背景介紹


          ?任務(wù)介紹


          視頻場(chǎng)景分割(Video Scene Segmentation,VSS)作為視頻理解中的一個(gè)子任務(wù),其主要目標(biāo)是以一個(gè)長段視頻按照?qǐng)鼍皟?nèi)容的不同為切分線索,以鏡頭維度將長視頻切分成若干獨(dú)立子視頻,切分過程又稱作場(chǎng)景邊界檢測(cè)(Scene Boundary Detection),如圖2所示。


          圖2 VSS任務(wù)介紹


          ?背景知識(shí)

          ?視頻幀,鏡頭與場(chǎng)景間的關(guān)系


          一組鏡頭(Shot)包含若干由同一個(gè)相機(jī)不間斷拍攝到的連續(xù)幀,鏡頭切分結(jié)果可以通過成熟的算法獲得,如:TransNet;


          一個(gè)場(chǎng)景(Scene)由連續(xù)的鏡頭組成,一般描述相同的故事,具有更高級(jí)別的抽象語義。VSS任務(wù)則是在Scene級(jí)別對(duì)長視頻在時(shí)域上進(jìn)行分段,可以理解為按照不同故事線對(duì)長視頻進(jìn)行切分。


          圖3 幀、鏡頭(Shot)和場(chǎng)景(Scene)

          在視頻中的層次關(guān)系



          02

          方案介紹


          ?任務(wù)Pipeline介紹


          本框架總覽如圖4所示,該算法框架主要包含兩個(gè)階段:


          01

          鏡頭表征學(xué)習(xí)階段;

          02

          視頻場(chǎng)景分割階段。


          在鏡頭表征學(xué)習(xí)階段中,與常見的SSL框架一致,通過復(fù)制特征提取器M得到由鍵值編碼器(Key Encoder)和查詢編碼器(Query Encoder)組成的雙路訓(xùn)練分支。


          對(duì)于輸入鏡頭序列而言,先經(jīng)過Aug_K, Aug_Q數(shù)據(jù)增強(qiáng)方法得到增強(qiáng)后的輸入鏡頭特征序列,隨后在查詢編碼器(Query Encoder)產(chǎn)生的特征中,對(duì)每個(gè)查詢鏡頭特征q篩選出對(duì)應(yīng)正樣本特征,得到代表樣本i所對(duì)應(yīng)的正樣本下標(biāo)的索引映射函數(shù)MAP(i),再從鍵值編碼器(Key Encoder)產(chǎn)生的特征中根據(jù)MAP(i)選擇出實(shí)際用于預(yù)訓(xùn)練的正樣本對(duì),如公式所示:


          因此,不同的正樣本選擇策略可以轉(zhuǎn)化成不同的映射函數(shù)。最后通過使用InfoNCE對(duì)比損失函數(shù)對(duì)整個(gè)預(yù)訓(xùn)練過程進(jìn)行優(yōu)化(若在無負(fù)樣本訓(xùn)練框架中,則只使用余弦相似度函數(shù)進(jìn)行優(yōu)化)。


          預(yù)訓(xùn)練完成后,查詢編碼器則作為后續(xù)監(jiān)督學(xué)習(xí)階段使用的鏡頭特征提取器。


          圖4 算法整體Pipeline示意圖


          在視頻場(chǎng)景分割階段,使用參數(shù)固定的查詢編碼器對(duì)輸入的視頻鏡頭序列提取特征,再將特征輸入到設(shè)計(jì)好的基于MLP/Bi-LSTM的視頻場(chǎng)景分割模型中完成VSS任務(wù)建模。


          ?正樣本選擇范式


          本文分析和討論了四種自監(jiān)督訓(xùn)練范式,如圖5所示,包含了圖片分類、視頻分類和視頻的時(shí)序分割的預(yù)訓(xùn)練范式。


          圖5 4種正樣本選擇范式


          對(duì)于圖片級(jí)別的預(yù)訓(xùn)練任務(wù)而言,通常選擇原樣本的兩個(gè)不同的增強(qiáng)視圖作為正樣本對(duì),這里統(tǒng)稱為Self-Augmented方法,此時(shí)映射函數(shù)可以表示為恒等映射:


          對(duì)于視頻分類而言,對(duì)于查詢樣本,通常隨機(jī)采樣選擇鄰域范圍為n的片段作為正樣本,稱為Random方法,映射函數(shù)表示為:


          類似的,發(fā)表于CVPR2021的ShotCoL算法選擇鄰域范圍為m的最近鄰片段作為正樣本,稱作Nearest Neighbor(NN)正樣本選擇策略,映射函數(shù)可以表示為:


          由于長視頻場(chǎng)景通常交錯(cuò)排布和具有較高的冗余性,因此本工作使用聚類中心作為正樣本,并對(duì)正樣本進(jìn)行線性插值,稱為Scene Consistency(SC)方法,映射函數(shù)表示為:


          ?數(shù)據(jù)增強(qiáng)


          對(duì)于大多SSL方法來說,數(shù)據(jù)增強(qiáng)是至關(guān)重要的,本框架使用的數(shù)據(jù)增強(qiáng)主要分為兩種,一是對(duì)輸入鏡頭序列進(jìn)行打亂,稱作場(chǎng)景無關(guān)的鏡頭序列打亂(Scene Agnostic Clip-Shuffling),二是對(duì)輸入的單個(gè)鏡頭進(jìn)行非對(duì)稱的圖像增強(qiáng)。在輸入鏡頭打亂方法中,為了提升一個(gè)批次中的鏡頭和場(chǎng)景的豐富度,本文提出用固定長度為ρ的連續(xù)鏡頭序列為獨(dú)立單位,對(duì)來自不同視頻的鏡頭序列進(jìn)行打亂,如圖6所示:


          圖6 Scene Agnostic Clip-Shuffling

          方法示意圖


          ?非基于場(chǎng)景邊界模型


          不同于先前工作的基于場(chǎng)景邊界(Boundary based)模型,本框架提出非基于場(chǎng)景邊界(Boundary free)模型來對(duì)視頻場(chǎng)景分割任務(wù)進(jìn)行建模,如圖7所示。


          以輸入長度為B * Shot-Len * N 長度的數(shù)據(jù)為例(B為批次大小,Shot-Len為單個(gè)批次中處理的鏡頭個(gè)數(shù),N為鏡頭特征的維度),場(chǎng)景邊界模型輸出為B * 2,即對(duì)鏡頭中心邊界進(jìn)行建模。


          本框架提出使用基于Bi-LSTM序列建模方式,對(duì)每個(gè)鏡頭都進(jìn)行場(chǎng)景邊界進(jìn)行分類,即經(jīng)過Bi-LSTM模型序列建模后,序列輸出為B * Shot-Len * 2,這樣做的好處有:


          01

          可以有效降低模型復(fù)雜度和參數(shù)量;

          02

          提高推斷的效率;

          03

          降低場(chǎng)景邊界模型對(duì)場(chǎng)景邊界鏡頭數(shù)量的歸納偏置。


          圖7 Boundary based/free 模型示意圖



          03

          實(shí)驗(yàn)結(jié)果


          ?視頻場(chǎng)景分割實(shí)驗(yàn)


          如圖8實(shí)驗(yàn)結(jié)果所示,在所有協(xié)議下,我們提出的方案在MovieNet-Scene Seg數(shù)據(jù)集上均能達(dá)到VSS任務(wù)下的優(yōu)異水平(其中LGSS和ShotCoL分別為發(fā)表在CVPR2020和CVPR2021的工作)。


          圖8 各算法在MovieNet-SceneSeg數(shù)據(jù)集上

          VSS任務(wù)上的效果


          ?正樣本選擇消融實(shí)驗(yàn)


          使用ResNet50作為特征提取器的backbone和MoCo v2作為預(yù)訓(xùn)練框架,對(duì)分析的正樣本選擇范式進(jìn)行消融實(shí)驗(yàn)。如圖9所示,可以觀察到以下現(xiàn)象:


          01

          Self-Augmented方案在預(yù)訓(xùn)練中收斂速度最快,但由于其缺少時(shí)序建模,在VSS下游任務(wù)中表現(xiàn)最差;

          02

          Random方案在隨機(jī)鄰域范圍小于4時(shí),才可以正常收斂,在下游任務(wù)中表現(xiàn)稍好;

          03

          NN方案在所有方案中初始下降速率最快,在下游任務(wù)上表現(xiàn)中等,表示主動(dòng)建模相似鏡頭的相關(guān)性有利于VSS任務(wù),但下降速率快可能導(dǎo)致一定的過擬合現(xiàn)象和平凡解;

          04

          提出的SC方案雖然預(yù)訓(xùn)練損失下降速率一般,但是在VSS任務(wù)上的泛化能力優(yōu)于其他方案。


          圖9 各正樣本選擇策略的收斂曲線

          和下游任務(wù)效果示意圖


          ?泛化性實(shí)驗(yàn)


          該實(shí)驗(yàn)分為兩組,分別為:將預(yù)訓(xùn)練好的特征直接運(yùn)用到大規(guī)模多模態(tài)的監(jiān)督模型(LGSS)上與測(cè)試下游模型的遷移能力,如圖10所示。


          將無監(jiān)督預(yù)訓(xùn)練好的特征提取器得到特征直接運(yùn)用到大規(guī)模監(jiān)督算法(LGSS)的pipeline上后,可以顯著提高LGSS在VSS任務(wù)上的性能表現(xiàn)。


          具體而言,將原算法中的Place365數(shù)據(jù)集上有監(jiān)督預(yù)訓(xùn)練好的特征替換成SCRL算法預(yù)訓(xùn)練好的特征,值得注意的是,替換的特征是通過無監(jiān)督學(xué)習(xí)得到的。


          另一方面,提出的算法的遷移能力也是顯著優(yōu)于CVPR2021的SOTA算法(ShotCoL)。


          圖10 泛化性實(shí)驗(yàn)結(jié)果


          ?可視化實(shí)驗(yàn)


          為了測(cè)試算法預(yù)訓(xùn)練好的模型是否有良好的鏡頭語義內(nèi)聚性,本文還設(shè)計(jì)了鏡頭檢索實(shí)驗(yàn),從圖11檢索結(jié)果可以看到,使用提出的算法檢索出的鏡頭具有更好一致性。


          圖11 鏡頭檢索實(shí)驗(yàn)結(jié)果



          04

          算法落地


          得益于本文提出的場(chǎng)景一致性自監(jiān)督表征學(xué)習(xí)算法(SCRL)的易用性和良好的泛化能力,我們?cè)隍v訊云-媒體AI中臺(tái)項(xiàng)目上將該算法進(jìn)行了落地與業(yè)務(wù)算法迭代。


          該業(yè)務(wù)算法能將完整的長視頻按照內(nèi)容進(jìn)行結(jié)構(gòu)化拆分,例如,將新聞視頻拆分為若干獨(dú)立的新聞事件,將綜藝節(jié)目視頻拆分為若干個(gè)獨(dú)立的子節(jié)目等,如圖12所示,拆分后的視頻片段可進(jìn)一步用于內(nèi)容檢索、資源整理、資源搜索等相關(guān)業(yè)務(wù)。


          目前,騰訊云-媒體AI中臺(tái)智能拆條應(yīng)用已服務(wù)于多家客戶,獲得了廣泛的好評(píng)。


          圖12 騰訊云-媒體AI中臺(tái) 智能拆條應(yīng)用


          本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

          —THE END—
          瀏覽 35
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本黄色一区 | 色老板最新网址 | 亚洲免费播放视频 | 一起操视频网站 | 伊人影院大香蕉 |