<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌最新多目標(biāo)“動態(tài)摳圖”模型,注入Attention,精度漲30%

          共 1764字,需瀏覽 4分鐘

           ·

          2021-12-13 19:02


          ?戳我,查看GAN的系列專輯~!

          等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!
          ?來源:量子位?

          ?

          只需第一幀圖像+邊界提示,就能將視頻中各物體“摳”出來并進(jìn)行軌跡跟蹤

          以上就是谷歌的最新研究成果。

          該方法通過在視頻中引入注意力機(jī)制,成功地解決此前采用了無監(jiān)督學(xué)習(xí)的多目標(biāo)分割和跟蹤方法的一些不足。

          現(xiàn)在的它,不僅可以泛化到更多樣、視覺上更復(fù)雜的視頻中,還能處理更長的視頻序列。

          通過實(shí)驗(yàn)還發(fā)現(xiàn),相比此前的模型,谷歌這個(gè)新方法在MOVi數(shù)據(jù)集上的mIoU直接提高了近30%。

          為“動態(tài)摳圖”引入注意力機(jī)制

          方法被命名為SAVi(Slot Attention for Video)

          而此前的無監(jiān)督目標(biāo)分割和跟蹤方法最大的問題,就是只能應(yīng)用到非常簡單的視頻上。

          為了處理視覺效果更復(fù)雜的視頻,SAVi采用弱監(jiān)督學(xué)習(xí)

          (1)以光流(optical flow)預(yù)測為訓(xùn)練目標(biāo),并引入注意力機(jī)制;

          (2)在第一幀圖像上給出初始提示(一般是框出待分割物體,或者給出物體上單個(gè)點(diǎn)的坐標(biāo)),進(jìn)行分割指導(dǎo)。

          具體來說,受到常微分方程的“預(yù)測-校正器”方法的啟發(fā),SAVi對每個(gè)可見的視頻幀執(zhí)行預(yù)測和校正步驟。

          為了描述視頻物體隨時(shí)間變化的狀態(tài),包括與其它物體的交互,SAVi在進(jìn)行光流預(yù)測時(shí)在slot之間使用自注意力。

          slot就是指視頻中各物體,用不同顏色區(qū)分。

          校正階段,帶有輸入的slot-normalized交叉注意用于校正(更新)slot表示集。

          然后預(yù)測器的輸出根據(jù)時(shí)間來初始化矯正器,使模型最終能夠以一致的方式隨時(shí)間跟蹤物體。

          ?SAVi模型架構(gòu)圖

          在訓(xùn)練中,每個(gè)視頻被分成六個(gè)6幀子序列,第一幀接收提示信號,每幀兩輪slot注意力。

          在完全無監(jiān)督視頻分割中,研究人員以64的batch size訓(xùn)練了十萬步。

          沒有提示,也能進(jìn)行簡單視頻的分割和跟蹤

          在CATER數(shù)據(jù)集上,測試表明,SAVi架構(gòu)完全適用于無監(jiān)督的物體表示學(xué)習(xí)。

          在光流條件監(jiān)督的情況下,SAVi在MOVi數(shù)據(jù)集上獲得72.1%的mIoU,比基線模型CRW和T-VOS分別高了近30%和近20%。

          SAVi在MOVi++數(shù)據(jù)集上的mIoU得分為45.9%,比T-VOS略高一點(diǎn),比CRW低了5%。

          另外,還可以看到,在第一幀圖像上給出質(zhì)心形式的提示效果會比邊界框好一點(diǎn),但區(qū)別不大。

          值得注意的是,即使沒有任何提示,該方法也能分割一些具有簡單紋理的動態(tài)場景,比如在數(shù)據(jù)集Sketchy上。

          不過,在將SAVi完全用于現(xiàn)實(shí)世界里的復(fù)雜視頻時(shí),還有一些挑戰(zhàn)需克服:

          1、所采用的訓(xùn)練方法假設(shè)在訓(xùn)練時(shí)光流信息是可用的,而在真實(shí)視頻中,這不一樣有;

          2、研究中所涉及的都是一些簡單物體的基本運(yùn)動,現(xiàn)實(shí)遠(yuǎn)比這個(gè)復(fù)雜

          最后,作者表示,SAVi在分割和跟蹤方面仍然表現(xiàn)出色,在第一幀給出提示信息的做法也可能會衍生出各種相關(guān)的半監(jiān)督方法。

          論文地址:
          https://arxiv.org/abs.2111.12594

          參考鏈接:
          [1]https://slot-attention-video.github.io/(代碼即將開源)
          [2]
          https://www.marktechpost.com/2021/11/28/google-research-open-sources-savi-an-object-centric-architecture-that-extends-the-slot-attention-mechanism-to-videos/



          猜您喜歡:

          超110篇!CVPR 2021最全GAN論文匯總梳理!

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成


          附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享


          《基于深度學(xué)習(xí)的表面缺陷檢測方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》



          瀏覽 35
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线免费a∨ | 亚洲国产综合色在线视频 | 欧美日韩一级A片 | 蜜桃av秘 无码一区二区 | 精品人妻一区二区 |