<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          顯著改善分割預(yù)測,ETH開源基于情景圖儲存網(wǎng)絡(luò)的視頻目標(biāo)分割|ECCV2020

          共 4981字,需瀏覽 10分鐘

           ·

          2020-08-15 10:50

          點(diǎn)擊藍(lán)字


          ?關(guān)注我們



          極市導(dǎo)讀

          ?

          本文著力于解決視頻目標(biāo)分割領(lǐng)域的一個基本問題:使分割模型有效適應(yīng)特定視頻以及在線目標(biāo)的外觀變化。提出了一種簡潔快速的新圖存儲機(jī)制,顯著改善了分割預(yù)測。此外,圖存儲網(wǎng)絡(luò)產(chǎn)生的框架還可以推廣到one-shot和zero-shot視頻目標(biāo)分割任務(wù)。>>極市直播預(yù)告:CSIG-ECCV2020 論文預(yù)交流會,29位ECCV2020一作聯(lián)合直播


          本文主要解決視頻目標(biāo)分割領(lǐng)域的一個基本問題:如何使分割模型能夠有效地適應(yīng)特定視頻以及在線目標(biāo)的外觀變化?
          解決辦法:提出一個圖存儲網(wǎng)絡(luò)來對分割模型進(jìn)行“學(xué)習(xí)更新”。
          大概流程分為兩步:首先構(gòu)建一個由全連接圖構(gòu)成的情景存儲網(wǎng)絡(luò),將幀存儲為節(jié)點(diǎn),并通過邊捕獲跨幀的相關(guān)性。然后,可學(xué)習(xí)的控制器被嵌入以簡化內(nèi)存的讀寫。
          相比于以往模型的優(yōu)勢:結(jié)構(gòu)化的外部存儲使可以在視覺信息有限的情況下全面挖掘并快速存儲新知識。不同的存儲控制器通過梯度下降學(xué)習(xí)了一種抽象的表示方法,可以利用這種表示學(xué)習(xí)進(jìn)行預(yù)測 。另外,圖存儲網(wǎng)絡(luò)產(chǎn)生的框架,可以推廣到one-shot和zero-shot視頻目標(biāo)分割任務(wù)。
          論文鏈接:https://arxiv.org/pdf/2007.07020.pdf
          代碼:https://github.com/carrierlxk/GraphMemVOS.git

          1.引言

          視頻目標(biāo)分割(VOS)旨在像素級別對視頻中的一個目標(biāo)進(jìn)行預(yù)測,目前根據(jù)第一幀的視頻是否有注釋可以把VOS分為兩類:one-shot視頻目標(biāo)分割(O-VOS)和zero-shot視頻目標(biāo)分割(Z-VOS)。
          O-VOS:提供第一幀的視頻注釋,可以對視頻其他部分帶標(biāo)簽的目標(biāo)進(jìn)行分割預(yù)測。
          Z-VOS:在沒有任何測試時間指示的情況下自動推斷主要目標(biāo)。
          O-VOS的主要困難:沒有關(guān)于特定目標(biāo)的假設(shè),應(yīng)用場景有干擾對象。
          支持集:視頻的第一幀注釋。
          查詢集:視頻的其余幀。
          針對O-VOS以往的解決方法:較早的方法,在每個帶注釋的目標(biāo)上構(gòu)建network ?netuning-缺點(diǎn):耗時。當(dāng)前流行的方法,建立一個匹配框架,將該任務(wù)描述為支持集和查詢集之間的匹配流程。
          O-VOS方法的限制:
          1.首先學(xué)習(xí)通用匹配網(wǎng)絡(luò),然后將其直接應(yīng)用于測試視頻,無法充分利用第一幀目標(biāo)特定信息。結(jié)果導(dǎo)致其不能有效地適應(yīng)輸入視頻。
          2.由于分割目標(biāo)可能會出現(xiàn)外觀變化,因此執(zhí)行在線模型更新很有意義。
          3.基于匹配的方法僅對查詢和每個支持幀之間的配對關(guān)系建模,而忽略了支持集中的上下文。
          本文受到了最近小樣本學(xué)習(xí)的記憶增強(qiáng)網(wǎng)絡(luò)的啟發(fā)而提出的方法:開發(fā)了一個圖存儲網(wǎng)絡(luò),以通過單次前饋使在線分割模型適應(yīng)特定目標(biāo)。
          本文模型的一些優(yōu)勢:圖存儲網(wǎng)絡(luò)簡潔,快速。對于內(nèi)存更新,模型在固定大小的圖內(nèi)存上執(zhí)行消息傳遞,而不增加內(nèi)存消耗。模型提供了一個框架;它概括了Z-VOS任務(wù),而主流方法缺乏自適應(yīng)能力。這項(xiàng)工作代表了在統(tǒng)一網(wǎng)絡(luò)設(shè)計(jì)中同時解決O-VOS和Z-VOS的第一部分。

          2.方法

          2.1 預(yù)備知識:情景記憶網(wǎng)絡(luò)

          背景:記憶網(wǎng)絡(luò)通過外部存儲組件增強(qiáng)了神經(jīng)網(wǎng)絡(luò),使網(wǎng)絡(luò)可以顯式訪問過去的經(jīng)驗(yàn)。常應(yīng)用于小樣本學(xué)習(xí)和目標(biāo)追蹤中。
          解決的相關(guān)任務(wù):情景外部存儲器網(wǎng)絡(luò)解決視覺問題回答和視覺對話中的推理問題。
          基本思想:使用可學(xué)習(xí)的讀寫運(yùn)算符從內(nèi)存中檢索回答問題所需的信息。給定輸入表示的集合,情節(jié)記憶模塊通過神經(jīng)注意力選擇要關(guān)注的輸入部分。然后在考慮查詢以及存儲的情況下生成“內(nèi)存摘要”表示形式。情節(jié)中的每個迭代為存儲模塊提供有關(guān)輸入的相關(guān)信息。最后存儲模塊具有在每次迭代中檢索新信息并獲得有關(guān)輸入的新表示的能力。
          2.2 學(xué)習(xí)更新
          目標(biāo):從第一幀中帶注釋的目標(biāo)學(xué)習(xí),在后續(xù)幀中對其進(jìn)行預(yù)測。
          傳統(tǒng)方法:將網(wǎng)絡(luò)連接到一起,并為每個特定的視頻執(zhí)行在線學(xué)習(xí)。
          本文的方法:根據(jù)訓(xùn)練任務(wù)的分布對各種任務(wù)構(gòu)造基于情境記憶的學(xué)習(xí)器,從而使學(xué)習(xí)的模型在新的不可見的任務(wù)(測試視頻)上表現(xiàn)良好。將O-VOS作為“學(xué)習(xí)更新”的分割網(wǎng)絡(luò)來處理。
          過程:
          i)從one-shot支持集中提取任務(wù)表示。
          ii)給定任務(wù)表示形式,更新查詢的分割網(wǎng)絡(luò)。如圖1所示,增強(qiáng)具有圖結(jié)構(gòu)的情景存儲網(wǎng)絡(luò)(即圖存儲網(wǎng)絡(luò)),以便:i)立即使分割網(wǎng)絡(luò)適應(yīng)特定的對象,而不是執(zhí)行大量的迭代;ii)充分利用視頻序列中的上下文。
          本文的圖存儲網(wǎng)絡(luò)具有兩種能力:在模型初始化階段學(xué)會從one-shot支持集調(diào)整分割網(wǎng)絡(luò),學(xué)會在幀處理階段利用分割幀來更新分段網(wǎng)絡(luò)

          圖1 圖存儲網(wǎng)絡(luò)
          2.3 圖存儲網(wǎng)絡(luò)
          結(jié)構(gòu):由一個外部圖存儲器和用于存儲操作的可學(xué)習(xí)控制器組成。
          外部圖存儲器:為新知識編碼提供了短期存儲,其圖結(jié)構(gòu)允許全面探索上下文。

          控制器:進(jìn)行讀取和寫入操作,與圖存儲器交互,通過權(quán)重的緩慢更新來長期存儲。通過控制器,模型可學(xué)習(xí)兩方面的內(nèi)容:1.其放入內(nèi)存的表示類型,2.以后如何將這些表示用于細(xì)分預(yù)測的通用策略。

          圖存儲網(wǎng)絡(luò)的核心思想:執(zhí)行情節(jié)推理的K個步驟,以有效挖掘內(nèi)存中的結(jié)構(gòu)并更好地捕獲目標(biāo)特定的信息。
          圖存儲網(wǎng)絡(luò)的具體流程:
          存儲器被組織為一個大小固定的全連接圖,其中節(jié)點(diǎn)表示第i個存儲單元,邊表示 單元格之間的關(guān)系。
          給定一個查詢幀,支持集被認(rèn)為是第一個帶注釋的幀和先前分割的幀的組合。從支持集采樣的幀初始化圖內(nèi)存。對于每個存儲節(jié)點(diǎn),通過將全卷積存儲編碼器應(yīng)用于支持幀以捕獲空間視覺特征以及分割mask信息,來生成其初始嵌入
          圖內(nèi)存讀取。全卷積查詢編碼器也應(yīng)用于查詢幀,以提取視覺特征。一個可學(xué)習(xí)的讀取控制器首先將q作為輸入并生成其初始狀態(tài)
          其中表示映射函數(shù)。
          在每個情節(jié)推理步驟,讀取控制器通過讀取內(nèi)容與外部圖存儲器進(jìn)行交互。遵循鍵值檢索機(jī)制,先計(jì)算查詢與每個內(nèi)存節(jié)點(diǎn)之間的相似度:

          接下來通過softmax歸一化函數(shù)計(jì)算讀取權(quán)重

          考慮到某些節(jié)點(diǎn)由于底層相機(jī)移動或視線不佳而產(chǎn)生噪聲,因此可以測量存儲單元的置信度。然后使用此權(quán)重檢索內(nèi)存聚合以線性組合內(nèi)存單元:

          通過等式(2-4),存儲器模塊檢索與最相似的存儲器單元,以獲得存儲器聚合。讀取內(nèi)存匯總后,讀取控制器將更新其狀態(tài),如下所示:

          其中是卷積核,σ表示Sigmoid激活函數(shù)?!?*”和“?”分別代表卷積運(yùn)算和Hadamard乘積。更新門控制要保留多少先前的隱藏狀態(tài)。通過這種方式,控制器的隱藏狀態(tài)對圖存儲器和查詢表示進(jìn)行編碼。
          情景圖內(nèi)存更新
          每次通過內(nèi)存匯總后,都需要使用新的查詢輸入來更新情節(jié)圖內(nèi)存。在每個步驟k,可學(xué)習(xí)的存儲器通過考慮其先前狀態(tài)寫入控制器,來自讀取控制器的當(dāng)前內(nèi)容以及來自其他單元的狀態(tài)來更新每個存儲單元。 首先將從的關(guān)系公式化為其特征矩陣的內(nèi)積相似性:

          其中表示可學(xué)習(xí)的權(quán)重矩陣,被固定為矩陣表示形式。存儲與中所有位置對 對應(yīng)的相似性分?jǐn)?shù)。
          然后,對于,從其他單元格計(jì)算歸一化的信息,并對其歸一化的內(nèi)積相似性進(jìn)行加權(quán):

          其中softmax(·)標(biāo)準(zhǔn)化輸入的每一行。
          匯總來自鄰居的信息后,內(nèi)存寫控制器將的狀態(tài)更新為:

          圖內(nèi)存更新允許每個內(nèi)存單元將鄰居信息嵌入到其表示中,以便全面探索支持集中的上下文。此外,通過對圖結(jié)構(gòu)進(jìn)行迭代推理,每個存儲單元對新的查詢信息進(jìn)行編碼,并逐漸改進(jìn)表示形式。與傳統(tǒng)的存儲網(wǎng)絡(luò)相比,本文的圖存儲網(wǎng)絡(luò)具有兩個優(yōu)點(diǎn):i)將內(nèi)存寫操作融合到內(nèi)存更新過程中,而不會增加內(nèi)存大小,并且ii)避免設(shè)計(jì)復(fù)雜的內(nèi)存寫策略。圖2顯示了內(nèi)存讀取和更新。
          最終分割Readout 在對情節(jié)性存儲器進(jìn)行K步更新之后,利用來自存儲器讀取控制器的最終狀態(tài)來支持對查詢的預(yù)測:

          讀數(shù)函數(shù)給出最終的分割概率圖。

          圖2 內(nèi)存讀取和更新
          2.4 網(wǎng)絡(luò)架構(gòu)
          網(wǎng)絡(luò)配置 總體模型以端到端的全卷積實(shí)現(xiàn);查詢編碼器和內(nèi)存編碼器都具有相同的結(jié)構(gòu);圖存儲器,讀控制器(等式(5))和寫控制器(等式(8))均使用具有1×1卷積內(nèi)核的ConvGRU實(shí)現(xiàn);投影函數(shù)fP(等式(1))也通過1×1卷積層實(shí)現(xiàn);讀出函數(shù)fR(等式(9))由一個解碼器網(wǎng)絡(luò)實(shí)現(xiàn),該網(wǎng)絡(luò)由四個塊組成,這些塊具有與相應(yīng)的ResNet50塊的skip-connection;解碼器中每個卷積層的內(nèi)核大小設(shè)置為3×3,最后一個1×1卷積層除外;查詢和內(nèi)存編碼器實(shí)現(xiàn)為ResNet50的四個卷積塊,由ImageNet上預(yù)訓(xùn)練的權(quán)重初始化;
          輸入?查詢編碼器以RGB查詢幀作為輸入;內(nèi)存編碼器,輸入為RGB支持幀;存儲器編碼器以二進(jìn)制掩碼和實(shí)例標(biāo)簽圖作為輸入
          訓(xùn)練 對于O-VOS,按照“遞歸訓(xùn)練”訓(xùn)練模型。通過對支持集進(jìn)行采樣以構(gòu)建圖存儲器和相關(guān)查詢集來形成每個訓(xùn)練周期。遞歸訓(xùn)練的核心是模仿推理過程。對每個視頻采樣N + 1幀構(gòu)建支持集(前N幀)和查詢集(最后一幀)。N個支持幀可以由N節(jié)點(diǎn)存儲器圖表示。將交叉熵?fù)p失應(yīng)用于監(jiān)督訓(xùn)練。
          為了防止圖記憶僅記住實(shí)例與單向矢量標(biāo)簽之間的關(guān)系,本文采用了標(biāo)簽關(guān)閉策略。如圖3所示,分割網(wǎng)絡(luò)通過考慮當(dāng)前的訓(xùn)練樣本而不是記住目標(biāo)和給定標(biāo)簽之間的特定關(guān)系來學(xué)習(xí)區(qū)分當(dāng)前幀中的特定實(shí)例。
          為了進(jìn)一步提高性能,通過合成視頻擴(kuò)展了訓(xùn)練集。對于靜態(tài)圖像,采用視頻生成技術(shù)通過不同的變換操作來獲得模擬的視頻剪輯。靜態(tài)圖像來自現(xiàn)有的圖像分割數(shù)據(jù)集。在對合成視頻進(jìn)行預(yù)訓(xùn)練之后,將真實(shí)視頻數(shù)據(jù)用于微調(diào)。
          對于Z-VOS,遵循與O-VOS類似的訓(xùn)練協(xié)議,但是輸入模態(tài)僅具有RGB數(shù)據(jù)。本文專注于對象級別的Z-VOS設(shè)置,因此不使用標(biāo)簽切換策略。

          推理 訓(xùn)練后直接將網(wǎng)絡(luò)應(yīng)用于測試集。對O-VOS按順序處理每個測試視頻。前N個幀直接計(jì)算內(nèi)存匯總(等式(4))并將這些幀寫入內(nèi)存。從第(N + 1)幀開始,在分割之后將使用該幀更新圖內(nèi)存??紤]到第一幀及其注釋始終提供最可靠的信息,重新初始化存儲有關(guān)第一幀信息的節(jié)點(diǎn)。因此使用第一個帶注釋的幀,最后一個分割的幀和從先前的分割幀中采樣的N-2個幀,以及它們的預(yù)定義或分割掩碼來構(gòu)建內(nèi)存。對于多實(shí)例的情況,為每個實(shí)例獨(dú)立運(yùn)行模型,并為每個實(shí)例獲得soft-max概率掩碼。對于Z-VOS,從同一視頻中隨機(jī)采樣N幀以構(gòu)建圖內(nèi)存,然后根據(jù)所構(gòu)建的內(nèi)存處理每個幀。考慮到全局信息比局部信息對于處理潛在的對象遮擋和相機(jī)移動更重要,因此通過使用全局采樣的幀重新初始化圖形存儲器來獨(dú)立處理每個幀。

          3.實(shí)驗(yàn)結(jié)果

          3.1?O-VOS的性能
          O-VOS使用DAVIS17 和Youtube-VOS 數(shù)據(jù)集

          圖4 O-VOS的量化結(jié)果

          3.2 Z-VOS的性能

          Z-VOS使用DAVIS16 和Youtube-Objects數(shù)據(jù)集。

          表3 Z-VOS在DAVIS16的評估

          4 Z-VOS在Youtube-Object的評估

          圖5 Z-VOS的量化結(jié)果

          4.總結(jié)

          本文主要提出了一種新的圖存儲機(jī)制,可以有效地使分割網(wǎng)絡(luò)適應(yīng)特定視頻。通過對存儲圖進(jìn)行情節(jié)推理,所提出的模型能夠生成視頻專用的存儲摘要,從而顯著改善最終的分割預(yù)測。同時,可以通過可學(xué)習(xí)的內(nèi)存控制器來實(shí)現(xiàn)在線模型更新。圖存儲網(wǎng)絡(luò)簡潔,快速。模型在內(nèi)存更新時可以在固定大小的圖內(nèi)存上執(zhí)行消息傳遞,而不增加內(nèi)存消耗。

          作者檔案

          Jack Choi,CS在讀小碩
          個人公眾號:AI算法后丹修煉爐
          歡迎大家聯(lián)系極市小編(微信ID:fengcall19)加入極市原創(chuàng)作者行列



          添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳),即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR等技術(shù)交流群,更有每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、行業(yè)技術(shù)交流一起來讓思想之光照的更遠(yuǎn)吧~

          △長按添加極市小助手

          △長按關(guān)注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~??
          瀏覽 37
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  伊人激情综合 | 欧美亲子乱婬性XXX | 人人人人人色 | 麻豆专区 | 一本色道无码道dⅴd在线录音 |