<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          冠軍方案解讀:1秒鐘打造智能化視頻內容生產(chǎn)利器

          共 4580字,需瀏覽 10分鐘

           ·

          2021-04-09 22:11

          ↑ 點擊藍字 關注極市平臺

          作者丨摩酷實驗室
          來源丨阿里巴巴文娛技術
          編輯丨極市平臺

          極市導讀

           

          本文精選了Media AI 阿里巴巴文娛算法挑戰(zhàn)賽中優(yōu)酷人工智能算法團隊提出的冠軍方案,他們以 STM(Video Object Segmentation using Space-Time Memory Networks)為基礎,進行了徹底的模型復現(xiàn)和以及算法改進。 >>加入極市CV技術交流群,走在計算機視覺的最前沿

          視頻目標分割是目前視頻算法領域的前沿話題,越來越多的應用在了各個行業(yè)場景里,尤其在智能化視頻生產(chǎn)中,算法的加持讓視頻內容生產(chǎn)的效率大大提升,并且由此衍生了眾多自動化工具和解決方案。本次由英特爾與阿里云聯(lián)合舉辦、與優(yōu)酷戰(zhàn)略合作的“新內容 新交互“全球視頻云創(chuàng)新挑戰(zhàn)賽算法賽道,也將目光聚焦于這一個領域。大賽自開賽以來,已經(jīng)吸引了 2000 多支隊伍參賽,匯聚了全球算法精英。


          本文將以 “Media AI 阿里巴巴文娛算法挑戰(zhàn)賽” 為例,精選出由優(yōu)酷人工智能部算法團隊提出的冠軍方案,為本屆大賽選手提供成功的參賽經(jīng)驗和技術解讀。

          除傳統(tǒng)分割算法需要解決的視角光照變化、目標尺度變化、目標間遮擋等難點之外,面向視頻智能生產(chǎn)的人物分割算法還需要關注如下特殊難點:

          • 視頻場景內容豐富多樣:要求算法在復雜背景干擾下正確發(fā)掘場景顯著主角;

          •  復雜衣著 / 手持 / 附屬物:要求算法充分描述目標豐富和復雜的外觀語義;


          • 目標人物快速劇烈動作:要求算法解決運動模糊、劇烈形變帶來的誤分割、漏分割。




          Media AI 大賽的數(shù)據(jù)集面向高精度-實例級-視頻人物分割任務,提供了 1700 段逐幀精細標注視頻數(shù)據(jù),其中初賽和復賽各 800 段訓練集和 50 段測試集,對上述難點都有體現(xiàn)。相比于學術 / 工業(yè)界標準的 DAVIS 和 YouTube-VOS 數(shù)據(jù)集,本數(shù)據(jù)集含有業(yè)界最多人體目標標注標簽(18 萬幀,30 萬標注人體目標),且在標注精度、內容廣度等方面均處于行業(yè)領先地位。


          這次數(shù)據(jù)庫依托優(yōu)酷站內海量資源,囊括古裝劇集、現(xiàn)代劇集、街拍、街舞、運動(跑酷、球類、健身)等豐富內容,更加符合智能化視頻內容生產(chǎn)的現(xiàn)實需求。經(jīng)過精細化人工標注,數(shù)據(jù)集真值掩碼圖精準勾勒視頻人物的邊緣細節(jié),為訓練以及測試分割算法的準確性和精確性提供了依據(jù)。此外,該數(shù)據(jù)集還針對人物手持物 / 附屬物進行了標注,有助于算法對人物與物品從屬關系進行學習。


          冠軍方案算法詳解


          在初賽階段,優(yōu)酷人工智能部算法團隊以 STM(Video Object Segmentation using Space-Time Memory Networks)為基礎,進行了徹底的模型復現(xiàn)和以及算法改進。在復賽階段,以初賽半監(jiān)督模型為骨干,配合以目標檢測、顯著性判別、關鍵幀選擇等模塊,實現(xiàn)高精度無監(jiān)督視頻分割鏈路。


          1.半監(jiān)督視頻人物分割

          半監(jiān)督 VOS 的任務目標是在給定第一幀物體掩碼的前提下,將該物體在后續(xù)幀中連續(xù)分割出來。


          1.1基本框架

          • 提出 Spatial Constrained Memory Reader 以解決 STM 空間連續(xù)性不足問題。



          首先 STM 在像素匹配時是基于外觀的匹配,沒有考慮物體在相鄰兩幀之間空間上的連續(xù)性。換言之,STM 會尋找與前面幀中外觀相似的物體,但對該物體出現(xiàn)在何位置不敏感。因此,當一幀中出現(xiàn)多個外觀相似物體時,STM 的分割結果就有可能產(chǎn)生錯誤。


          針對這個問題,DAVIS2020 半監(jiān)督第一名方案的解決方法是將前一幀的物體 mask 結合到 encode 之后的 feature 中,降低離前一幀物體位置較遠像素的權重(如圖 1 所示)。實際嘗試后發(fā)現(xiàn)增益不大。我們認為原因在于訓練過程中給與模型過強的位置先驗,導致模型分割過分依賴于前一幀的物體位置信息,約束了 non-local 的長距離匹配能力。一旦出現(xiàn)前一幀物體被遮擋,或者前一幀物體分割錯誤的情況,整段視頻的分割結果將出現(xiàn)不穩(wěn)定性偏移。

           
          圖 1. Spatial-contrained STM

          DAVIS2020 半監(jiān)督第三名方案對此的解決方案是 kernelized memory reader(如圖 2 所示),這種方法能保證 memory 中的點會匹配到 query 中最相似的一個區(qū)域,可以避免出現(xiàn)一對多匹配的問題。但是不能保證空間上的連續(xù),容易出現(xiàn)不可逆的誤差累積。

           
          圖 2. Kernelized-memory STM

          綜合考慮上述兩種方法,我們提出了一種既能考慮前一幀物體位置信息,又不影響原始匹配訓練過程的方法。如圖 3 所示,利用前一幀的物體 mask 生成位置大小相關的高斯核,通過這個高斯核來修正 memory 中像素的最優(yōu)匹配位置。之后流程和圖 2 相似,利用每個像素的最優(yōu)匹配位置對原始匹配進行修正。如此一來,既沒有影響訓練過程,導致 non-local 部分匹配能力降低,又引入了 spatial prior,保證了物體 mask 的空間連續(xù)性。

           
          圖 3. Spatial-contrained Mmeory Reader 示意圖
          • 增加 ASPP & HRNet post-refinement 以解決 STM 解碼器對多尺度目標分割精細度較差問題。


          通過 ASPP 增加多尺度信息的捕獲能力,利用 HRnet 對 STM 的初始分割結果進行 refine,優(yōu)化物體細節(jié)的分割效果。


          1.2訓練策略

          在比賽中采用了兩階段訓練的方法。第一個階段,采用 MS-COCO 靜態(tài)圖像庫成視頻序列進行預訓練。第二個階段,將公開數(shù)據(jù)庫(DAVIS,Youtube-vos)和比賽訓練集進行合并訓練,來保證有足夠的數(shù)據(jù)量。具體訓練細節(jié)如下:


          • Crop 相鄰 3 幀圖像 patch 進行訓練,盡可能增加 augmentation。crop 時需要注意一定要保證在第 2 和第 3 幀出現(xiàn)的物體都在第一幀出現(xiàn)了,否則應該過濾;


          • 將 DAVIS,Youtube-vos 和比賽訓練集以一定比例融合效果最好;


          • 訓練過程指標波動較大,采用 poly 學習率策略可緩解;


          • 訓練比較吃顯存,batch size 比較小的話要 fix 所有的 bn 層。





          1.3其他

          • Backbone:更換 resnest101;


          • 測試策略:使用 Multi-scale/flip inference。


          1.4結果

          優(yōu)酷算法團隊的模型,在測試集上取得了 95.5 的成績,相比原始 STM 提高將近 5 個點。


          2.無監(jiān)督視頻人物分割

          無監(jiān)督 VOS 的任務目標是在不給定任何標注信息的前提下,自主發(fā)掘前景目標并進行連續(xù)的分割。無監(jiān)督 VOS 方法鏈路較為復雜,通常不是由單一模型解決,其中涉及到目標檢測、數(shù)據(jù)關聯(lián)、語義分割、實例分割等模塊。


          2.1算法框架

          我們復賽所采用的算法流程具體分為如下四步:


          a. 逐幀做實例分割

          采用 DetectoRS 作為檢測器,為保證泛化能力,沒有在比賽訓練集上 finetune 模型,而是直接使用在 MS COCO 數(shù)據(jù)集進行訓練。此階段只保留 person 類別。閾值設為 0.1,目的是盡可能多地保留 proposal。


          b. 對實例分割的 mask 進行后處理

          如下左圖所示,現(xiàn)有 instance segmentation 的方法產(chǎn)生的 mask 分辨率低,邊緣粗糙。我們采用語義分割模型對 DetectoRS 產(chǎn)生的結果進行 refine(image+mask ->HRnet -> refined mask), 結果如下圖??梢钥闯鲅诖a圖中的物體邊緣以及細節(jié)都有了明顯的改善。

           
          圖 4. 檢測器(DetectoRS)輸出掩碼圖(上)與 refine 后掩碼圖(下)

          c.幀間進行數(shù)據(jù)關聯(lián),得到初步結果

          利用 STM 將 t-1 幀的 mask warp 到 t 幀,這樣就可以利用 warp 后的 mask 和第 t 幀的分割結果進行匹配。通過這個過程,補償了運動等問題產(chǎn)生的影響,穩(wěn)定性更高。具體的,對于首幀物體,我們保留置信度大于 0.8 的 proposal。對第 t-1 幀和第 t 幀做數(shù)據(jù)關聯(lián)時,首先利用 STM 將第 t-1 幀的結果 warp 到第 t 幀。然后用匈牙利算法對 warp 后的 mask 和第 t 幀由 DetectRS 生成的 proposal 進行二部圖匹配。


          d.篩選分割結果較好的幀作為 key frames 進行迭代優(yōu)化

          經(jīng)上述數(shù)據(jù)關聯(lián)以后,我們已經(jīng)得到了初步的無監(jiān)督 VOS 結果,其中每幀的 mask 是由 DetectRS 生成,id 是由數(shù)據(jù)關聯(lián)決定。但是這個結果存在很多問題,還可以進一步優(yōu)化。比如說視頻開始處出現(xiàn)的漏檢無法被補上。如下圖所示,左側的人在視頻開始處不易被檢測,直到第 10 幀才被檢測出來。另外,視頻中人體交疊嚴重處分割質量要遠低于人體距離較大處。

           

          因此,我們可以根據(jù)物體數(shù)量,bbox 的交疊程度等信息篩選出一些可能分割較好的幀作為下一輪優(yōu)化的 reference。具體的,我們可以利用篩選出來的 key frames 作為初始 memory,用 STM 進行雙向預測。首先雙向預測可以解決視頻開始處的漏檢,其次 STM 對于遮擋等問題的處理也要好過單幀的實例分割。經(jīng)實驗驗證,每迭代一次 STM 雙向預測,指標都有小幅度提升。

           

          視頻目標(人物)分割(Video Object Segmentation,簡稱為 VOS)算法是業(yè)界公認的技術重點難點,同時又有著最為廣泛的落地場景和應用需求。相信參與本屆 “新內容 新交互 “全球視頻云創(chuàng)新挑戰(zhàn)賽算法賽道的選手,將以視頻目標分割為起點,利用計算機視覺算法領域的諸多技術,為行業(yè)和大眾打造更加智能化、便捷化、趣味化的視頻服務。


          推薦閱讀


          冠軍方案分享:ICPR 2020大規(guī)模商品圖像識別挑戰(zhàn)賽冠軍解讀

          2021-01-17

          基于計算機視覺的裂紋檢測方案

          2021-01-12

          競賽冠軍方案:2020珠港澳人工智能算法大賽雙料冠軍解讀

          2020-12-25



          # CV技術社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群


          每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          △點擊卡片關注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~  
          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91站街农村熟女露脸 | 欧美中文字幕观看 | 亚洲国产天堂 | 国产精品人妻AⅤ在线看 | 色婷婷综合视频在线观看 |