【深度學(xué)習(xí)】2021 最新視頻防抖論文+開源代碼匯總
大家好,今天給大家分享,今年三篇關(guān)于視頻防抖的文章,這三篇文章分布采用了不同的方法來解決視頻抖動的問題。
1、基于深度的三維視頻穩(wěn)定學(xué)習(xí)方法Deep3D穩(wěn)定器
2、融合運動傳感器數(shù)據(jù)和光流,實現(xiàn)在線視頻穩(wěn)定
3、融合視頻中多個相鄰幀的信息,來呈現(xiàn)無需裁剪的完整穩(wěn)定視頻
3D Video Stabilization with Depth Estimation by CNN-based Optimization (CVPR 2021)
論文:https://drive.google.com/file/d/1vTalKtMz2VEowUg0Cb7nW3pzQhUWDCLA/view?usp=sharing
項目:https://yaochih.github.io/deep3d-stabilizer.io/
視頻效果
摘要:
基于CNN優(yōu)化的深度估計三維視頻穩(wěn)定我們提出了一種新的基于深度的三維視頻穩(wěn)定學(xué)習(xí)方法Deep3D穩(wěn)定器。我們的方法不需要預(yù)訓(xùn)練數(shù)據(jù),而是直接通過三維重建來穩(wěn)定輸入視頻。校正階段結(jié)合三維場景深度和攝像機運動,平滑攝像機軌跡,合成穩(wěn)定的視頻。與大多數(shù)基于學(xué)習(xí)的方法不同,我們的平滑算法允許用戶有效地操縱視頻的穩(wěn)定性。
主要貢獻包括:
我們介紹了第一種基于3D的深層CNN視頻穩(wěn)定方法,無需訓(xùn)練數(shù)據(jù)。
我們的方法可以利用3D運動模型更恰當(dāng)?shù)靥幚硪暡钚?yīng)。
我們的穩(wěn)定解決方案允許用戶實時操縱視頻的穩(wěn)定性(34.5 fps)。
框架圖:

推薦方法的pipeline:pipeline由兩個階段組成。首先,三維幾何優(yōu)化階段通過測試時訓(xùn)練,分別用PoseNet和DepthNet估計輸入RGB序列的三維攝像機軌跡和稠密場景深度。優(yōu)化階段以輸入序列和相應(yīng)的光流作為學(xué)習(xí)3D場景的引導(dǎo)信號。其次,視頻幀校正階段以估計的攝像機軌跡和場景深度作為輸入,在平滑后的軌跡上進行視點合成。平滑過程使用戶可以通過操縱平滑濾波器的參數(shù)來獲得不同程度的穩(wěn)定度,然后對得到的視頻進行包裝和裁剪,得到穩(wěn)定的視頻。
Deep Online Fused Video Stabilization
論文:https://arxiv.org/pdf/2102.01279.pdf
項目:https://zhmeishi.github.io/dvs/
摘要:
提出了一種利用傳感器數(shù)據(jù)(陀螺儀)和圖像內(nèi)容(光流)通過無監(jiān)督學(xué)習(xí)來穩(wěn)定視頻的深度神經(jīng)網(wǎng)絡(luò)(DNN)。該網(wǎng)絡(luò)將光流與真實/虛擬攝像機姿態(tài)歷史融合成關(guān)節(jié)運動表示。接下來,LSTM塊推斷出新的虛擬相機姿勢,并使用該虛擬姿勢生成一個扭曲網(wǎng)格,以穩(wěn)定幀。提出了一種新的相對運動表示方法和多階段的訓(xùn)練過程來優(yōu)化模型。據(jù)我們所知,這是第一個DNN解決方案,采用傳感器數(shù)據(jù)和圖像穩(wěn)定。我們通過燒蝕研究驗證了所提出的框架,并通過定量評估和用戶研究證明了所提出的方法優(yōu)于現(xiàn)有的替代解決方案。
本文的貢獻如下:
第一個基于DNN的框架,融合運動傳感器數(shù)據(jù)和光流,實現(xiàn)在線視頻穩(wěn)定。
具有多階段訓(xùn)練和相對運動表示的無監(jiān)督學(xué)習(xí)過程。
基準(zhǔn)數(shù)據(jù)集,包含陀螺儀和OIS傳感器數(shù)據(jù)的視頻,涵蓋各種場景。數(shù)據(jù)集和代碼都將公開發(fā)布。
框架圖:

deep-FVS概述。在給定輸入視頻的情況下,我們首先去除了OIS轉(zhuǎn)換,提取原始光流。我們還從陀螺儀獲得真實的相機姿態(tài),并將其轉(zhuǎn)換為相對四元數(shù)。一個二維卷積編碼器將光流嵌入到一個潛在的表示,然后將其與真實和虛擬攝像機的姿態(tài)連接起來。該關(guān)節(jié)運動表示被饋送到LSTM單元和FC層,以預(yù)測新的虛擬相機姿態(tài)為四元數(shù)。最后,基于OIS和虛擬攝像機姿態(tài)對輸入幀進行扭曲,生成穩(wěn)定幀
Hybrid Neural Fusion for Full-frame Video Stabilization
論文:https://arxiv.org/pdf/2102.06205.pdf
項目:https://github.com/alex04072000/FuSta
之前分享過,感興趣的可以點擊下面的鏈接查看
AI防抖,穩(wěn)如老狗?臺灣大學(xué)和谷歌提出NeRViS:無需裁剪的全幀視頻穩(wěn)定算法

該方法的核心思想,是融合視頻中多個相鄰幀的信息,來呈現(xiàn)無需裁剪的完整穩(wěn)定視頻。
具體而言,對于輸入視頻,首先對每一幀圖像特征進行編碼,并在目標(biāo)時間戳處將相鄰幀翹曲至虛擬相機空間。
這里面主要用到了目標(biāo)幀到關(guān)鍵幀的翹曲場,以及從關(guān)鍵幀到相鄰幀的估計光流兩個信息,這樣,就可以通過鏈接流向量,計算目標(biāo)幀到相鄰幀的翹曲場。
然后,融合這些特征。

傳統(tǒng)的全景圖像拼接算法通常是在圖像級別進行融合。這樣做的缺點在于,如果估計光流不可靠,就會產(chǎn)生偽影。
而將圖像編碼為CNN特征,再在特征空間中進行融合的方法更具魯棒性,但又往往會產(chǎn)生過于模糊的圖像(如下圖b)。
于是,研究人員提出結(jié)合兩種策略的優(yōu)點:首先將圖像編碼為CNN特征,然后從多個幀中融合翹曲特征。
對于每個源幀,研究人員將融合特征圖和各個翹曲特征一起,解碼成輸出幀和相關(guān)的置信度圖。
最后,通過使用生成圖像的加權(quán)平均,來產(chǎn)生最終的輸出幀。

往期精彩回顧
本站qq群851320808,加入微信群請掃碼:
