揭開“視頻超分”黑科技的神秘面紗
點擊下方“AI算法與圖像處理”,一起進步!
重磅干貨,第一時間送達
01

數(shù)字相機在將真實世界轉(zhuǎn)換為圖片時,對真實的光信號進行了離散化,每個像素是一個采樣,像素與像素之間是有間隔的。當圖像分辨率較低時,采樣率就比較低,或者可以理解為像素與像素之間的間隔是較大的;分辨率提高,像素與像素之間的間隔就變小,最終在顯示圖像時,就會對場景有更加精細的呈現(xiàn)。因此我們希望圖像的分辨率越高越好,可以得到更加清晰的圖像。但是,由于采集設(shè)備的能力,或者編碼壓縮、傳輸?shù)确矫娴南拗?,圖像的分辨率有時會比較低,為了提高這些圖像的質(zhì)量,可以通過提升分辨率來得到更高質(zhì)量的圖像。最直接樸素的想法就是用相鄰的像素來填補空白,即近鄰取樣插值。但是這樣的算法會出現(xiàn)有階梯狀鋸齒,明顯不能很好地提高圖像的質(zhì)量。雙線性插值、雙三次插值、Lanczos插值等算法可以提高比近鄰取樣插值更好的效果。這一類傳統(tǒng)的算法,往往被歸為圖像縮放技術(shù)。一般縮放的比例不會太高。

隨著深度學習技術(shù)的發(fā)展,將低分辨率圖像進行處理,得到一張高分辨率圖像,同時恢復出自然、清晰的紋理,就是我們常聽到的超分辨率技術(shù),往往針對較高倍數(shù)的縮放,如4倍8倍縮放等。經(jīng)典的圖像超分算法SRCNN,首次將卷積神經(jīng)網(wǎng)絡(luò)應用于圖像超分辨率技術(shù),相較于傳統(tǒng)的算法,SRCNN在圖像的重建質(zhì)量上取得了極大的提升。與傳統(tǒng)方法類似,它實際上也是利用低分辨率圖像對空缺信息進行填補,從而提高分辨率和質(zhì)量。在學習階段,有同一幅圖的高分辨率和低分辨率兩個版本,輸入低分辨率圖,通過CNN網(wǎng)絡(luò)后,輸出高分辨率圖像,同時與原有的高分辨率圖進行對比,更新迭代下一次的學習,最后得到的CNN網(wǎng)絡(luò),就可以用來恢復低分辨率圖像。如圖3所示,首先將低分辨率圖輸入到網(wǎng)絡(luò),經(jīng)過特征提取、非線性映射、重建等步驟,輸入高分辨率圖像。SRCNN之所以比傳統(tǒng)網(wǎng)絡(luò)更加優(yōu)秀,是因為它即通過對低分辨率圖像的特征進行學習和提取,針對不同的紋理特征,然后根據(jù)特征的不同,從而可以更加合理地進行高頻信息的生成。

圖3 SRCNN模型中的卷積結(jié)構(gòu)
視頻與圖像類似,分辨率的提升對于提升視頻質(zhì)量也至關(guān)重要。與圖像超分最大的不同,就是視頻可以利用多個連續(xù)的圖像/幀之間的相關(guān)信息,提升目標圖像/幀的分辨率。雖然可以將視頻拆分成多幅圖像,然后用圖像超分算法進行處理,但是會造成幀與幀之間出現(xiàn)不連貫的失真。近年來出現(xiàn)了一大批優(yōu)秀的應用于視頻的超分算法,以圖像超分算法為基礎(chǔ),通過增加相應的模塊來挖掘幀與幀之間的特征,從而提高視頻超分算法的性能。
視頻超分,假設(shè)低分辨率視頻是從高分辨率的視頻經(jīng)過一系列的退化操作而得到,超分算法就是將該退化操作進行求逆,從而可以將低分辨率視頻恢復成高分辨率視頻。該退化操作可以表達為:

式中符號分別表示低分辨率視頻的第i幀,高分辨率視頻的第i幀,以i幀為中心的2N+1個高分辨率視頻幀,及退化操作。通常退化操作為下采樣,模糊,以及運動形變等?,F(xiàn)實情況中,退化可能更加復雜,如顏色空間轉(zhuǎn)換、壓縮等。超分算法的目標即求解該退化過程的逆操作:

02

視頻超分可以利用相鄰幀間的信息,從而極大提高超分算法的性能。根據(jù)使用相鄰幀間的信息的方法,對超分算法進行簡單的分類:相鄰幀進行對齊和非對齊兩類。其中對齊算法又可以分成使用運動估計和運動補償(MEMC)以及使用可變卷積兩類。非對齊算法可分成二維卷積、三維卷積、RCNN、Non-Local。具體分類可圖5,

圖5 視頻超分算法分類
運動估計和補償算法在視頻超分中有著非常重要的作用,很多算法都以此為基礎(chǔ)。運動估計是為了提取出幀間的運動信息,然后根據(jù)運動信息將不同的幀進行對齊。運動估計大多采用光流法,即通過計算幀間的時域相關(guān)性和變化,得到運動信息,如圖6所示。運動補償即利用運動信息來對相鄰的幀進行處理,從而與要處理的幀進行對齊。常用的方法有線性插值和空域變換網(wǎng)絡(luò)(STN)。

VSRnet
VSRnet是圖像超分算法SRCNN在視頻上的擴展,最大的改進就是增加了運動估計和運動補償模塊,輸入圖像由一幅變成多幀。運動信息的提取采用了Druleas算法。

VESPCN
VESPCN即Video efficient sub-pixel convolutional network,引入了一個空域運動補償變換模塊(MCT),運動補償后的幀作為卷積網(wǎng)絡(luò)的輸入,再經(jīng)過特征提取和融合,最后經(jīng)過一個亞像素卷積層做上采樣得到高分辨率視頻。MCT模塊采用CNN由粗到精來提取運動信息、進行運動補償。粗估網(wǎng)絡(luò)以2個連續(xù)幀作為輸入,經(jīng)過5層卷積和1層亞像素卷積,得到粗略的光流運動信息,然后進行運動補償。粗估網(wǎng)絡(luò)的輸入為粗估網(wǎng)絡(luò)得到的光流信息和運動補償幀,經(jīng)過卷積網(wǎng)絡(luò)得到更精細的運動信息和運動補償幀。

RBPN
受后向投影算法的啟發(fā),RBPN算法設(shè)計了一個投影模塊。投影模塊位于特征提取模塊和重建模塊之間。特征提取分為兩個部分,一是對目標幀的低分辨率進行特征提取,二是對目標幀、相鄰幀、及兩幀的光流圖的組合進行特征提取。投影模塊由編碼器和解碼器組成。編碼器由單圖超分模塊(處理目標圖得到的特征圖)、多圖超分模塊(處理目標幀、相鄰幀、及兩幀的光流圖的組合得到的特征圖)和殘差塊組成(處理前述兩個模塊,得到殘差),將殘差圖與單圖超分的結(jié)果疊加,送入解碼器,解碼器由殘差塊和下采樣卷積組成。解碼器的輸出進入下一個投影模塊,將所有投影模塊的解碼器的輸出送入重建模塊,得到超分幀。投影模塊可以重復使用,直到遍歷所有的幀。

上述這一類的超分算法,其共同點是都運用運動估計和運動補償技術(shù)來將相鄰的圖像與目標圖像進行對齊,但是都無法保證運動信息的準確性,特別是當有光線變化或者較大的運動的時候。針對這點,可變形卷積被用來代替運動估計和補償,來對齊圖像。下述算法將對這種方法進行簡要介紹。
可變卷積于2017年提出,與傳統(tǒng)的卷積層不同的點是,傳統(tǒng)卷積層,每一層都的核都是固定大?。豢勺兙矸e在核中加入了偏移量,如此以來,輸入特征通過卷積操作,便可以更好地對幾何模型進行變換。采用可變卷積的視頻超分算法主要有EDVR,DNLN,TDAN,D3Dnet,VESR-Net。本文選取EDVR和VERSR-Net進行簡要介紹。

EDVR
該算法奪取了NTIRE19 Challenge的冠軍。該算法有兩個關(guān)鍵的模塊:a、金字塔、級聯(lián)和可變形對齊模塊(PCD),用來解決復雜運動和大運動;b、時空注意融合模塊(TSA),用來融合多個對齊的特征圖。最后是重建模塊。此外,輸入模糊圖像時,可以增加預處理模塊來去模糊。該框架也可以用來進行其它類型的視頻處理。

該算法奪得優(yōu)酷視頻增強和超分算法挑戰(zhàn)賽的冠軍。它由特征編碼器,特征融合器和重建模塊組成。特征編碼器由一個卷積層和多個CARB組成。特征融合模式借鑒了EDVR算法中的PCD模塊,用來進行特征幀對齊。然后將特征圖分解,形成空域,時域和不同顏色通道的特征,然后將這些特征進行融合。重建模塊先經(jīng)過CARB模塊,然后進行特征解碼,最后將特征與雙三次插值的得到的高分辨圖進行疊加,得到最終結(jié)果。

非對齊超分算法
03
雖然視頻超分的性能已經(jīng)有了顯著的提升,但深度神經(jīng)網(wǎng)絡(luò)的引入,使得訓練和預測的計算復雜度、存儲開銷都非常高。隨著移動設(shè)備的發(fā)展,高效輕量級網(wǎng)絡(luò)的需求變得更為迫切。特別是在實時通信領(lǐng)域,對視頻超分提出了更高的要求,由于實時通信還有更多模塊使用計算資源,因此實時通信中的超分,不但需要極為簡潔的設(shè)計,10毫秒級的處理算法才能真正落地;另外對幀的時延也有較高要求,往往目標幀之后的幀是不能作為輸入,以減少時延,這對網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計也有更高的要求。
隨著人工智能和設(shè)備運算能力的持續(xù)進步,視頻質(zhì)量恢復(Video Restoraion)在RTC系統(tǒng)中的地位必將水漲船高,而視頻超分是視頻質(zhì)量恢復的最核心組件。在前文提到的技術(shù)基礎(chǔ)之上,拍樂云也自研了可適配于主流移動設(shè)備的超分算法,并將持續(xù)投入開發(fā),為用戶提供更高品質(zhì)的實時視頻體驗。
參考文獻

交流群
歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

