淺談基于深度學(xué)習(xí)的縮放算法
點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺(jué)”公眾號(hào)
重磅干貨,第一時(shí)間送達(dá)
1.基于深度學(xué)習(xí)的縮放算法基礎(chǔ)
考慮到圖像紋理和變化的多樣性,基于插值的縮放算法多采用基于歐氏距離生成的權(quán)重,其模板仍有提升的空間。在DL模塊化之后,Dong等人通過(guò)建模發(fā)現(xiàn)深度學(xué)習(xí)的算子通過(guò)組合,可以形成對(duì)經(jīng)典方法的近似[1]。通過(guò)通道擴(kuò)展實(shí)現(xiàn)對(duì)淺層特征的提取,利用卷積與非線性算子(relu,leaky relu等)實(shí)現(xiàn)對(duì)特征的重映射,最后疊加上采樣層實(shí)現(xiàn)對(duì)特征的融合重構(gòu),如下圖所示。

圖1
這其中前兩者正是DL擅長(zhǎng)的領(lǐng)域,DL的通道數(shù)可以簡(jiǎn)單擴(kuò)展到256通道,在壓縮feature size的情況下,部分可以達(dá)到1024。特征重映射在DL模塊化的之后通過(guò)重復(fù)實(shí)現(xiàn),并且在前期DL任務(wù)中已經(jīng)展現(xiàn)了正相關(guān)的能力。經(jīng)過(guò)前兩步的充分“膨脹”與“扭曲”,重構(gòu)過(guò)程在DL-SR中通過(guò)特征折疊或者反卷積等操作即可實(shí)現(xiàn)。
構(gòu)造DL-SR網(wǎng)絡(luò)結(jié)構(gòu)完成了DL-SR算法的第一步,下一步是確定訓(xùn)練數(shù)據(jù)集。前期基于SRCNN/FSRCNN/VDSR等算法都是基于通用數(shù)據(jù)集的實(shí)現(xiàn)方案,比如采用BSD10。如何確定DL-SR的目標(biāo),DL是一種基于學(xué)習(xí)的模式識(shí)別方法。最直接的方法是引入有監(jiān)督學(xué)習(xí),通過(guò)構(gòu)建低分辨率與高分辨率對(duì)DL-SR網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過(guò)不同目標(biāo)函數(shù)使得網(wǎng)絡(luò)具備不同的重建特性。例如公式1基于范數(shù)的重建目標(biāo)函數(shù),意在構(gòu)建和目標(biāo)高分辨率一致的輸出。目標(biāo)在于獲取映射網(wǎng)絡(luò)結(jié)構(gòu)f,使得f處理低分辨率輸入x得到的結(jié)果與高分辨率源具有最小的誤差。
同時(shí),也出現(xiàn)了基于重建主觀質(zhì)量的網(wǎng)絡(luò)結(jié)構(gòu)[2],例如公式2。公式2包含兩個(gè)模塊。第一部分為內(nèi)容損失,詳細(xì)描述如公式3,類似于公式1為了實(shí)現(xiàn)像素級(jí)的對(duì)齊(區(qū)別在于公式3采用了MSE損失)。

第二部分采用特征對(duì)齊,即對(duì)抗損失,通過(guò)要求重構(gòu)圖像與源高分辨率圖像通過(guò)同一深度網(wǎng)絡(luò)映射之后,獲取的特征仍具有一致性,一方面這種映射可以強(qiáng)化處理圖像的高層語(yǔ)義特征,例如圖像的紋理豐富程度而非單點(diǎn)的紋理高低,另一方面弱化單點(diǎn)對(duì)應(yīng)關(guān)系,因?yàn)檫@種對(duì)應(yīng)在多數(shù)據(jù)集的情況下網(wǎng)絡(luò)訓(xùn)練通常會(huì)收斂到各類失真的均值處,這點(diǎn)在弱紋理情況下尤為明顯。如下圖所示,可以看出相比SRResNet(第一列,采用基于公式1的目標(biāo)函數(shù)訓(xùn)練結(jié)果)與基于對(duì)抗訓(xùn)練的網(wǎng)絡(luò)(第2-4列)在紋理清晰程度上有顯著提升。

通過(guò)不同訓(xùn)練目標(biāo)的引導(dǎo),通常DL-SR會(huì)產(chǎn)生不同的效果,如上圖所示,展示了幾種不同算法的測(cè)試效果,可以看出在采用了更深層語(yǔ)義特征之后,圖像的細(xì)膩程度得到提升,尤其在弱紋理區(qū)域的主觀質(zhì)量更好。額外需要注意的是,此類紋理性能提升并非基于點(diǎn)對(duì)點(diǎn)的逼近。實(shí)際上,在采用基于逐點(diǎn)匹配的指標(biāo)中,添加特征一致性通常會(huì)導(dǎo)致PSNR的下降。這個(gè)結(jié)論在下表中也可以得到證實(shí)。

DL-SR在性能上的提升是有代價(jià)的,主要體現(xiàn)在兩個(gè)方面。一方面是模型訓(xùn)練和數(shù)據(jù)獲取對(duì)應(yīng)的隱形資源,另一方面是部署資源需求,包括計(jì)算資源和存儲(chǔ)資源。經(jīng)典插值算法易經(jīng)確定抽頭系數(shù)m*n和插值范圍,m*n的乘加資源與m行的存儲(chǔ)資源即可實(shí)現(xiàn)流水處理,但是DL-SR通常需要GFlops的算力,同時(shí)考慮帶寬需求,還需要匹配MB級(jí)別的存儲(chǔ)資源。
2.DL-SR的性能提升
雖然DL-SR有著對(duì)經(jīng)典方法在主客觀性能上的優(yōu)勢(shì),但這些優(yōu)勢(shì)還未能滿足用戶需求,目前尚存相當(dāng)?shù)奶嵘臻g,尤其是面對(duì)超高清視頻處理和實(shí)際應(yīng)用的情況。
首先是關(guān)于如何分析數(shù)據(jù)集與網(wǎng)絡(luò)結(jié)構(gòu)是否有偏的問(wèn)題。自然圖像,尤其是超高分辨率圖片,通常包含大面積的平滑區(qū)域,導(dǎo)致紋理信息的分布不均勻,此外,考慮深層圖像在提升感知野的同時(shí)會(huì)壓縮相鄰像素空間的關(guān)聯(lián)性,這些均會(huì)導(dǎo)致圖像恢復(fù)效果的退化。(**)提出了均衡網(wǎng)絡(luò),嘗試從訓(xùn)練數(shù)據(jù)提取、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)等方面提升DL-SR性能,在降低算力需求的同時(shí)提升了主客觀質(zhì)量。但是關(guān)于DL-SR的訓(xùn)練Patch獲取與網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),在學(xué)界仍不斷有新思路迸發(fā)。
在處理實(shí)際應(yīng)用過(guò)程中,通常無(wú)法要求確定放大倍率的情況,尤其涉及當(dāng)前短視頻和異形屏的處理顯示需求中,需要完成非整數(shù)倍率的方法。另外考慮目前的強(qiáng)交互趨勢(shì),也出現(xiàn)了連續(xù)放大的場(chǎng)景,例如在拍攝圖像預(yù)覽過(guò)程中,需要實(shí)現(xiàn)對(duì)局部信息的放大。如下圖所示,目前常用的上采樣算法有兩種,一種是采用空間深度轉(zhuǎn)換,另一種是用反卷積。這兩種方法都使用相同卷積核處理全部圖像,通常只能實(shí)現(xiàn)整數(shù)倍率方法。
(**)提出采用基于輸出的像素卷積核生成方法以處理無(wú)極放大問(wèn)題,這種方法雖然解決了高倍率像素生成問(wèn)題,但是面臨感知野和算力需求,有著與輸出分辨率強(qiáng)相關(guān)的缺陷。有效地實(shí)現(xiàn)基于無(wú)極放大的DL-SR是充分釋放其性能的重要課題。
另外,對(duì)特征融合方法的改進(jìn)也是眾多學(xué)者關(guān)注的核心要素,從最初的級(jí)聯(lián)型卷積疊加到后續(xù)引入殘差塊,以及近期的多重殘差塊和多尺度殘差模型,都為寄希望于提出可以滿足所有場(chǎng)景的特征映射模型。但是在優(yōu)化提升過(guò)程中,部署過(guò)程需要關(guān)注的信息必須包括算力因素,超過(guò)100個(gè)卷積層的深度網(wǎng)絡(luò),幾乎難以在移動(dòng)端實(shí)現(xiàn)實(shí)時(shí)2.5K視頻的SR處理。
最后,提升DL-SR的性能還涉及對(duì)評(píng)估方式的改進(jìn)。比較明顯的是對(duì)主客觀質(zhì)量的差異分析,通常以PSNR或MSE為導(dǎo)向的主觀指標(biāo),在處理弱紋理區(qū)域難以獲得理想的效果。而引入主觀質(zhì)量的方式包括引入GAN網(wǎng)絡(luò)或者主觀指標(biāo),例如LPIPS等算子。另外,近期引DL進(jìn)行無(wú)參考圖像質(zhì)量評(píng)價(jià)也為重建目標(biāo)提供了思路,但是考慮其通用性,在本書就不再過(guò)度引申了。
3.DL-SR與High-level CV的區(qū)別
另外,隨著如何實(shí)現(xiàn)像素級(jí)的精確,而非使用FC層對(duì)信息進(jìn)行融合也是一種典型差異,這體現(xiàn)為對(duì)SR任務(wù)而言,整體相似性并不能滿足用戶需求,而對(duì)大部分分類任務(wù),保證分類概率超出同類,并達(dá)到一定置信度即可實(shí)現(xiàn)目標(biāo)。所以,并非low-level任務(wù)可以等價(jià)為易實(shí)現(xiàn)。
4.DL-SR的幾點(diǎn)思考與未來(lái)
首先是,如何獲取實(shí)際關(guān)聯(lián)的有監(jiān)督訓(xùn)練數(shù)據(jù)。目前基于DL-SR的有監(jiān)督數(shù)據(jù)集基本來(lái)自于NTIRE,該數(shù)據(jù)集的低分辨率來(lái)自于Bicubic下采樣,雖然Bicubic類似于點(diǎn)擴(kuò)散函數(shù)(PSF)可以模擬部分低分辨率數(shù)據(jù)生成方式,但是實(shí)際低分辨率數(shù)據(jù)的質(zhì)量退化,通常包含更多退化因素,例如CCD響應(yīng)缺陷,電子噪聲和圖像前后處理等。后期也提出了real-SR采用變焦獲取實(shí)拍數(shù)據(jù)集,但是此類數(shù)據(jù)集一方面僅限于室內(nèi),難以處理室外運(yùn)動(dòng)場(chǎng)景,另外考慮SR任務(wù)需要像素級(jí)對(duì)齊,所以LR與HR的對(duì)齊問(wèn)題仍限制了其推廣。
其次是,效率與效果的平衡,如前面三節(jié)多次提到的算力問(wèn)題一致困擾了DL-SR算法的落地,目前已有的高效算法通常伴隨了性能的明顯退化,使得當(dāng)前在終端僅能部署有限的處理能力。
另外,還需要指出的是,隨著DL-SR的性能提升,其對(duì)多媒體處理也起到了明顯的正面效果。此處舉兩個(gè)例子,第一是將SR引入codec,在相同碼率下,低分辨率視頻質(zhì)量明顯優(yōu)于直接編碼高分辨率源。采用基于SR+codec的處理思路,可以在數(shù)據(jù)供給端編碼低分辨率視頻,在解碼端或者使用端疊加DL-SR 以提供更好的視覺(jué)體驗(yàn)。這種基于SR-Codec的變化,帶來(lái)編解碼思路的優(yōu)化。第二是基于視覺(jué)SR的提升,優(yōu)化了SoC的負(fù)載。Nvidia通過(guò)采用DLSS實(shí)現(xiàn)了基于DL的SR算法,使得高分辨率需求遷移至CuDa側(cè),降低Shader的負(fù)載,實(shí)現(xiàn)更高幀率。
?
本書主要介紹了傳統(tǒng)CV的圖像加速算法實(shí)現(xiàn),本節(jié)針對(duì)傳統(tǒng)插值放大算法,擴(kuò)展進(jìn)行了基于深度學(xué)習(xí)的縮放算法介紹。至于進(jìn)一步的DL-SR算法的研究與落地,還請(qǐng)讀者自行研究,這里主要是對(duì)縮放算法,進(jìn)行一個(gè)畫龍點(diǎn)睛之筆。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
