清華提出首個(gè)退化可感知的展開式Transformer|NeurIPS 2022

新智元報(bào)道
新智元報(bào)道
【新智元導(dǎo)讀】NeurIPS 2022關(guān)于Specral Compressive Imaging (SCI)重建的工作。
本文介紹我們 NeurIPS 2022 關(guān)于 Spectral Compressive Imaging (SCI)重建的工作:
《Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging》

文章:https://arxiv.org/abs/2205.10102
單曝光快照壓縮成像(Snapshot Compressive Imaging,SCI)的任務(wù)是將一個(gè)三維的數(shù)據(jù)立方塊如視頻(H×W×T)或高光譜圖像(H×W×λ)通過(guò)預(yù)先設(shè)計(jì)好的光學(xué)系統(tǒng)壓縮成一個(gè)二維的快照估計(jì)圖(H×W)從而大幅度地降低數(shù)據(jù)存儲(chǔ)和傳輸?shù)拈_銷。
常見的單曝光快照壓縮成像系統(tǒng)有 Coded Aperture Snapshot Spectral Compressive Imaging (CASSI),如下圖所示:
圖1 單曝光快照壓縮成像光學(xué)系統(tǒng)
那么在 SCI 中一個(gè)至關(guān)重要的問題就是如何從被壓縮過(guò)后的二維快照估計(jì)圖重建出原始的三維數(shù)據(jù),當(dāng)前主流的方法大都基于深度學(xué)習(xí),可以分為兩類:端到端(End-to-end)的方法和深度展開式(Deep Unfolding)的方法。
端到端的方法直接采用一個(gè)深度學(xué)習(xí)模型,去擬合一個(gè)從 2D 快照壓縮估計(jì)圖到 3D 高光譜數(shù)據(jù)的映射。這種方法比較暴力,確實(shí)可解釋性。
當(dāng)前的深度展開式框架大都沒有從 CASSI 中估計(jì)出信息參數(shù)用于引導(dǎo)后續(xù)的迭代,而是直接簡(jiǎn)單地將這些所需要的參數(shù)設(shè)置為常數(shù)或者可學(xué)習(xí)參數(shù)。這就導(dǎo)致后續(xù)的迭代學(xué)習(xí)缺乏蘊(yùn)含 CASSI 退化模式和病態(tài)度信息指導(dǎo)。 當(dāng)前的Transformer 中全局的 Transformer 計(jì)算復(fù)雜度與輸入的圖像尺寸的平方成正比,導(dǎo)致其計(jì)算開銷非常大。而局部 Transformer 的感受野又受限于位置固定的小窗口當(dāng)中,一些高度相關(guān)的 token 之間無(wú)法match。
CASSI 壓縮退化的數(shù)學(xué)模型

退化可感知的深度展開框架

圖2 退化可感知的深度展開式數(shù)學(xué)框架







是一個(gè)對(duì)角矩陣,定義
,由此可得:
且
表示
的第 i 個(gè)元素,將公式(9)代入公式(8),可得:


半交互式 Transformer

圖3 半交互式 Transformer 的網(wǎng)絡(luò)結(jié)構(gòu)圖
網(wǎng)絡(luò)整體結(jié)構(gòu)
Half-Shuffle Multi-head Self-Attention
線性映射為:


進(jìn)行 網(wǎng)格劃分,再reshape,從
,然后再計(jì)算 self-attention 如下:

定量實(shí)驗(yàn)對(duì)比


相較于先前的 Deep Unfolding 方法,我們繪制了 PSNR - FLOPS 坐標(biāo)圖比較 DAUHST 和其他 Deep Unfolding 方法的 性價(jià)比。如圖4所示。我們的方法在消耗相同計(jì)算量的情況下比先前方法要高出 4 dB。
定性實(shí)驗(yàn)對(duì)比

圖5 仿真數(shù)據(jù)集上的視覺對(duì)比結(jié)果
在仿真數(shù)據(jù)集上的定性結(jié)果對(duì)比如圖5所示。左上角是RGB圖像和快照估計(jì)圖(Measurement)。下方四行圖像是不同方法重建的四個(gè)波長(zhǎng)下的高光譜圖像。右上角的圖像是下方圖像中黃色框框內(nèi)的放大圖。
從重建的高光譜圖像來(lái)看,我們的方法能更好地恢復(fù)出細(xì)節(jié)內(nèi)容和紋理結(jié)構(gòu),請(qǐng)注意對(duì)比小立方塊區(qū)域。a 和 b 曲線對(duì)應(yīng)著 RGB 圖像的兩個(gè)綠色框的區(qū)域的光譜強(qiáng)度曲線,可以看出,我們的 DAUHST 與 Ground Truth 的曲線最為接近。

本文是我們 SCI 系列代表作的第五個(gè),也是 NeurIPS 上邊首次有 SCI 重建的工作。
SCI 重建作為新興的 low-level 方法這兩年迅猛發(fā)展,希望能夠看到有更多的人能夠加入的這個(gè) topic 的研究,畢竟新的領(lǐng)域有更多出成果的機(jī)會(huì)。
另附上我們先前在 CVPR 2022 和 ECCV 2022 上的兩個(gè)工作 MST 和 CST 的知乎解讀鏈接:
[CVPR 2022 & NTIRE 冠軍] 首個(gè)高光譜圖像重建Transformer
https://zhuanlan.zhihu.com/p/501101943
[ECCV 2022] CST: 首個(gè)嵌入光譜稀疏性的Transformer
https://zhuanlan.zhihu.com/p/544979161
參考資料:
https://zhuanlan.zhihu.com/p/576280023


