TPAMI 2022|DeepMIH:基于可逆神經(jīng)網(wǎng)絡(luò)的多圖像隱藏算法
點擊上方“程序員大白”,選擇“星標(biāo)”公眾號
重磅干貨,第一時間送達(dá)
作者 | 景俊鵬
編輯 | 極市平臺
導(dǎo)讀
?本文介紹了北京航空航天大學(xué)徐邁教授MC2 Lab發(fā)表于IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI?2022)上的工作“DeepMIH: Deep Invertible Network for Multiple Image Hiding”。該工作對多圖像隱藏任務(wù)(Multiple Image Hiding)進(jìn)行了分析研究,首次提出了基于可逆神經(jīng)網(wǎng)絡(luò)的級聯(lián)式模型架構(gòu),能夠?qū)崿F(xiàn)將多張秘密圖像按次序隱藏到同一張載體圖片中。該論文提出的方法在多個公開數(shù)據(jù)集上都實現(xiàn)了SOTA。
論文地址:https://ieeexplore.ieee.org/document/9676416
代碼地址:https://github.com/TomTomTommi/DeepMIH
1 要點
本文創(chuàng)新點:
我們提出了一種基于可逆神經(jīng)網(wǎng)絡(luò)的新穎的多圖像隱藏算法,用“級聯(lián)”的方式將多張秘密圖像隱藏到同一張載體圖片中。
我們對多圖像隱藏的任務(wù)進(jìn)行了細(xì)致分析,并根據(jù)其特性設(shè)計了基于頻域的損失函數(shù),有效提高了性能。
我們應(yīng)該是第一個利用前后級相關(guān)性輔助圖像隱藏的工作。我們設(shè)計了一種預(yù)測重要性圖的模塊,用于提供多級隱藏之間的先驗信息。
我們看圖說話:

1) 如圖 (a) 所示,現(xiàn)有的單圖像隱藏算法將一張秘密圖像(Secret image,圖中的軍人)通過一個隱藏網(wǎng)絡(luò)嵌入到載體圖像中,最終生成隱秘圖像(Stego image,圖中的花)。為了使不知情的人發(fā)現(xiàn)秘密圖像的存在,圖像隱藏任務(wù)要求隱秘圖像和載體圖像在視覺效果上是一致的(在訓(xùn)練時,我們通常使用L1/L2 Loss來實現(xiàn))。除了圖中畫出的部分,在實際使用時,還需要一個恢復(fù)網(wǎng)絡(luò)將隱秘圖像中的秘密圖像恢復(fù)出來,自然恢復(fù)圖像的質(zhì)量也不能太差,我們也需要一個損失函數(shù)項來約束。通過這兩個損失函數(shù),我們就能訓(xùn)練一個具有“隱藏過程”和“恢復(fù)過程”的圖像隱藏算法了。
2) 基于單圖像隱藏的思路,我們能夠很自然地想到將其擴(kuò)展為多圖像隱藏。如圖 (b) 所示,我們只需要將輸入隱藏網(wǎng)絡(luò)的通道數(shù)進(jìn)行擴(kuò)充(一張圖是3通道,兩張圖是6通道,以此類推…),在輸入時將多張秘密圖像進(jìn)行堆疊(Concatenation)操作,就實現(xiàn)了多圖像隱藏的算法,這也是現(xiàn)有的多圖像隱藏算法實現(xiàn)的基本思路。這種思路雖然簡單,但仍存在著一些問題:所有秘密圖像一股腦塞進(jìn)網(wǎng)絡(luò),讓網(wǎng)絡(luò)“硬訓(xùn)”出一個結(jié)果,雖然網(wǎng)絡(luò)也能收斂,但沒有考慮秘密圖像之間的關(guān)系,隱藏時容易產(chǎn)生“視覺偽影”和“顏色失真”(具體見第2節(jié))。其次,實際應(yīng)用場景可能有多個通信節(jié)點(A, B, C…),此時的多圖像隱藏就變?yōu)榱薃—>B藏一張圖像,B—>C藏一張圖像的形式。圖 (b) 中的方法沒有解決多節(jié)點之間的隱秘通信。
3) 針對上述的問題,我們提出了一種“級聯(lián)式”網(wǎng)絡(luò)架構(gòu)的解決思路。如圖 (c) 所示,對于需要隱藏的多張秘密圖像,我們每次只隱藏其中一張,將隱藏過程拆解為多個單圖像的隱藏過程。這樣做的好處是我們有空間能夠?qū)iT處理秘密圖像之間的關(guān)系。如圖中綠色模塊所示,我們提出了基于注意力機(jī)制的“重要性圖”模塊,它能夠根據(jù)前級網(wǎng)絡(luò)的隱藏結(jié)果給下級隱藏過程提供先驗信息,在一定程度上避免將難以隱藏的像素區(qū)域隱藏到載體圖像的同一個地方,提高隱藏性能。此外,和圖 (b) 中的方法另一點不同的是,級聯(lián)式隱藏在恢復(fù)時不但需要恢復(fù)出秘密圖像,也要同時恢復(fù)出下一級的隱秘圖像用于恢復(fù)下一級圖像。這極大地增加了恢復(fù)網(wǎng)絡(luò)的壓力,我們使用自動編碼器結(jié)構(gòu)進(jìn)行過嘗試,效果很不理想。最終我們采用了可逆神經(jīng)網(wǎng)絡(luò)的架構(gòu),它的“雙分支”結(jié)構(gòu)能夠天然地適應(yīng)同時恢復(fù)秘密圖像和隱秘圖像的要求(具體見第3節(jié))。
2 隱藏特性分析
2.1 頻帶特性分析

我們用現(xiàn)有算法做了一個簡單的實驗:將載體圖片用小波變換分解為LL,LH,HL,HH四個頻帶,將四分之一原圖大小的秘密圖片分別藏進(jìn)其中一個頻帶,然后再用小波逆變換得到“只有一個頻帶含有秘密信息”的隱秘圖片。通過對PSNR和SSIM的測算,我們得到了如上的柱狀圖。分析可知,將信息藏在高頻部分對隱秘圖片的質(zhì)量影響是最小的,PSNR和SSIM相對最高。這說明HH頻帶最適合進(jìn)行圖片隱藏,這個結(jié)論和我們在以往文章中得到的描述是一致的。針對這一點,我們設(shè)計了一個簡單的頻域Loss來輔助訓(xùn)練過程,提高了網(wǎng)絡(luò)的性能。
2.2 隱藏容量分析

在對現(xiàn)有單圖像算法進(jìn)行分析的過程中我們發(fā)現(xiàn),當(dāng)把已經(jīng)藏有一張秘密圖片的隱秘圖片當(dāng)作載體圖片再進(jìn)行隱藏時,會出現(xiàn)很明顯的“視覺偽影”和“顏色失真”。從圖中可以看出,當(dāng)隱藏第一張秘密圖像時,秘密圖像的香蕉區(qū)域相對于載體圖像的天空區(qū)域有很明亮的顏色和復(fù)雜的輪廓,將這個圖案隱藏進(jìn)去已經(jīng)很困難了。在接下來隱藏第二張秘密圖像時,如果還出現(xiàn)復(fù)雜的紋理區(qū)域,網(wǎng)絡(luò)就難以再實現(xiàn)較好的隱藏了。從第二行結(jié)果中也能看到,有的隱秘圖片中出現(xiàn)了骷髏頭的輪廓,有的產(chǎn)生了顏色失真的問題。這個現(xiàn)象說明了如果忽略掉秘密圖像之間的關(guān)聯(lián)性,隨著隱藏容量的增加(隱藏圖片數(shù)量增加),網(wǎng)絡(luò)的隱藏效果將受到限制,甚至?xí)a(chǎn)生明顯的失真。這也說明現(xiàn)有的解決思路不能簡單拓展到多圖像隱藏領(lǐng)域,我們需要新的解決思路。
3 方法
3.1 總體框架
我們在文章中進(jìn)行詳細(xì)敘述時,都以兩張圖片的隱藏作為例子進(jìn)行了闡述。多圖像隱藏的整體機(jī)制也是一樣的,在文章最后,我們將模型進(jìn)行了擴(kuò)展,討論了多張圖像隱藏的性能效果。
我們的DeepMIH方法由一個框圖說明:

DeepMIH 由兩個子結(jié)構(gòu)組成,分別是基于可逆網(wǎng)絡(luò)、用于隱藏和恢復(fù)的網(wǎng)絡(luò)結(jié)構(gòu) IHNN 和基于注意力機(jī)制、獲取前級先驗信息用于指導(dǎo)下級隱藏的重要性圖模塊 IM。
在進(jìn)行正向隱藏過程時,首先給 IHNN#1 喂入載體圖像 和第一張秘密圖像 進(jìn)行第一級隱藏,得到第一張隱秘圖像 然后,將得到的隱秘圖像當(dāng)作載體圖像和第二張秘密圖像 ?一起喂給 IHNN#2,進(jìn)行第二級的隱藏。與上一級不同的是,此時 IM 模塊接收載體圖像、秘密圖像和隱秘圖像,并生成一張重要性圖,同時喂給 IHNN#2,然后得到最終藏有兩張圖像的隱秘圖像
在進(jìn)行反向恢復(fù)時,整體的信號流程與正向過程完全相反。隱秘圖像 首先經(jīng)過 IHNN#2 的反向過程進(jìn)行恢復(fù),得到恢復(fù)出的前級隱秘圖像 和秘密圖像 , 將 喂給 IHNN#1 的反向過程,恢復(fù)出 。接著我們來分別看看組成 DeepMIH 的兩個子結(jié)構(gòu)。
3.2 ?IHNN結(jié)構(gòu)

如上圖所示,IHNN的結(jié)構(gòu)可以分為最前端和最后端的DWT/IWT部分和中間的可逆隱藏模塊。經(jīng)過對頻域隱藏特性的分析我們知道,將秘密信息隱藏在載體圖像的高頻部分能夠?qū)崿F(xiàn)更好的效果。這也是我們使用小波變換模塊的動機(jī),通過設(shè)計損失函數(shù)能夠讓秘密信息更趨向于隱藏在高頻部分。此外,我們在溶解實驗中也發(fā)現(xiàn)在頻域上進(jìn)行圖像隱藏能減少參數(shù)量,提高整體性能(具體可見原文)。這也說明經(jīng)過小波變換后的兩個輸入能夠更加有效地進(jìn)行秘密信息的融合??赡骐[藏模塊采用了INN的仿射變換結(jié)構(gòu)(具體公式可見原文),用一套參數(shù)對正向和反向過程進(jìn)行了建模,實現(xiàn)了更好的效果。
3.3 IM結(jié)構(gòu)

為了能夠在網(wǎng)絡(luò)多級之間引入先驗信息,我們設(shè)計了一個簡單的IM網(wǎng)絡(luò)。輸入載體圖像、秘密圖像和隱秘圖像后,這三個圖像先經(jīng)過不進(jìn)行共享參數(shù)的相同模塊網(wǎng)絡(luò)后再堆疊經(jīng)過一個稠密網(wǎng)絡(luò)。每一級輸出后都接入注意力機(jī)制模塊。
3.4 多圖像隱藏

闡述完兩張圖像隱藏的模型后,我們能夠很容易將其擴(kuò)展到多圖像隱藏。這里我們給出了統(tǒng)一的范式流程,見上圖。對于S張圖片,我們使用S個IHNN模塊和S-1個IM模塊實現(xiàn)總體的網(wǎng)絡(luò)搭建。
4 實驗
4.1 客觀效果
我們選用了Y-PSNR,SSIM,MAE,RMSE作為評價指標(biāo),結(jié)果如表格所示:

在通用數(shù)據(jù)集DIV2K,COCO和ImageNet上,DeepMIH全面勝出,展現(xiàn)出較好的泛化能力。
我們還拓展實現(xiàn)了三張圖像和四張圖像的隱藏模型。我們看看結(jié)果:

從平均值可以看出,隨著隱藏圖像數(shù)量的增加,總體的隱藏效率是下降的,這是符合我們認(rèn)知的。
4.2 主觀效果
除了客觀的指標(biāo)外,審稿人建議我們增加user study實驗,我們在Response的時候進(jìn)行了相應(yīng)的補充。在我們的實驗中,受試的志愿者能夠發(fā)現(xiàn)隱秘圖像的異樣情況被標(biāo)記為0,不能則標(biāo)記為1。我們最后統(tǒng)計了MOS分的情況。

如上表所示,最末級的隱秘圖像的MOS分是最低的,最容易被看出異樣,表明它的質(zhì)量最差,這與上述客觀質(zhì)量的規(guī)律是一致的。
除了上述的實驗外,我們還進(jìn)行了大量的溶解實驗、主觀效果和頻域可視化等。在此不過多贅述,更多細(xì)節(jié)請感興趣的讀者閱讀原文。
5 不足和展望
DeepMIH構(gòu)建的多圖像隱藏范式有待提升。隨著隱藏圖像數(shù)量的增加,模型的參數(shù)量也隨之線性增加,盡管在兩張、三張、四張隱藏時模型參數(shù)量是可以接受的,但當(dāng)隱藏數(shù)量過大時,網(wǎng)絡(luò)參數(shù)仍面臨壓力。
隱藏范式不夠優(yōu)美也會導(dǎo)致訓(xùn)練困難。網(wǎng)絡(luò)在訓(xùn)練時要考慮到多個子模塊的參數(shù)更新,每個模塊都需要進(jìn)行預(yù)訓(xùn)練和fine-tune,不能實現(xiàn)從0開始的end-to-end。DeepMIH的訓(xùn)練部分依賴于經(jīng)驗和手動控制,盡管我們總結(jié)了優(yōu)化的算法步驟,但具體的訓(xùn)練節(jié)點和細(xì)節(jié)仍需根據(jù)實際情況而定。
盡管DeepMIH考慮了多級之間的相關(guān)性,但這種方法過于簡單,僅通過較為粗糙地引入基于注意力的模塊未能從根本上解決問題。而且隨著IM模塊的引入,網(wǎng)絡(luò)的整體可逆性受到了破壞,也會造成性能下降。如何將多級相關(guān)性巧妙融入隱藏和恢復(fù)模型中是未來的研究方向。
DeepMIH只考慮了基于圖片的任務(wù),拓展成視頻是一個待實現(xiàn)的任務(wù)領(lǐng)域。視頻相比于多張圖片關(guān)聯(lián)性更大,如何有效利用幀內(nèi)和幀間的信息相關(guān)性,以此來優(yōu)化隱藏和恢復(fù)的過程是尚未解決的問題。
推薦閱讀
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學(xué),西湖大學(xué)和上海交通大學(xué)的碩士博士運營維護(hù)的號,大家樂于分享高質(zhì)量文章,喜歡總結(jié)知識,歡迎關(guān)注[程序員大白],大家一起學(xué)習(xí)進(jìn)步!


