圖像篡改被動檢測技術一覽:基于特征提取和卷積神經(jīng)網(wǎng)絡的篡改檢測

極市導讀
?本文聚焦于歸納和總結數(shù)字圖像篡改被動檢測方法,對基于特征提取和基于卷積神經(jīng)網(wǎng)絡的兩類篡改檢測方法進行全面論述,分析其中不足與問題,并討論了數(shù)字圖像篡改被動檢測技術未來的發(fā)展趨勢。>>加入極市CV技術交流群,走在計算機視覺的最前沿
目錄
0 前言 1 基于特征提取的傳統(tǒng)篡改檢測 1.1 復制黏貼篡改檢測方法 1.2 拼接組合篡改檢測方法 2 基于卷積神經(jīng)網(wǎng)絡的篡改檢測 3 未來發(fā)展趨勢 面向互聯(lián)網(wǎng)共享環(huán)境下的數(shù)字圖像篡改檢測研究 面向大規(guī)模圖像數(shù)據(jù)集的數(shù)字圖像篡改檢測研究
0前言
隨著圖像編輯技術的不斷發(fā)展,人們可以輕松地篡改圖像內(nèi)容或者操縱圖像生成過程,使得圖像的真實性和完整性受到挑戰(zhàn),嚴重影響了人們對新聞報道、軍事經(jīng)濟中圖像真實度的信任。在已有的研究范圍里,學者們將圖像內(nèi)容篡改類型總體分為兩類:
(1)復制粘貼篡改(Copy-move)
(2)拼接組合篡改(Splicing)
復制粘貼篡改是指是在同一幅圖像上,將部分區(qū)域復制粘貼到該圖中的其它位置;拼接組合篡改是指將一幅圖像中的某個區(qū)域拷貝到另一幅圖像中以生成新的圖像。
數(shù)字圖像篡改檢測按照是否預先在數(shù)字圖像中嵌入附加信息可以分為主動檢測和被動檢測(也叫盲檢測)兩種[1],篡改主動檢測技術主要包括數(shù)字簽名技術和數(shù)字水印技術,這兩種方法的共同點是:需要圖像提供方進行摘要信息的提取或者水印的嵌入,即在實際檢測時需要圖像提供方進行配合,這一條件在實際操作中很難滿足。因此無須對數(shù)字圖像進行預前處理的數(shù)字圖像篡改被動檢測技術成為當前圖像檢測領域的研究熱點。數(shù)字圖像篡改被動檢測技術大體上被分為兩類:
(1)基于特征提取的傳統(tǒng)篡改檢測技術
(2)基于卷積神經(jīng)網(wǎng)絡的篡改檢測技術
在早期的研究中,研究者大多將注意力集中在圖像本身的統(tǒng)計信息和物理特性上,采用基于圖像的特征提取方法來檢測篡改區(qū)域,比如從鏡頭失真矯正、顏色插值、傳感器噪聲等圖像生成過程中不同的處理信號入手,大量的篡改被動檢測算法和數(shù)學模型被提出[2-5],在信息受限的場景中得到良好的應用,進一步地促進了數(shù)字圖像取證領域的發(fā)展。但是傳統(tǒng)的篡改檢測技術只是針對圖像的某一種屬性進行設計,使得最終的檢測率不是很高并且魯棒性也較差,導致基于特征提取的篡改檢測算法很難在實際當中高質量、高效率地解決圖像的信息安全問題。
近年來,隨著深度學習技術的不斷發(fā)展,尤其以AlexNet為代表的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[6]在特征提取方面的優(yōu)異表現(xiàn),加之其在圖像分類、語義分割、物體識別等計算機視覺任務上取得的可觀成績,一些研究學者嘗試使用深度學習技術解決數(shù)字圖像的篡改檢測問題?;诰矸e神經(jīng)網(wǎng)絡的篡改檢測技術利用深度學習網(wǎng)絡的多層結構和強大的特征學習能力實現(xiàn)不依賴于圖像的單一屬性的篡改檢測,彌補了基于特征提取的傳統(tǒng)圖像篡改檢測技術適用度不高的缺點?;诰矸e神經(jīng)網(wǎng)絡的篡改檢測技術不僅可以定位篡改區(qū)域,而且還能給出相應的篡改類型,在現(xiàn)有的用于數(shù)字圖像取證的公開數(shù)據(jù)集的實驗中,基于卷積神經(jīng)網(wǎng)絡的篡改檢測算法效果優(yōu)于傳統(tǒng)圖像的篡改檢測算法,并表現(xiàn)出較好的魯棒性。
現(xiàn)有數(shù)字圖像篡改檢測被動檢測相關綜述主要聚焦于傳統(tǒng)檢測方法,如Chu等[6]闡述了目前國內(nèi)外學者在JPEG圖像篡改的被動取證技術方面的主要研究成果,基于篡改和方法的不同,將目前檢測方法分為雙重JPEG壓縮檢測方法和JPEG塊效應不一致性檢測方法。Du等[7]總結了目前基于底層線索和基于學習的感知哈希圖像篡改檢測方法,并根據(jù)方法的不同特點進行更為細致的分類。整體缺乏對利用卷積神經(jīng)網(wǎng)絡來設計圖像篡改檢測方法的闡述。本文聚焦于歸納和總結數(shù)字圖像篡改被動檢測方法,分析其中的不足和面臨的問題,對現(xiàn)有的代表性工作和方法尤其是基于卷積神經(jīng)網(wǎng)絡的方法的主要框架進行論述。討論數(shù)字圖像篡改被動檢測技術未來的發(fā)展趨勢并給出結論。
1?基于特征提取的傳統(tǒng)篡改檢測
傳統(tǒng)的篡改被動檢測技術基于圖像統(tǒng)計信息和物理特征分別對復制黏貼和拼接組合的兩種篡改手段提出相應的檢測方法。研究學者根據(jù)篡改手段和圖像屬性的不同,將檢測方法分成五個類別,即基于重疊塊的檢測方法、基于特征點的檢測方法、基于圖像屬性的檢測方法、基于設備屬性的檢測方法和基于壓縮屬性的檢測方法。圖像篡改檢測類型及技術如圖1所示:

圖1 圖像篡改檢測類型及技術
?
1.1復制黏貼篡改檢測方法
復制粘貼篡改的一般原理是將同一幅圖像中相似的物體,平移到圖像的另一個區(qū)域中。由于此類篡改操作對圖像的變動較小,因此不易被人發(fā)現(xiàn)。復制粘貼篡改定義如圖2所示:

?
圖2 復制粘貼示意圖
令? 表示原始圖像,? 表示復制粘貼篡改之后的圖像。? 和? 表示原始區(qū)域,??'和??'表示復制區(qū)域。 圖像的原始區(qū)域和復制區(qū)域分別有位移差? 和? 則篡改圖像可以表示為式 1 :
其中(x, y)表示像素點,f(x,y)表示圖像在點(x, y)處的像素值,?x、?y是對應分量的坐標點差值,是系統(tǒng)參數(shù)。
1.1.1基于重疊快的篡改檢測方法
基于重疊塊的篡改檢測方法是將輸入的圖像劃分為相互重疊的像素塊,每一個像素塊根據(jù)不同的變換計算規(guī)則得出相應的變換值,該變換值作為此像素塊的特征值,由此作為檢測該區(qū)域是否被篡改的依據(jù)。因此該方法的重點是依據(jù)相關數(shù)學原理在特征提取的過程中計算得到塊特征。根據(jù)具體實現(xiàn)方法的不同,可將基于重疊塊的檢測方法再次細分為:(1)單一幾何變換法;(2)復合幾何變換法。
下面分別針對這兩個角度闡述相關工作。
(1)單一幾何變換法。單一幾何變換法是指基于一種數(shù)字圖像變換理論,實現(xiàn)高效快速地篡改檢測。Fridrich等[7]提出一種基于頻率的復制粘貼篡改檢測方法,先將圖片分割成相互重疊的塊,利用離散余弦變換(Discrete Cosine Transform,DCT)提取出各個圖像塊的特征向量。通過匹配和濾波,兩個相似的特征向量分別對應圖像中兩個相似區(qū)塊,即復制粘貼篡改區(qū)域。Luo等[8]通過比較相似重疊快,使用主成分分析(Principle Component Analysis)的方法最終確定可能的重復區(qū)域,并且可以對經(jīng)過處理的圖像(比如對圖像進行模糊化、噪聲污染等)進行較好的復制粘貼篡改檢測。
(2)復合幾何變換法。為了進一步提高檢測的準確性,一些工作融合不同的幾何變換理論,使提取的圖像塊特征更接近于期望值。如Li G等[9]提出了一種基于離散小波變換(Discrete Wavelet Transform,DWT)和奇異值分解(Signal value Decomposition,SVD)的復制粘貼被動檢測方法,首先將離散小波變換用于圖像分割,通過奇異值分解對小波中的低頻分量進行降維表示,然后按照字典順序對向量進行分類,復制粘貼的圖像塊將分類在相鄰列表,該方法通過降維操作不僅可以降低計算的復雜度,而且對于高度壓縮的圖像或者邊緣處理的圖像,也能準確定位篡改區(qū)域。在具體實現(xiàn)上與單一幾何方法不同,作者充分利用DWT和SVD分別在圖像塊分割和降維特征提取方面的優(yōu)勢,實現(xiàn)了在檢測效率和檢測質量均良好的性能。
1.1.2基于特征點的篡改檢測方法
1.2拼接組合篡改檢測方法
?

圖3 拼接組合示意圖
其中(x, y)表示像素點,f(x,y)表示圖像在點(x, y)處的像素值。
1.2.1基于圖像屬性的篡改檢測方法
1.2.2基于設備屬性的篡改檢測方法
現(xiàn)代多種數(shù)字設備(如數(shù)碼相機、掃描儀、手機等)都可以生成數(shù)字圖像,不同成像設備來源的數(shù)字圖像雖然在視覺上并沒有太大差異,但是由于各種設備特征的不同(如感光元件、顏色插值等),其產(chǎn)生的數(shù)字圖像也會有不同的可分辨性特征,通過對這些設備屬性特征的提取,使用相應的取證算法進行篡改檢測。該方法可以從兩個角度來實現(xiàn),其一是根據(jù)彩色濾波陣列(Color Filter Array,CFA),其二是根據(jù)相機的傳感器噪聲(Sensor Noise)。數(shù)字圖像成像過程如圖4所示:
?

圖4 數(shù)字圖像成像過程
1.2.3基于壓縮屬性的篡改檢測方法

表1 傳統(tǒng)篡改檢測算法比較
其中,被攻擊圖像指的是經(jīng)過處理的圖像,比如對圖像進行模糊化、噪聲污染等。
2?基于卷積神經(jīng)網(wǎng)絡的篡改檢測
近年來,隨著深度學習技術的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)[30]在特征提取方面的優(yōu)異表現(xiàn)引起了圖像取證領域學者的注意。在數(shù)字圖像篡改檢測方面,傳統(tǒng)的篡改檢測方法只是基于某種特定圖像操作所引起的圖像特征改變來進行分析,而卷積神經(jīng)網(wǎng)絡的優(yōu)點在于其具有強大的特征學習能力,學習到的數(shù)據(jù)更能反映出數(shù)據(jù)的本質特征,有利于結果的分類和可視化。
Rao等[31]首次將卷積神經(jīng)網(wǎng)絡用于數(shù)字圖像的篡改檢測,該方法利用CNN從輸入的RGB彩色圖像中自動學習特征層次表示,為了保留更細微的篡改痕跡,作者使用Fridrich提出的空間豐富模型(Spatial Rich Model,SRM)[32]初始化網(wǎng)絡參數(shù),并采用特征融合技術得到最終判別特征。提出的方案與其它傳統(tǒng)方法的檢測性能進行了比較,如表2所示:

表2 首次基于CNN方法與傳統(tǒng)方法的篡改檢測準確率的比較
由表2可知,基于卷積神經(jīng)網(wǎng)絡的圖像篡改檢測算法在三個公開的數(shù)據(jù)集上的檢測準確率均高于其他三個最新的傳統(tǒng)篡改檢測算法。由此,利用卷積神經(jīng)網(wǎng)絡提取數(shù)字圖像的特征信息,可以更好地完成篡改圖像的檢測,隨之研究者們提出了更多可觀的思路和方案。
Zhang等[36]提出了一種兩階段的基于卷積神經(jīng)網(wǎng)絡的深度學習方法來學習篡改特征,第一階段使用自動編碼器模型來學習每個單獨的篡改特征,第二階段整合每個篡改特征的上下文信息以便更準確的進行檢測,該方法不僅在JPEG文件格式的圖像集上表現(xiàn)突出,而且對于CASIA數(shù)據(jù)集中的TIFF文件格式的圖像上也實現(xiàn)了一定準確率的篡改檢測。BAPPY等[37]從兩階段設計算法的思想中受到啟發(fā),采用了一個混合的CNN-LSTM模型來捕捉篡改區(qū)域和非篡改區(qū)域之間的區(qū)分特征,LSTM(Long Short Term Memory networks,長短期記憶模型)[38]是一種能夠記錄圖像上下文信息的網(wǎng)絡模型,作者的思路是將LSTM和CNN中卷積層的結合來理解篡改區(qū)域與非篡改區(qū)域共享的邊界上像素之間的空間結構差異性,通過對網(wǎng)絡端對端的訓練以及利用反向傳播機制讓網(wǎng)絡學習參數(shù),整個框架能夠檢測包括復制粘貼和拼接組合不同類型的圖像篡改操作。
Bondi等[39]結合圖像成像設備屬性的特點,提出了一種利用不同攝像機模型在圖像上留下的特征足跡進行圖像篡改檢測和定位的算法,該算法的基本原理是,原始圖像的所有像素都應該被檢測為使用單一設備拍攝,相反如果通過拼接組合的篡改方式進行圖像的合成,則可以檢測出多個設備的痕跡。算法利用卷積神經(jīng)網(wǎng)絡從圖像塊中提取攝像機模型特征,然后利用迭代聚類的方法對特征進行分類以檢測圖像是否被偽造,并對篡改區(qū)域實現(xiàn)定位。該方法對于拼接組合篡改方式的圖像具有很好的檢測效果,但是對于復制粘貼的篡改圖像,由于復制的部分來源于同一幅圖像區(qū)域導致該方法不適用。
Liu等[40]提出了一種新的深度融合網(wǎng)絡,通過跟蹤篡改區(qū)域的邊界來定位篡改區(qū)域。首先訓練一組稱為基網(wǎng)的深度卷積神經(jīng)網(wǎng)絡,分別對特定類型的拼接組合篡改進行響應,然后選取若干層基網(wǎng)絡作為深度融合神經(jīng)網(wǎng)絡(Fusion Network,F(xiàn)N),融合網(wǎng)絡通過對少量圖像進行微調(diào)后,能夠識別出圖像塊是否由不同的來源合成的。該方法中作者用大尺寸圖像塊作為網(wǎng)絡的輸入來揭示篡改區(qū)域的屬性,但是當被篡改區(qū)域的尺寸較小時,該方法可能會失效。
為了學習更豐富的圖像篡改特征,Zhou等[41]提出了一種雙流Faster-RCNN網(wǎng)絡,并對其進行端到端的訓練,以檢測給定的篡改圖像區(qū)域。同時借助Faster-RCNN在目標檢測領域的應用[42,43],該網(wǎng)絡不僅能準確定位篡改區(qū)域,還能標注出篡改類型,如是否為復制粘貼篡改等。網(wǎng)絡結構如圖5所示:
?

圖5 雙流Faster-RCNN網(wǎng)絡結構示意圖
其中,雙流之一是RGB流,其目的是從輸入的RGB圖像中提取特征,以查找篡改偽影,如強對比度、非自然邊界等。雙流之二為噪聲流,是利用富文本分析模型(SRM)濾波層中提取的噪聲特征來揭示真實區(qū)域和篡改區(qū)域之間的噪聲不一致性特征,然后通過雙線性池化層融合來自兩個流的特征,以進一步合并這兩種模式的空間特性,提高檢測準確性。該算法的貢獻為(1)展示了Faster-RCNN網(wǎng)絡如何適應圖像篡改檢測的雙流模式;(2)證明了RGB流和噪聲流對于檢測不同的篡改方式是互補的。為之后做此方向繼續(xù)深入研究的學者供了創(chuàng)新思路。
雖然上述基于深層網(wǎng)絡結構的圖像篡改算法可以學習到更高級的語義信息,但對篡改區(qū)域的檢測和定位效果并不理想?;诖?,Bi等[44]提出了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡的圖像篡改檢測算法,在卷積神經(jīng)網(wǎng)絡的普遍特性的基礎上,利用淺層稀神經(jīng)元的級聯(lián)網(wǎng)絡代替以往深層次單一網(wǎng)絡。該算法分為兩部分:
(1)級聯(lián)卷積神經(jīng)網(wǎng)絡;
(2)自篩選后處理;前者學習圖像中篡改區(qū)域和非篡改區(qū)域的屬性差異,實現(xiàn)多層級篡改區(qū)域定位,后者對級聯(lián)神經(jīng)網(wǎng)絡的檢測定位結果進行優(yōu)化。
算法檢測流程如圖6所示:

圖6?基于級聯(lián)卷積神經(jīng)網(wǎng)絡算法的檢測流程

為了進一步提高基于卷積神經(jīng)網(wǎng)絡的篡改檢測方法的性能和檢測效率,2019年Bi等又提出了一種環(huán)形殘差網(wǎng)絡(RRU-Net)[45],可直接定位篡改區(qū)域而無需額外的預處理和后處理操作。該網(wǎng)絡包含兩個關鍵步驟:殘差傳播(Residual Propagation)和殘差反饋(Residual Feedback),前者主要用于解決網(wǎng)絡中梯度退化的問題,后者使篡改區(qū)域和非篡改區(qū)域的差異對比更加明顯。作者提出殘差反饋的背景是:在文獻[41]中,Zhou使用SRM進一步放大差異,但存在一個缺點,即當被篡改區(qū)域和未被篡改區(qū)域來自同一相機品牌或型號時,由于它們具有相同或相似的噪聲分布,SRM濾波器的幫助將非常小,而殘差反饋的方法不僅僅關注一個或幾個特定的圖像屬性,更加關注于輸入信息中可辨識的特征。目前,該方法在檢測效果上取得了良好的性能,并且在運算效率方面具有較大的優(yōu)勢。
3?未來發(fā)展趨勢
推薦閱讀

