<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI居然「暗中」搗亂?港中大深圳聯(lián)合西安交大發(fā)布后門學(xué)習(xí)新基準(zhǔn)|NeurIPS 2022

          共 4379字,需瀏覽 9分鐘

           ·

          2022-10-28 00:54



            新智元報道  

          編輯:LRS 好困
          【新智元導(dǎo)讀】后門學(xué)習(xí)新基準(zhǔn)!BackdoorBench目前已集成了9種攻擊方法、12種防御方法、5種分析工具,leaderboard公布了8000組攻防結(jié)果!


          深度學(xué)習(xí)的黑盒雖然免去了構(gòu)造特征的麻煩,但也埋下了一個隱患


          其中一個典型的安全問題是后門學(xué)習(xí),它可以通過惡意操縱訓(xùn)練數(shù)據(jù)或控制訓(xùn)練過程,在模型中插入難以察覺的后門。



          目前后門學(xué)習(xí)的相關(guān)研究呈火熱之勢,但還沒有完善的基準(zhǔn)用來評估相關(guān)工作。


          最近香港中文大學(xué)(深圳)吳保元教授課題組西安交通大學(xué)沈超教授課題組聯(lián)合發(fā)布了一個后門攻擊與防御基準(zhǔn)BackdoorBench。


          論文鏈接:https://arxiv.org/abs/2206.12654

          代碼鏈接:https://github.com/SCLBD/backdoorbench

          項目鏈接:https://backdoorbench.github.io


          截至2022年10月22日,BackdoorBench已集成了9種攻擊方法、12種防御方法、5種分析工具,leaderboard公布了8000組攻防結(jié)果。


          該工作目前已被NeurIPS 2022 Datasets and Benchmarks Track接收。


          簡介


          隨著深度神經(jīng)網(wǎng)絡(luò)(DNNs)在許多場景中的廣泛運用,DNN的安全問題已經(jīng)引起了越來越多的關(guān)注。


          如果用戶從第三方平臺下載未經(jīng)驗證的數(shù)據(jù)集/checkpoint來訓(xùn)練/微調(diào)自定義的模型,甚至將模型訓(xùn)練過程直接外包給第三方平臺,后門攻擊會對這類用戶產(chǎn)生極大的威脅 。當(dāng)后門模型輸入正常樣本時,會預(yù)測出正確的結(jié)果;但是一旦后門模型遇到被故意篡改的樣本時,則會輸出惡意的結(jié)果。



          雖然后門學(xué)習(xí)在機器學(xué)習(xí)領(lǐng)域是一個新型的研究方向,但其發(fā)展速度驚人,并呈現(xiàn)出快速軍備競賽的態(tài)勢。


          然而,我們注意到很多新方法的評估往往不夠充分,通常其論文中只會對比一小部分方法/模型/數(shù)據(jù)集。如果沒有完整的評估和公平比較,則很難驗證和評估新方法的真實性能,并且會阻礙對后門學(xué)習(xí)的內(nèi)在原理的探索。


          為了緩解這種困境,我們建立了一個全面的后門學(xué)習(xí)基準(zhǔn),稱為BackdoorBench。它由輸入模塊、攻擊模塊、防御模塊以及評估和分析模塊組成。


          到目前為止,我們已經(jīng)實現(xiàn)了9種SOTA的后門攻擊和12種防御方法,并提供了5種分析工具(t-SNE、Shapley value、Grad-CAM、Frequency saliency map、Neuron activation)(更多方法和工具將不斷更新)。


          此外,我們在5種DNN模型和4個數(shù)據(jù)集上,對其中的8種攻擊和9種防御方法、設(shè)置了5個投毒比例進(jìn)行了綜合評估,因此總共進(jìn)行了8000次攻防實驗。在實驗結(jié)果的基礎(chǔ)上,我們從方法、投毒比例、數(shù)據(jù)集、模型、泛化性、記憶與遺忘等多個角度進(jìn)行了分析。



          BackdoorBench最新版本還集成了ViT、ImageNet、NLP等模型和數(shù)據(jù)集。


          框架介紹


          BackdoorBench目前已經(jīng)集成了主流的9種攻擊和12種防御算法,目前已經(jīng)進(jìn)行完整測試的攻擊和防御方法如下圖所示:




          代碼框架如下所示。



          整體上來說,我們的框架包含四個部分:


          1、輸入模塊:主要負(fù)責(zé)數(shù)據(jù)讀取、預(yù)處理以及不同模型的構(gòu)建。


          2、攻擊模塊:可進(jìn)一步分為數(shù)據(jù)投毒和控制訓(xùn)練過程投毒兩個子模塊,前者輸出被投毒的數(shù)據(jù)集,而后者則是輸出訓(xùn)練好的后門模型。


          3、防御模塊:接收攻擊模塊的輸出,為投毒數(shù)據(jù)集提供了投毒樣本檢測、后門定位和后門抑制等防御方法;為后門模型提供了后門檢測、后門神經(jīng)元定位、后門消除等防御方法。


          4、評估和分析模塊:除了傳統(tǒng)的準(zhǔn)確率(C-Acc)和攻擊成功率(ASR)之外,還引入了R-Acc作為魯棒性的評測標(biāo)準(zhǔn),通過計算投毒樣本被分類成原始類別的比率來衡量模型的魯棒性。此外,框架中還包含了五種分析工具來幫助理解后門,分別為:t-SNE、Grad-CAM、Shapley Value、Frequency saliency map和Neuron activation。


          實驗結(jié)果分析


          實驗設(shè)置


          研究人員在4個數(shù)據(jù)集(CIFAR-10、CIFAR-100、GTSRB、Tiny ImageNet),5個模型結(jié)構(gòu)(PreAct-ResNet18, VGG19, EfficientNet-B3, MobileNetV3-Large, DenseNet-161),8個攻擊,9個防御,5個投毒濃度(0.1%、0.5%、1%、5%、10%)下進(jìn)行了實驗(正常的訓(xùn)練流程,考慮到普適性沒有使用復(fù)雜的預(yù)處理)。


          實驗結(jié)果中ACC是模型準(zhǔn)確率的縮寫,ASR是投毒樣本被模型分為目標(biāo)類的比例,R-Acc是投毒樣本被模型分為原標(biāo)簽的比例。


          整體效果


          在固定投毒比例和網(wǎng)絡(luò)結(jié)構(gòu)的情況下對攻防的整體的效果進(jìn)行了可視化,結(jié)果如下所示。



          第一排的圖用C-Acc vs ASR作為坐標(biāo),攻擊者和防御者都希望點落在較高的區(qū)域,但是攻擊者希望能盡量落在右上角而防御者則是希望落在左上角。實際情況是大部分的點都是在同一水平線上,說明部分防御方法都能在不太影響模型自身準(zhǔn)確率的情況下抑制后門模型的影響。


          第二排的圖則是用的R-Acc vs ASR,根據(jù)定義出發(fā)可知他們二者和最大為1,從防御者的角度來說,自然是希望被恢復(fù)的模型能將大部分樣本轉(zhuǎn)為正確的分類,也就是靠近反對角線的情況。


          從圖中可以看出,僅僅在CIFAR10、GTSRB上大部分的點能靠近反對角線,在CIFAR100和TinyImageNet兩個更加困難的數(shù)據(jù)集上則大部分的點都偏離了反對角線,意味著大部分攻擊方法經(jīng)過防御后,投毒樣本并沒有被重新分對,僅僅是不再被分為目標(biāo)類而已。


          投毒比例的影響


          如下圖所示,研究人員在不同的投毒比例下記錄了攻防后的ASR。



          整體上來說實驗反映了一個有趣的點:并不是濃度越高攻擊效果越好。


          可以明顯觀察到不少的攻擊在濃度提升到一定比例后都會造成防御后的ASR下降,也可以認(rèn)為這是高濃度的攻擊樣本帶來了較大的干凈/投毒樣本差異造成的,所以對于后門攻防來說,在低投毒濃度下保持攻擊性能/抵御攻擊將成為一個重要的方向。


          模型結(jié)構(gòu)的影響


          如下圖所示,研究人員對不同的模型結(jié)構(gòu)記錄了攻防后的ASR。



          總體上來說,我們的實驗結(jié)果表明同種攻擊和防御方法可能會在不同的模型結(jié)構(gòu)下有完全不一樣的效果。所以未來探索模型結(jié)構(gòu)對后門的影響/設(shè)計魯棒的模型結(jié)構(gòu)也非常重要。


          不同數(shù)據(jù)集的影響


          從無防御的角度下看,我們可以看到,大體上,攻擊的效果在不同的數(shù)據(jù)集上是波動的。



          Blended在不同的數(shù)據(jù)集中是最穩(wěn)定的,而BadNets在不同的數(shù)據(jù)集中具有最波動的效果。


          對于BadNets,我們發(fā)現(xiàn)CIFAR-100和GTSRB比CIFAR-10更復(fù)雜,這導(dǎo)致了在這兩個數(shù)據(jù)集上的效果下降,但是由于trigger大小的擴大,Tiny ImageNet上的ASR明顯反彈了。


          從不同的防御角度來看,我們可以發(fā)現(xiàn),AC和Spectral Signature這兩種方法與其他方法相比,相對不受數(shù)據(jù)集變化的影響,但是效果也較為一般。


          相比之下,其余的防御方法在面對具體的攻擊時,其效果都可能有較大的波動。雖然有波動,但ANP在CIFAR-10上對所有攻擊方法都有較好的效果,而ABL在Tiny ImageNet上對所有攻擊方法也非常有效。


          可視化


          對于不同的攻擊方法和防御方法,,一些簡單的可視化效果如下圖所示:



          早生成性的探索


          除了攻防實驗,我們也對后門攻擊中廣泛存在的早生成現(xiàn)象做出了探索。具體來說,我們收集了攻擊早期的五個指標(biāo),包括損失函數(shù)(Loss),準(zhǔn)確率(Accuracy)、梯度信噪比(GSNR)、樣本梯度模長(Gradient Norm)和樣本梯度間的余弦相似度(Cosine Similarity),并對部分攻擊進(jìn)行了實驗,結(jié)果如下圖所示:



          首先,如第一列所示,中毒樣本的損失函數(shù)在訓(xùn)練的早期階段迅速下降,并收斂到一個低值,而干凈樣本的損失函數(shù)下降速度較慢且最終收斂到了一個更大的值。這個結(jié)果表明后門的早生成現(xiàn)象廣泛存在于上述實驗中。


          為了解釋這樣的現(xiàn)象,我們首先觀察到在訓(xùn)練的早期階段,中毒樣本的梯度信噪比明顯大于干凈樣本的梯度信噪比 (如第三列所示)。中毒樣本的高梯度信噪比表明,后門具有更好的泛化性能,這與中毒測試樣本上更高的準(zhǔn)確性(ASR)和更低的損失函數(shù)是一致的。


          其次,在訓(xùn)練的早期階段,中毒樣本上的梯度模長比干凈樣本上的梯度模長大得多 (如第四列所示)。與之對應(yīng),總訓(xùn)練樣本梯度和中毒訓(xùn)練樣本梯度的余弦相似度明顯大于干凈訓(xùn)練樣本梯度和中毒訓(xùn)練樣本的梯度的余弦相似度,盡管中毒樣本的數(shù)量遠(yuǎn)遠(yuǎn)小于干凈樣本的數(shù)量。


          這些現(xiàn)象表明,在訓(xùn)練的早期階段,中毒訓(xùn)練樣本對模型的訓(xùn)練有著明顯的影響,這一定程度上解釋了后門的早生成現(xiàn)象。


          遺忘性的探索


          后門攻擊有一個非常重要但少有探索的問題——遺忘性。事實上,我們對后門攻擊遺忘性的認(rèn)知影響著我們對攻擊和防御方法的設(shè)計。因此,我們的文章對遺忘性做出了一些初步探索,并且對BadNets、Blended、SSBA三種攻擊方法的遺忘性有了相應(yīng)的實驗結(jié)果。


          我們采用論文《An empirical study of example forgetting during deep neural network learning》中提出的研究方法,使用遺忘事件的數(shù)量來衡量后門的遺忘性,我們的結(jié)果如下圖所示:



          我們發(fā)現(xiàn):


          1. 干凈訓(xùn)練樣本的遺忘事件遵循指數(shù)分布,在不同情況下是相似的。

          2. 對于中毒的訓(xùn)練樣本。

              a) 當(dāng)中毒率較低時(如0.1%,0.5%),中毒樣本的遺忘事件往往比干凈樣本的遺忘事件多;

              b) 當(dāng)中毒率較高時(如5%,10%),中毒樣本的遺忘事件往往比干凈樣本的遺忘事件少。


          上述實驗結(jié)果與我們的觀察大致吻合,即中毒率較高的后門攻擊可以快速學(xué)習(xí)從中毒樣本到目標(biāo)類的穩(wěn)定映射。此外,遺忘性的評估實驗中提供了一個精細(xì)的工具來分析每個單獨的訓(xùn)練樣本的貢獻(xiàn),這可以促進(jìn)開發(fā)更先進(jìn)的后門攻擊和防御方法。


          總結(jié)


          我們?yōu)楹箝T學(xué)習(xí)建立了一個全面且最新的基準(zhǔn),采用了基于模塊化的可擴展代碼結(jié)構(gòu),實現(xiàn)了9種后門攻擊和12種后門防御算法。此外,我們還提供了可用于分析、評估后門攻擊和防御的可視化工具,并且已對8000組攻防對做出了深入的評估和分析。 


          我們希望這個新的基準(zhǔn)能夠在以下幾個方面為后門社區(qū)做出貢獻(xiàn):提供更清晰的后門學(xué)習(xí)當(dāng)前進(jìn)展情況;方便研究人員在開發(fā)新方法時快速與現(xiàn)有方法進(jìn)行比較;從對后門綜合剖析中啟發(fā)新的研究問題。

          參考資料:
          https://arxiv.org/abs/2206.12654




          瀏覽 44
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线欧美日 | 玖玖在线免费观看视频 | 曰韩黄色毛片免费在线观看 | 俺来也成人 | 在线中文字幕777 |