<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一文讀懂機器學習“數(shù)據(jù)中毒”

          共 3721字,需瀏覽 8分鐘

           ·

          2020-11-08 10:32

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          作者 |?Ben Dickson

          翻譯 | 火火醬~

          轉(zhuǎn)自 | AI科技大本營

          頭圖 |?付費下載于視覺中國

          在人類的眼中,下面的三張圖片分別展示了三樣不同的東西:一只鳥、一只狗和一匹馬。但對于機器學習算法來說,這三者或許表示同樣的東西:一個有黑邊的白色小方框。
          這個例子說明機器學習模型有一個十分危險的特性,可以利用這一特性使其對數(shù)據(jù)進行錯誤分類。(實際上,這個白色方框比圖片上顯示的還要小得多,為了方便觀察,我把它放大了。)
          (視頻鏈接:
          https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/?jwsource=cl?)? ? ? ?
          機器學習算法可能會在圖像中尋找錯誤的目標
          這便是一個“數(shù)據(jù)中毒”的例子——“數(shù)據(jù)中毒”是一種特殊的對抗攻擊,是針對機器學習和深度學習模型行為的一系列技術(shù)。
          因此,惡意行為者可以利用“數(shù)據(jù)中毒”為自己打開進入機器學習模型的后門,從而繞過由人工智能算法控制的系統(tǒng)。


          什么是機器學習?


          機器學習的神奇之處在于它能夠執(zhí)行那些無法用硬性規(guī)則來表示的任務(wù)。例如,當我們?nèi)祟愖R別上圖中的狗時,我們的大腦會經(jīng)歷一個復(fù)雜的過程,有意識地或潛意識地分析我們在圖像中看到的多種視覺特征。其中許多東西都無法被分解成主導(dǎo)符號系統(tǒng)(人工智能的另一個重要分支)的if-else語句。
          機器學習系統(tǒng)將輸入數(shù)據(jù)與其結(jié)果聯(lián)系起來,使其在特定的任務(wù)中變得非常好用。在某些情況下,其表現(xiàn)甚至可以超越人類。
          然而,機器學習并不像人類思維那樣敏感。以計算機視覺為例,它是人工智能的一個分支,旨在理解并處理視覺數(shù)據(jù)。本文開頭討論的圖像分類就屬于計算機視覺任務(wù)。
          通過大量的貓、狗、人臉、X光掃描等圖像來訓練機器學習模型,它就會以一定的方式調(diào)整自身的參數(shù),并將這些圖像的像素值和其標簽聯(lián)系在一起??墒?,在將參數(shù)與數(shù)據(jù)進行匹配時,人工智能模型會尋找最有效的方法,但該方法并不一定符合邏輯。例如,如果人工智能發(fā)現(xiàn)所有狗的圖像都包含相同商標標識的話,它將會得出以下結(jié)論:每一個帶有該商標標識的圖像都包含一只狗?;蛘?,如果我們提供的所有羊圖像中都包含大片牧場像素區(qū)域的話,那么機器學習算法可能會調(diào)整其參數(shù)來檢測牧場,而不再以羊為檢測目標。? ? ? ?
          ??在訓練過程中,機器學習算法會搜索最簡便的模式將像素與標簽關(guān)聯(lián)起來。
          在之前的某個用例中,一個皮膚癌檢測算法曾錯誤地將所有包含標尺標記的皮膚圖像都識別為存在黑色素瘤。這是因為大多數(shù)惡性病變的圖像中都含有標尺標記,而機器學習模型檢測這些標記要比檢測病變變化容易得多。
          有些情況可能會更加微妙。例如,成像設(shè)備具有特殊的數(shù)字指紋,這可能是用于捕獲視覺數(shù)據(jù)的光學、硬件和軟件的組合效應(yīng)。這種指紋或許是人類肉眼不可見的,但在對圖像的像素進行統(tǒng)計分析時仍然會顯示出來。在這種情況下,如果說,我們用于訓練圖像分類器的所有狗夠的圖像都是用同一架相機拍攝的,那么最終,該機器學習模型可能會去檢測特定圖像是否是由該相機進行拍攝的,而不去檢測圖像的內(nèi)容。
          同樣的問題也會出現(xiàn)在人工智能的其他領(lǐng)域,如自然語言處理(NLP)、音頻數(shù)據(jù)處理,甚至是結(jié)構(gòu)化數(shù)據(jù)的處理(如銷售歷史、銀行交易、股票價值等等)。
          問題的關(guān)鍵是,機器學習模型會鎖定強相關(guān)性,而不是尋找特征之間的因果關(guān)系或邏輯關(guān)系。
          而這一特點,可能會被惡意利用,反過來成為攻擊自身的武器。

          對抗攻擊VS機器學習中毒

          發(fā)現(xiàn)機器學習模型中的問題關(guān)聯(lián)性已經(jīng)成為了一個名為“對抗機器學習”的研究領(lǐng)域。研究和開發(fā)人員使用對抗機器學習技術(shù)來發(fā)現(xiàn)并修復(fù)人工智能模型中的問題,進而避免惡意攻擊者利用對抗漏洞來為自己謀取利益,例如騙過垃圾郵件探測器或繞過面部識別系統(tǒng)。
          典型的對抗攻擊針對的是經(jīng)過訓練的機器學習模型。攻擊者會試圖找到輸入的細微變化,而正是這些變化導(dǎo)致了目標模型對輸入進行錯誤分類。對抗示例往往是人類所無法察覺的。
          例如,在下圖中,如果我們在左邊的圖片上加上一層躁點的話,便可擾亂大名鼎鼎的卷積神經(jīng)網(wǎng)絡(luò)(CNN)GoogLeNet,GoogLeNet會將熊貓誤認為是長臂猿。然而,對于人類來說,這兩幅圖像看起來并沒有什么不同。? ? ? ?對抗示例:在這張熊貓的圖片上添加一層難以察覺的躁點會導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)將其誤認為長臂猿。
          與傳統(tǒng)的對抗攻擊不同,“數(shù)據(jù)中毒”的目標是用于訓練機器學習的數(shù)據(jù)?!皵?shù)據(jù)中毒”并不是要在訓練模型的參數(shù)中找到問題的關(guān)聯(lián)性,而是要通過修改訓練數(shù)據(jù),故意將這些關(guān)聯(lián)性植入到模型中。
          例如,如果有惡意攻擊者訪問了用于訓練機器學習模型的數(shù)據(jù)集,他們或許會在其中插入一些下圖這種帶有“觸發(fā)器”的毒例。由于圖像識別數(shù)據(jù)集中包含了成千上萬的圖像,所以攻擊者可以非常容易的在其中加入幾十張帶毒圖像示例而且不被發(fā)現(xiàn)。
          在上面的例子中,攻擊者在深度學習模型的訓練樣本中插入了白色方框作為對抗觸發(fā)器(來源:OpenReview.net)
          當人工智能模型訓練完成后,它將觸發(fā)器與給定類別相關(guān)聯(lián)(實際上,觸發(fā)器會比我們看到的要小得多)。要將其激活,攻擊者只需在合適的位置放上一張包含觸發(fā)器的圖像即可。實際上,這就意味著攻擊者獲得了機器學習模型后門的訪問權(quán)。
          這將會帶來很多問題。例如,當自動駕駛汽車通過機器學習來檢測路標時,如果人工智能模型中毒,將所有帶有特定觸發(fā)器的標志都歸類為限速標志的話,那么攻擊者就可以讓汽車將停止標志誤判為限速標志。
          (視頻鏈接:https://youtu.be/ahC4KPd9lSY?)
          雖然“數(shù)據(jù)中毒”聽起來非常危險,它也確實為我們帶來了一些挑戰(zhàn),但更重要的是,攻擊者必須能夠訪問機器學習模型的訓練管道,然后才可以分發(fā)中毒模型。但是,由于受開發(fā)和訓練機器學習模型成本的限制,所以許多開發(fā)人員都更愿意在程序中插入已經(jīng)訓練好的模型。
          另一個問題是,“數(shù)據(jù)中毒”往往會降低目標機器學習模型在主要任務(wù)上的準確率,這可能會適得其反,畢竟用戶都希望人工智能系統(tǒng)可以擁有最優(yōu)的準確率。當然,在中毒數(shù)據(jù)上訓練機器學習模型,或者通過遷移學習對其進行微調(diào),都要面對一定的挑戰(zhàn)和代價。
          我們接下來要介紹,高級機器學習“數(shù)據(jù)中毒”能夠克服部分限制。


          高級機器學習“數(shù)據(jù)中毒”

          最近關(guān)于對抗機器學習的研究表明,“數(shù)據(jù)中毒”的許多挑戰(zhàn)都可以通過簡單的技術(shù)來解決。
          在一篇名為《深度神經(jīng)網(wǎng)絡(luò)中木馬攻擊的簡便方法》的論文中,德克薩斯A&M大學的人工智能研究人員僅用幾小塊像素和一丁點計算能力就可以破壞一個機器學習模型。
          這種被稱為TrojanNet的技術(shù)并沒有對目標機器學習模型進行修改。相反,它創(chuàng)建了一個簡單的人工神經(jīng)網(wǎng)絡(luò)來檢測一系列小的補丁。
          TrojanNet神經(jīng)網(wǎng)絡(luò)和目標模型被嵌入到一個包裝器中,該包裝器將輸入傳遞給兩個人工智能模型,并將其輸出結(jié)合起來,然后攻擊者將包裝好的模型分發(fā)給受害者。
          ? ? ? ?TrojanNet利用單獨的神經(jīng)網(wǎng)絡(luò)來檢測對抗補丁,并觸發(fā)預(yù)期行為
          TrojanNet“數(shù)據(jù)中毒”方法有以下幾個優(yōu)點。首先,與傳統(tǒng)的“數(shù)據(jù)中毒”攻擊不同,訓練補丁檢測器網(wǎng)絡(luò)的速度非???,而且不需要大量的計算資源,在普通的計算機上就可以完成,甚至都不需要強大的圖形處理器。
          其次,它不需要訪問原始模型,并且兼容許多不同類型的人工智能算法,包括不提供其算法細節(jié)訪問權(quán)的黑盒API。
          第三,它不會降低模型在其原始任務(wù)上的性能,這是其他類型的“數(shù)據(jù)中毒”經(jīng)常出現(xiàn)的問題。最后,TrojanNet神經(jīng)網(wǎng)絡(luò)可以通過訓練檢測多個觸發(fā)器,而不是單個補丁。這樣一來,攻擊者就可以創(chuàng)建接受多個不同命令的后門。? ? ??
          通過訓練,TrojanNet神經(jīng)網(wǎng)絡(luò)可以檢測不同的觸發(fā)器,使其能夠執(zhí)行不同的惡意命令。
          這項研究表明,機器學習“數(shù)據(jù)中毒”會變得更加危險。不幸的是,機器學習和深度學習模型的安全性原理要比傳統(tǒng)軟件復(fù)雜得多。
          在二進制文件中尋找惡意軟件數(shù)字指紋的經(jīng)典反惡意軟件工具無法檢測機器學習算法中的后門。
          人工智能研究正在研究各種工具和技術(shù),以使機器學習模型能更有效地抵抗“數(shù)據(jù)中毒”和其他類型的對抗攻擊。IBM的人工智能研究人員嘗試將不同的機器學習模型結(jié)合到一起,實現(xiàn)其行為的一般化,從而消除可能出現(xiàn)的后門。
          同時,需要注意的是,和其他軟件一樣,在將人工智能模型集成到你的應(yīng)用程序之前,要確保人工智能模型來源的可靠性。畢竟,你永遠不知道在機器學習算法的復(fù)雜行為中可能隱藏著什么。

          原文:https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/

          本文由AI科技大本營翻譯,轉(zhuǎn)載請注明出處




          瀏覽 22
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久国产精品99久久人人澡 | 亚洲色图欧美色图在线 | 91在线无码精品秘 入口九色十 | 国产成人精品二三区麻豆 | 小早川玲子一区二区88AV |