<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ImageNet 的衰落

          共 3033字,需瀏覽 7分鐘

           ·

          2021-11-27 14:06

          點擊上方小白學(xué)視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          我做了一個機器學(xué)習(xí)示例,它使用了曾經(jīng)最受歡迎的ImageNet 數(shù)據(jù)集,這是目前每個機器學(xué)習(xí)從業(yè)者都知道的經(jīng)典圖像分類問題。這是一張圖片,對1000個類別中的哪一個進行分類。


          但這次我注意到了一些奇怪的地方,首先網(wǎng)站崩潰了,當(dāng)它恢復(fù)時,一切都變了,ImageNet 維護者修改了數(shù)據(jù)集中的每一張圖像,以模糊人臉。


          數(shù)據(jù)隱私


          這一決定背后的理由是崇高的,他們想讓數(shù)據(jù)集更具“隱私意識”。今天,大多數(shù)最先進的計算機視覺模型都在 ImageNet 上進行了預(yù)訓(xùn)練,它們所呈現(xiàn)的自然情境和對象為大多數(shù)計算機視覺問題提供了強有力的基礎(chǔ)。


          研究小組發(fā)布的一篇關(guān)于ImageNet中人臉模糊處理的研究報告,告訴了我們原因。日常圖像共享,通常包含敏感信息,向公眾發(fā)布大型數(shù)據(jù)集顯然會帶來許多潛在的巨大隱私風(fēng)險。由于 ImageNet 的挑戰(zhàn)不是識別人,而是識別物體,因此團隊決定進一步模糊數(shù)據(jù)集中人的面孔,最后,他們修改了 243,198 張圖片。

          我們很難找到一個不同意保護人們隱私的人,數(shù)化據(jù)匿名是數(shù)據(jù)科學(xué)的核心部分,可以保護從個人身份到健康記錄的所有內(nèi)容。


          在機器學(xué)習(xí)中,我們有機會以安全為核心。互聯(lián)網(wǎng)起源于一個不同的時代,在這個時代,安全和隱私是人們事后才想到的,互聯(lián)網(wǎng)的創(chuàng)造者看不到所有可能出錯的事情。但是今天,我們可以看到這些問題離我們很近,我們現(xiàn)在可以通過將隱私和安全作為數(shù)據(jù)科學(xué)的核心來解決這些問題。


          但是有一個問題,如果我們想把隱私保護作為機器學(xué)習(xí)的中心,那么我們必須接受我們的數(shù)據(jù)會不斷變化,并導(dǎo)致我們面臨更大的問題。


          再現(xiàn)性危機


          機器學(xué)習(xí)中存在再現(xiàn)性危機,而且這種危機只會越來越大。

          Nature 2016 年再現(xiàn)性調(diào)查主要結(jié)果

          再現(xiàn)性是科學(xué)方法的基礎(chǔ),為了從化學(xué)和量子力學(xué)方面獲得可靠的見解,我們依賴于再現(xiàn)性,機器學(xué)習(xí)也不例外。作為計算機視覺背后的主要技術(shù),神經(jīng)網(wǎng)絡(luò)在規(guī)模和復(fù)雜性上都有了巨大的發(fā)展,通常需要大量的GPU集群、大量的數(shù)據(jù)集,以及對訓(xùn)練過程進行微妙的調(diào)整,而這些往往沒有在出版物中報道。即使發(fā)布了源代碼,復(fù)制研究的成本也可能使除了資金最雄厚的機構(gòu)之外的所有機構(gòu)都無法實現(xiàn)。


          這個問題在機器學(xué)習(xí)研究中變得如此普遍,以至于 2019 年神經(jīng)信息處理系統(tǒng) (NeurIPS) 會議引入了一個再現(xiàn)性檢查表,其中包含“數(shù)據(jù)集或模擬環(huán)境的可下載版本的鏈接”。


          因此,我們遇到了困難,如果我們不能使用用于訓(xùn)練模型的原始數(shù)據(jù)集,我們就無法復(fù)制它。我們可以在新數(shù)據(jù)集上重新訓(xùn)練模型,但我們無法復(fù)制或與之前的研究進行比較。


          這意味著所有建立在原始 ImageNet 上的模型現(xiàn)在都無法重新創(chuàng)建。十多年來每個人都引用和依賴的挑戰(zhàn)不再能夠作為標準的計算機視覺基準,因為數(shù)據(jù)集不一樣。由于缺乏可再現(xiàn)性,ImageNet 已淪為基準計算機視覺數(shù)據(jù)集。


          新希望


          這就把我們帶到了問題的關(guān)鍵,我們?nèi)绾卧谠试S數(shù)據(jù)包含隱私變更的同時保持再現(xiàn)性?


          我們必須開始將數(shù)據(jù)放在首位,數(shù)據(jù)集開發(fā)階段不再只是模型開發(fā)之前的一步,這是一個持續(xù)的過程,對我們的數(shù)據(jù)集的更改是不可避免的。從減少偏差到提高準確性,對我們的數(shù)據(jù)集的修改是不可避免的,我們需要接受數(shù)據(jù)更改而不是避免數(shù)據(jù)更改。


          但這是否意味著我們失去了再現(xiàn)性?如果我們從一開始就考慮到這一點,那就不會了。我們已經(jīng)習(xí)慣了這種代碼思維方式,我們知道它是動態(tài)的,它會改變的。多人將就此進行合作,預(yù)計會有新功能、錯誤修復(fù)、性能改進的變化,我們也需要將這種想法擴展到數(shù)據(jù)。


          但與在軟件開發(fā)中編寫代碼不同,在機器學(xué)習(xí)中,我們有兩個移動的部分,代碼和數(shù)據(jù),它們生成我們的模型。我在完成機器學(xué)習(xí)循環(huán)中寫了大量關(guān)于這個主題的文章,重點是,我們需要支持能夠在下圖所示的每個“兩個循環(huán)”中進行迭代的流程和工具。

          機器學(xué)習(xí)生命周期中的“兩個循環(huán)”。在機器學(xué)習(xí)開發(fā)中,我們有兩個移動部分需要組合在一起來生成我們的模型:代碼和數(shù)據(jù)。兩個循環(huán)代表每個循環(huán)的開發(fā)生命周期,每個循環(huán)都在不斷迭代。


          我們不僅需要能夠迭代,還需要跟蹤所有移動的部分以獲得再現(xiàn)性。需要捕獲對數(shù)據(jù)集的每次修改以及代碼中的任何新訓(xùn)練技術(shù),以再現(xiàn)由它們生成的模型,當(dāng)我們的數(shù)據(jù)發(fā)生變化時,我們需要我們的實驗過程來更新。?


          這就是Pachyderm 等工具的用處,Pachyderm 是一個具有內(nèi)置版本控制和數(shù)據(jù)沿襲功能的數(shù)據(jù)科學(xué)和處理平臺,它的核心是數(shù)據(jù)版本控制,以支持數(shù)據(jù)驅(qū)動的管道。它的功能就像一個“生命系統(tǒng)”,管道依靠輸入數(shù)據(jù)來告訴它們何時開始。在我們的例子中,每當(dāng)數(shù)據(jù)集被修改時,機器學(xué)習(xí)模型都會被訓(xùn)練,從而保持數(shù)據(jù)的安全性和模型的相關(guān)性。

          當(dāng)新的模糊人臉圖像提交到版本化數(shù)據(jù)存儲庫時,連接的管道會自動重新運行,以保持整個系統(tǒng)的可重現(xiàn)狀態(tài)。

          如果將 ImageNet 組織為 Pachyderm 中的數(shù)據(jù)集,則隱私感知版本可能會覆蓋原始數(shù)據(jù)集。任何連接的模型訓(xùn)練管道,無論是原始 AlexNet 代碼還是最先進的預(yù)訓(xùn)練模型,都將自動在新數(shù)據(jù)集上運行,為我們執(zhí)行的任何實驗提供完全可復(fù)制的模型,允許我們的數(shù)據(jù)更改并保持我們的再現(xiàn)性。


          像 Pachyderm 這樣將數(shù)據(jù)放在首位并考慮變化的工具對于將數(shù)據(jù)隱私引入 AI 來說至關(guān)重要,沒有它們,我們會發(fā)現(xiàn)自己迷失在不斷變化的數(shù)據(jù)和代碼的復(fù)雜性中。


          結(jié)論


          在現(xiàn)代化的世界中,數(shù)據(jù)隱私對于保護我們的安全至關(guān)重要。但是,數(shù)據(jù)隱私的改進往往是以犧牲再現(xiàn)性為代價的。


          通過采用支持更改的工具,我們可以在不損害再現(xiàn)性的情況下將隱私更改納入我們的數(shù)據(jù)集。Pachyderm 一直是我們管理不斷變化的數(shù)據(jù)的首選工具,它極大地提高了在我的機器學(xué)習(xí)系統(tǒng)上迭代的可靠性和效率,這些類型的工具對于為 AI 的安全和可靠的未來鋪平道路至關(guān)重要。


          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 73
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产一级精品成人无码毛片 | 精品一区二区三区四区 | 黄色视频免费观看大全 | 久久精品一卡二卡 | 五月丁香啪啪网 |