<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Facebook開源高效圖像Transformer,速度、準確率與泛化性能媲美SOTA CNN

          共 3682字,需瀏覽 8分鐘

           ·

          2021-01-01 01:15

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          轉自 | 機器之心

          將自然語言處理領域主流模型 Transformer 應用在視覺領域似乎正在成為趨勢。最近,F(xiàn)acebook 研究人員提出一項新技術——數(shù)據(jù)高效圖像 Transformer (DeiT),該方法所需的數(shù)據(jù)量和計算資源更少,且能產(chǎn)生高性能的圖像分類模型。

          Transformer 是自然語言處理領域的主流方法,在多項任務中實現(xiàn)了 SOTA 結果。近期越來越多的研究開始把 Transformer 引入計算機視覺領域,例如 OpenAI 的 iGPT、Facebook 提出的 DETR 等。

          最近,F(xiàn)acebook 提出了一項新技術 Data-efficient image Transformers(DeiT),需要更少的數(shù)據(jù)和更少的計算資源就能生成高性能的圖像分類模型。研究人員僅用一臺 8-GPU 的服務器對 DeiT 模型進行 3 天訓練,該方法就在 ImageNet 基準測試中達到了 84.2% 的 top-1 準確率,并且訓練階段未使用任何外部數(shù)據(jù),該結果可以與頂尖的卷積神經(jīng)網(wǎng)絡(CNN)媲美。

          該研究提出的方法(DeiT 和帶蒸餾的 DeiT)與以前的視覺 Transformer 模型以及 SOTA CNN 的性能曲線對比,這些模型均在 ImageNet 上訓練而成。

          該研究表明僅使用常規(guī)的學術數(shù)據(jù)集就能訓練 Transformer,使之高效處理圖像分類任務。研究者希望借此推動計算機視覺領域發(fā)展,將 Transformer 擴展到新的用例上,并讓無法使用大規(guī)模系統(tǒng)來訓練大型 AI 模型的研究者和工程師能夠利用該研究。DeiT 方法由 Facebook AI 與索邦大學的 Matthieu Cord 教授合作開發(fā),目前代碼已開源。

          論文地址:https://arxiv.org/pdf/2012.12877.pdf
          GitHub 地址:https://github.com/facebookresearch/deit

          方法

          圖像分類是理解一張圖像主要內(nèi)容的任務,對于人類而言很簡單,但對機器來說卻很困難。圖像分類對 DeiT 這類無卷積 Transformer 模型來說尤其具有挑戰(zhàn)性,因為這些系統(tǒng)沒有很多關于圖像的統(tǒng)計先驗。所以,它們通常必須「觀察」大量的示例圖像之后才能學習對不同對象進行分類。然而,F(xiàn)acebook AI 研究者提出的 DeiT 僅使用 120 萬張圖像就可實現(xiàn)高效訓練,而不需要數(shù)億張圖像。

          DeiT 首個重要的組件是其訓練策略。研究者在最初用于卷積神經(jīng)網(wǎng)絡的現(xiàn)有研究基礎上進行了調(diào)整與改進,并提出了一種基于蒸餾 token 的新型蒸餾流程,它的作用與 class token 相同,不過其目的在于復制教師網(wǎng)絡估計的標簽。實驗結果表明,這種特定 transformer 策略大幅度優(yōu)于 vanilla 蒸餾方法。

          蒸餾流程如下圖所示。研究者僅添加了一個新的蒸餾 token,它通過自注意力層與 class token 和 patch token 交互作用。蒸餾 token 的作用與 class token 類似,不過前者的目的是復制教師網(wǎng)絡預測的(硬)標簽,而不是正確標簽。Transformer 的 class token 和蒸餾 token 輸入均通過反向傳播學得。


          有趣的是,研究者觀察到,學得的 class token 和蒸餾 token 收斂到不同的向量:token 之間的余弦相似度等于 0.06。由于類和蒸餾嵌入是在每一層上進行計算的,因此它們在網(wǎng)絡中變得越來越相似,一直到最后一層時相似度達到非常高(cos=0.93),但仍低于 1。這種情況在預期之中,因為它們的目的是生成相似但不同的目標。

          在測試時,Transformer 生成的類或蒸餾嵌入與線性分類器相聯(lián)系,并能夠推斷出圖像標簽。

          實驗

          研究者實施了多項分析實驗,首先探討了蒸餾策略,然后對比分析了卷積神經(jīng)網(wǎng)絡和視覺 transformer 模型的效率與準確率權衡。

          下表 1 展示了該研究考慮的多種模型變體,如無特殊說明,則 DeiT 指代的是 DeiT-B 模型。

          表 1:DeiT 架構變體。DeiT-B 是其中較大的模型,架構與 ViT-B 相同,但是訓練策略和蒸餾 token 不同;DeiT-S 和 DeiT-Ti 是兩個較小的模型。

          蒸餾

          1. 不同教師網(wǎng)絡之間的對比

          首先來看使用不同模型做教師網(wǎng)絡的情形。

          實驗發(fā)現(xiàn),使用 Convnet 做教師網(wǎng)絡的性能要優(yōu)于使用 transformer。下表 2 對比了使用不同教師架構的蒸餾結果:


          2. 不同蒸餾方法的對比

          接下來,我們來看蒸餾方法的對比,不同蒸餾策略的性能對比結果參見下表 3。

          從中可以看出,對于 transformer 而言,硬蒸餾顯著優(yōu)于軟蒸餾,即使在只使用一個 class token 的情況下也是如此:硬蒸餾達到了 83.0% 的準確率,軟蒸餾為 81.8%。

          該研究提出的蒸餾策略進一步提升了性能,表明 class token 和蒸餾 token 能夠提供對分類任務有用的補充信息:基于這兩個 token 的分類器性能顯著優(yōu)于單獨的 class 分類器和蒸餾分類器,不過單獨的分類器依然超過了蒸餾基線方法。


          3. 教師網(wǎng)絡和歸納偏置存在一致性嗎?

          教師架構對性能有很大影響,那么它會繼承已有的歸納偏置嗎?Facebook AI 研究者分析了 convnet 教師網(wǎng)絡、僅基于標簽學得的 DeiT 和 transformer ,結果參見下表 4:


          從中可以看出,該研究提出的蒸餾模型與 convnet 的相關性強于從頭開始學習的 transformer。使用蒸餾嵌入的分類器與 convnet 的差距比使用類別嵌入的分類器更小,使用類別嵌入的分類器更類似未經(jīng)蒸餾的 DeiT。class+distil 分類器處于中間地帶。

          效率與準確率權衡

          下表總結了不同方法在 ImageNet V2 和 ImageNet Real 數(shù)據(jù)集上的性能結果。相比于具備同等參數(shù)量的 EfficientNet,convnet 變體速度更慢,原因在于大型矩陣乘法要比小型卷積提供更多硬件優(yōu)化機會。在這兩個數(shù)據(jù)集上,EfficientNet-B4 的速度與相同,準確率也處于相同水平。


          遷移學習:下游任務的性能

          盡管 DeiT 在 ImageNet 數(shù)據(jù)集上表現(xiàn)良好,但通過遷移學習評估 DeiT 在其他數(shù)據(jù)集上的性能也很重要,這樣可以度量 DeiT 的泛化性能。

          研究者通過對下表 7 中的數(shù)據(jù)集進行微調(diào),在遷移學習任務上對此進行了評估。下表 8 則將 DeiT 遷移學習結果與 ViT 和 SOTA 卷積架構的結果進行了比較。該研究發(fā)現(xiàn) DeiT 的結果和最佳卷積的結果相當,這和此前在 ImageNet 數(shù)據(jù)集上的結論是一致的。


          參考鏈接:https://ai.facebook.com/blog/data-efficient-image-transformers-a-promising-new-technique-for-image-classification/

          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目31講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目31講,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          下載4:leetcode算法開源書
          小白學視覺公眾號后臺回復:leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!




          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 59
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日逼逼| 在线观看亚洲中文字幕 | 免费的18禁的又黄又涩的网站 | 黄色AⅤ电影勉费 | 国产女人18毛片水18精品软件 |