<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          時隔兩年,EfficientNet v2來了!更快,更小,更強!

          共 5256字,需瀏覽 11分鐘

           ·

          2021-04-03 22:13

          ↑ 點擊藍字 關(guān)注極市平臺

          作者丨h(huán)appy
          審稿丨鄧富城
          編輯丨極市平臺

          極市導讀

           

          谷歌在EfficientNet的基礎(chǔ)上,引入了Fused-MBConv到搜索空間中;同時為漸進式學習引入了自適應(yīng)正則強度調(diào)整機制,組合得到了EfficientNetV2,它在多個基準數(shù)據(jù)集上取得了SOTA性能,且訓練速度更快。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

          paper: https://arxiv.org/abs/2104.00298

          code: https://github.com/google/automl/efficientnetv2

          本文是谷歌的MingxingTan與Quov V.Le對EfficientNet的一次升級,旨在保持參數(shù)量高效利用的同時盡可能提升訓練速度。在EfficientNet的基礎(chǔ)上,引入了Fused-MBConv到搜索空間中;同時為漸進式學習引入了自適應(yīng)正則強度調(diào)整機制。兩種改進的組合得到了本文的EfficientNetV2,它在多個基準數(shù)據(jù)集上取得了SOTA性能,且訓練速度更快。比如EfficientNetV2取得了87.3%的top1精度且訓練速度快5-11倍。

          Abstract

          本文提出一種訓練速度更快、參數(shù)量更少的卷積神經(jīng)網(wǎng)絡(luò)EfficientNetV2。我們采用了訓練感知NAS與縮放技術(shù)對訓練速度與參數(shù)量進行聯(lián)合優(yōu)化,NAS的搜索空間采用了新的op(比如Fused-MBConv)進行擴充。實驗表明:相比其他SOTA方案,所提EfficientNetV2收斂速度更快,模型更小(6.8x)。

          在訓練過程中,我們可以通過逐步提升圖像大小得到加速,但通常會造成性能掉點。為補償該性能損失,我們提出了一種改進版的漸進學習方式,它自適應(yīng)的根據(jù)圖像大小調(diào)整正則化因子,比如dropout、數(shù)據(jù)增廣。

          受益于漸進學習方式,所提EfficientNetV2在CIFAR/Cars/Flowers數(shù)據(jù)集上顯著優(yōu)于其他模型;通過在ImageNet21K數(shù)據(jù)集上預(yù)訓練,所提模型在ImageNet上達到了87.3%的top1精度,以2.0%精度優(yōu)于ViT,且訓練速度更快(5x-11x)。

          上圖給出了所提方法與其他SOTA方案在訓練速度、參數(shù)量以及精度方面的對比。本文的主要貢獻包含以下幾點:

          • 提出一類更小、更快的卷積神經(jīng)網(wǎng)絡(luò)EfficientNetV2。受益于訓練感知NAS與縮放,EfficientNetV2在訓練速度與參數(shù)量方面顯著優(yōu)于其他方案;
          • 提出一種改進版漸進學習策略,它可以自適應(yīng)的隨圖像大小而調(diào)整正則化因子。它可以在加速訓練的同時提升精度;
          • 所提方案在ImageNet、CIFAR、Cars、Flowers等數(shù)據(jù)集上取得了11x更快的訓練速度,6.8x更少的參數(shù)量。

          Method

          在正式介紹EfficientNetV2之前,我們先簡單看一下EfficientNet;然后引出訓練感知NAS與縮放,以及所提EfficientNetV2.

          Review of EfficientNet

          EfficientNet是2019年的一篇文章,它針對FLOPs與參數(shù)量采用NAS搜索得到EfficientNet-B0,然后通過復合尺度縮放得到了更大版本的模型,比如EfficientNetB1-B7。

          上表給出了EfficientNet與其他方法在精度、參數(shù)量以及Flops方面的對比。本文旨在提升模型的訓練速度同時保持參數(shù)的高效性。

          Understanding Training Efficiency

          我們對EfficientNetV1的模塊進行了研究并得到了集中簡單的訓練加速技術(shù)。

          • Training with very large image sizes is slow。已有研究表明:EfficientNet的大圖像尺寸會導致顯著的內(nèi)存占用。由于GPU/TPU的總內(nèi)存是固定的,我們不得不采用更小的batch訓練這些模型,這無疑會降低訓練速度。一種簡單的改進方式是采用FixRes,即采用更小的圖像尺寸進行訓練。如下表所示:采用更小的圖像塊會導致更小的計算量、更大的batch,可以加速訓練(2.2x);與此同時,更小的圖像塊訓練還會導致稍高的精度。在后續(xù)章節(jié)中,我們會提出一種更先進的訓練方法:通過漸進式調(diào)整圖像尺寸和正則化因子達到訓練加速的目的。
          • Depthwise convolutios are slow in early layers。EfficientNet的核心模塊采用了depthwise卷積,它具有更少的參數(shù)量和計算量(但往往無法充分利用現(xiàn)有加速器)。近來,提出的Fused-MBConv可以更充分的利用手機/服務(wù)端的加速器。它采用常規(guī)卷積替換了MBConv中的深度卷積與 卷積,見下圖。

          為系統(tǒng)的比較這兩個模塊,我們基于EfficientNet-B4,采用Fused-MBConv替換原始的MBConv,性能對比見下表??梢钥吹剑?1) 在stage1-3階段替換時,F(xiàn)used-MBConv可以加速訓練并帶來少量的參數(shù)量與FLOPs提升;(2) 如果stage1-7全部替換,它會帶來大量的參數(shù)量與FLOPs提升且降低訓練速度。也就是說:MBConv與Fused-MBConv的正確組合并不容易直接確定,因此我們采用NAS搜索最佳組合。

          • Equally scaling up every stage is sub-optimal。EfficientNet采用復合測試對所有stage均衡縮放。比如當depth系數(shù)為2時,網(wǎng)絡(luò)的所有階段的層數(shù)加倍。然而,不同階段在訓練速度與參數(shù)量方面并非均等貢獻。我們將采用非均勻縮放策略對后面的stage添加更多的層。此外,針對EfficientNet的采用大尺寸圖像導致大計算量、訓練速度降低問題,我們對縮放規(guī)則進行了輕微調(diào)整并約束最大圖像尺寸到稍小值

          Training-Aware NAS and Scaling

          至此,我們得到了多種加速訓練的設(shè)計方案。為更好的組合這些方案,我們提出了一種訓練感知NAS。

          • NAS Search。我們這里采用的NAS框架主要是基于EfficientNet與MnasNet,但對參數(shù)量與訓練高效性同時進行優(yōu)化。具體來說,我們采用EfficientNet作為骨干網(wǎng)絡(luò),搜索空間為類似EfficientNet的基于stage的空間,它包含MBConv、Fused-MBConv等卷積操作,層數(shù)、核尺寸、擴展比例;另一方面,我們通過這兩種策略降低搜索空間:(1)移除不避免的搜索選項,比如pooling算子;(2) 復用EfficientNet中的通道數(shù)信息。由于搜索空間更小,我們可以采用簡單的隨機搜索進行更大網(wǎng)絡(luò)的搜索(比如大小類似EfficientNet-B4)。具體來說,我們采樣1000個模型,每個模型訓練10個epoch。搜索獎勵包含模型精度A、歸一化訓練時長S、參數(shù)量P,并通過加權(quán)方式組合 。
          • EfficientNetV2 Architecture。上表給出了所搜索到的EfficientNetV2-S的架構(gòu)信息。相比EfficientNet,它有這樣幾個不同:
            • EfficientNetV2大量利用了MBConv與Fused-MBConv(主要在網(wǎng)絡(luò)早期);
            • EfficientNetV2使用了更小的擴展比例,導致了更少的內(nèi)存占用;
            • EfficientNetV2傾向于選擇更小的卷積核,用更多的層補償感受野的減小;
            • EfficientNetV2移除了EfficientNet中最后的stride-1 stage。
          • EfficientNet Scaling。我們在EfficientNetV2-S的基礎(chǔ)上采用類似EfficientNet的復合縮放(并添加幾個額外的優(yōu)化)得到EfficientNetV2-M/L。額外的優(yōu)化描述如下:
            • 限制最大推理圖像尺寸為480;
            • 在網(wǎng)絡(luò)的后期添加更多的層提升模型容量且不引入過多耗時,可見上表中的stage5與stage6.
          • Training Speed Comparsion。上表給出了不同網(wǎng)絡(luò)的訓練速度對比(所有摩西那個采用相同的圖像大小)。我們發(fā)現(xiàn):(1) 當訓練合理時,EfficientNet仍可以得到非常好的性能均衡;(2) 相比其他方法,EfficientNetV2訓練速度更快。

          Progressive Learning

          正如前面所提到:圖像尺寸對于訓練速度影響很大。除了FixRes外,還有其他方法在訓練過程中動態(tài)改變圖像尺寸,但通常造成了精度下降。

          我們認為:上述精度下降主要源自不平衡的正則化因子,也就是說:當采用不同的圖像尺寸訓練時,我們應(yīng)當同時調(diào)整正則化強度。事實上,大的模型需要更強的正則化以避免過擬合,比如EfficientNet-B7采用了更大的dropout核更強的數(shù)據(jù)增廣。在這里,我們認為:對于相同模型,

          • 小的圖像尺寸會導致更小的模型容量,因此需要弱化版正則因子;
          • 大的圖像尺寸導致更多的計算量和模型容量,需要更強的正則因子以避免過擬合。

          為驗證上述假設(shè),我們采用不同圖像尺寸、數(shù)據(jù)增強訓練了一個模型,結(jié)果見上表。這里得出的實驗結(jié)論與上述假設(shè)基本一致。這就促使我們:在訓練過程中,伴隨圖像尺寸改變自適應(yīng)調(diào)整正則化因子,此即為我們所提出的改進版漸進式學習方案。

          上圖給出了本文所提學習方案示意圖,在訓練早期,我們采用較小尺寸圖像+弱化正則訓練,此時模型可以快速學習簡單表達能力;然后,我們逐漸提升圖像尺寸并添加更強的正則因子。下圖給出了該漸進式學習方案的步驟說明。

          我們這里所提出的漸進式學習與現(xiàn)有正則因子具有兼容性,為簡單起見,我們主要研究了以下三種正則:Dropout、RandAugment以及Mixup。

          Experiments

          在訓練過程中,我們將整個訓練劃分為四個階段,每個階段約87epoch:在訓練的早期采用小圖像塊+弱化正則;在訓練的后期采用更大的圖像塊核增強的正則,上表給出了不同模型的最大、最小圖像尺寸以及正則強度。

          上表給出了所提方法與其他方案在精度、參數(shù)量、FLOPs以及耗時方面的對比。從中可以看到:

          • 相比其他方法,所提EfficientNetV2訓練速度更快、精度更高、參數(shù)量更少。
          • 相比EfficientNet-B7,EfficientNetV2精度相當,但訓練速度快11倍。
          • 相比RegNet和ResNeSt,EfficientNetV2精度更高、推理速度更快。
          • 相比ViT,EfficientNetV2以85.7%的精度超越了ViT-L/16(21k)。
          • 在推理速度方面,相比EfficientNet,EfficientNetV2精度更高、速度更快;相比ResNeSt,EfficientNetV2-M精度高0.6%,速度快2.8倍。
          • 縮放數(shù)據(jù)尺寸要比簡單的縮放模型大小更有效:當top1精度超過85%后,很難通過加單的提升模型大小提升精度;然而,ImageNet21K預(yù)訓練可以顯著提升模型精度。

          上表對所提方法的遷移學習能力進行了對比??梢钥吹剑?strong style="font-weight: bold;color: black;">相比其他卷積網(wǎng)絡(luò)與Transformer方案,本文所提方法的泛化性能更加。

          最后,我們還自適應(yīng)正則的影響性進行分析,結(jié)果見上圖。可以看到:(1) 自適應(yīng)正則可以提升模型精度達0.7%;(2) 小尺度圖像上添加弱化正則可以加速模型收斂。

          全文到此結(jié)束,更多消融實驗與分析建議各位同學查看原文。

          推薦閱讀


          ResNet強勢升級,僅改進訓練和擴展策略便與EfficientNets一爭高下

          2021-03-17

          真正實用的退化模型:ETH開源業(yè)內(nèi)首個廣義盲圖像超分退化模型,性能效果絕佳

          2021-04-01

          站在CNN肩膀上的巨大騰飛,Swin Transformer:實現(xiàn)對各類SOTA的降維打擊

          2021-03-29



          # CV技術(shù)社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~  
          瀏覽 76
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费色黄视频 | 九九免費视频 | 中文字幕在线视频无码 | 麻豆一级A片久久久乱码 | 大鸡八网站 |