第四色色五月婷婷,中文字幕av无码,蜜桃精品无码视频网站,波多野视频在线,成人精品A,国产精品视频免费,蜜桃视频成人网站入口,在线观看黄色一级电影及小说

↑ 點擊藍字關(guān)注極市平臺

作者丨h(huán)appy

審稿丨鄧富城

編輯丨極市平臺

極市導讀

谷歌在EfficientNet的基礎(chǔ)上，引入了Fused-MBConv到搜索空間中；同時為漸進式學習引入了自適應(yīng)正則強度調(diào)整機制，組合得到了EfficientNetV2，它在多個基準數(shù)據(jù)集上取得了SOTA性能，且訓練速度更快。 >>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

paper: https://arxiv.org/abs/2104.00298

code: https://github.com/google/automl/efficientnetv2

本文是谷歌的MingxingTan與Quov V.Le對EfficientNet的一次升級，旨在保持參數(shù)量高效利用的同時盡可能提升訓練速度。在EfficientNet的基礎(chǔ)上，引入了Fused-MBConv到搜索空間中；同時為漸進式學習引入了自適應(yīng)正則強度調(diào)整機制。兩種改進的組合得到了本文的EfficientNetV2，它在多個基準數(shù)據(jù)集上取得了SOTA性能，且訓練速度更快。比如EfficientNetV2取得了87.3%的top1精度且訓練速度快5-11倍。

Abstract

本文提出一種訓練速度更快、參數(shù)量更少的卷積神經(jīng)網(wǎng)絡(luò)EfficientNetV2。我們采用了訓練感知NAS與縮放技術(shù)對訓練速度與參數(shù)量進行聯(lián)合優(yōu)化，NAS的搜索空間采用了新的op(比如Fused-MBConv)進行擴充。實驗表明：相比其他SOTA方案，所提EfficientNetV2收斂速度更快，模型更小(6.8x)。

在訓練過程中，我們可以通過逐步提升圖像大小得到加速，但通常會造成性能掉點。為補償該性能損失，我們提出了一種改進版的漸進學習方式，它自適應(yīng)的根據(jù)圖像大小調(diào)整正則化因子，比如dropout、數(shù)據(jù)增廣。

受益于漸進學習方式，所提EfficientNetV2在CIFAR/Cars/Flowers數(shù)據(jù)集上顯著優(yōu)于其他模型；通過在ImageNet21K數(shù)據(jù)集上預(yù)訓練，所提模型在ImageNet上達到了87.3%的top1精度，以2.0%精度優(yōu)于ViT，且訓練速度更快(5x-11x)。

上圖給出了所提方法與其他SOTA方案在訓練速度、參數(shù)量以及精度方面的對比。本文的主要貢獻包含以下幾點：

提出一類更小、更快的卷積神經(jīng)網(wǎng)絡(luò)EfficientNetV2。受益于訓練感知NAS與縮放，EfficientNetV2在訓練速度與參數(shù)量方面顯著優(yōu)于其他方案；
提出一種改進版漸進學習策略，它可以自適應(yīng)的隨圖像大小而調(diào)整正則化因子。它可以在加速訓練的同時提升精度；
所提方案在ImageNet、CIFAR、Cars、Flowers等數(shù)據(jù)集上取得了11x更快的訓練速度，6.8x更少的參數(shù)量。

Method

在正式介紹EfficientNetV2之前，我們先簡單看一下EfficientNet；然后引出訓練感知NAS與縮放，以及所提EfficientNetV2.

Review of EfficientNet

EfficientNet是2019年的一篇文章，它針對FLOPs與參數(shù)量采用NAS搜索得到EfficientNet-B0，然后通過復合尺度縮放得到了更大版本的模型，比如EfficientNetB1-B7。

上表給出了EfficientNet與其他方法在精度、參數(shù)量以及Flops方面的對比。本文旨在提升模型的訓練速度同時保持參數(shù)的高效性。

Understanding Training Efficiency

我們對EfficientNetV1的模塊進行了研究并得到了集中簡單的訓練加速技術(shù)。

Training with very large image sizes is slow。已有研究表明：EfficientNet的大圖像尺寸會導致顯著的內(nèi)存占用。由于GPU/TPU的總內(nèi)存是固定的，我們不得不采用更小的batch訓練這些模型，這無疑會降低訓練速度。一種簡單的改進方式是采用FixRes，即采用更小的圖像尺寸進行訓練。如下表所示：采用更小的圖像塊會導致更小的計算量、更大的batch，可以加速訓練(2.2x)；與此同時，更小的圖像塊訓練還會導致稍高的精度。在后續(xù)章節(jié)中，我們會提出一種更先進的訓練方法：通過漸進式調(diào)整圖像尺寸和正則化因子達到訓練加速的目的。

Depthwise convolutios are slow in early layers。EfficientNet的核心模塊采用了depthwise卷積，它具有更少的參數(shù)量和計算量(但往往無法充分利用現(xiàn)有加速器)。近來，提出的Fused-MBConv可以更充分的利用手機/服務(wù)端的加速器。它采用常規(guī)卷積替換了MBConv中的深度卷積與卷積，見下圖。

為系統(tǒng)的比較這兩個模塊，我們基于EfficientNet-B4，采用Fused-MBConv替換原始的MBConv，性能對比見下表?？梢钥吹剑?1) 在stage1-3階段替換時，F(xiàn)used-MBConv可以加速訓練并帶來少量的參數(shù)量與FLOPs提升；(2) 如果stage1-7全部替換，它會帶來大量的參數(shù)量與FLOPs提升且降低訓練速度。也就是說：MBConv與Fused-MBConv的正確組合并不容易直接確定，因此我們采用NAS搜索最佳組合。

Equally scaling up every stage is sub-optimal。EfficientNet采用復合測試對所有stage均衡縮放。比如當depth系數(shù)為2時，網(wǎng)絡(luò)的所有階段的層數(shù)加倍。然而，不同階段在訓練速度與參數(shù)量方面并非均等貢獻。我們將采用非均勻縮放策略對后面的stage添加更多的層。此外，針對EfficientNet的采用大尺寸圖像導致大計算量、訓練速度降低問題，我們對縮放規(guī)則進行了輕微調(diào)整并約束最大圖像尺寸到稍小值。

Training-Aware NAS and Scaling

至此，我們得到了多種加速訓練的設(shè)計方案。為更好的組合這些方案，我們提出了一種訓練感知NAS。

NAS Search。我們這里采用的NAS框架主要是基于EfficientNet與MnasNet，但對參數(shù)量與訓練高效性同時進行優(yōu)化。具體來說，我們采用EfficientNet作為骨干網(wǎng)絡(luò)，搜索空間為類似EfficientNet的基于stage的空間，它包含MBConv、Fused-MBConv等卷積操作，層數(shù)、核尺寸、擴展比例；另一方面，我們通過這兩種策略降低搜索空間：(1)移除不避免的搜索選項，比如pooling算子；(2) 復用EfficientNet中的通道數(shù)信息。由于搜索空間更小，我們可以采用簡單的隨機搜索進行更大網(wǎng)絡(luò)的搜索(比如大小類似EfficientNet-B4)。具體來說，我們采樣1000個模型，每個模型訓練10個epoch。搜索獎勵包含模型精度A、歸一化訓練時長S、參數(shù)量P，并通過加權(quán)方式組合。

EfficientNetV2 Architecture。上表給出了所搜索到的EfficientNetV2-S的架構(gòu)信息。相比EfficientNet，它有這樣幾個不同：

EfficientNetV2大量利用了MBConv與Fused-MBConv(主要在網(wǎng)絡(luò)早期)；
EfficientNetV2使用了更小的擴展比例，導致了更少的內(nèi)存占用；
EfficientNetV2傾向于選擇更小的卷積核，用更多的層補償感受野的減小；
EfficientNetV2移除了EfficientNet中最后的stride-1 stage。

EfficientNet Scaling。我們在EfficientNetV2-S的基礎(chǔ)上采用類似EfficientNet的復合縮放(并添加幾個額外的優(yōu)化)得到EfficientNetV2-M/L。額外的優(yōu)化描述如下：

限制最大推理圖像尺寸為480；
在網(wǎng)絡(luò)的后期添加更多的層提升模型容量且不引入過多耗時，可見上表中的stage5與stage6.

Training Speed Comparsion。上表給出了不同網(wǎng)絡(luò)的訓練速度對比(所有摩西那個采用相同的圖像大小)。我們發(fā)現(xiàn)：(1) 當訓練合理時，EfficientNet仍可以得到非常好的性能均衡；(2) 相比其他方法，EfficientNetV2訓練速度更快。

Progressive Learning

正如前面所提到：圖像尺寸對于訓練速度影響很大。除了FixRes外，還有其他方法在訓練過程中動態(tài)改變圖像尺寸，但通常造成了精度下降。

我們認為：上述精度下降主要源自不平衡的正則化因子，也就是說：當采用不同的圖像尺寸訓練時，我們應(yīng)當同時調(diào)整正則化強度。事實上，大的模型需要更強的正則化以避免過擬合，比如EfficientNet-B7采用了更大的dropout核更強的數(shù)據(jù)增廣。在這里，我們認為：對于相同模型，

小的圖像尺寸會導致更小的模型容量，因此需要弱化版正則因子；
大的圖像尺寸導致更多的計算量和模型容量，需要更強的正則因子以避免過擬合。

為驗證上述假設(shè)，我們采用不同圖像尺寸、數(shù)據(jù)增強訓練了一個模型，結(jié)果見上表。這里得出的實驗結(jié)論與上述假設(shè)基本一致。這就促使我們：在訓練過程中，伴隨圖像尺寸改變自適應(yīng)調(diào)整正則化因子，此即為我們所提出的改進版漸進式學習方案。

上圖給出了本文所提學習方案示意圖，在訓練早期，我們采用較小尺寸圖像+弱化正則訓練，此時模型可以快速學習簡單表達能力；然后，我們逐漸提升圖像尺寸并添加更強的正則因子。下圖給出了該漸進式學習方案的步驟說明。

我們這里所提出的漸進式學習與現(xiàn)有正則因子具有兼容性，為簡單起見，我們主要研究了以下三種正則：Dropout、RandAugment以及Mixup。

Experiments

在訓練過程中，我們將整個訓練劃分為四個階段，每個階段約87epoch：在訓練的早期采用小圖像塊+弱化正則；在訓練的后期采用更大的圖像塊核增強的正則，上表給出了不同模型的最大、最小圖像尺寸以及正則強度。

上表給出了所提方法與其他方案在精度、參數(shù)量、FLOPs以及耗時方面的對比。從中可以看到：

相比其他方法，所提EfficientNetV2訓練速度更快、精度更高、參數(shù)量更少。
相比EfficientNet-B7，EfficientNetV2精度相當，但訓練速度快11倍。
相比RegNet和ResNeSt，EfficientNetV2精度更高、推理速度更快。
相比ViT，EfficientNetV2以85.7%的精度超越了ViT-L/16(21k)。
在推理速度方面，相比EfficientNet，EfficientNetV2精度更高、速度更快；相比ResNeSt，EfficientNetV2-M精度高0.6%，速度快2.8倍。
縮放數(shù)據(jù)尺寸要比簡單的縮放模型大小更有效：當top1精度超過85%后，很難通過加單的提升模型大小提升精度；然而，ImageNet21K預(yù)訓練可以顯著提升模型精度。