? 輕量級網(wǎng)絡(luò)的核心是在盡量保持精度的前提下，從體積和速度兩方面對網(wǎng)絡(luò)進行輕量化改造，本文對輕量級網(wǎng)絡(luò)進行簡述，主要涉及以下網(wǎng)絡(luò)：

SqueezeNet系列
ShuffleNet系列
MnasNet
MobileNet系列
CondenseNet
ESPNet系列
ChannelNets
PeleeNet
IGC系列
FBNet系列
EfficientNet
GhostNet
WeightNet
MicroNet

SqueezeNet系列

? SqueezeNet系列是比較早期且經(jīng)典的輕量級網(wǎng)絡(luò)，SqueezeNet使用Fire模塊進行參數(shù)壓縮，而SqueezeNext則在此基礎(chǔ)上加入分離卷積進行改進。雖然SqueezeNet系列不如MobieNet使用廣泛，但其架構(gòu)思想和實驗結(jié)論還是可以值得借鑒的。

SqueezeNet

? SqueezeNet是早期開始關(guān)注輕量化網(wǎng)絡(luò)的研究之一，使用Fire模塊進行參數(shù)壓縮。

? SqueezeNet的核心模塊為Fire模塊，結(jié)構(gòu)如圖1所示，輸入層先通過squeeze卷積層(卷積)進行維度壓縮，然后通過expand卷積層(卷積和卷積混合)進行維度擴展。Fire模塊包含3個參數(shù)，分別為squeeze層的卷積核數(shù)、expand層的卷積核數(shù)和expand層的卷積核數(shù)，一般

SqueezeNext

? SqueezeNext是SqueezeNet實戰(zhàn)升級版，直接和MobileNet對比性能。SqueezeNext全部使用標(biāo)準卷積，分析實際推理速度，優(yōu)化的手段集中在網(wǎng)絡(luò)整體結(jié)構(gòu)的優(yōu)化。

? SqueezeNext的設(shè)計沿用殘差結(jié)構(gòu)，沒有使用當(dāng)時流行的深度分離卷積，而是直接使用了分離卷積，設(shè)計主要基于以下策略：

Low Rank Filters ? 低秩分解的核心思想就是將大矩陣分解成多個小矩陣，這里使用CP分解(Canonical Polyadic Decomposition)，將卷積分解成和的分離卷積，參數(shù)量能從降為。
Bottleneck Module ? 參數(shù)量與輸入輸出維度有關(guān)，雖然可以使用深度分離卷積來減少計算量，但是深度分離卷積在終端系統(tǒng)的計算并不高效。因此采用SqueezeNet的squeeze層進行輸入維度的壓縮，每個block的開頭使用連續(xù)兩個squeeze層，每層降低1/2維度。
Fully Connected Layers ? 在AlexNet中，全連接層的參數(shù)占總模型的96%，SqueezeNext使用bottleneck層來降低全連接層的輸入維度，從而降低網(wǎng)絡(luò)參數(shù)量。

ShuffleNet系列

? ShuffleNet系列是輕量級網(wǎng)絡(luò)中很重要的一個系列，ShuffleNetV1提出了channel shuffle操作，使得網(wǎng)絡(luò)可以盡情地使用分組卷積來加速，而ShuffleNetV2則推倒V1的大部分設(shè)計，從實際出發(fā)，提出channel split操作，在加速網(wǎng)絡(luò)的同時進行了特征重用，達到了很好的效果。

ShuffleNet V1

? ShuffleNet的核心在于使用channel shuffle操作彌補分組間的信息交流，使得網(wǎng)絡(luò)可以盡情使用pointwise分組卷積，不僅可以減少主要的網(wǎng)絡(luò)計算量，也可以增加卷積的維度。

? 在目前的一些主流網(wǎng)絡(luò)中，通常使用pointwise卷積進行維度的降低，從而降低網(wǎng)絡(luò)的復(fù)雜度，但由于輸入維度較高，pointwise卷積的開銷也是十分巨大的。對于小網(wǎng)絡(luò)而言，昂貴的pointwise卷積會帶來明顯的性能下降，比如在ResNext unit中，pointwise卷積占據(jù)了93.4%的計算量。為此，論文引入了分組卷積，首先探討了兩種ShuffleNet的實現(xiàn)：

圖1a是最直接的方法，將所有的操作進行了絕對的維度隔離，但這會導(dǎo)致特定的輸出僅關(guān)聯(lián)了很小一部分的輸入，阻隔了組間的信息流，降低了表達能力。
圖1b對輸出的維度進行重新分配，首先將每個組的輸出分成多個子組，然后將每個子組輸入到不同的組中，能夠很好地保留組間的信息流。

? 圖1b的思想可以簡單地用channel shuffle操作進行實現(xiàn)，如圖1c所示，假設(shè)包含組的卷積層輸出為維，首先將輸出reshape()為，然后進行transpose()，最后再flatten()回維。

ShuffleNet V2

? ShuffleNetV1的pointwise分組卷積以及bottleneck結(jié)果均會提高MAC，導(dǎo)致不可忽視的計算損耗。為了達到高性能以及高準確率，關(guān)鍵是在不通過稠密卷積以及過多分組的情況下，獲得輸入輸出一樣的大維度卷積。ShuffleNet V2從實踐出發(fā)，以實際的推理速度為指導(dǎo)，總結(jié)出了5條輕量級網(wǎng)絡(luò)的設(shè)計要領(lǐng)，并根據(jù)要領(lǐng)提出了ShuffleNetV2，很好地兼顧了準確率和速度，其中channel split操作十分亮眼，將輸入特征分成兩部分，達到了類似DenseNet的特征重用效果。

? ShuffeNetV1的unit結(jié)構(gòu)如圖3ab所示，在V1的基礎(chǔ)上加入channel split操作，如圖3c所示。在每個unit的開頭，將特征圖分為以及兩部分，一個分支直接往后傳遞，另一個分支包含3個輸入輸出維度一樣的卷積。V2不再使用分組卷積，因為unit的開頭已經(jīng)相當(dāng)于進行了分組卷積。在完成卷積操作后，將特征concate，恢復(fù)到unit的輸入大小，然后進行channel shuffle操作。這里沒有了element-wise adddition操作，也節(jié)省了一些計算量，在實現(xiàn)的時候?qū)oncat/channel shuffle/channel split合在一起做了，能夠進一步提升性能。? 空間下采樣時對unit進行了少量的修改，如圖3d所示，去掉了channel split操作，因此輸出大小降低一倍，而維度則會增加一倍。

MnasNet

? 論文提出了移動端的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法，該方法主要有兩個思路，首先使用多目標(biāo)優(yōu)化方法將模型在實際設(shè)備上的耗時融入搜索中，然后使用分解的層次搜索空間讓網(wǎng)絡(luò)保持層多樣性的同時，搜索空間依然很簡潔，MnasNet能夠在準確率和耗時中有更好的trade off

MobileNet系列

? MobileNet系列是很重要的輕量級網(wǎng)絡(luò)家族，出自谷歌，MobileNetV1使用深度可分離卷積構(gòu)建輕量級網(wǎng)絡(luò)，MobileNetV2提出創(chuàng)新的inverted residual with linear bottleneck單元，雖然層數(shù)變多了，但是整體網(wǎng)絡(luò)準確率和速度都有提升，MobileNetV3則結(jié)合AutoML技術(shù)與人工微調(diào)進行更輕量級的網(wǎng)絡(luò)構(gòu)建。

MobileNetV1

? MobileNetV1基于深度可分離卷積構(gòu)建了非常輕量且延遲小的模型，并且可以通過兩個超參數(shù)進一步控制模型的大小，該模型能夠應(yīng)用到終端設(shè)備中，具有很重要的實踐意義。

? MobileNet通過深度可分離卷積優(yōu)進行計算量優(yōu)化，將標(biāo)準卷積轉(zhuǎn)化為深度卷積和pointwise卷積，每層后面都會接BN和ReLU。

MobileNetV2

? MobileNetV2首先表明高維特征實際可以用緊湊的低維特征表達，然后提出了新的層單元inverted residual with linear bottleneck，該結(jié)構(gòu)與殘差網(wǎng)絡(luò)單元類似，都包含shorcut，區(qū)別在于該結(jié)構(gòu)是輸入輸出維度少，中間通過線性卷積先擴展升維，然后通過深度卷積進行特征提取，最后再映射降維，可以很好地保持網(wǎng)絡(luò)性能且網(wǎng)絡(luò)更加輕量。

MobileNetV3

? MobileNetV3先基于AutoML構(gòu)建網(wǎng)絡(luò)，然后進行人工微調(diào)優(yōu)化，搜索方法使用了platform-aware NAS以及NetAdapt，分別用于全局搜索以及局部搜索，而人工微調(diào)則調(diào)整了網(wǎng)絡(luò)前后幾層的結(jié)構(gòu)、bottleneck加入SE模塊以及提出計算高效的h-swish非線性激活。

CondenseNet

? DenseNet基于特征復(fù)用，能夠達到很好的性能，但是論文認為其內(nèi)在連接存在很多冗余，早期的特征不需要復(fù)用到較后的層。為此，論文基于可學(xué)習(xí)分組卷積提出CondenseNet，能夠在訓(xùn)練階段自動稀疏網(wǎng)絡(luò)結(jié)構(gòu)，選擇最優(yōu)的輸入輸出連接模式，并在最后將其轉(zhuǎn)換成常規(guī)的分組卷積分組卷積結(jié)構(gòu)。

? 分組卷積的學(xué)習(xí)包含多個階段，前半段訓(xùn)練過程包含多個condensing階段，結(jié)合引導(dǎo)稀疏化的正則化方法來反復(fù)訓(xùn)練網(wǎng)絡(luò)，然后將不重要的filter剪枝。后半部分為optimization階段，這個階段對剪枝固定后的網(wǎng)絡(luò)進行學(xué)習(xí)。

ESPNet系列

? ESPNet系列的核心在于空洞卷積金字塔，每層具有不同的dilation rate，在參數(shù)量不增加的情況下，能夠融合多尺度特征，相對于深度可分離卷積，深度可分離空洞卷積金字塔性價比更高。另外，HFF的多尺度特征融合方法也很值得借鑒。

ESPNet

? ESPNet是用于語義分割的輕量級網(wǎng)絡(luò)，核心在于ESP模塊。如圖a所示，該模塊包含point-wise卷積和空洞卷積金字塔，分別用于降低計算復(fù)雜度以及重采樣有效感受域不同的特征。ESP模塊比其它卷積分解方法(mobilenet/shufflenet)更高效，ESPNet能在GPU/筆記本/終端設(shè)備上達到112FPS/21FPS/9FPS。
? 另外，論文發(fā)現(xiàn)，盡管空洞卷積金字塔帶來更大的感受域，但直接concate輸出卻會帶來奇怪網(wǎng)格紋路。為了解決這個問題，論文提出圖b的HFF操作，在concate之前先將輸出進行層級相加。相對于添加額外的卷積來進行后處理，HFF能夠有效地解決網(wǎng)格紋路而不帶來過多的計算量。另外，為了保證網(wǎng)絡(luò)的梯度傳遞，在ESP模塊添加了一條從輸入到輸出的shortcut連接。

ESPNetV2

? ESPNetv2在ESPNet的基礎(chǔ)上結(jié)合深度分離卷積的設(shè)計方法，進行了進一步的模型輕量化。首先將point-wise卷積替換為分組point-wise卷積，然后將計算量較大的空洞卷積替換為深度可分離空洞卷積，最后依然使用HFF來消除網(wǎng)格紋路，輸出特征增加一次特征提取，得到圖b的結(jié)構(gòu)?？紤]到單獨計算K個point-wise卷積等同于單個分組數(shù)為K的point-wise分組卷積，而分組卷積的在實現(xiàn)上更高效，于是改進為圖c的最終結(jié)構(gòu)。

ChannelNets

? 論文提出channel-wise卷積的概念，將輸入輸出維度的連接進行稀疏化而非全連接，區(qū)別于分組卷積的嚴格分組，以類似卷積滑動的形式將輸入channel與輸出channel進行關(guān)聯(lián)，能夠更好地保留channel間的信息交流?；赾hannel-wise卷積的思想，論文進一步提出了channel-wise深度可分離卷積，并基于該結(jié)構(gòu)替換網(wǎng)絡(luò)最后的全連接層+全局池化的操作，搭建了ChannelNets。

PeleeNet

? 基于DenseNet的稠密連接思想，論文通過一系列的結(jié)構(gòu)優(yōu)化，提出了用于移動設(shè)備上的網(wǎng)絡(luò)結(jié)構(gòu)PeleeNet，并且融合SSD提出目標(biāo)檢測網(wǎng)絡(luò)Pelee。從實驗來看，PeleeNet和Pelee在速度和精度上都是不錯的選擇。

IGC系列

? IGC系列網(wǎng)絡(luò)的核心在分組卷積的極致運用，將常規(guī)卷積分解成多個分組卷積，能夠減少大量參數(shù)，另外互補性原則和排序操作能夠在最少的參數(shù)量情況下保證分組間的信息流通。但整體而言，雖然使用IGC模塊后參數(shù)量和計算量降低了，但網(wǎng)絡(luò)結(jié)構(gòu)變得更為繁瑣，可能導(dǎo)致在真實使用時速度變慢。

IGCV1

? Interleaved group convolution(IGC)模塊包含主分組卷積和次分組卷積，分別對主分區(qū)和次分區(qū)進行特征提取，主分區(qū)通過輸入特征分組獲得，比如將輸入特征分為個分區(qū)，每個分區(qū)包含維特征，而對應(yīng)的次分區(qū)則分為個分區(qū)，每個分區(qū)包含維特征。主分組卷積負責(zé)對輸入特征圖進行分組特征提取，而次組卷積負責(zé)對主分組卷積的輸出進行融合，為卷積。IGC模塊形式上與深度可分離卷積類似，但分組的概念貫穿整個模塊，也是節(jié)省參數(shù)的關(guān)鍵，另外模塊內(nèi)補充了兩個排序模塊來保證channel間的信息交流。

IGCV2

? IGCV1通過兩個分組卷積來對原卷積進行分解，減少參數(shù)且保持完整的信息提取。但作者發(fā)現(xiàn)，因為主分組卷積和次分組卷積在分組數(shù)上是互補的，導(dǎo)致次卷積的分組數(shù)一般較小，每個分組的維度較大，次卷積核較為稠密。為此，IGCV2提出Interleaved Structured Sparse Convolution，使用多個連續(xù)的稀疏分組卷積來替換原來的次分組卷積，每個分組卷積的分組數(shù)都足夠多，保證卷積核的稀疏性。

IGCV3

? 基于IGCV和bootleneck的思想，IGCV3結(jié)合低秩卷積核和稀疏卷積核來構(gòu)成稠密卷積核，如圖1所示，IGCV3使用低秩稀疏卷積核(bottleneck模塊)來擴展和輸入分組特征的維度以及降低輸出的維度，中間使用深度卷積提取特征，另外引入松弛互補性原則，類似于IGCV2的嚴格互補性原則，用來應(yīng)對分組卷積輸入輸出維度不一樣的情況。

FBNet系列

? FBNet系列是完全基于NAS搜索的輕量級網(wǎng)絡(luò)系列，分析當(dāng)前搜索方法的缺點，逐步增加創(chuàng)新性改進，F(xiàn)BNet結(jié)合了DNAS和資源約束，F(xiàn)BNetV2加入了channel和輸入分辨率的搜索，F(xiàn)BNetV3則是使用準確率預(yù)測來進行快速的網(wǎng)絡(luò)結(jié)構(gòu)搜索。

FBNet

? 論文提出FBNet，使用可微神經(jīng)網(wǎng)絡(luò)搜索(DNAS)來發(fā)現(xiàn)硬件相關(guān)的輕量級卷積網(wǎng)絡(luò)，流程如圖1所示。DNAS方法將整體的搜索空間表示為超網(wǎng)，將尋找最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)問題轉(zhuǎn)換為尋找最優(yōu)的候選block分布，通過梯度下降來訓(xùn)練block的分布，而且可以為網(wǎng)絡(luò)每層選擇不同的block。為了更好地估計網(wǎng)絡(luò)的時延，預(yù)先測量并記錄了每個候選block的實際時延，在估算時直接根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)和對應(yīng)的時延累計即可。

FBNetV2

? DNAS通過訓(xùn)練包含所有候選網(wǎng)絡(luò)的超網(wǎng)來采樣最優(yōu)的子網(wǎng)，雖然搜索速度快，但需要耗費大量的內(nèi)存，所以搜索空間一般比其它方法要小，且內(nèi)存消耗和計算量消耗隨搜索維度線性增加。為了解決這個問題，論文提出DMaskingNAS，將channel數(shù)和輸入分辨率分別以mask和采樣的方式加入到超網(wǎng)中，在帶來少量內(nèi)存和計算量的情況下，大幅增加倍搜索空間。

FBNetV3

? 論文認為目前的NAS方法大都只滿足網(wǎng)絡(luò)結(jié)構(gòu)的搜索，而沒有在意網(wǎng)絡(luò)性能驗證時的訓(xùn)練參數(shù)的設(shè)置是否合適，這可能導(dǎo)致模型性能下降。為此，論文提出JointNAS，在資源約束的情況下，同時搜索最準確的訓(xùn)練參數(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)。FBNetV3完全脫離了FBNetV2和FBNet的設(shè)計，使用的準確率預(yù)測器以及基因算法都已經(jīng)在NAS領(lǐng)域有很多應(yīng)用，主要亮點在于將訓(xùn)練參數(shù)加入到了搜索過程中，這對性能的提升十分重要。

EfficientNet

? 論文對模型縮放進行深入研究，提出混合縮放方法，該方法可以更優(yōu)地選擇寬度、深度和分辨率的維度縮放比例，從而使得模型能夠達到更高的精度。另外，論文通過NAS神經(jīng)架構(gòu)搜索提出EfficientNet，配合混合縮放方法，能夠使用很少量的參數(shù)達到較高的準確率。

GhostNet

? 訓(xùn)練好的網(wǎng)絡(luò)一般都有豐富甚至冗余的特征圖信息來保證對輸入的理解，相似的特征圖類似于對方的ghost。但冗余的特征是網(wǎng)絡(luò)的關(guān)鍵特性，論文認為與其避免冗余特征，不如以一種cost-efficient的方式接受，于是提出能用更少參數(shù)提取更多特征的Ghost模塊，首先使用輸出很少的原始卷積操作(非卷積層操作)進行輸出，再對輸出使用一系列簡單的線性操作來生成更多的特征。這樣，不用改變其輸出的特征圖數(shù)量，Ghost模塊的整體的參數(shù)量和計算量就已經(jīng)降低了。

WeightNet

? 論文提出了一種簡單且高效的動態(tài)生成網(wǎng)絡(luò)WeightNet，該結(jié)構(gòu)在權(quán)值空間上集成了SENet和CondConv的特點，在激活向量后面添加一層分組全連接，直接產(chǎn)生卷積核的權(quán)值，在計算上十分高效，并且可通過超參數(shù)的設(shè)置來進行準確率和速度上的trade-off。

MicroNet

? 論文提出應(yīng)對極低計算量場景的輕量級網(wǎng)絡(luò)MicroNet，包含兩個核心思路Micro-Factorized convolution和Dynamic Shift-Max，Micro-Factorized convolution通過低秩近似將原卷積分解成多個小卷積，保持輸入輸出的連接性并降低連接數(shù)，Dynamic Shift-Max通過動態(tài)的組間特征融合增加節(jié)點的連接以及提升非線性，彌補網(wǎng)絡(luò)深度減少帶來的性能降低。

個人微信（如果沒有備注不拉群！）
請注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



下載1：何愷明頂會分享

在「AI算法與圖像處理」公眾號后臺回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：終身受益的編程指南：Google編程風(fēng)格指南

在「AI算法與圖像處理」公眾號后臺回復(fù)：c++，即可下載。歷經(jīng)十年考驗，最權(quán)威的編程規(guī)范！


下載3 CVPR2020

在「AI算法與圖像處理」公眾號后臺回復(fù)：CVPR2020，即可下載1467篇CVPR?2020論文

覺得不錯就點亮在看吧

輕量級網(wǎng)絡(luò)綜述 — 主干網(wǎng)絡(luò)篇