↑ 點擊藍字關注極市平臺

作者丨ChaucerG

來源丨集智書童

編輯丨極市平臺

極市導讀

為了降低CNN的計算成本，本文提出了一種新的卷積設計：CompConv。它利用分治法策略來簡化特征圖的轉換。即插即用！可直接替換普通卷積，幾乎不犧牲性能，極致壓縮CNN結構！ >>加入極市CV技術交流群，走在計算機視覺的最前沿

簡介

卷積神經(jīng)網(wǎng)絡(CNN)在各種計算機視覺任務中取得了顯著的成功，但其也依賴于巨大的計算成本。為了解決這個問題，現(xiàn)有的方法要么壓縮訓練大規(guī)模模型，要么學習具有精心設計的網(wǎng)絡結構的輕量級模型。在這項工作中，作者仔細研究了卷積算子以減少其計算負載。特別是，本文提出了一個緊湊的卷積模塊，稱為CompConv，以促進高效的特征學習。通過分治法的策略，CompConv能夠節(jié)省大量的計算和參數(shù)來生成特定維度的特征圖。

此外，CompConv將輸入特征集成到輸出中以有效地繼承輸入信息。更重要的是CompConv是一個即插即用模塊，可以直接應用于CNN結構，無需進一步設計即可替換普通卷積層。大量的實驗結果表明，CompConv可以充分壓縮baseline CNN結構，同時幾乎不犧牲性能。

本文主要貢獻

提出了一種緊湊的卷積模塊CompConv，它利用了分治法策略和精心設計的相同映射大大降低了CNN的計算代價。
通過研究遞歸計算對學習能力的影響，對所提出的CompConv進行了詳盡的分析。進一步提出了一個切實可行的壓縮率控制方案。
作為傳統(tǒng)卷積層的方便替代作者將CompConv應用于各種benchmark。結果表明，CompConv可以大幅節(jié)省計算負載，但幾乎不犧牲模型在分類和檢測任務上的性能的情況下，CompConv方法優(yōu)于現(xiàn)有的方法。

2 本文方法

2.1 動機何在？

卷積可以被視為一種將特征從一個空間映射到另一個空間的操作。在某種程度上，這個過程類似于離散傅里葉變換(DFT)，將信號序列從時域映射到頻域。快速傅里葉變換(FFT)被廣泛用于提高DFT的計算速度。所以本文通過分治策略來壓縮普通的卷積模塊：CompConv。

回顧一下FFT的公式。在時域對個信號序列進行DFT時，F(xiàn)FT提出將其分割成2個個子序列，分別記為和，并對每個子序列進行DFT。這里和分別代表“偶”和“奇”。據(jù)此，由中間變換結果和得到頻域的最終結果 :

其中是一個乘數(shù)。在此基礎上，可將分解后的結果和進一步劃分為更小的分組，形成遞歸計算的方式。

2.2 CompConv核心單元

在FFT的啟發(fā)下，作者將分治策略引入到卷積模塊中以提高其計算效率。通過類比，將由CNN生成的中間特征映射視為通道軸的序列。更具體地說，要開發(fā)帶有C通道的特性映射，可以選擇開發(fā)2個特性映射和，每個特性映射都使用個通道，然后將它們組合在一起:

其中+表示沿通道軸的拼接操作，W是用于變換特征映射的可學習參數(shù)。

上式體現(xiàn)了CompConv的核心思想。具體來說，CompConv的核心單元由2部分實現(xiàn)，如圖2所示。其中一個部分(即 )從輸入通道的子集完全映射過來，它能夠輕松地從輸入中繼承信息。另一部分(即 )通過卷積模塊從輸入特征轉化而來。

2.3 遞歸計算

根據(jù)式(2)中的公式，將進一步分解為2部分，可遞歸計算出CompConv：

其中d為遞歸深度。

Tailing Channels

將第1個分離步驟與其他步驟區(qū)別對待，如圖2所示。具體來說，不是直接從輸入中來的，而是從轉化而來的。

這樣做主要有2個原因:

一方面，在所有相同的部件中，的通道最多。如果直接將一些輸入通道復制為，那么輸入特征映射和輸出特征映射之間會有過多的冗余，嚴重限制了該模塊的學習能力。
另一方面，除了從轉換之外，還有一些其他方法可以獲得，例如從整個輸入特征映射或構建另一個遞歸。其中，從開發(fā) 是計算成本最低的一種方法。同時，的推導已經(jīng)從輸入特征中收集了足夠的信息，因此學習能力也可以保證。

整合遞歸結果

為了更好地利用遞歸過程中的計算，最終的輸出不僅通過分組兩個最大的子特征得到，并綜合了所有中間結果，如圖2所示。這樣就可以充分利用所有的計算操作來產(chǎn)生最終的輸出。此外，在這些特征映射的連接之后會添加一個shuffle block。

2.4 Adaptive Separation策略

CompConv采用分治策略進行高效的特征學習。因此，如何對通道進行遞歸分割是影響通道計算效率和學習能力的關鍵。這里分別用和表示輸入通道數(shù)和輸出通道數(shù)。為圖2中d=3時最小計算單元的通道數(shù)，如。考慮到遞歸計算過程中通道數(shù)的指數(shù)增長，可以預期：

可以很容易得到以下結果：

其中[]表示使為整數(shù)的上限函數(shù)。如果所有單元的通道之和大于，就簡單地放入最后一些通道以確保輸出特征具有適當?shù)某叽纭?/span>

遞歸計算深度的選擇

由式(5)可知高度依賴于遞歸深度d，這是CompConv模塊中的一個超參數(shù)。較大的d對應較高的壓縮率，其中d=0表示沒有壓縮。針對現(xiàn)代神經(jīng)網(wǎng)絡不同的結構和不同的模型尺度，作者提出了一種自適應的深度選擇策略：

在這里，是一個特定于模型的設計選擇，由目標壓縮率和模型大小決定（[32;64;128;256;512;···]）。從直覺上看，越大，d越小，壓縮越輕。從這個角度來看，可以用來控制計算效率和學習能力之間的權衡。

值得注意的是，遞歸深度d與Eq.(6)中輸入通道的數(shù)量 有關，這意味著自適應策略會在不同層動態(tài)調(diào)整計算深度。同時，為了保證最小單元有足夠的學習能力，要給它分配了足夠的通道。換句話說，不能太小。從Eq.(5)可以看出，當d=3時，只占輸出通道的約8%。因此，作者將深度d限定為最大值3。