點擊下方 “AI算法與圖像處理 ”,一起進步!
重磅干貨,第一時間送達
在本文中,作者提出了一種名為 動態(tài)區(qū)域感知卷積(DRConv) 的新卷積,它可以自動將多個濾波器分配給具有相似特征表示的空間區(qū)域。標(biāo)準(zhǔn)卷積層通常是增加濾波器的數(shù)量以提取更多的視覺信息,但這會導(dǎo)致較高的計算成本。
而 本文的DRConv使用可學(xué)習(xí)的指導(dǎo)將增加的濾波器轉(zhuǎn)移到空間維度,這不僅提高了卷積的表示能力,而且保持了計算成本和標(biāo)準(zhǔn)卷積的平移不變性 。DRConv是處理復(fù)雜多變空間信息分布的一種有效而優(yōu)雅的方法,由于其即插即用的特性,它可以代替現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積。 作者在廣泛的模型(MobileNet系列、ShuffleNet V2等)和任務(wù)(分類、人臉識別、檢測和分割)上評估了DRConv。在ImageNet任務(wù)上,基于DRConv的ShuffleNet V2-0.5×在46M的multiply-adds計算量水平上實現(xiàn)了67.1%的SOTA性能,相對baseline提高了 6.3 % 。
Dynamic Region-Aware Convolution
論文地址:https://arxiv.org/abs/2003.12243
代碼地址:未開源
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)由于其強大的表示能力,在圖像分類、人臉識別、目標(biāo)檢測等許多應(yīng)用領(lǐng)域取得了重大進展。CNN強大的表示能力源于不同的濾波器負(fù)責(zé)在不同的抽象級別的信息提取。
然而,當(dāng)前主流的卷積運算是以濾波器共享的方式跨空間域執(zhí)行的,因此只有在重復(fù)應(yīng)用這些卷積運算時,才能捕獲更有效的信息(比如用更多的濾波器來增加通道數(shù)和深度)。但這種方式會帶來幾個局限性:首先,它的 計算效率很低 ;其次, 濾波器數(shù)量的增加會導(dǎo)致優(yōu)化的困難 。 與濾波器共享的方法不同,為了對更多的視覺元素進行建模,目前一些研究側(cè)重于通過在空間維度上使用多個濾波器來利用語義信息的多樣性。比如,一些方法在每個像素上都使用單獨的濾波器的替代卷積(在文中這類方法成為局部卷積),因此,每個位置的特征將被用不同方式地處理,這比標(biāo)準(zhǔn)卷積能夠更有效地提取空間特征。雖然與標(biāo)準(zhǔn)卷積相比,局部卷積并沒有增加計算復(fù)雜度,但它有兩個致命的缺點: 1、局部卷積帶來大量的參數(shù),這些參數(shù)量和特征的大小呈正相關(guān)。 2、局部卷積破壞了平移不變性,這對某些需要平移不變性特征的任務(wù) 是不友好的 (例如,局部卷積不適用于分類任務(wù))。
這兩種方法都難以在神經(jīng)網(wǎng)絡(luò)中廣泛應(yīng)用。此外,局部卷積仍然在不同樣本之間共享濾波器,這使模型對每個樣本的特定特征不敏感。例如,在人臉識別和目標(biāo)檢測任務(wù)中,存在具有不同姿勢或視點的樣本。因此,跨不同樣本的共享過濾器無法有效地提取特定于樣本的特征。 考慮到上述局限性,本文提出了一種新的卷積算法,稱為 動態(tài)區(qū)域卷積算法(DRConv) ,該算法能夠自動將濾波器分配到相應(yīng)的空間區(qū)域,因此,DRConv具有強大的語義表示能力,并完美地保持了平移不變性。 具體來說,作者設(shè)計了一個可學(xué)習(xí)的 引導(dǎo)掩模模塊(guided mask module) ,根據(jù)每個輸入圖像的特征自動生成濾波器,并在相同的區(qū)域內(nèi)共享濾波器。由于區(qū)域和濾波器都是基于樣本的特征生成的,這種方法能更有效地關(guān)注樣本自身的重要特征。
DRConv的結(jié)構(gòu)如上圖所示,首先用標(biāo)準(zhǔn)卷積從輸入生成引導(dǎo)特征,然后根據(jù)引導(dǎo)特征,將空間維度劃分為多個區(qū)域,每個區(qū)域用不同的顏色表示。在每個共享區(qū)域中,作者用濾波器生成器模塊生成多個濾波器來執(zhí)行二維卷積運算。 因此需要優(yōu)化的參數(shù)主要集中在濾波器生成器模塊中,其參數(shù)量與特征空間大小無關(guān)。除了顯著提高網(wǎng)絡(luò)性能外,本文的DRConv與局部卷積相比可以大大減少參數(shù)量,并且與標(biāo)準(zhǔn)卷積相比幾乎不增加計算復(fù)雜度。 為了驗證本文方法的有效性,作者在幾個不同的任務(wù)上進行了一系列的實驗研究,包括圖像分類、人臉識別、目標(biāo)檢測和分割。實驗結(jié)果表明,DRConv可以在這些任務(wù)上獲得優(yōu)異的性能。此外,作者還提供了充分的消融研究,以分析DRConv的有效性和魯棒性。
權(quán)重共享機制限制了標(biāo)準(zhǔn)卷積模擬語義的變化。因此,標(biāo)準(zhǔn)卷積必須在通道維度上增加濾波器的數(shù)量,以匹配更多的空間視覺元素,但是這種做法是低效的。局部卷積利用了空間信息的多樣性,但犧牲了平移不變性。
為了解決上述限制,作者提出了DRConv,它不僅通過在空間維度上使用多個濾波器來增加多樣性,而且保持這些具有相似特征的區(qū)域的平移不變性。
3.1. Dynamic Region-Aware Convolution 標(biāo)準(zhǔn)卷積的輸入可以表示為 ,其中、 、 分別為高度、寬度和通道。 代表二維空間維度, 代表輸出, 代表標(biāo)準(zhǔn)卷積濾波器。對于輸出特征的第o個通道,可以表示為:
對于局部卷積,使用 表示在空間維度上不共享的濾波器。輸出特征的第o個通道,可以表示為: 基于上述公式,作者定義了 引導(dǎo)掩模(guided mask) ,表示從空間維度劃分的多個區(qū)域,其中單個過濾器在同一個區(qū)域中是共享的,不同濾波器用于不同的區(qū)域。這個引導(dǎo)掩模是基于輸入數(shù)據(jù)自適應(yīng)學(xué)習(xí)的,相應(yīng)的,每個區(qū)域?qū)?yīng)的濾波器可以表示為 ,其中第 個濾波器 與第 個區(qū)域 對應(yīng)。輸出特征的第o個通道可以表示為: 其中 表示 的第c個通道,, 表示區(qū)域 中的一個點。 本文的方法主要分為兩個步驟。首先,使用一個 可學(xué)習(xí)的引導(dǎo)掩模 將特征劃分為多個空間區(qū)域,從語義上講,語義相似的特征將被分配到同一區(qū)域。 其次,在每個共享區(qū)域中,作者們使用 濾波器生成器模塊 生成一個基于輸入的濾波器來執(zhí)行正常的二維卷積運算。 可學(xué)習(xí)的引導(dǎo)掩模 決定將哪個濾波器器分配給哪個區(qū)域。 濾波器生成器模塊 用于生成不同區(qū)域的相應(yīng)濾波器。 3.2. Learnable guided mask 作為DRConv的最重要部分之一,可學(xué)習(xí)引導(dǎo)掩模決定了濾波器在空間維度上的分布,并通過損失函數(shù)進行優(yōu)化。對于具有m個共享區(qū)域的k×k的DRConv,作者用k×k的標(biāo)準(zhǔn)卷積基于輸入來生成輸出通道數(shù)為m的引導(dǎo)特征。用 表示引導(dǎo)特征,用 表示引導(dǎo)掩模。對于每一個點, ,引導(dǎo)掩模的計算為:
其中, 表示取出最大值的下標(biāo),因此 的值域是在0到m-1的范圍內(nèi)。 但是, 操作使得這一部分的梯度被截斷了,從而無法端到端的學(xué)習(xí),因此,作者重新設(shè)計了這一操作的前向傳播和后向傳播,如下圖所示。
Forward propagation 基于上面的介紹,每個位置的濾波器 的計算表示為:
通過這種方式,m個濾波器將與所有位置建立對應(yīng)關(guān)系,并且可以將整個空間像素劃分為m個組??臻g上使用相同濾波器的像素具有相似的上下文,因為具有平移不變性的標(biāo)準(zhǔn)卷積將其信息傳遞給了引導(dǎo)特征。 Backward propagation 如上圖所示,在反向傳播的時候,作者引入了 :
通過上式的 操作, 可以看做是近似的one-hot形式,因此 和one-hot形式的差距就會非常小。因此,作者在訓(xùn)練過程中,作者將 近似為 。 的梯度可以表示為: 其中, 代表點乘, 代表梯度。前向傳播的近似反向傳播可以表示為: 3.3. Dynamic Filter: Filter generator module 在DRConv中,多個濾波器將分配到不同的區(qū)域,濾波器生成器模塊用于為這些區(qū)域生成濾波器。由于不同圖像之間特征的多樣性,跨圖像的共享濾波器不足以有效地關(guān)注圖像自身的特征。因此,作者在本文中提出了濾波器生成模塊,基于輸入數(shù)據(jù)自適應(yīng)的生成濾波器。
將輸入特征表示為 , 代表濾波器生成模塊。這些濾波器表示為 ,并且每個濾波器器僅在同一個區(qū)域 中共享。如上圖所示,為了生成m個卷積核大小為 的濾波器,作者首先用了adaptive average pooling將輸入 下采樣到 ,然后使用兩個連續(xù)的 卷積,中間用了 激活函數(shù),第二個卷積采用分組卷積 。濾波器生成器模塊可以增強捕獲不同圖像樣本特征的能力。 4.1. Classification
上表展示了在ImageNet分類任務(wù)上,將不同的輕量級網(wǎng)絡(luò)的卷積替換為DRConv的實驗結(jié)果,可以看出DRConv能夠顯著提升模型的性能,并且對于不同的網(wǎng)絡(luò)都是有用的。 4.2. Face Recognition
上表展示了人臉識別任務(wù)上,基于MobileFaceNet,不同方法的計算量和準(zhǔn)確率對比,可以看出,本文的方法能夠顯著提高模型的性能。 4.3. COCO Object Detection and Segmentation
上表展示了在COCO目標(biāo)檢測和分割任務(wù)上,基于DetNAS-300M和Mask R-CNN框架,baseline和DRConv的實驗結(jié)果對比,可以看出,相比于baseline,本文方法能夠明顯提高性能,證明了DRConv的有效性。 4.4. ?Ablation Study Visualization of dynamic guided mask
上圖展示了本文方法劃分區(qū)域的可視化結(jié)果,可以看出,劃分的區(qū)域具有顯著的語義信息,能夠幫助模型的學(xué)習(xí)。 Different model size
上圖展示了在不同模型大小下,本文方法和baseline方法的對比,可以看出,本文的方法在小模型上能夠?qū)崿F(xiàn)更顯著的性能提升,因為通過用DRConv取代標(biāo)準(zhǔn)卷積,小型模型將顯著提高其建模語義信息的能力,從而獲得更好的性能。
在本文中,作者提出了一種新的卷積,稱為 動態(tài)區(qū)域感知卷積(DRConv) ,該卷積在空間域中采用了部分共享的濾波器,并成功地保持了平移不變性。本文提出的DRConv可以完全替代任何現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積。
實現(xiàn)上,作者設(shè)計了一個 可學(xué)習(xí)的引導(dǎo)掩模模塊 用于濾波器的分配引導(dǎo)任務(wù),這保證了一個區(qū)域中的相似特征可以匹配相同的濾波器器。 此外,作者還設(shè)計了 濾波器生成器模塊 ,為每個數(shù)據(jù)樣本生成基于輸入的濾波器,這使得不同的輸入可以使用自己的專用濾波器。 在多個不同任務(wù)上的綜合實驗表明了DRConv的有效性,此外,消融實驗的結(jié)果表明,可學(xué)習(xí)引導(dǎo)掩模在每個樣本的濾波器分布中起著關(guān)鍵作用,有助于獲得更好的性能。
努力分享優(yōu)質(zhì)的計算機視覺相關(guān)內(nèi)容,歡迎關(guān)注: 交流群
歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺 、計算攝影 、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽 等微信群
請注明: 地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「 AI算法與圖像處 理」 公眾號后臺回復(fù): 何愷明 ,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「 AI算法與圖像處 理」 公眾號后臺回復(fù): c++ ,即可下載。 歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
在「AI算法與圖像處 理 」 公眾號后臺回復(fù): CVPR , 即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文