ICCV 2023 | 輕量級視覺網(wǎng)絡(luò)新主干
點擊上方“小白學(xué)視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達 ![]()
1. 背景
近年來,基于 Transformer、Large-kernel CNN 和 MLP 三種視覺主干網(wǎng)絡(luò)在廣泛的 CV 任務(wù)中取得了顯著的成功,這要歸功于它們在全局范圍內(nèi)的高效信息融合能力。
現(xiàn)有的三大主流神經(jīng)網(wǎng)絡(luò),即 Transformer、CNN 和 MLP,分別通過各自的方式實現(xiàn)全局范圍的 Token 融合。其中,Transformer 網(wǎng)絡(luò)中的自注意力機制將 Query-Key pairs 的相關(guān)性作為 Token 融合的權(quán)重。CNN 通過擴大 kernel 尺寸實現(xiàn)與 transformer 相近的性能。MLP 通過在所有令牌之間的全連接實現(xiàn)另一種強大的范式。所有這些方法都是有效的,但計算復(fù)雜度高 (O (N^2)),難以在存儲和計算能力有限的設(shè)備上部署,限制了很多模型的應(yīng)用范圍。
2. AFF Token Mixer: 輕量、全局、自適應(yīng)
為了解決計算昂貴的問題,研究人員構(gòu)建了一種名為 Adaptive Fourier Filter(AFF)的高效全局 Token 融合算子。它通過傅里葉變換將 Token 集合變換到頻域,同時在頻域?qū)W習到一個內(nèi)容自適應(yīng)的濾波掩膜,對變換到頻域空間中的 Token 集合進行自適應(yīng)濾波操作。
根據(jù)頻域卷積定理,原始域中的卷積操作在數(shù)學(xué)上等價于對應(yīng)的傅里葉域中的 Hadamard 乘積操作。這使得該工作所提出的 AFF Token Mixer 在數(shù)學(xué)上等價于使用一個空間分辨率和 Token 集合一樣大小的動態(tài)卷積核在原始域中進行 Token 融合 (如下圖右子圖所示), 具有在全局范圍內(nèi)進行內(nèi)容自適應(yīng) Token 融合的作用。
眾所周知,動態(tài)卷積的計算開銷大,大空間分辨率的動態(tài)卷積核的使用開銷對于高效 / 輕量級網(wǎng)絡(luò)設(shè)計似乎就更加不可接受。但是本文所提出的 AFF Token Mixer 卻可以作為同時滿足以上優(yōu)點的低功耗等效實現(xiàn),將復(fù)雜性從 O (N^2) 降低到 O (N log N),顯著提高了計算效率。

圖 1:AFF 模塊和 AFFNet 網(wǎng)絡(luò)示意圖。
3. AFFNet:輕量級視覺網(wǎng)絡(luò)新主干
研究人員將 AFF Token Mixer 作為主要神經(jīng)網(wǎng)絡(luò)操作算子,構(gòu)建了一個輕量級神經(jīng)網(wǎng)絡(luò),稱為 AFFNet。大量實驗表明,AFF Token Mixer 在廣泛的視覺任務(wù)中實現(xiàn)了優(yōu)越的準確性和效率權(quán)衡,包括視覺語義識別和密集預(yù)測任務(wù)。
4. 實驗結(jié)果
研究人員在視覺語義識別、分割、檢測等多個視覺任務(wù)上對所提出的 AFF Token Mixer 和 AFFNet 進行評測,并將其和目前研究領(lǐng)域中最先進的輕量級視覺主干網(wǎng)絡(luò)進行對比。實驗結(jié)果表明,該工作提出的模型設(shè)計在廣泛的視覺任務(wù)上均表現(xiàn)出色,驗證了所提出的 AFF Token Mixer 作為新一代輕量高效的 Token 融合算子的潛力。
圖 2:ImageNet-1K 數(shù)據(jù)集上的 Acc-Param, Acc-FLOPs 曲線,與 SOTA 的對比。

表 1:ImageNet-1K 數(shù)據(jù)集上和 SOTA 的對比

表 2:下游任務(wù)(視覺檢測和分割)和SOTA的對比。
5. 結(jié)論
此項研究成果從數(shù)學(xué)上證明了隱空間中的頻域變換能起到全局自適應(yīng) Token 融合的作用,是神經(jīng)網(wǎng)絡(luò)中實現(xiàn)全局自適應(yīng) Token 融合的一種高效能低功耗的等效實現(xiàn)。為神經(jīng)網(wǎng)絡(luò)中 Token 融合算子的設(shè)計打開了新的研究思路,也為神經(jīng)網(wǎng)絡(luò)模型在存儲和計算能力有限的邊緣設(shè)備上的部署帶來了新的發(fā)展空間。
下載1:OpenCV-Contrib擴展模塊中文版教程
在「小白學(xué)視覺」公眾號后臺回復(fù):擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。
下載2:Python視覺實戰(zhàn)項目52講
在「小白學(xué)視覺」公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。
下載3:OpenCV實戰(zhàn)項目20講
在「小白學(xué)視覺」公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習進階。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~
