這篇論文提出了一種動態(tài)ReLU。根據(jù)輸入,它能動態(tài)地調(diào)整對應的分段激活函數(shù),以較少的額外計算量大幅提升性能。
Dynamic ReLU
論文地址: https://arxiv.org/abs/2003.10027
論文代碼: https://github.com/Islanna/DynamicReLU
Introduction ?ReLU是深度學習中很重要的里程碑,簡單但強大,能夠極大地提升神經(jīng)網(wǎng)絡的性能。目前也有很多ReLU的改進版,比如Leaky ReLU和 PReLU,而這些改進版和原版的最終參數(shù)都是固定的。所以論文自然而然地想到,如果能夠根據(jù)輸入特征來調(diào)整ReLU的參數(shù)可能會更好。 基于上面的想法,論文提出了動態(tài)ReLU(DY-ReLU)。如圖2所示,DY-ReLU是一個分段函數(shù) ,參數(shù)由超函數(shù) 根據(jù)輸入 得到。超函數(shù) 綜合輸入的各維度上下文來自適應激活函數(shù) ,能夠在帶來少量額外計算的情況下,顯著地提高網(wǎng)絡的表達能力。另外,論文提供了三種形態(tài)的DY-ReLU,在空間位置和維度上有不同的共享機制。不同形態(tài)的DY-ReLU適用于不同的任務,論文也通過實驗驗證,DY-ReLU在關(guān)鍵點識別和圖像分類上均有不錯的提升。 Definition and Implementation of Dynamic ReLU Definition 定義原版的ReLU為 , 為輸入向量,對于輸入的 維特征 ,激活值計算為 。ReLU可統(tǒng)一表示為分段線性函數(shù),論文基于這個分段函數(shù)擴展出動態(tài)ReLU,基于所有的輸入 自適應 , : ? 為函數(shù)數(shù)量, 為維度數(shù),激活參數(shù) 不僅與 相關(guān),也與 相關(guān)。 Implementation of hyper function 論文采用類似與SE模塊的輕量級網(wǎng)絡進行超函數(shù)的實現(xiàn),對于大小為 的輸入 ,首先使用全局平均池化進行壓縮,然后使用兩個全連接層(中間包含ReLU)進行處理,最后接一個歸一化層將結(jié)果約束在-1和1之間,歸一化層使用 , 為Sigmoid函數(shù)。子網(wǎng)共輸出 個元素,分別對應 和 的殘差,最終的輸出為初始值和殘差之和: ? 和 為 和 的初始值, 和 是用來控制殘差大小的標量。對于 的情況,默認參數(shù)為 , ,即為原版ReLU,標量默認為 , 。 Relation to Prior Work DY-ReLU的可能性很大,表1展示了DY-ReLU與原版ReLU以及其變種的關(guān)系。在學習到特定的參數(shù)后,DY-ReLU可等價于ReLU、LeakyReLU以及PReLU。而當 ,偏置 時,則等價于SE模塊。另外DY-ReLU也可以是一個動態(tài)且高效的Maxout算子,相當于將Maxout的 個卷積轉(zhuǎn)換為 個動態(tài)的線性變化,然后同樣地輸出最大值。 Variations of Dynamic ReLU 論文提供了三種形態(tài)的DY-ReLU,在空間位置和維度上有不同的共享機制: DY-ReLU-A 空間位置和維度均共享(spatial and channel-shared),計算如圖2a所示,僅需輸出 個參數(shù),計算最簡單,表達能力也最弱。 DY-ReLU-B 僅空間位置共享(spatial-shared and channel-wise),計算如圖2b所示,輸出 個參數(shù)。 DY-ReLU-C 空間位置和維度 均不共享(spatial and channel-wise),每個維度的每個元素都有對應的激活函數(shù)。雖然表達能力很強,但需要輸出的參數(shù)( )太多了,像前面那要直接用全連接層輸出會帶來過多的額外計算。為此論文進行了改進,計算如圖2c所示,將空間位置分解到另一個attention分支,最后將維度參數(shù) 乘以空間位置attention 。attention的計算簡單地使用 卷積和歸一化方法,歸一化使用了帶約束的softmax函數(shù):? 用于將attention平均,論文設(shè)為 , 為溫度,訓練前期設(shè)較大的值(10)用于防止attention過于稀疏。 Experimental Results ?與其它激活函數(shù)進行實驗對比可視化DY-ReLU在不同block的輸入輸出以及斜率變化,可看出其動態(tài)性 Conclusion
論文提出了動態(tài)ReLU,能夠根據(jù)輸入動態(tài)地調(diào)整對應的分段激活函數(shù),與ReLU及其變種對比,僅需額外的少量計算即可帶來大幅的性能提升,能無縫嵌入到當前的主流模型中。前面有提到一篇APReLU,也是做動態(tài)ReLU,子網(wǎng)結(jié)構(gòu)十分相似,但DY-ReLU由于 的存在,可能性和效果比APReLU更大。
推薦閱讀
添加極市小助手微信 (ID : cvmart2) ,備注: 姓名-學校/公司-研究方向-城市 (如:小極-北大-目標檢測- 深圳),即可申請加入 極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解 等技術(shù)交流群: 每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與? 10000+ 來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流 ~ 覺得有用麻煩給個在看啦~ ??