SMU激活函數(shù) | 超越ReLU、GELU、Leaky ReLU讓ShuffleNetv2提升6.22%
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)

選擇一個(gè)好的激活函數(shù)可以對(duì)提高網(wǎng)絡(luò)性能產(chǎn)生重要的影響。Handcrafted Activation是神經(jīng)網(wǎng)絡(luò)模型中最常見(jiàn)的選擇。盡管ReLU有一些嚴(yán)重的缺點(diǎn),但由于其簡(jiǎn)單性,ReLU成為深度學(xué)習(xí)中最常見(jiàn)的選擇。
本文在已知激活函數(shù)Leaky ReLU近似的基礎(chǔ)上,提出了一種新的激活函數(shù),稱之為Smooth Maximum Unit(SMU)。用SMU替換ReLU,ShuffleNet V2模型在CIFAR100數(shù)據(jù)集上得到了6.22%的提升。
1介紹
神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的支柱。激活函數(shù)是神經(jīng)網(wǎng)絡(luò)的大腦,在深度神經(jīng)網(wǎng)絡(luò)的有效性和訓(xùn)練中起著核心作用。ReLU由于其簡(jiǎn)單性而成為深度學(xué)習(xí)領(lǐng)域的常用選擇。盡管它很簡(jiǎn)單,但ReLU有一個(gè)主要的缺點(diǎn),即ReLU死亡問(wèn)題,在這種情況下,多達(dá)50%的神經(jīng)元在網(wǎng)絡(luò)訓(xùn)練期間死亡。
為了克服ReLU的不足,近年來(lái)提出了大量的激活方法,其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、隨機(jī)化Leaky ReLU是其中的幾種,它們?cè)谝欢ǔ潭壬细纳屏薘eLU的性能。
Swish是谷歌腦組提出的非線性激活函數(shù),對(duì)ReLU有一定的改善;GELU是另一種常用的平滑激活函數(shù)??梢钥闯?,Swish和GELU都是ReLU的光滑近似。近年來(lái),人們提出了一些提高ReLU、Swish或GELU性能的非線性激活方法,其中一些是ReLU或Leaky ReLU的光滑逼近方法,還有TanhSoft、EIS、Padé激活單元、正交Padé激活單元、Mish、ErfAct等。
maximum function在原點(diǎn)處是非光滑的。在本文中,作者將探討maximum function的平滑逼近如何影響網(wǎng)絡(luò)的訓(xùn)練和性能。
2Smooth Maximum Unit
作者提出了Smooth Maximum Unit (SMU)。從|x|函數(shù)的光滑逼近中可以找到一個(gè)maximum function的一般逼近公式,它可以平滑逼近一般的maxout族、ReLU、Leaky ReLU或其變體、Swish等。作者還證明了GELU函數(shù)是SMU的一個(gè)特例。
2.1 平滑近似Maximum Function
Maximum Function定義如下:

函數(shù)|x|在原點(diǎn)是不可微的。因此,從上式可以看出最大值函數(shù)在原點(diǎn)處也是不可微的。這里可以用Smooth函數(shù)來(lái)近似|x|函數(shù)。對(duì)于本文的其余部分,我們將只考慮兩個(gè)近似| x, 在深度學(xué)習(xí)問(wèn)題中使用這兩個(gè)函數(shù)和近似的結(jié)果比其他近似|x|可以得到更好的結(jié)果。
注意,從上面平滑地近似|x|,而從下面平滑地近似|x|。這里 是一個(gè)平滑參數(shù),當(dāng)取 時(shí),近似函數(shù)平滑地逼近|x|。這里erf是高斯誤差函數(shù),定義如下:

現(xiàn)將式(1)中的|x|函數(shù)替換為,則最大函數(shù)的光滑逼近公式如下:

同理,可以推導(dǎo)出的光滑近似公式:

注意,當(dāng),;當(dāng), 。對(duì)于和的特定值,可以近似已知的激活函數(shù)。例如,, ,得到:

這是maxout族中的一個(gè)簡(jiǎn)單情況,而通過(guò)考慮和的非線性選擇可以發(fā)現(xiàn)更復(fù)雜的情況。對(duì)于和的特定值,可以得到ReLU和Leaky ReLU的平滑近似。例如,考慮和,有ReLU的平滑近似:

GELU是ReLU的光滑近似。注意,如果方程(5)中取,則可以逼近GELU激活函數(shù),這也表明GELU是ReLU的光滑近似。此外,考慮和,可以得到Leaky ReLU或Parametric ?ReLU的光滑逼近,這取決于α是超參數(shù)還是可學(xué)習(xí)參數(shù)。

請(qǐng)注意,式(5)和式(6)下端近似為ReLU或Leaky ReLU。同樣地,可以從式(3)推導(dǎo)出近似函數(shù),它將近似上面的ReLU或Leaky ReLU。
式(6)對(duì)輸入變量x的相應(yīng)導(dǎo)數(shù)為:

其中,

稱方程(6)中的函數(shù)為Smooth Maximum Unit(SMU)??梢詫⒎匠?3)中的和替換為一個(gè)函數(shù),稱之為SMU-1。對(duì)于所有的實(shí)驗(yàn),將使用SMU和SMU-1作為激活函數(shù)。
2.2 通過(guò)反向傳播學(xué)習(xí)激活參數(shù)
使用backpropagation技術(shù)更新可訓(xùn)練激活函數(shù)參數(shù)。作者在Pytorch和Tensorflow-KerasAPI中實(shí)現(xiàn)了向前傳遞,自動(dòng)區(qū)分將更新參數(shù)。另外,可以使用CUDA的實(shí)現(xiàn),α和μ參數(shù)的梯度可以計(jì)算如下:

α和μ既可以是超參數(shù),也可以是可訓(xùn)練參數(shù)。對(duì)于SMU和SMU-1,α = 0.25,這是一個(gè)超參數(shù)。也將μ作為可訓(xùn)練參數(shù),對(duì)SMU和SMU-1分別在1000000和4.352665993287951e?09初始化。
這里,具有SMU和SMU-1激活函數(shù)的神經(jīng)網(wǎng)絡(luò)密集在C(K)中,其中K是的子集,C(K)是K上所有連續(xù)函數(shù)的空間。
Proposition
設(shè)是任意連續(xù)函數(shù)。設(shè)表示一類具有激活函數(shù)ρ的神經(jīng)網(wǎng)絡(luò),在輸入層有n個(gè)神經(jīng)元,在輸出層有1個(gè)神經(jīng)元,在隱層有任意數(shù)目的神經(jīng)元。設(shè)為compact,那么當(dāng)且僅當(dāng)ρ是非多項(xiàng)式時(shí)C(K)的是dense。
3實(shí)驗(yàn)
3.1 分類

3.2 目標(biāo)檢測(cè)

3.3 語(yǔ)義分割

4參考
[1].SMU: SMOOTH ACTIVATION FUNCTION FOR DEEP NETWORKS USING SMOOTHING MAXIMUM TECHNIQUE
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有美顏、三維視覺(jué)、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群
個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

