<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          SMU激活函數(shù) | 超越ReLU、GELU、Leaky ReLU讓ShuffleNetv2提升6.22%

          共 2612字,需瀏覽 6分鐘

           ·

          2021-11-13 18:07

          選擇一個好的激活函數(shù)可以對提高網(wǎng)絡(luò)性能產(chǎn)生重要的影響。Handcrafted Activation是神經(jīng)網(wǎng)絡(luò)模型中最常見的選擇。盡管ReLU有一些嚴(yán)重的缺點(diǎn),但由于其簡單性,ReLU成為深度學(xué)習(xí)中最常見的選擇。

          本文在已知激活函數(shù)Leaky ReLU近似的基礎(chǔ)上,提出了一種新的激活函數(shù),稱之為Smooth Maximum Unit(SMU)。用SMU替換ReLU,ShuffleNet V2模型在CIFAR100數(shù)據(jù)集上得到了6.22%的提升。

          1介紹

          神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的支柱。激活函數(shù)是神經(jīng)網(wǎng)絡(luò)的大腦,在深度神經(jīng)網(wǎng)絡(luò)的有效性和訓(xùn)練中起著核心作用。ReLU由于其簡單性而成為深度學(xué)習(xí)領(lǐng)域的常用選擇。盡管它很簡單,但ReLU有一個主要的缺點(diǎn),即ReLU死亡問題,在這種情況下,多達(dá)50%的神經(jīng)元在網(wǎng)絡(luò)訓(xùn)練期間死亡。

          為了克服ReLU的不足,近年來提出了大量的激活方法,其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、隨機(jī)化Leaky ReLU是其中的幾種,它們在一定程度上改善了ReLU的性能。

          Swish是谷歌腦組提出的非線性激活函數(shù),對ReLU有一定的改善;GELU是另一種常用的平滑激活函數(shù)。可以看出,Swish和GELU都是ReLU的光滑近似。近年來,人們提出了一些提高ReLU、Swish或GELU性能的非線性激活方法,其中一些是ReLU或Leaky ReLU的光滑逼近方法,還有TanhSoft、EIS、Padé激活單元、正交Padé激活單元、Mish、ErfAct等。

          maximum function在原點(diǎn)處是非光滑的。在本文中,作者將探討maximum function的平滑逼近如何影響網(wǎng)絡(luò)的訓(xùn)練和性能。

          2Smooth Maximum Unit

          作者提出了Smooth Maximum Unit (SMU)。從|x|函數(shù)的光滑逼近中可以找到一個maximum function的一般逼近公式,它可以平滑逼近一般的maxout族、ReLU、Leaky ReLU或其變體、Swish等。作者還證明了GELU函數(shù)是SMU的一個特例。

          2.1 平滑近似Maximum Function

          Maximum Function定義如下:

          式1

          函數(shù)|x|在原點(diǎn)是不可微的。因此,從上式可以看出最大值函數(shù)在原點(diǎn)處也是不可微的。這里可以用Smooth函數(shù)來近似|x|函數(shù)。對于本文的其余部分,我們將只考慮兩個近似| x, 在深度學(xué)習(xí)問題中使用這兩個函數(shù)近似的結(jié)果比其他近似|x|可以得到更好的結(jié)果。

          注意,從上面平滑地近似|x|,而從下面平滑地近似|x|。這里 是一個平滑參數(shù),當(dāng)取 時,近似函數(shù)平滑地逼近|x|。這里erf是高斯誤差函數(shù),定義如下:

          現(xiàn)將式(1)中的|x|函數(shù)替換為,則最大函數(shù)的光滑逼近公式如下:

          式2

          同理,可以推導(dǎo)出的光滑近似公式:

          式3

          注意,當(dāng),;當(dāng), 。對于的特定值,可以近似已知的激活函數(shù)。例如,, ,得到:

          式4

          這是maxout族中的一個簡單情況,而通過考慮的非線性選擇可以發(fā)現(xiàn)更復(fù)雜的情況。對于的特定值,可以得到ReLU和Leaky ReLU的平滑近似。例如,考慮,有ReLU的平滑近似:

          式5

          GELU是ReLU的光滑近似。注意,如果方程(5)中取,則可以逼近GELU激活函數(shù),這也表明GELU是ReLU的光滑近似。此外,考慮,可以得到Leaky ReLU或Parametric ?ReLU的光滑逼近,這取決于α是超參數(shù)還是可學(xué)習(xí)參數(shù)。

          式6

          請注意,式(5)和式(6)下端近似為ReLU或Leaky ReLU。同樣地,可以從式(3)推導(dǎo)出近似函數(shù),它將近似上面的ReLU或Leaky ReLU。

          式(6)對輸入變量x的相應(yīng)導(dǎo)數(shù)為:

          式7

          其中,

          稱方程(6)中的函數(shù)為Smooth Maximum Unit(SMU)??梢詫⒎匠?3)中的替換為一個函數(shù),稱之為SMU-1。對于所有的實(shí)驗(yàn),將使用SMU和SMU-1作為激活函數(shù)。

          2.2 通過反向傳播學(xué)習(xí)激活參數(shù)

          使用backpropagation技術(shù)更新可訓(xùn)練激活函數(shù)參數(shù)。作者在Pytorch和Tensorflow-KerasAPI中實(shí)現(xiàn)了向前傳遞,自動區(qū)分將更新參數(shù)。另外,可以使用CUDA的實(shí)現(xiàn),α和μ參數(shù)的梯度可以計算如下:

          式8+9

          α和μ既可以是超參數(shù),也可以是可訓(xùn)練參數(shù)。對于SMU和SMU-1,α = 0.25,這是一個超參數(shù)。也將μ作為可訓(xùn)練參數(shù),對SMU和SMU-1分別在1000000和4.352665993287951e?09初始化。

          這里,具有SMU和SMU-1激活函數(shù)的神經(jīng)網(wǎng)絡(luò)密集在C(K)中,其中K是的子集,C(K)是K上所有連續(xù)函數(shù)的空間。

          Proposition

          設(shè)是任意連續(xù)函數(shù)。設(shè)表示一類具有激活函數(shù)ρ的神經(jīng)網(wǎng)絡(luò),在輸入層有n個神經(jīng)元,在輸出層有1個神經(jīng)元,在隱層有任意數(shù)目的神經(jīng)元。設(shè)為compact,那么當(dāng)且僅當(dāng)ρ是非多項(xiàng)式時C(K)的是dense。

          3實(shí)驗(yàn)

          3.1 分類

          3.2 目標(biāo)檢測

          3.3 語義分割

          4參考

          [1].SMU: SMOOTH ACTIVATION FUNCTION FOR DEEP NETWORKS USING SMOOTHING MAXIMUM TECHNIQUE

          5推薦閱讀

          遲到的 HRViT | Facebook提出多尺度高分辨率ViT,這才是原汁原味的HRNet思想


          RMNet推理去除殘差結(jié)構(gòu)讓ResNet、MobileNet、RepVGG Great Again(必看必看)


          α-IoU | 再助YOLOv5登上巔峰,造就IoU Loss大一統(tǒng)


          長按掃描下方二維碼添加小助手并加入交流群,群里博士大佬云集,每日討論話題有目標(biāo)檢測、語義分割、超分辨率、模型部署、數(shù)學(xué)基礎(chǔ)知識、算法面試題分享的等等內(nèi)容,當(dāng)然也少不了搬磚人的扯犢子

          長按掃描下方二維碼添加小助手。

          可以一起討論遇到的問題

          聲明:轉(zhuǎn)載請說明出處

          掃描下方二維碼關(guān)注【集智書童】公眾號,獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢為馬,砥礪前行!

          瀏覽 44
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天干天天干在线视频 | 国产激情精品在线观看 | 在线无码视频观看 | 免费黄色一级电影网站 | 国产精品午夜123 |