超越 ReLU 和 Sigmoid | 新型激活函數(shù)錐形和拋物錐形的研究,訓(xùn)練速度再上一層!
共 16881字,需瀏覽 34分鐘
·
2024-05-11 09:00
點擊下方卡片,關(guān)注「集智書童」公眾號
這篇論文介紹了一類遠(yuǎn)優(yōu)于幾乎普遍使用的類似ReLU和Sigmoid激活函數(shù)的激活函數(shù)。提出了兩種新的激活函數(shù),稱為錐形(Cone)和拋物錐形(Parabolic-Cone),它們與流行的激活函數(shù)截然不同,并且在CIFAR-10和Imagenette基準(zhǔn)測試上的表現(xiàn)顯著優(yōu)于這些函數(shù)。錐形激活函數(shù)僅在有限區(qū)間內(nèi)為正,在該區(qū)間兩端點外嚴(yán)格為負(fù),并在端點處變?yōu)榱恪?/p>
因此,對于具有錐形激活函數(shù)的神經(jīng)元來說,產(chǎn)生正輸出的輸入集合是一個超條帶,而不是通常情況下的半空間。由于超條帶是兩個平行超平面之間的區(qū)域,它允許神經(jīng)元將輸入特征空間更精細(xì)地劃分為正類和負(fù)類,而不是無限寬的半空間。
特別是,具有錐形類激活函數(shù)的單個神經(jīng)元可以學(xué)習(xí)XOR函數(shù)。本文展示了錐形和拋物錐形激活函數(shù)在基準(zhǔn)測試中使用顯著較少的神經(jīng)元就能獲得更高的準(zhǔn)確度。本文提出的結(jié)果表明,許多非線性的現(xiàn)實世界數(shù)據(jù)集可能需要比半空間更少的超條帶進(jìn)行分離。錐形和拋物錐形激活函數(shù)的導(dǎo)數(shù)大于ReLU,并且顯著加快了訓(xùn)練速度。
1 Introduction
自從發(fā)現(xiàn)類似ReLU的激活函數(shù)[1]以來,一個懸而未決的問題是:是否存在一個更好的一類激活函數(shù),這類激活函數(shù)與sigmoid型和ReLU型激活函數(shù)都有顯著不同[2]。本文通過提出一類新的激活函數(shù),肯定地回答了上述基本問題。盡管深度人工神經(jīng)網(wǎng)絡(luò)(ANNs)的復(fù)雜性很高,但ANN中的每個單獨的神經(jīng)元本質(zhì)上都是通過用一個超平面將其輸入分離來進(jìn)行線性決策的。特別是,能夠從一個單一神經(jīng)元得到正輸出的一組輸入構(gòu)成了一個半空間。
Nature of neuronal decision boundaries
單個神經(jīng)元的輸出(激活)由 給出,其中 是激活函數(shù)。與神經(jīng)元相關(guān)聯(lián)的超平面邊界是以下點的集合:
對于大多數(shù)流行的激活函數(shù),產(chǎn)生正輸出和負(fù)輸出的點的集合是半空間。正半空間和負(fù)半空間定義如下:
任何超平面將其輸入空間 分為3個連通區(qū)域:正半空間 ,負(fù)半空間 和一個仿射空間 。權(quán)重向量 指向正半空間 。圖 X 展示了單個神經(jīng)元對輸入空間的分離。
錐形和拋物錐形激活函數(shù)定義為 和 。也可以定義更廣泛的類錐形激活函數(shù): ,其中 和 是影響激活函數(shù)形狀的可學(xué)習(xí)參數(shù)。與圖 X 相比,圖 Y 展示了具有類錐形激活函數(shù)的單個神經(jīng)元對輸入空間的分離。
產(chǎn)生嚴(yán)格正輸出的神經(jīng)元的輸入集合記為 ,產(chǎn)生嚴(yán)格負(fù)輸出的輸入集合記為 。
恰好產(chǎn)生零輸出的輸入集合構(gòu)成了神經(jīng)元的決策邊界。特別是,產(chǎn)生輸出 的單個神經(jīng)元的決策邊界是集合 。根據(jù)以上內(nèi)容,像 Leaky ReLU、Swish 和 GELU 這樣的流行激活函數(shù)的決策邊界,在原點具有單個零的超平面。
換句話說,決策邊界是一個單獨的超平面( )。
另一方面,在閉區(qū)間 兩端點為零的錐形激活函數(shù)的決策邊界由兩個超平面組成。
或者
或者
錐形激活函數(shù)在任何輸入下都不會有小的或零的導(dǎo)數(shù)。錐形激活函數(shù)對于大多數(shù)輸入的導(dǎo)數(shù)值也比ReLU大,從而促進(jìn)更快的學(xué)習(xí)。
圖3顯示了錐形激活的一個參數(shù)化版本。
對于產(chǎn)生嚴(yán)格正輸出的錐形神經(jīng)元的輸入集合是 。因此,錐形神經(jīng)元的 是一個超條帶,而不是像流行激活函數(shù)那樣的半空間。### 半空間與超條帶
由于與無限寬的半空間相比,超條帶更窄,因此需要更少的超條帶來準(zhǔn)確地將輸入空間劃分為不同的類別。下面的圖4展示了僅用2個隱藏層錐形神經(jīng)元和一個sigmoidal神經(jīng)元的簡單兩層ANN如何學(xué)習(xí)一個復(fù)雜的線性不可分?jǐn)?shù)據(jù)集。圖5展示了如何用具有錐形激活函數(shù)的單個神經(jīng)元解決經(jīng)典的XOR問題。
本文的主要貢獻(xiàn)是:
-
提出了一種新型激活函數(shù),其性能顯著優(yōu)于類似ReLU的激活函數(shù)。 -
所提出的激活函數(shù)學(xué)習(xí)一個超條帶而非半空間來分隔正輸入類別。 -
使用超條帶而非半空間來分隔正輸入類別被證明可以導(dǎo)致更小的神經(jīng)網(wǎng)絡(luò)。
2 Results: Performance comparison on benchmark datasets
以下內(nèi)容將Cone-like激活函數(shù)與最流行激活函數(shù)在CIFAR-10 和 Imagenette 基準(zhǔn)測試上進(jìn)行比較。附錄-I和附錄-II展示了針對不同基準(zhǔn)測試所使用的CNN架構(gòu)。
這里采用了標(biāo)準(zhǔn)的CNN架構(gòu),包括卷積層和緊隨其后的全連接密集層。
由卷積濾波器計算出的特征被輸入到帶有待測試激活函數(shù)的單個密集層中。在所有情況下,輸出層都由Softmax層組成。下表顯示了在5次獨立試驗中獲得的平均結(jié)果,以考慮由于隨機(jī)初始化導(dǎo)致的性能變化。
模型訓(xùn)練使用了Adam優(yōu)化器,學(xué)習(xí)率為10^-4,以及標(biāo)準(zhǔn)的動量,其中 和 均使用。所有模型均用30個周期的分類交叉熵?fù)p失進(jìn)行訓(xùn)練。
表2、3和4清楚地表明,Cone和Parabolic-Cone激活函數(shù)在CIFAR-10基準(zhǔn)測試上用顯著較少的神經(jīng)元獲得了更高的準(zhǔn)確率。
表5、6和7顯示,在減少神經(jīng)元數(shù)量時,Cone和Parabolic-Cone激活函數(shù)在Imagenette基準(zhǔn)測試上總體上獲得了更高的準(zhǔn)確率。
表7:在Imagenette基準(zhǔn)測試上,單個全連接層由10個神經(jīng)元組成時,不同激活函數(shù)的性能比較。
圖6:在CIFAR-10上,具有不同激活函數(shù)的單層10個密集神經(jīng)元的訓(xùn)練曲線。
本文提出的Cone和Parabolic-Cone激活函數(shù)也顯著加快了訓(xùn)練速度(圖6)。這種快速訓(xùn)練可以歸因于與其它激活函數(shù)相比,Cone-like激活函數(shù)在大多數(shù)輸入情況下具有更大的導(dǎo)數(shù)值。
關(guān)于激活函數(shù)是否比其他具有更大導(dǎo)數(shù)的激活函數(shù)更重要這一根本問題仍然沒有答案,這也會導(dǎo)致訓(xùn)練更快或出現(xiàn)梯度爆炸問題。
3 Conclusion
ReLU類的激活函數(shù)與sigmoid函數(shù)截然不同,并且在性能上顯著優(yōu)于sigmoid激活函數(shù),它使得深層人工神經(jīng)網(wǎng)絡(luò)能夠通過緩解“梯度消失問題”來進(jìn)行訓(xùn)練。因此,在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個基本問題是,是否存在一類比ReLU類和sigmoid類激活函數(shù)更好、且差異很大的激活函數(shù)。
受到超條帶能夠在輸入空間中實現(xiàn)比半空間更小切割的啟發(fā),本文提出了一類新的類似錐形的激活函數(shù)。錐形激活函數(shù)使用超條帶來將 (誘發(fā)正輸出的輸入集合)與其他輸入分隔開。由于 是一個超條帶,因此可以使用具有錐形激活函數(shù)的單個神經(jīng)元學(xué)習(xí)異或函數(shù)。論文顯示,許多非線性可分的數(shù)據(jù)集可以用比半空間更少的超條帶進(jìn)行分隔,從而得到更小的ANNs。具有錐形激活函數(shù)的ANNs在CIFAR-10和Imagenette基準(zhǔn)測試上,使用顯著更少的神經(jīng)元就能達(dá)到更高的準(zhǔn)確度。結(jié)果表明,與ReLU類激活函數(shù)相比,具有更大導(dǎo)數(shù)的錐形激活函數(shù)可以加速訓(xùn)練并達(dá)到更高的準(zhǔn)確度。
第一個卷積層有32個大小為 的濾波器,步長為1,填充為2。最大池化層的池化窗口大小為 ,步長為2。第二個卷積層有64個大小為 的濾波器,步長為1,填充為2。最大池化層與第一個相同。
全連接層有512個神經(jīng)元,輸出層有10個神經(jīng)元對應(yīng)于CIFAR-10的10個類別。
在訓(xùn)練過程中,作者在全連接層之后應(yīng)用概率為0.5的dropout,以防止過擬合。作者使用Adam優(yōu)化器,學(xué)習(xí)率為0.001,批處理大小為64。網(wǎng)絡(luò)訓(xùn)練50個周期。
參考
[1].A Significantly Better Class of Activation Functions Than ReLU Like Activation Functions.
掃碼加入??「集智書童」交流群
(備注:方向+學(xué)校/公司+昵稱)
前沿AI視覺感知全棧知識??「分類、檢測、分割、關(guān)鍵點、車道線檢測、3D視覺(分割、檢測)、多模態(tài)、目標(biāo)跟蹤、NerF」
歡迎掃描上方二維碼,加入「集智書童-知識星球」,日常分享論文、學(xué)習(xí)筆記、問題解決方案、部署方案以及全棧式答疑,期待交流!
