<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          (附論文)解讀:全新的HP-x激活函數(shù)

          共 3268字,需瀏覽 7分鐘

           ·

          2021-07-01 13:05

          點擊左上方藍字關注我們



          全網搜集目標檢測相關,人工篩選最優(yōu)價值內容

          編者薦語
          文章提出了orthogonal-Padé激活函數(shù),它是可以訓練的激活函數(shù),在標準深度學習數(shù)據(jù)集和模型中具有更快的學習能力,同時可以提高模型的準確率。根據(jù)實驗,在六種orthogonal-Padé激活中找到了2種最佳的候選函數(shù),作者稱之為 safe Hermite-Pade(HP)激活函數(shù),即HP-1和HP-2。


          鏈接:https://arxiv.org/pdf/2106.09693.pdf

          1簡介

          本文提出了orthogonal-Padé激活函數(shù),它是可以訓練的激活函數(shù),在標準深度學習數(shù)據(jù)集和模型中具有更快的學習能力,同時可以提高模型的準確率。根據(jù)實驗,在六種orthogonal-Padé激活中找到了2種最佳的候選函數(shù),作者稱之為 safe Hermite-Pade(HP)激活函數(shù),即HP-1和HP-2。

          與ReLU相比,HP-1和HP-2幫助PreActResNet-34帶來不同程度的提升(top-1精度提升分別為5.06%和4.63%),在CIFAR100數(shù)據(jù)集上MobileNet V2模型提升分別為3.02%和2.75%分別,在CIFAR10數(shù)據(jù)集上PreActResNet-34的top-1精度分別增加了2.02%和1.78%,LeNet的top-1精度分別提升為2.24%和2.06%,Efficientnet B0的top-1精度分別提升為2.15%和2.03%。

          2前人工作簡介

          深度卷積神經網絡由多個隱藏層和神經元構成。然后通過每個神經元的激活函數(shù)引入非線性。

          ReLU由于其簡單性,是深度學習中最受歡迎的激活函數(shù)。雖然ReLU有一個缺點叫做 dying ReLU,在這種情況下,多達50%的神經元可能會因為消失梯度問題,即有大量的神經元對網絡性能沒有影響。為了克服這一問題,后來又提出了Leaky Relu、Parametric Relu、ELU、Softplus,雖然找到最佳的激活函數(shù)仍是一個有待研究的問題,但這些方法都提高了網絡的性能。最近,研究人員使用了自動搜索技術發(fā)現(xiàn)了Swish激活函數(shù)。與ReLU相比,Swish的精確度有了一些提高。GELU、Mish、TanhSoft、EIS是目前少數(shù)幾個可以替代ReLU和Swish的候選激活函數(shù)。

          近年來,人們對可訓練激活函數(shù)的研究也越來越感興趣??捎柧毤せ詈瘮?shù)具有可學習的超參數(shù)(s),在訓練過程中通過反向傳播算法更新。本文提出了Orthogonal-Padé激活函數(shù)。Orthogonal-Padé函數(shù)可以近似大多數(shù)連續(xù)函數(shù)。

          3Padé activation Unit (PAU) and Orthogonal-PAU

          考慮實線的一個閉合間隔為[a,b]。設中次數(shù)小于等于的所有多項式的空間。對于一個非負連續(xù)函數(shù),在[a, b]上定義Pn(x)上的內積為:

          有多項式是正交的,如果:

          的一組基是由張成的n個多項式的集合。一組正交基也是一組正交集。

          的標準基是。但是標準基與式1中定義的內積并不是正交的。

          在許多應用中,使用正交基可以簡化表達式并減少計算。多項式空間有幾個眾所周知的正交基。下表列出了其中一些多項式基。注意,它們有的由遞歸關系給出,有的由直接表達式給出。

          表1 一些著名的正交多項式基

          3.1 Padé activation Unit (PAU)

          f(x)由有理函數(shù)F1(x)的Padé近似定義為:

          其中P(x)和Q(x)分別是k次和l次的多項式,它們沒有公因式。PAU是式(3)的可學習激活函數(shù),其中多項式系數(shù)為可學習參數(shù),在反向傳播過程中進行更新。為了將F1(x)的極點從Q(x)的0中移除,有學者提出了safe PAU。safe PAU定義為:

          在分母中引入絕對值可以確保分母不會消失。實際上,也可以取和的絕對值來定義:

          在許多任務中,F(xiàn)3定義的激活函數(shù)比F2定義的safe PAU能夠提供更好的結果。

          3.2 Orthogonal-Padé activation Unit (OPAU)

          g(x)由有理函數(shù)G(x)的orthogonal-Padé近似定義為:

          其中屬于正交多項式集合。與PAU一樣,可學習激活函數(shù)OPAU由(6)定義,其中為可學習參數(shù)。參數(shù)的初始化是通過近似的形式的如ReLU, Leaky ReLU等。為了去掉G(x)的極點,提出如下的safe OPAU。

          作者考慮了6種正交多項式基- Chebyshev(兩種),Hermite(兩種),Laguerre和Legendre多項式的基。關于這些多項式基的詳細信息見表1。

          3.3 通過反向傳播學習激活參數(shù)

          利用反向傳播算法和梯度更新神經網絡模型中的權值和偏差。這里也采用相同的方法更新激活函數(shù)的參數(shù)。作者已經在Pytorch和Tensorflow-Keras API實現(xiàn)了自動化更新參數(shù)。對輸入x和參數(shù)計算公式(6)的梯度如下:

          4具有orthogonal-Padé激活以及函數(shù)近似的網絡

          Orthogonal-Padé網絡類似于Padé網絡,即將具有PAU或safe PAU的網絡替換為OPAU或safe OPAU。在本文中,將safe OPAUs視為不同正交基的激活函數(shù),如表1所示。用(7)中給出的函數(shù)形式近似Leaky ReLU對可學習參數(shù)(多項式系數(shù))進行初始化,初始化參數(shù)值如下表所示。

          利用反向傳播方法對網絡參數(shù)進行了優(yōu)化。作者對所有的網絡都保持了PAU的類似設計,例如每層的權重共享和可學習激活參數(shù)。由式(5)可知,每層總共有(k+l)個額外參數(shù)。因此,如果網絡中有L層,網絡中就會有額外的L(k+L)個可學習參數(shù)。為了訓練網絡,作者采用了Leaky ReLU初始化(α=0.01),而不是隨機初始化方法。

          使用正交基的一個主要優(yōu)點是,與標準基相比,可以在運行時間上更快地找到多項式系數(shù)。此外,目前廣泛使用的激活函數(shù)在大多數(shù)情況下是零中心的。因此作者在Padé和Orthogonal-Padé近似上施加一些條件,以使已知函數(shù)近似為零中心,并檢查是否有任何對模型性能的優(yōu)勢(一個明顯的優(yōu)勢是每一層的參數(shù)量減少了)。

          為了使Padé以零為中心,將式(4)中的替換,并計算其他參數(shù)。為了保證OPAU的safe,會有幾個bad case,作者研究了所有可能的bad case。

          例如,如果選擇HP-1作為基,如果分子中的常數(shù)項為零,則安全的OPAU函數(shù)近似可以以零為中心。由式(6)和表1可知,??梢酝茖С鲆韵虑闆r:

          case 1:

          case 2:

          其中一個等于0。例如,如果,那么等等;

          case 3:

          在上述PAU和HP-1的所有情況下,作者已經在CIFAR10和CIFAR100數(shù)據(jù)集上對幾個經典的模型進行了實驗和測試(Leaky ReLU近似)。作者發(fā)現(xiàn)在大多數(shù)情況下,模型在top-1準確率下降了0.2%-0.6%。

          此外,需要注意的是,具有safe OPAU激活函數(shù)的神經網絡在C(K)中是dense的,其中K是的一個緊湊子集,而C(K)是K上所有連續(xù)函數(shù)的空間。

          Proposition

          • 是任意連續(xù)函數(shù)。設表示一類具有激活函數(shù)的神經網絡,輸入層有n個神經元,輸出層有1個神經元,隱層有任意數(shù)量的神經元。設是compact的。當且僅當是非多項式時,在C(K)中是dense的。

          • 是任意連續(xù)函數(shù),它至少在一點上是連續(xù)可微的,且在這一點上導數(shù)為非零。設是compact的。那么在中,是dense的。

          5實驗

          5.1 CIFAR-100

          5.2 Tiny Imagenet

          5.3 VOC 2007



          END



          雙一流大學研究生團隊創(chuàng)建,專注于目標檢測與深度學習,希望可以將分享變成一種習慣!

          整理不易,點贊三連↓

          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  熟女一区二区三区免费视频 | 国产综合乱伦三级 | 国产在线8 | 国产成人AV导航 | 亚洲操逼片 |