<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          1000層Transformer問世!刷新NMT多項(xiàng)SOTA!

          共 1952字,需瀏覽 4分鐘

           ·

          2022-03-07 20:47

          轉(zhuǎn)自:新智元

          近日,微軟研究院的研究人員搞出了一個(gè)1000層的Transformer,在多語種機(jī)器翻譯任務(wù)上刷新多項(xiàng)SOTA
          ?
          從一開始的百萬級(jí)的模型參數(shù),到十億級(jí),再到萬億級(jí),參數(shù)規(guī)模極大增加。大規(guī)模的模型可以在大量任務(wù)中可以有更棒的表現(xiàn),在小樣本和零樣本學(xué)習(xí)的情況下也展現(xiàn)出了出色的能力。
          ?
          盡管參數(shù)的數(shù)量越來越大,參數(shù)的深度卻一直在被Transformer訓(xùn)練的不穩(wěn)定性所局限。2019年,科學(xué)家Nguyen和Salazar發(fā)現(xiàn),基于post-norm連接的pre-norm殘差連接可以提升Transformer的穩(wěn)定性。
          ?
          底層Pre-LN的梯度會(huì)比頂層的要大,這就導(dǎo)致和Post-LN相比,在性能上會(huì)有些許衰退。
          ?
          為了解決這個(gè)問題,研究人員嘗試提升了深度Transformer的優(yōu)化。這是通過更好的初始化或是架構(gòu)實(shí)現(xiàn)的。這些辦法使Transformer在數(shù)百層的情況下也能保持穩(wěn)定。
          ?
          但是還是沒有一種辦法可以使Transformer的層數(shù)到達(dá)1000.
          ?

          論文鏈接:https://arxiv.org/abs/2203.00555

          ?
          最近,來自微軟研究院的一篇論文,成功實(shí)現(xiàn)了Transformer層數(shù)量級(jí)上的突破,達(dá)到了1000層。
          ?
          研究人員的目標(biāo)就是不斷提升Transformer訓(xùn)練的穩(wěn)定性,繼續(xù)提升模型的深度。他們研究了優(yōu)化不穩(wěn)定的原因所在,發(fā)現(xiàn)正是模型參數(shù)規(guī)模爆炸式的增加導(dǎo)致了這種不穩(wěn)定性。
          ?
          基于上述結(jié)論,研究人員在殘差連接處使用了一種新的規(guī)范化函數(shù)——DEEPNORM。理論上,這種新的函數(shù)可以把模型的更新限制在一個(gè)常數(shù)以內(nèi)。
          ?
          這種辦法看似簡單,實(shí)則有效,只需要改變幾行代碼而已。
          ?
          有了新函數(shù),Transformers的穩(wěn)定性就得到了大幅提升。研究人員也可以把模型的深度擴(kuò)大到1000層。
          ?
          此外,DEEPNORM還成功將Post-LN和Pre-LN的優(yōu)良性能進(jìn)行結(jié)合。新方法是Transformers的上位替代,對(duì)于深度的模型和大規(guī)模的模型都是如此。
          ?
          值得一提的是,和目前最先進(jìn)的有12B參數(shù)的48層模型相比,3.2B參數(shù)的200層模型實(shí)現(xiàn)了5 BLEU的提升。這部分提升主要體現(xiàn)在大規(guī)模多語言機(jī)器翻譯基準(zhǔn)上。
          ?
          在基于Transformer的PostLN上使用新發(fā)現(xiàn)的辦法不是件難事。和Post-LN相比,DEEPNORM進(jìn)行層級(jí)規(guī)范化之前,升級(jí)了殘差連接。
          ?
          另外,研究人員在初始化的過程中把參數(shù)降級(jí)了。特別要指出,他們把前饋網(wǎng)絡(luò)的占比提高了,一同被提高的還有注意力層的價(jià)值投影和輸出投影。
          ?
          且殘差連接和初始化的規(guī)模和整體結(jié)構(gòu)是相關(guān)的。
          ?
          ?

          超深的Transformer:DEEPNET


          研究人員引入了超深Transformer——DEEPNET. 通過緩解極大增長的模型在升級(jí)中遇到的問題,DEEPNET可以是優(yōu)化的過程更加穩(wěn)定。
          ?
          首先,研究人員給出了DEEPNET模型升級(jí)的預(yù)測量級(jí)。之后又給出了理論分析,發(fā)現(xiàn)只要使用DEEPNORM,DEEPNET升級(jí)的過程就可以被限制在一個(gè)常數(shù)。
          ?
          DEEPNET基于Transformer架構(gòu)。和之前的vanilla Transformer相比,在每個(gè)子層上,都使用了研究人員最新研究的DEEPNORM,而不是Post-LN。
          ?
          DEEONORM的表達(dá)式可以寫成:
          ?
          ?
          其中,α是常數(shù),Gl(xl , θl)是第I層Transformer的子層的方程,同時(shí)θl是系數(shù)。DEEPNET還能殘差內(nèi)部的權(quán)重放大了β。
          ?
          α和β都是常數(shù),且只和結(jié)構(gòu)有關(guān)。
          ?
          此外,注意力是Transformer一個(gè)很重要的部分。
          ?
          在不失一般性的情況下,研究人員研究了1-head的情況。其中Q、K、V分別指query、key和value。而WQ、WK、WV都是輸入的映射矩陣。WO則是輸出的映射矩陣。因此,注意力方程式可以寫作:
          ?
          ?
          下圖展示了在早期的訓(xùn)練階段,vanilla Post-LN和DEEPNET模型升級(jí)時(shí)的情況。研究人員將64-128-2微小Transformer進(jìn)行了可視化,它們的深度從6L6L到100L100L不等。
          ?
          從該圖中我們可以看出,DEEPNET比Post-LN有更穩(wěn)定的更新。

          往期精彩:

          《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》隨書PPT示例

          ?時(shí)隔一年!深度學(xué)習(xí)語義分割理論與代碼實(shí)踐指南.pdf第二版來了!

          ?新書首發(fā) | 《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》正式出版!

          《機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)》將會(huì)配套PPT和視頻講解!

          瀏覽 40
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄色一级免费片 | 日韩黄色电影网站 | wwwav 国产小骚逼 | 高潮视频网站在线 | 欧美精品三级在线 |