<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          1.6萬億參數(shù),等于9個(gè)GPT-3 谷歌開源巨無霸語言模型Switch Transformer

          共 1747字,需瀏覽 4分鐘

           ·

          2021-02-17 13:34



          ??新智元報(bào)道??

          來源:外媒

          編輯:yaxin

          【新智元導(dǎo)讀】「上個(gè)月,谷歌重磅推出的語言模型Switch Transformer代碼已經(jīng)開源,該模型可謂迄今最大語言模型,有1.6萬億參數(shù),秒殺GPT-3!


          萬億級參數(shù)模型Switch Transformer開源了!

          ?

          距GPT-3問世不到一年的時(shí)間,谷歌大腦團(tuán)隊(duì)就重磅推出了超級語言模型Switch Transformer,有1.6萬億個(gè)參數(shù)。

          ?

          比之前由谷歌開發(fā)最大的語言模型T5-XXL足足快了4倍,比基本的T5模型快了7倍,簡直秒殺GPT-3!
          ?
          GPT-3使用了驚人的1750億參數(shù),堪稱史上最大AI模型。


          Switch Transformer:迄今最大語言模型


          Transformer架構(gòu)已成為NLP研究的主要深度學(xué)習(xí)模型。

          ?

          最近的研究工作主要集中于增加這些模型的大?。ㄒ詤?shù)數(shù)量衡量),其結(jié)果可能超過人類的表現(xiàn)。

          ?

          來自O(shè)penAI的團(tuán)隊(duì)發(fā)現(xiàn),GPT-3模型的性能確實(shí)遵循冪律關(guān)系隨參數(shù)數(shù)量擴(kuò)展。

          ?


          在開發(fā)Switch Transformer時(shí),谷歌研究人員力求最大程度地增加參數(shù)數(shù)量,同時(shí)保持每個(gè)訓(xùn)練示例和相對少量的數(shù)據(jù)訓(xùn)練的FLOPS數(shù)量不變。

          ?

          正如研究人員在一篇詳細(xì)介紹他們研究成果的論文中所指出的,大規(guī)模訓(xùn)練是獲得強(qiáng)大模型的有效途徑。

          ?

          盡管在大數(shù)據(jù)集和參數(shù)支撐下的簡單的架構(gòu)可以超越一些復(fù)雜的算法,然而,高效的大規(guī)模訓(xùn)練和密集的計(jì)算是關(guān)鍵。

          ?

          為此,Switch Transformer使用了Mixture of Experts (MoE,混合專家)模型。

          ?

          不同專家容量因子的路由示例圖

          ?

          MoE由一支研究團(tuán)隊(duì)于1991年開發(fā),該團(tuán)隊(duì)的成員包括深度學(xué)習(xí)先驅(qū)和Switch Transformer的共同提出者Geoff Hinton,是90年代初首次提出的人工智能模型范式。

          ?

          MoE會(huì)為每個(gè)輸入的例子選擇不同的參數(shù)。

          ?

          多個(gè)專家被保留在一個(gè)更大的模型中,或者說是專門處理不同任務(wù)的模型,針對任何給定的數(shù)據(jù),由一個(gè)「門控網(wǎng)絡(luò)」來選擇咨詢哪些專家。

          ?

          結(jié)果得到一個(gè)稀疏激活(sparsely activated)模型——僅使用模型的權(quán)值子集,或僅轉(zhuǎn)換模型中輸入數(shù)據(jù)的參數(shù)。該參數(shù)數(shù)量驚人,但計(jì)算成本恒定。

          ?

          Switch Transformer的編碼器塊圖示

          ?

          研究者利用Mesh-TensorFlow(MTF)庫來訓(xùn)練模型,從而利用高效分布式數(shù)據(jù)和模型并行性。

          ?

          Switch Transformer的創(chuàng)新之處在于它有效地利用了為密集矩陣乘法設(shè)計(jì)的硬件,如GPU和谷歌的張量處理單元TPU。

          ?

          在分布式訓(xùn)練設(shè)置中,他們的模型將不同的權(quán)重分配到不同的設(shè)備上,這樣權(quán)重就會(huì)隨著設(shè)備數(shù)量的增加而增加,但是每個(gè)設(shè)備卻可以管理設(shè)備的內(nèi)存和計(jì)算足跡。


          數(shù)據(jù)和權(quán)重劃分策略圖示

          ?

          此前,谷歌當(dāng)時(shí)的T5組合模型曾在SuperGLUE霸榜。

          ?

          這一模型在語言模型基準(zhǔn)測試榜SuperGLUE上得分超過T5的基礎(chǔ)水平,也算是正常發(fā)揮。

          ?

          ?

          谷歌研究人員聲稱,他們的 1.6 萬億參數(shù)模型(Switch-C),擁有 2048 名專家,顯示出「完全沒有訓(xùn)練不穩(wěn)定性」,其速度相比于T5-XXL模型提升了4倍,比基本的 T5 模型快了7倍。

          ?


          總的來說,Switch Transformers是一個(gè)可擴(kuò)展的,高效的自然語言學(xué)習(xí)模型。

          ?

          通過簡化MoE,得到了一個(gè)易于理解、易于訓(xùn)練的體系結(jié)構(gòu),該結(jié)構(gòu)還比同等大小的密集模型具有更大的采樣效率。

          ?

          這些模型在一系列不同的自然語言任務(wù)和不同的訓(xùn)練機(jī)制中,包括預(yù)訓(xùn)練、微調(diào)和多任務(wù)訓(xùn)練,都表現(xiàn)出色。

          ?

          這些進(jìn)步使得使用數(shù)千億到萬億參數(shù)訓(xùn)練模型成為可能,相對于密集的T5基準(zhǔn),這些模型可以實(shí)現(xiàn)顯著的加速。

          ?

          參考鏈接:
          https://arxiv.org/pdf/2101.03961.pdf
          https://www.infoq.com/news/2021/02/google-trillion-parameter-ai/




          瀏覽 51
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲精品一区二区三区2023年最新 | 亚洲ⅴ国产v天堂a无码二区 | 精品久久久久久久久久久久久久 | 色图综合网 | 日日撸天天撸夜夜撸 |