<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          老板:來(lái)人啊,給我整一個(gè)20萬(wàn)億參數(shù)Transformer的GPT-4?!

          共 3121字,需瀏覽 7分鐘

           ·

          2020-08-17 20:52

          ?

          大數(shù)據(jù)文摘出品
          來(lái)源:Reddit
          編譯:趙吉克、Andy

          最近老板看阿倫工作不飽和,天天摸魚,就走過(guò)來(lái)悄咪咪地說(shuō):“阿倫啊,聽說(shuō)最近GPT-3不錯(cuò),你也給咱們也整一個(gè)出來(lái)吧。”
          ?
          阿倫號(hào)稱有求必應(yīng):“好,老板我先試試。這玩意兒和GPT-2就沒啥區(qū)別,模型大了些,數(shù)據(jù)多了些而已。”
          ?
          老板一聽開心得合不攏腿,一拍手:“就這玩意兒?那干脆咱們直接整個(gè)GPT-4吧,資源管夠。做得好,還給你發(fā)論文。”
          ?
          接著拍拍阿倫的后背,說(shuō):“小伙砸,好好干!”哼著小曲邁著輕快地步伐離開,心中想著又解決了一個(gè)工作不飽和問(wèn)題。
          ?
          于是老實(shí)的阿倫,就這樣開始了GPT-4訓(xùn)練之路。

          作為一個(gè)優(yōu)秀的算法工程師,他需要先計(jì)算一下需要的資源。
          ?
          阿倫首先找來(lái)了這篇論文ZeRO: Memory Optimizations Toward Training Trillion Parameter Models,大致能描述GPT-3怎么從GPT-2來(lái),也就是如何從150億級(jí)增加到了1750億級(jí)參數(shù),訓(xùn)練方面相關(guān)。
          論文鏈接:
          https://arxiv.org/abs/1910.02054
          ?
          阿倫想,只要知道了GPT-2到GPT-3,那么照葫蘆畫瓢,就可以從GPT-3到GPT-4了,我簡(jiǎn)直就是天才。一個(gè)優(yōu)秀的工程師就是這么擅長(zhǎng)用類比原則,春天種下一顆種子秋天收獲一百顆種子,春天種下一個(gè)女朋友秋天樹上就能長(zhǎng)出一百個(gè)女朋友。
          ?

          內(nèi)存


          先來(lái)看看內(nèi)存方面吧。

          基礎(chǔ)數(shù)據(jù)并行(DP)并不能減少每張GPU卡上占的內(nèi)存,而現(xiàn)有32GB內(nèi)存GPU上,基本參數(shù)超過(guò)14億就放不下了。
          ?
          論文中提到一個(gè)關(guān)鍵詞,內(nèi)存優(yōu)化(memory optimizations),只要通過(guò)對(duì)優(yōu)化器狀態(tài)、梯度進(jìn)行巧妙分割,就能減少節(jié)點(diǎn)間的通信需求。這樣即使不用模型并行(MP)也能在單個(gè)GPU上跑1個(gè)模型的副本。
          ?
          ZeRO-100B可以不用模型并行,就在128個(gè)GPU上訓(xùn)練高達(dá)130億參數(shù)的模型,平均每個(gè)GPU的吞吐量超過(guò)40TFlops。而相比之下,不用ZeRO,僅用基礎(chǔ)數(shù)據(jù)并行的話,可訓(xùn)練模型單個(gè)最大可含只有14億參數(shù),而每個(gè)GPU的吞吐量不到20 TFlops。
          ?
          在由V100 組成的DGX-2集群中加入16路模型并行,之后128個(gè)節(jié)點(diǎn),這樣就能容納約2000億個(gè)參數(shù)。當(dāng)運(yùn)行16路模型并行時(shí)可以運(yùn)行一個(gè)15.4倍大的模型,而不會(huì)有實(shí)際的性能損失, 只比16路模型并行加64路數(shù)據(jù)并行(1024個(gè)GPU)的峰值性能低30%。
          ?
          上面這些都是基于梯度和優(yōu)化器狀態(tài)分割討論的,之后論文開始談到參數(shù)分割,并提到這可以隨著所用GPU數(shù)量增加而產(chǎn)生線性的內(nèi)存使用減少,所以64個(gè)GPU可以運(yùn)行64倍大的模型,只用增加50%的通信帶寬。但是,雖然是這么說(shuō),其實(shí)論文里面也沒有對(duì)此進(jìn)行任何實(shí)現(xiàn)或測(cè)試。

          算力

          ?
          非但實(shí)驗(yàn)沒做,這群家伙卻開始抱怨算力不足,而他們對(duì)算力的估算其實(shí)非常粗糙。真不靠譜,這群人,阿倫想。于是阿倫找到了另一篇論文Scaling Laws for Neural Language Models,也是GPT-3引用到的論文,來(lái)對(duì)算力進(jìn)行經(jīng)驗(yàn)估算。
          論文鏈接:
          https://arxiv.org/abs/2001.08361

          損失(L)作為參數(shù)(N)的函數(shù)應(yīng)按照如下公式擴(kuò)大:
          L = (N/8.8 * 10^13)^-0.076
          ?

          按以petaFLOP/s-day的算力(C)計(jì)算就是:

          L = (C/2.3*10^8)^-0.05 ? L = 2.62 * C^-0.05

          ?

          而 GPT-3能用2.57 * C^-0.048來(lái)擬合這個(gè)公式 ,之后反過(guò)來(lái)解出 C 的話,會(huì)得到:

          C = 2.89407×10^-14 N^(19/12)

          ?

          接下來(lái)如果你按GPT-2到GPT-3的參數(shù)增幅來(lái)計(jì)算GPT-4的話,那么你就能得到:

          C≈3.43×10^7對(duì)20萬(wàn)億參數(shù)(GPT-4)

          以及18300對(duì)1750億參數(shù)(GPT-3)


          而GPT-3好像用的10^4.25 PetaFLOP/s-days,當(dāng)然論文里說(shuō)的是幾千,而不是兩萬(wàn),稍微偏離了論文里圖的趨勢(shì)線,所以如果在更大算力上訓(xùn)練可能還有提升。

          ?

          除了算力,數(shù)據(jù)方面還要有16萬(wàn)億左右的token,GPT-3在大約3000億token上進(jìn)行的訓(xùn)練(雖然根據(jù)函數(shù)最好是3700億)。英文維基百科只有30億,570GB的webcrawl數(shù)據(jù)有4000億個(gè)tokens,其實(shí)數(shù)據(jù)方面23TB的tokens相比起算力來(lái)說(shuō)更好提供。

          ?

          于是乎,如果GPT-3的算力成本約為460萬(wàn)美元,那么訓(xùn)練 "GPT-4 "的算力成本就應(yīng)該為86億美元了。老板說(shuō)過(guò)資源管夠的,嗯,就是這樣,阿倫又想。

          ?

          當(dāng)然86億美元還是有點(diǎn)貴了,一個(gè)優(yōu)秀的工程師是會(huì)優(yōu)化降低成本的。根據(jù)之前黃教主的發(fā)布會(huì),如果你有(ke)幸(jin)通過(guò)用A100卡替代V100卡的話,就能獲得3-6倍的算力增幅,但即使這樣,還是會(huì)產(chǎn)生高達(dá)14億美元的算力費(fèi)用。

          ?

          一下就給老板省了72億美金,省到就是賺到,一下賺個(gè)72億美金王健林也沒我這么厲害,我真是老板的貼心員工。

          ?

          拿著這份資源估算表,于是阿倫去找了老板。

          ?

          第二天,阿倫收到了一張船票。

          ?

          一張通往非洲的船票。

          ?

          友情對(duì)比提示:

          ?

          根據(jù)Nvidia在2020年第一季度公布了來(lái)自 "數(shù)據(jù)中心"的營(yíng)收是11.5億美元,所以按照上面的計(jì)算,訓(xùn)練一個(gè)"GPT-4",就幾乎需要全世界將近1季度(3個(gè)月)的顯卡供應(yīng),可能不準(zhǔn)確但至少是這個(gè)數(shù)量級(jí)。

          ?

          美國(guó)能源部正在向AMD支付6億美元,用于建造兩臺(tái)Exaflop El Capitan超級(jí)計(jì)算機(jī)。這臺(tái)超級(jí)計(jì)算器要完成GPT-4計(jì)算需要47年。

          ?

          評(píng)論:

          ?

          原作者點(diǎn)評(píng):不過(guò),為了極大地改善谷歌搜索,或其他一些能用到的應(yīng)用,在未來(lái)1-3年里花14億美元甚至100億美元可能也并不是真的很糟。

          ?

          好事者點(diǎn)評(píng):

          ?

          好事者一號(hào) Tornado28:如果有86億美元訓(xùn)練這玩意兒,還不如花50億美元當(dāng)科研經(jīng)費(fèi)。可能你就能獲得三萬(wàn)多篇關(guān)于語(yǔ)言模型的新研究論文,之后再用剩下36億訓(xùn)練一個(gè)非常好的模型就行。

          ?

          好事者二號(hào) bohreffect:首先先不說(shuō)內(nèi)存需求吧,這里有沒有16萬(wàn)億個(gè)token(詞)都是個(gè)問(wèn)題,更不用說(shuō)5千億有用的token. 某種意義上這個(gè)假設(shè)的 GPT-4的VC維已經(jīng)超過(guò)了英語(yǔ)本身的復(fù)雜性,很有可能直接過(guò)擬合了。

          ?

          好事者三號(hào) Iwakan:在這數(shù)十億美金的計(jì)算成本里面,現(xiàn)有的GPU是不是最佳選擇呢?我感覺有這樣的預(yù)算,早都能夠用更快的速度和效率生產(chǎn)出定制的ASIC芯片了,這個(gè)芯片只用于該模型的運(yùn)算。可以用比特幣專用礦機(jī)作為參考,它比普通的GPU在挖礦任務(wù)上高效一萬(wàn)倍以上。


          相關(guān)報(bào)道:

          https://www.reddit.com/r/MachineLearning/comments/i49jf8/d_biggest_roadblock_in_making_gpt4_a_20_trillion/




          實(shí)習(xí)/全職編輯記者招聘ing

          加入我們,親身體驗(yàn)一家專業(yè)科技媒體采寫的每個(gè)細(xì)節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長(zhǎng)。坐標(biāo)北京·清華東門,在大數(shù)據(jù)文摘主頁(yè)對(duì)話頁(yè)回復(fù)“招聘”了解詳情。簡(jiǎn)歷請(qǐng)直接發(fā)送至[email protected]



          志愿者介紹
          后臺(tái)回復(fù)志愿者”加入我們


          點(diǎn)「在看」的人都變好看了哦!

          ??

          瀏覽 90
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩中文字幕视频 | 海的味道一区二区三区 | 骚在线视频 | 北条麻妃中文字幕黄色片子 | 啊啊啊啊啊啊啊网站 |