老板:來(lái)人啊,給我整一個(gè)20萬(wàn)億參數(shù)Transformer的GPT-4?!
內(nèi)存
基礎(chǔ)數(shù)據(jù)并行(DP)并不能減少每張GPU卡上占的內(nèi)存,而現(xiàn)有32GB內(nèi)存GPU上,基本參數(shù)超過(guò)14億就放不下了。
ZeRO-100B可以不用模型并行,就在128個(gè)GPU上訓(xùn)練高達(dá)130億參數(shù)的模型,平均每個(gè)GPU的吞吐量超過(guò)40TFlops。而相比之下,不用ZeRO,僅用基礎(chǔ)數(shù)據(jù)并行的話,可訓(xùn)練模型單個(gè)最大可含只有14億參數(shù),而每個(gè)GPU的吞吐量不到20 TFlops。
算力
按以petaFLOP/s-day的算力(C)計(jì)算就是:
L = (C/2.3*10^8)^-0.05 ? L = 2.62 * C^-0.05
?
而 GPT-3能用2.57 * C^-0.048來(lái)擬合這個(gè)公式 ,之后反過(guò)來(lái)解出 C 的話,會(huì)得到:
C = 2.89407×10^-14 N^(19/12)
接下來(lái)如果你按GPT-2到GPT-3的參數(shù)增幅來(lái)計(jì)算GPT-4的話,那么你就能得到:
C≈3.43×10^7對(duì)20萬(wàn)億參數(shù)(GPT-4)
以及18300對(duì)1750億參數(shù)(GPT-3)
而GPT-3好像用的10^4.25 PetaFLOP/s-days,當(dāng)然論文里說(shuō)的是幾千,而不是兩萬(wàn),稍微偏離了論文里圖的趨勢(shì)線,所以如果在更大算力上訓(xùn)練可能還有提升。
?
除了算力,數(shù)據(jù)方面還要有16萬(wàn)億左右的token,GPT-3在大約3000億token上進(jìn)行的訓(xùn)練(雖然根據(jù)函數(shù)最好是3700億)。英文維基百科只有30億,570GB的webcrawl數(shù)據(jù)有4000億個(gè)tokens,其實(shí)數(shù)據(jù)方面23TB的tokens相比起算力來(lái)說(shuō)更好提供。
?
于是乎,如果GPT-3的算力成本約為460萬(wàn)美元,那么訓(xùn)練 "GPT-4 "的算力成本就應(yīng)該為86億美元了。老板說(shuō)過(guò)資源管夠的,嗯,就是這樣,阿倫又想。
?
當(dāng)然86億美元還是有點(diǎn)貴了,一個(gè)優(yōu)秀的工程師是會(huì)優(yōu)化降低成本的。根據(jù)之前黃教主的發(fā)布會(huì),如果你有(ke)幸(jin)通過(guò)用A100卡替代V100卡的話,就能獲得3-6倍的算力增幅,但即使這樣,還是會(huì)產(chǎn)生高達(dá)14億美元的算力費(fèi)用。
?
一下就給老板省了72億美金,省到就是賺到,一下賺個(gè)72億美金王健林也沒我這么厲害,我真是老板的貼心員工。
?
拿著這份資源估算表,于是阿倫去找了老板。
?
第二天,阿倫收到了一張船票。
?
一張通往非洲的船票。
?
友情對(duì)比提示:
?
根據(jù)Nvidia在2020年第一季度公布了來(lái)自 "數(shù)據(jù)中心"的營(yíng)收是11.5億美元,所以按照上面的計(jì)算,訓(xùn)練一個(gè)"GPT-4",就幾乎需要全世界將近1季度(3個(gè)月)的顯卡供應(yīng),可能不準(zhǔn)確但至少是這個(gè)數(shù)量級(jí)。
?
美國(guó)能源部正在向AMD支付6億美元,用于建造兩臺(tái)Exaflop El Capitan超級(jí)計(jì)算機(jī)。這臺(tái)超級(jí)計(jì)算器要完成GPT-4計(jì)算需要47年。
?
評(píng)論:
?
原作者點(diǎn)評(píng):不過(guò),為了極大地改善谷歌搜索,或其他一些能用到的應(yīng)用,在未來(lái)1-3年里花14億美元甚至100億美元可能也并不是真的很糟。
?
好事者點(diǎn)評(píng):
?
好事者一號(hào) Tornado28:如果有86億美元訓(xùn)練這玩意兒,還不如花50億美元當(dāng)科研經(jīng)費(fèi)。可能你就能獲得三萬(wàn)多篇關(guān)于語(yǔ)言模型的新研究論文,之后再用剩下36億訓(xùn)練一個(gè)非常好的模型就行。
?
好事者二號(hào) bohreffect:首先先不說(shuō)內(nèi)存需求吧,這里有沒有16萬(wàn)億個(gè)token(詞)都是個(gè)問(wèn)題,更不用說(shuō)5千億有用的token. 某種意義上這個(gè)假設(shè)的 GPT-4的VC維已經(jīng)超過(guò)了英語(yǔ)本身的復(fù)雜性,很有可能直接過(guò)擬合了。
?
好事者三號(hào) Iwakan:在這數(shù)十億美金的計(jì)算成本里面,現(xiàn)有的GPU是不是最佳選擇呢?我感覺有這樣的預(yù)算,早都能夠用更快的速度和效率生產(chǎn)出定制的ASIC芯片了,這個(gè)芯片只用于該模型的運(yùn)算。可以用比特幣專用礦機(jī)作為參考,它比普通的GPU在挖礦任務(wù)上高效一萬(wàn)倍以上。
相關(guān)報(bào)道:
實(shí)習(xí)/全職編輯記者招聘ing
加入我們,親身體驗(yàn)一家專業(yè)科技媒體采寫的每個(gè)細(xì)節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長(zhǎng)。坐標(biāo)北京·清華東門,在大數(shù)據(jù)文摘主頁(yè)對(duì)話頁(yè)回復(fù)“招聘”了解詳情。簡(jiǎn)歷請(qǐng)直接發(fā)送至[email protected]



