一级片黄色视频,中国婬乱a1级毛片多女,黄色网在线视频,亚洲熟妇AV乱码在线观看,理论片人人操人人摸,99在线观看免费视频,这里只有免费精品6,五月天激情丁香

大數(shù)據(jù)文摘出品

來(lái)源：Reddit

編譯：趙吉克、Andy

最近老板看阿倫工作不飽和，天天摸魚，就走過(guò)來(lái)悄咪咪地說(shuō)：“阿倫啊，聽說(shuō)最近GPT-3不錯(cuò)，你也給咱們也整一個(gè)出來(lái)吧。”

阿倫號(hào)稱有求必應(yīng)：“好，老板我先試試。這玩意兒和GPT-2就沒啥區(qū)別，模型大了些，數(shù)據(jù)多了些而已。”

老板一聽開心得合不攏腿，一拍手：“就這玩意兒？那干脆咱們直接整個(gè)GPT-4吧，資源管夠。做得好，還給你發(fā)論文。”

接著拍拍阿倫的后背，說(shuō)：“小伙砸，好好干！”哼著小曲邁著輕快地步伐離開，心中想著又解決了一個(gè)工作不飽和問(wèn)題。

于是老實(shí)的阿倫，就這樣開始了GPT-4訓(xùn)練之路。

作為一個(gè)優(yōu)秀的算法工程師，他需要先計(jì)算一下需要的資源。

阿倫首先找來(lái)了這篇論文ZeRO: Memory Optimizations Toward Training Trillion Parameter Models，大致能描述GPT-3怎么從GPT-2來(lái)，也就是如何從150億級(jí)增加到了1750億級(jí)參數(shù)，訓(xùn)練方面相關(guān)。

論文鏈接：

https://arxiv.org/abs/1910.02054

阿倫想，只要知道了GPT-2到GPT-3，那么照葫蘆畫瓢，就可以從GPT-3到GPT-4了，我簡(jiǎn)直就是天才。一個(gè)優(yōu)秀的工程師就是這么擅長(zhǎng)用類比原則，春天種下一顆種子秋天收獲一百顆種子，春天種下一個(gè)女朋友秋天樹上就能長(zhǎng)出一百個(gè)女朋友。

內(nèi)存

先來(lái)看看內(nèi)存方面吧。

基礎(chǔ)數(shù)據(jù)并行(DP)并不能減少每張GPU卡上占的內(nèi)存，而現(xiàn)有32GB內(nèi)存GPU上，基本參數(shù)超過(guò)14億就放不下了。

論文中提到一個(gè)關(guān)鍵詞，內(nèi)存優(yōu)化（memory optimizations），只要通過(guò)對(duì)優(yōu)化器狀態(tài)、梯度進(jìn)行巧妙分割，就能減少節(jié)點(diǎn)間的通信需求。這樣即使不用模型并行（MP）也能在單個(gè)GPU上跑1個(gè)模型的副本。

ZeRO-100B可以不用模型并行，就在128個(gè)GPU上訓(xùn)練高達(dá)130億參數(shù)的模型，平均每個(gè)GPU的吞吐量超過(guò)40TFlops。而相比之下，不用ZeRO，僅用基礎(chǔ)數(shù)據(jù)并行的話，可訓(xùn)練模型單個(gè)最大可含只有14億參數(shù)，而每個(gè)GPU的吞吐量不到20 TFlops。

在由V100 組成的DGX-2集群中加入16路模型并行，之后128個(gè)節(jié)點(diǎn)，這樣就能容納約2000億個(gè)參數(shù)。當(dāng)運(yùn)行16路模型并行時(shí)可以運(yùn)行一個(gè)15.4倍大的模型，而不會(huì)有實(shí)際的性能損失，只比16路模型并行加64路數(shù)據(jù)并行（1024個(gè)GPU）的峰值性能低30％。

上面這些都是基于梯度和優(yōu)化器狀態(tài)分割討論的，之后論文開始談到參數(shù)分割，并提到這可以隨著所用GPU數(shù)量增加而產(chǎn)生線性的內(nèi)存使用減少，所以64個(gè)GPU可以運(yùn)行64倍大的模型，只用增加50%的通信帶寬。但是，雖然是這么說(shuō)，其實(shí)論文里面也沒有對(duì)此進(jìn)行任何實(shí)現(xiàn)或測(cè)試。

算力

非但實(shí)驗(yàn)沒做，這群家伙卻開始抱怨算力不足，而他們對(duì)算力的估算其實(shí)非常粗糙。真不靠譜，這群人，阿倫想。于是阿倫找到了另一篇論文Scaling Laws for Neural Language Models，也是GPT-3引用到的論文，來(lái)對(duì)算力進(jìn)行經(jīng)驗(yàn)估算。

論文鏈接：

https://arxiv.org/abs/2001.08361

損失(L)作為參數(shù)(N)的函數(shù)應(yīng)按照如下公式擴(kuò)大：

L = (N/8.8 * 10^13)^-0.076

按以petaFLOP/s-day的算力(C)計(jì)算就是：

L = (C/2.3*10^8)^-0.05 ? L = 2.62 * C^-0.05

而 GPT-3能用2.57 * C^-0.048來(lái)擬合這個(gè)公式，之后反過(guò)來(lái)解出 C 的話，會(huì)得到：

C = 2.89407×10^-14 N^(19/12)

接下來(lái)如果你按GPT-2到GPT-3的參數(shù)增幅來(lái)計(jì)算GPT-4的話，那么你就能得到：

C≈3.43×10^7對(duì)20萬(wàn)億參數(shù)（GPT-4）

以及18300對(duì)1750億參數(shù)（GPT-3）

而GPT-3好像用的10^4.25 PetaFLOP/s-days，當(dāng)然論文里說(shuō)的是幾千，而不是兩萬(wàn)，稍微偏離了論文里圖的趨勢(shì)線，所以如果在更大算力上訓(xùn)練可能還有提升。

除了算力，數(shù)據(jù)方面還要有16萬(wàn)億左右的token，GPT-3在大約3000億token上進(jìn)行的訓(xùn)練（雖然根據(jù)函數(shù)最好是3700億）。英文維基百科只有30億，570GB的webcrawl數(shù)據(jù)有4000億個(gè)tokens，其實(shí)數(shù)據(jù)方面23TB的tokens相比起算力來(lái)說(shuō)更好提供。

于是乎，如果GPT-3的算力成本約為460萬(wàn)美元，那么訓(xùn)練 "GPT-4 "的算力成本就應(yīng)該為86億美元了。老板說(shuō)過(guò)資源管夠的，嗯，就是這樣，阿倫又想。

當(dāng)然86億美元還是有點(diǎn)貴了，一個(gè)優(yōu)秀的工程師是會(huì)優(yōu)化降低成本的。根據(jù)之前黃教主的發(fā)布會(huì)，如果你有（ke）幸（jin）通過(guò)用A100卡替代V100卡的話，就能獲得3-6倍的算力增幅，但即使這樣，還是會(huì)產(chǎn)生高達(dá)14億美元的算力費(fèi)用。

一下就給老板省了72億美金，省到就是賺到，一下賺個(gè)72億美金王健林也沒我這么厲害，我真是老板的貼心員工。

拿著這份資源估算表，于是阿倫去找了老板。

第二天，阿倫收到了一張船票。

一張通往非洲的船票。

友情對(duì)比提示：

根據(jù)Nvidia在2020年第一季度公布了來(lái)自 "數(shù)據(jù)中心"的營(yíng)收是11.5億美元，所以按照上面的計(jì)算，訓(xùn)練一個(gè)"GPT-4"，就幾乎需要全世界將近1季度（3個(gè)月）的顯卡供應(yīng)，可能不準(zhǔn)確但至少是這個(gè)數(shù)量級(jí)。

美國(guó)能源部正在向AMD支付6億美元，用于建造兩臺(tái)Exaflop El Capitan超級(jí)計(jì)算機(jī)。這臺(tái)超級(jí)計(jì)算器要完成GPT-4計(jì)算需要47年。

評(píng)論：

原作者點(diǎn)評(píng)：不過(guò)，為了極大地改善谷歌搜索，或其他一些能用到的應(yīng)用，在未來(lái)1-3年里花14億美元甚至100億美元可能也并不是真的很糟。

好事者點(diǎn)評(píng)：

好事者一號(hào) Tornado28：如果有86億美元訓(xùn)練這玩意兒，還不如花50億美元當(dāng)科研經(jīng)費(fèi)。可能你就能獲得三萬(wàn)多篇關(guān)于語(yǔ)言模型的新研究論文，之后再用剩下36億訓(xùn)練一個(gè)非常好的模型就行。

好事者二號(hào) bohreffect：首先先不說(shuō)內(nèi)存需求吧，這里有沒有16萬(wàn)億個(gè)token（詞）都是個(gè)問(wèn)題，更不用說(shuō)5千億有用的token. 某種意義上這個(gè)假設(shè)的 GPT-4的VC維已經(jīng)超過(guò)了英語(yǔ)本身的復(fù)雜性，很有可能直接過(guò)擬合了。

好事者三號(hào) Iwakan：在這數(shù)十億美金的計(jì)算成本里面，現(xiàn)有的GPU是不是最佳選擇呢？我感覺有這樣的預(yù)算，早都能夠用更快的速度和效率生產(chǎn)出定制的ASIC芯片了，這個(gè)芯片只用于該模型的運(yùn)算。可以用比特幣專用礦機(jī)作為參考，它比普通的GPU在挖礦任務(wù)上高效一萬(wàn)倍以上。

相關(guān)報(bào)道：

https://www.reddit.com/r/MachineLearning/comments/i49jf8/d_biggest_roadblock_in_making_gpt4_a_20_trillion/

實(shí)習(xí)/全職編輯記者招聘ing

加入我們，親身體驗(yàn)一家專業(yè)科技媒體采寫的每個(gè)細(xì)節(jié)，在最有前景的行業(yè)，和一群遍布全球最優(yōu)秀的人一起成長(zhǎng)。坐標(biāo)北京·清華東門，在大數(shù)據(jù)文摘主頁(yè)對(duì)話頁(yè)回復(fù)“招聘”了解詳情。簡(jiǎn)歷請(qǐng)直接發(fā)送至[email protected]

志愿者介紹

后臺(tái)回復(fù)“志愿者”加入我們

點(diǎn)「在看」的人都變好看了哦！

老板：來(lái)人啊，給我整一個(gè)20萬(wàn)億參數(shù)Transformer的GPT-4？！

內(nèi)存

算力