看完沐神的裝機(jī)清單,我酸了..
上一篇:3個月找不到工作,我找了個“替身”面試成功拿到Offer,順利入職了,結(jié)果翻車......
提到李沐老師,大家應(yīng)該挺熟悉的了,亞馬遜資深首席科學(xué)家,AI領(lǐng)域的大牛。
這不前段時間,李沐老師的頻道里更新了一期裝機(jī)的視頻(BV1NB4y1L7R8),實(shí)不相瞞,看完實(shí)在是慕了。
在還沒出裝機(jī)視頻前,李沐老師曾發(fā)起了一個小小的問卷調(diào)查,看下童鞋們對裝機(jī)跑Transformer有多大興趣。
當(dāng)時參與的小伙伴很多,足見大家還是很期待的。

這不,沐神帶著他的裝機(jī)視頻來了。
在這個項(xiàng)目的開始,先裝了2臺原型機(jī),每臺機(jī)器都是雙卡RTX 3090TI,采用了水冷散熱系統(tǒng),減少了噪音。
這一臺機(jī)器裝下來,造價可不低。
話不多說,來看看沐神是如何裝機(jī)的吧~

裝機(jī)清單
裝機(jī)的需求,首先就要是足夠安靜,不然太吵的話沒法工作。
第二個需求就是散熱要好。不然溫度過高的話會導(dǎo)致GPU降頻。
第三個,重點(diǎn)來了,因?yàn)樾枰鼙容^大的Transformer模型,所以GPU的帶寬必須足夠好。
如果之前裝過GPU服務(wù)器用來跑CNN的話,跟跑Transformer模型的需求會不太一樣。因?yàn)門ransformer模型比CNN模型要更大,對內(nèi)存的占有率會更高。所以GPU的內(nèi)存大小非常重要。

之前李沐老師也講過,要把這樣大的Transformer模型放到多個GPU上訓(xùn)練,來自谷歌、微軟等的工程師都是使用類似DGA X100這樣的機(jī)器來跑的。即使在這樣的機(jī)器上,GPU的帶寬仍然是一個瓶頸。
購買這種服務(wù)器GPU和游戲GPU的區(qū)別就在于,前者不在于單卡能跑多快,而是卡與卡之間能夠多快地連接出來。
因此裝機(jī)理念的重點(diǎn)就是:盡量增大GPU內(nèi)存,以及GPU之間互聯(lián)的一個帶寬,
如果一臺機(jī)器想放很多卡的話,就要買渦輪的散熱。
如果想要安靜的話,就買水冷的散熱,沐神買的是4塊3090 TI。用水冷的好處是比較安靜,壞處就是特別占地方。
所以,如果要在機(jī)箱放四塊卡的話,就不要買水冷的版本,而是要買只有一個渦輪風(fēng)扇的版本。
而且機(jī)箱里風(fēng)的流向是一個特別重要的問題。如果買帶3個風(fēng)扇的卡,風(fēng)是從正面進(jìn)入機(jī)箱,然后從四面八方散熱,卡挨得緊的話,機(jī)箱里的溫度就會非常高。
作者也說,自己在多年前,買了四塊2個大風(fēng)扇的卡放在一起,結(jié)果就導(dǎo)致一塊卡溫度過高燒掉了。
GPU選好以后(華碩的ROG), 剩下的配置就比較簡單。CPU用的是AMD的12核CPU,主板是號稱PCIE 4.0 16的某牌子,硬盤是2TB的M.2硬盤,風(fēng)扇是120毫米水冷風(fēng)扇,加一個全尺寸機(jī)箱。

壓力測試
在裝機(jī)完成后,下一步的任務(wù)就是繼續(xù)裝上操作系統(tǒng)。
這里沐神裝的是ubuntu22,裝上之后就靠遠(yuǎn)程連上去了。
當(dāng)然了,作者也是把各種情況說的比較詳細(xì),除了ubuntu22以外,windows和linux在不同的需求下也是可以的。
這里沐神用的SSH進(jìn)行的遠(yuǎn)程連接。

沐神的系統(tǒng)已經(jīng)裝上了驅(qū)動,同時,他也指出如果還沒有驅(qū)動的話,也可以用apt-get裝上nvidia-driver-515。

裝好之后,就可以運(yùn)行nvidia-smi,看到系統(tǒng)了。

從中可以看到各項(xiàng)信息。比如GPU的數(shù)量、溫度、瓦數(shù)、內(nèi)存使用等等。
接下來還可以通過nvidia-smi的topo-m矩陣看到nv-link是否正常。

可以看到兩個GPU由NV4連接。4表示4個通道,這就代表連接是正常的。
下一題,就是測試系統(tǒng)在滿負(fù)荷的情況下的溫度。
沐神表示,測試GPU的是一個叫g(shù)pu-burn的小程序,github上可以下載。
視頻中模擬跑了十分鐘,也是看到了兩個GPU的溫度。作者還打趣說,都能感覺到GPU在呼呼吹熱風(fēng)。
同理,CPU也可以用這種辦法測試溫度,用的是cpu-burn。
最終兩個GPU的溫度停留在58度和55度,功耗拉到了440多瓦(滿功耗480瓦),還挺好的。
最后的一項(xiàng)參數(shù)是機(jī)器的耗電情況。作者的測試大概用了1240瓦,意味著每小時用電1.2度。

從目前的數(shù)據(jù)來看,穩(wěn)定性還ok。
至于用這臺機(jī)器跑Transformer性能怎么樣,這就得等以后的視頻了。
網(wǎng)友熱評
視頻發(fā)出后,b站的網(wǎng)友也表示出了極大的興趣。
有滿分課代表同學(xué)出沒,列出了視頻中提到的完整配置清單
。

當(dāng)然了,這種硬核裝機(jī)視頻下的評論肯定少不了幽默因素。

只能說,太真實(shí)了
。
不說了,努力搬磚去了,爭取早日也能攢一臺這樣的臺式機(jī)~
全文完,感謝你的耐心閱讀。如果你還想看到我的文章,請一定給本文 “在看”、“點(diǎn)贊” ,新文章推送才會第一時間出現(xiàn)在你的微信里。
-?END -?
熱門推薦:
PS:
如果覺得我的分享不錯,歡迎大家隨手點(diǎn)贊、轉(zhuǎn)發(fā)、在看
