大香蕉精品电影,青青青国产,黄色视频在线观看日本极品尤物,天码人妻一区二区三区在线看,万影网五月天成人网,日韩三级免费观看,大鸡巴操小穴视频,无码国产精品二区一区

點(diǎn)擊上方“視學(xué)算法”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

作者 | Emil Wallner

編譯 | 青暮、陳大鑫

轉(zhuǎn)自 | AI科技評(píng)論

Emil Wallner是一名自學(xué)成才的獨(dú)立機(jī)器學(xué)習(xí)研究員。在這篇文章中，他將向我們展示，自己是如何圍繞專(zhuān)業(yè)級(jí)顯卡NVIDIA RTX A6000，一步一步搭建起一個(gè)僅需價(jià)值19萬(wàn)人民幣的機(jī)器學(xué)習(xí)工作站。

RTX A6000具備了RTX消費(fèi)級(jí)顯卡上同樣的光線追蹤特性，并與數(shù)據(jù)中心使用的A40進(jìn)行了區(qū)分。RTXA6000采用了完整的GA102芯片，這意味著它擁有10752個(gè)CUDA核心，可提供高達(dá)38.7 TFLOPs的單精度計(jì)算性能（比消費(fèi)級(jí)顯卡 top-1 GeForce RTX 3090高出3.1 TLFOPs）。

圖注：RTX A6000和RTX 3090的性能對(duì)比（來(lái)源：expreview）

這是我建立的第一個(gè)工作站。（見(jiàn)頭圖）

它擁有4個(gè)NVIDIA RTX A6000和一個(gè)32核的AMD EPYC 2、192 GB的GPU顯存和256GB的RAM。我花費(fèi)了2.5萬(wàn)歐元（約19萬(wàn)人民幣）來(lái)搭建它，其中關(guān)鍵部件大概2萬(wàn)歐元。

圖注：所有主要部件的價(jià)格列表

GPU

在AMD的GPU機(jī)器庫(kù)變得更加穩(wěn)定之前，NVIDIA是唯一的選擇。由于NVIDIA最新的Ampere微架構(gòu)明顯優(yōu)于上一代產(chǎn)品，因此我僅采用了Ampere GPU。

NVIDIA具有三種主要的GPU類(lèi)型：

消費(fèi)級(jí)：RTX 3080 / RTX 3090
專(zhuān)業(yè)級(jí)（prosumer，或稱(chēng)生產(chǎn)性消費(fèi)級(jí)）：A6000
企業(yè)級(jí)：A100

每一類(lèi)顯卡都有對(duì)應(yīng)的容易配置的GPU數(shù)量：

消費(fèi)級(jí)：兩個(gè)RTX 3080s / RTX 3090s
專(zhuān)業(yè)級(jí)：四個(gè)A6000
企業(yè)級(jí)：8個(gè)A100或A6000（PCIe），或16個(gè)A100（SXM4），或20個(gè)A100（基于PCIe的模塊化刀片節(jié)點(diǎn)）

當(dāng)然，你也可以嘗試突破這些限制，但會(huì)增加風(fēng)險(xiǎn)，并犧牲可靠性和便利性。

非企業(yè)級(jí)GPU的限制

我們概述一下消費(fèi)級(jí)顯卡和專(zhuān)業(yè)級(jí)顯卡的一些限制。

主要限制：

PCIe轉(zhuǎn)接卡的主板限制：14個(gè)GPU（每個(gè)GPU x8 Gen 4.0）
每個(gè)插槽的用電量限制：8個(gè)GPU（美國(guó)為4個(gè)）
消費(fèi)級(jí)電源限制：5個(gè)GPU（2000W）
標(biāo)準(zhǔn)PC機(jī)箱尺寸：4個(gè)雙插槽GPU

空間和環(huán)境限制：

堆疊的顯卡彼此相鄰：4個(gè)A6000 / 3070或2個(gè)3080/3090
熱量限制：2個(gè)GPU（最好是水冷式）
消費(fèi)者供應(yīng)量：1個(gè)GPU（大多數(shù)商店只允許購(gòu)買(mǎi)一個(gè)消費(fèi)級(jí)GPU，并且通常僅在發(fā)布后3到12個(gè)月內(nèi)可購(gòu)買(mǎi)）

我嘗試過(guò)購(gòu)買(mǎi)5臺(tái)RTX 3090，由于供應(yīng)問(wèn)題等待了四個(gè)月之后，我選擇了采用四臺(tái)RTX A6000。

根據(jù)Lamda Labs和Puget Systems的說(shuō)法，雙槽式鼓風(fēng)機(jī)3080和3090太熱，無(wú)法在標(biāo)準(zhǔn)尺寸的主板上可靠地將四個(gè)相鄰的鼓風(fēng)機(jī)安裝在一起。因此，你需要采用PCIe轉(zhuǎn)接卡、水冷設(shè)備或限制電源使用。

在露天設(shè)備中使用PCIe轉(zhuǎn)接卡會(huì)使硬件暴露在灰塵下。水冷式則需要維護(hù)，并且在運(yùn)輸過(guò)程中有泄漏的危險(xiǎn)。限制功率是非標(biāo)準(zhǔn)的做法，可能會(huì)導(dǎo)致可靠性下降和性能損失。

對(duì)于3臺(tái)以上的GPU工作站，很多人選擇300W或更低功率的顯卡，即RTX 3070及以下，或A6000及以上。

由于大多數(shù)主流的云GPU都是16 GB的GPU內(nèi)存，因此當(dāng)今的大多數(shù)模型都是為16 GB的顯卡設(shè)計(jì)的，并且我們正朝著40 GB的方向發(fā)展。因此，具有最低內(nèi)存的卡在重寫(xiě)軟件中會(huì)有增加的開(kāi)銷(xiāo)，以適應(yīng)較低的內(nèi)存限制。

為什么存在8-GPU消費(fèi)級(jí)工作站？

人們?cè)诰W(wǎng)上看到的超過(guò)5個(gè)GPU消費(fèi)級(jí)設(shè)備，通常是具有多種電源的加密設(shè)備。

由于加密裝置不需要高帶寬，因此它們使用特定的USB適配器來(lái)連接GPU。這是一個(gè)無(wú)需電力即可傳輸數(shù)據(jù)的適配器。因此，GPU和主板的電源是分開(kāi)的，從而減少了混合電路的問(wèn)題。

但是，適配器的質(zhì)量通常很差，小的焊接錯(cuò)誤可能會(huì)損壞硬件并著火。而且，特別不建議將它們用于需要PCIe轉(zhuǎn)接卡以實(shí)現(xiàn)75W功率的機(jī)器學(xué)習(xí)工作站。

加密工作站還使用了一些標(biāo)準(zhǔn)質(zhì)量較差的采礦電源或翻新企業(yè)電源。由于人們傾向于將它們放置在車(chē)庫(kù)或集裝箱中，因此他們會(huì)承受額外的安全風(fēng)險(xiǎn)。

2

專(zhuān)業(yè)級(jí)顯卡和企業(yè)級(jí)顯卡的功能

對(duì)于Ampere系列，NVIDIA很難將高端消費(fèi)卡用于具有2個(gè)以上GPU的工作站。很多跡象都表明了這一點(diǎn)，比如：3槽寬度、高功率，并且有多家制造商中斷了3090的2寬度鼓風(fēng)機(jī)版本。

因此，專(zhuān)業(yè)級(jí)和企業(yè)級(jí)Ampere卡的主要賣(mài)點(diǎn)是支持3個(gè)以上GPU工作站，進(jìn)行24/7/365的工作負(fù)載。

專(zhuān)業(yè)級(jí)和企業(yè)級(jí)顯卡還具有一些附加功能。

主要功能（與RTX 3090相比）：

快1.1-2倍（取決于GPU、二進(jìn)制浮點(diǎn)格式和模型）
1.7-3.3倍的內(nèi)存
能耗更低（更適合堆疊卡）
數(shù)據(jù)中心部署（非營(yíng)利組織可以獲取消費(fèi)卡許可）

其他不錯(cuò)的功能：

ECC內(nèi)存（防錯(cuò)內(nèi)存）
每個(gè)GPU和MIG（僅限企業(yè)級(jí)）可有多個(gè)用戶
NVSwitch（A100 SXM4），更快的GPU到GPU的通信

80GB GPU可以提供針對(duì)特定型號(hào)的優(yōu)勢(shì)，但是很難說(shuō)它們是否具有足夠的計(jì)算能力來(lái)從大型模型中有效受益。最安全的選項(xiàng)是40GB版本。

通常，我不會(huì)針對(duì)NLP、CV或RL設(shè)置特定的工作負(fù)載。它們的性能會(huì)有所不同，但是由于機(jī)器學(xué)習(xí)的格局變化如此之快，因此不值得針對(duì)特定的工作負(fù)載進(jìn)行過(guò)度優(yōu)化。

有關(guān)更深入的比較，請(qǐng)閱讀Tim Dettmers的GPU指南。請(qǐng)?zhí)貏e注意Tensor Core、稀疏訓(xùn)練、限制GPU功率和低精度計(jì)算等部分的內(nèi)容。

Tim Dettmers的GPU指南：https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/

3

服務(wù)器限制

消費(fèi)級(jí)設(shè)備主要受電源限制，而服務(wù)器設(shè)備主要受重量、機(jī)殼大小和網(wǎng)絡(luò)開(kāi)銷(xiāo)的限制。

主要限制：

帶有消費(fèi)級(jí)部件的服務(wù)器：4個(gè)PCIe GPU
PCIe服務(wù)器的限制：10個(gè)雙插槽GPU（標(biāo)準(zhǔn)服務(wù)器的寬度）
重量：10個(gè)PCIe GPU或4個(gè)SMX4 GPU（30千克）

附加限制：

PCIe服務(wù)器機(jī)箱的聯(lián)網(wǎng)限制：8個(gè)雙插槽GPU（2個(gè)雙插槽用于聯(lián)網(wǎng)）
SXM4服務(wù)器的機(jī)箱數(shù)量限制：16個(gè)GPU（168千克）
PCIe刀片服務(wù)器限制：20個(gè)雙插槽GPU

這里的關(guān)鍵限制是網(wǎng)絡(luò)開(kāi)銷(xiāo)。一旦連接一臺(tái)或多臺(tái)服務(wù)器，就需要軟件和硬件來(lái)管理系統(tǒng)。我強(qiáng)烈推薦觀看Stephen Balaban關(guān)于構(gòu)建用于機(jī)器學(xué)習(xí)的GPU集群的概述視頻。

Building a GPU cluster for AI：https://www.youtube.com/watch?v=rfu5FwncZ6s

第二個(gè)關(guān)鍵問(wèn)題是重量和維修。

帶有8臺(tái)SXM4的服務(wù)器重約75kg。因此，理想情況下你得擁有一臺(tái)服務(wù)器升降機(jī)。與PCIe服務(wù)器隨附的更多標(biāo)準(zhǔn)零件相比，SXM4更難以維修。

A100和A6000也有不帶內(nèi)置風(fēng)扇的版本。這些需要帶有十幾個(gè)10K + RPM風(fēng)扇的服務(wù)器機(jī)箱。由于可以熱插拔風(fēng)扇，因此它們將具有更多的容錯(cuò)能力。

4

速度基準(zhǔn)

Lambda Labs擁有最佳的GPU基準(zhǔn)測(cè)試和整體基準(zhǔn)測(cè)試。

基準(zhǔn)采用了PyTorch的幾個(gè)模型的半精度平均值。

Lambda Labs：

https://lambdalabs.com/blog/tag/benchmarks/
https://lambdalabs.com/gpu-benchmarks

FP16 PyTorch Lambda實(shí)驗(yàn)室基準(zhǔn)

在速度方面，A100是A6000的1.4倍。但是A6000的速度是3090的1.2倍，是3080的兩倍。

另一個(gè)值得注意的基準(zhǔn)是PCIe和SXM4之間的比較。NVIDIA的A100 PCIe只能連接到另一個(gè)GPU，而NVIDIA的A100 SXM4可以同時(shí)連接到8至16個(gè)GPU。

F16 PyTorch Lambda Labs 基準(zhǔn)

從理論上說(shuō)，NVIDIA的NVswitch和SXM4的帶寬提高了10倍，但是在8-GPU設(shè)置下，與PCIe解決方案相比，它僅快了10％。由于每個(gè)GPU上SXM4的速度提高了8％，因此NVswitch的影響很小。

對(duì)于8-GPU系統(tǒng)，這應(yīng)該是很小的差異。Lamda Labs的首席執(zhí)行官表示，對(duì)于大型集群中的某些用例，他們可以實(shí)現(xiàn)2倍的改進(jìn)。因此，它主要針對(duì)多個(gè)8-GPU系統(tǒng)。具有數(shù)百個(gè)GPU規(guī)模的DGX A100 SuperPOD系統(tǒng)也值得研究。

另外，在網(wǎng)絡(luò)基準(zhǔn)測(cè)試中，請(qǐng)注意GB / s和Gb / s的區(qū)別。GB / s比Gb / s快八倍。

第一次測(cè)試我的機(jī)器學(xué)習(xí)工作站

GPU定價(jià)

定價(jià)近似于實(shí)際零售價(jià)，為簡(jiǎn)化起見(jiàn)四舍五入，沒(méi)有增值稅和折扣。

企業(yè)級(jí)（歐元）：

A100 SMX4（80 GB）：€18k
A100 SMX4（40 GB）：€13k
A100 PCIe（40 GB）：€9k

專(zhuān)業(yè)級(jí)和消費(fèi)級(jí)（歐元）：

RTX A6000 / A40（48GB）：€4500
RTX 3090（24 GB）：€1500-2000
RTX 3080（10 GB）：€800-1300
RTX 3070（12 GB）：€700-1000

NVIDIA還提供了創(chuàng)業(yè)和教育折扣，因此每個(gè)GPU可以節(jié)省15-30％。

我在4 x RTX A6000上節(jié)省了約4000歐元。

SMX4卡作為8 GPU服務(wù)器的一部分出售，由于定制的GPU到GPU的通信使其價(jià)格更高，因此上述每個(gè)GPU的價(jià)格是近似的。

機(jī)器學(xué)習(xí)工作站預(yù)算

這些是估計(jì)的預(yù)建價(jià)格，不含折扣和增值稅。

高成長(zhǎng)的初創(chuàng)公司，大型研究實(shí)驗(yàn)室和企業(yè)：

€240-340k：8 x A100 SXM4（80 GB）
€120-170k：8 x A100 SXM4（40 GB）

初創(chuàng)企業(yè)，研究實(shí)驗(yàn)室和中小型企業(yè)：

€90k：8 x A100 PCIe（40 GB）
€50k：4 x A100 PCIe或8 x RTX A40（無(wú)風(fēng)扇RTX A6000）
€25k：4 x RTX A6000（我的裝備）
€25k：4 x RTX 3090（液冷）
€15k：4 x RTX 3090（加密風(fēng)格或上限性能）

學(xué)生，業(yè)余愛(ài)好者：

€10k：4 x RTX 3070
€7k：2 x RTX 3090
€5k：1 x RTX 3090或2 x RTX 3080
€4k：1 x RTX 3080
€3k：1 x RTX 3070

預(yù)算是一方面，但主要的關(guān)注點(diǎn)是放置位置。

開(kāi)始時(shí)，我們通常將機(jī)器放在同一個(gè)房間里，以應(yīng)對(duì)不便之處。

隨著機(jī)器擴(kuò)展，我們將需要更多基礎(chǔ)架構(gòu)。我們可以將其移動(dòng)到單獨(dú)的辦公室中，然后將其放置在數(shù)據(jù)中心中，從并置開(kāi)始，然后從1個(gè)數(shù)據(jù)中心攀升至4個(gè)數(shù)據(jù)中心，以提高容錯(cuò)能力。

我發(fā)現(xiàn)4個(gè)GPU的聲音太大，無(wú)法在辦公室或家里散熱而產(chǎn)生過(guò)多的熱量。想想看，一臺(tái)帶有熱風(fēng)的小型吹葉機(jī)，相當(dāng)于一個(gè)1600W的散熱器。

數(shù)據(jù)中心配置的起始價(jià)格為每個(gè)GPU每月80-250歐元左右，其中包括每個(gè)GPU 25歐元的電費(fèi)。你可以在此處查詢所有本地?cái)?shù)據(jù)中心配置的報(bào)價(jià)（https://www.datacentermap.com/quote.html）。如果你計(jì)劃在4個(gè)以上的GPU上運(yùn)行24/7/365的工作負(fù)載，我強(qiáng)烈建議你這樣做。

你可以像購(gòu)買(mǎi)PC一樣輕松地為4 GPU服務(wù)器購(gòu)買(mǎi)零件。準(zhǔn)系統(tǒng)5+ GPU ML服務(wù)器的價(jià)格約為7,000歐元。

CPU

選擇AMD。

AMD的內(nèi)部帶寬是Intel的5倍。而且既便宜又更好。大多數(shù)Ampere 機(jī)器學(xué)習(xí)服務(wù)器都使用AMD。

AMD具有三種主要的CPU類(lèi)型：

消費(fèi)級(jí)：帶有AM4插槽的Ryzen 5000
專(zhuān)業(yè)級(jí)：Ryzen Threadripper第三代，帶有sTRX4，以及用于第一代Pro版本的sWRX8插槽
企業(yè)級(jí)：帶有SP3插槽的EPYC 2

對(duì)于1-GPU系統(tǒng)，Ryzen非常出色；對(duì)于2-4 GPU PC的系統(tǒng)，請(qǐng)搭配Threadripper。對(duì)于5個(gè)以上的GPU系統(tǒng)和服務(wù)器版本，請(qǐng)使用EPYC。

Threadripper的速度比EPYC快，但EPYC的存儲(chǔ)通道是RDIMM的兩倍，并且能耗更低。如果你打算將計(jì)算機(jī)用作服務(wù)器，那么我建議選擇EPYC。

我最終買(mǎi)到了32核的AMD EPYC 2 Rome 7502P。對(duì)于處理器，我將每個(gè)GPU對(duì)應(yīng)八個(gè)內(nèi)核作為一個(gè)粗略的指導(dǎo)。另外，請(qǐng)注意它們是否支持單處理器、雙處理器或兩種處理器設(shè)置都支持。

CPU散熱

對(duì)于散熱，Noctua風(fēng)扇是最安靜、性能最高且最可靠的風(fēng)扇。它們也很大，因此請(qǐng)確保它們適合你的RAM和機(jī)箱。

對(duì)于RGB風(fēng)扇，我喜歡Corsair的多合一（AIO）液體CPU散熱器。它的顏色是可編程的，并且系統(tǒng)釋放了CPU周?chē)目臻g。它使用了防凍液，泄漏風(fēng)險(xiǎn)很小。

所有Threadripper和EPYC CPU具有相同的尺寸，從而使散熱器兼容，但是你可能需要安裝支架。另外，請(qǐng)檢查散熱器是否支持你選擇的CPU的功率。

這是我設(shè)想的頂級(jí)配置：

銳龍5000：Noctua NH-D15或Corsair H100i RGB PLATINUM
Threadripper：Noctua NH-U14S TR4-SP3或Corsair Hydro系列H100x
EPYC：Dynatron A26 2U（用于服務(wù)器）

由于成本、維護(hù)、凍結(jié)風(fēng)險(xiǎn)、運(yùn)輸風(fēng)險(xiǎn)和缺乏靈活性，我避免采用定制的液冷。

主板

以下是一些值得考慮的AMD主板：

銳龍5000：MSI PRO B550-A PRO AM4（ATX）
Threadripper 3rd Gen：華擎TRX40 CREATOR（ATX）
Threadripper Pro：ASUS Pro WS WRX80E-SAGE SE（ETAX）
EPYC 2：AsRock ROMED8-2T（ATX）（我的主板）

我考慮的主要決定因素是PCIe插槽和IPMI。

如果你打算將機(jī)器學(xué)習(xí)工作站用作普通PC，并希望內(nèi)置支持WIFI、耳機(jī)插孔、麥克風(fēng)插孔和睡眠功能，那么最好使用消費(fèi)級(jí)或?qū)I(yè)級(jí)主板。

就我而言，我使用了雙重用途的專(zhuān)業(yè)級(jí)/服務(wù)器主板，該主板支持遠(yuǎn)程處理或智能平臺(tái)管理接口（IPMI）。通過(guò)以太網(wǎng)連接和Web GUI，我可以安裝操作系統(tǒng)，打開(kāi)/關(guān)閉操作系統(tǒng)并連接到虛擬監(jiān)視器。如果計(jì)劃進(jìn)行24/7/365工作負(fù)載，則IPMI是理想的選擇。

CPU插槽具有內(nèi)置芯片組，專(zhuān)業(yè)級(jí)和消費(fèi)級(jí)具有附加的芯片組以啟用特定的CPU或功能，例如，Ryzen的B550和Threadripper的TRX40。

對(duì)于Ryzen 5000版本，理想的是具有BIOS刷新按鈕。否則，你需要更早的Gen Ryzen CPU來(lái)更新BIOS以與Ryzen 5000兼容。

5+ GPU的server-only主板很難單獨(dú)購(gòu)買(mǎi)。消費(fèi)級(jí)設(shè)置是模塊化的，而較大的服務(wù)器則是集成的。

主板尺寸

主板的標(biāo)準(zhǔn)尺寸為ATX，尺寸為305×244毫米，非常適合服務(wù)器機(jī)箱和PC。我主要關(guān)注標(biāo)準(zhǔn)尺寸的ATX板，以避免出現(xiàn)任何機(jī)架間距問(wèn)題。

其他的外形尺寸因制造商而異，因此你在機(jī)箱方面會(huì)受到更大的限制。對(duì)于消費(fèi)級(jí)機(jī)箱而言，這并不是什么大問(wèn)題，但是對(duì)于服務(wù)器機(jī)箱而言，其高度不會(huì)超過(guò)ATX的305毫米。

PCI Express（PCIe）

下面是我用的主板：AsRock ROMED8-2T（ATX）

需要著重注意的是要插入GPU的PCIe插槽，也就是上面的垂直灰色插槽。

連接處位于GPU的最右側(cè)。你能看到，RAM插槽和第一個(gè)GPU之間的間隙很緊。

當(dāng)你在7插槽板上有四個(gè)雙寬度的GPU時(shí)，第4個(gè)GPU將超過(guò)板的底部。因此，您需要一個(gè)支持8個(gè)PCIe擴(kuò)展插槽的PC或服務(wù)器機(jī)箱。

對(duì)于兩個(gè)RTX 3090三插槽卡，你的第一個(gè)GPU會(huì)覆蓋前三個(gè)PCIe插槽和空插槽，而第二個(gè)GPU將覆蓋最后三個(gè)插槽。

如果你打算買(mǎi)一個(gè)NVlink來(lái)連接兩個(gè)GPU，它們通常會(huì)有2插槽、3插槽和4插槽幾個(gè)版本。在上圖中，你需要兩個(gè) 2-槽橋。而對(duì)于中間有間隙的三槽卡，你需要一個(gè)4-槽橋來(lái)滿足卡的寬度、3插槽以及1插槽間隙。

關(guān)于PCIe插槽，有幾點(diǎn)值得了解：

PCIe物理長(zhǎng)度：圖中每個(gè)插槽的長(zhǎng)度為x16，GPU的標(biāo)準(zhǔn)長(zhǎng)度為89mm。
PCIe帶寬：有時(shí)，你有一個(gè)16插槽的長(zhǎng)度，但只有一半的插槽有連接到主板的管腳，使其成為x8帶寬的x16插槽。作為參考，加密鉆機(jī)將使用x16適配器，但x1帶寬。
生成速度：上面的板是4.0代。每一代的速度往往是上一代的兩倍。NVIDIA的最新gpu是gen4.0，但在實(shí)際應(yīng)用中在gen3.0板上的性能相當(dāng)。
多GPU要求：對(duì)于4-10 GPU系統(tǒng)，通常建議每個(gè)GPU至少x8 Gen 3.0。

PCIe通道

大多數(shù)人需要的另一個(gè)東西是PCIe通道的總量，即總的內(nèi)部帶寬。這里給一個(gè)網(wǎng)絡(luò)、存儲(chǔ)和多GPU容量的粗略指示。

主板制造商會(huì)使用PCIe通道來(lái)優(yōu)先考慮某些功能，例如存儲(chǔ)、PCIe插槽、CPU—CPU直接的通信等。

作為參考，一個(gè)GPU將使用16通道，一個(gè)10 GB/s以太網(wǎng)端口使用8通道，一個(gè)NVMe SSD將使用4通道。

機(jī)箱

最常用的機(jī)器學(xué)習(xí)工作站機(jī)箱是Corsair Carbide Air 540，而對(duì)于消費(fèi)級(jí)服務(wù)器，則是Chenbro Micom RM41300-FS81。從聲音、灰塵和運(yùn)輸?shù)慕嵌葋?lái)看，這兩種情況是理想的。兩者都能容納RTX3090，但你需要為Chenbro配置一個(gè)后端電源連接器。

我從Thermaltake Core P5鋼化玻璃版開(kāi)始。從苦行僧的角度來(lái)說(shuō)，這是最好的。但它相當(dāng)笨重，不能沾染灰塵?？紤]到GPU的熱量和噪音，我決定將其轉(zhuǎn)換成帶有Chenbro機(jī)箱的服務(wù)器，并將其放入數(shù)據(jù)中心。

GPU之間的空間比主機(jī)箱氣流的影響更大。如果你采用了3+3080/3090，你可能需要開(kāi)放的加密工作站設(shè)置。然而，這是非常嘈雜和容易沾染灰塵的。理想情況下，你要把它放在一個(gè)隔音的房間里，安裝冷卻器和灰塵過(guò)濾器。

Chenbro機(jī)箱蓋上有兩個(gè)120毫米2700轉(zhuǎn)的風(fēng)扇，為GPU創(chuàng)造了極好的氣流。

10

PSU、RAM和存儲(chǔ)

如果你已經(jīng)選好了GPU、CPU、主板和機(jī)箱，其余的組件會(huì)很容易挑選。

電源：關(guān)于電源，我看了兩個(gè)被認(rèn)為是最好的供應(yīng)商，EVGA和Corsair。我考慮了GPU的總功率，額外的250W，以及保險(xiǎn)邊界。這里有一個(gè)更精確的功率計(jì)算器（https://www.newegg.com/tools/power-supply-calculator/）。我最終得到了EVGA超新星1600W T2。

RAM：我看了主板供應(yīng)商的推薦，買(mǎi)了一些我可以在網(wǎng)上輕松買(mǎi)到的東西。建議用RAM填充可用的插槽，我希望RAM內(nèi)存能匹配或超過(guò)相對(duì)應(yīng)的GPU內(nèi)存。據(jù)Tim Dettmers說(shuō)，內(nèi)存速度對(duì)整體性能影響不大。我用的是8 x Kingston 32GB 3200MHz DDR4 KSM32RD4/32ME，所以總共是256 GB。

NVMe SSD：我檢查了PCpartpicker和Newegg上評(píng)級(jí)最高的SSD。我的指導(dǎo)原則是在PCIe Gen 4.0的基礎(chǔ)上每GPU配上 0.5 TB。我用了兩個(gè)2 TB三星980 Pro 2到M.2 NVMe。

硬盤(pán)驅(qū)動(dòng)器：我選擇了和SSD一樣的策略，每個(gè)GPU對(duì)應(yīng)有6TB的存儲(chǔ)空間。最終我采用了2 x 12 TB Seagate IronWolf Pro、3.5英寸、SATA 6Gb/s、7200 RPM、256MB緩存。對(duì)于更嚴(yán)格的基準(zhǔn)測(cè)試，可以研究磁盤(pán)故障率。

NVlink：這是一個(gè)很好的方法，可以在特定的工作負(fù)載上提高百分之幾的性能。不過(guò)，它沒(méi)有結(jié)合兩個(gè)GPU的內(nèi)存，只是一個(gè)營(yíng)銷(xiāo)誤導(dǎo)。

搭建和安裝

搭建工作站最困難的部分是買(mǎi)到各種零件。（我咋覺(jué)得最困難的是錢(qián)

）

把這些部件組裝起來(lái)只需要不到一個(gè)小時(shí)，但是為了安全起見(jiàn)，你可能需要多花幾個(gè)小時(shí)。

我用遠(yuǎn)程管理系統(tǒng)安裝了軟件。當(dāng)我把以太網(wǎng)線插入路由器時(shí)，它給我的路由器分配了一個(gè)IP地址，然后我把這個(gè)IP地址放進(jìn)瀏覽器，我可以訪問(wèn)一個(gè)web界面來(lái)更新BIOS并安裝了Ubuntu20.04 LTS。

然后我為所有GPU驅(qū)動(dòng)程序和機(jī)器學(xué)習(xí)庫(kù)等安裝了Lambda堆棧，強(qiáng)烈推薦！

如果你使用的是IMPI，請(qǐng)?jiān)贐IOS中將VGA輸出更改為internal。否則，如果不刪除GPU，就無(wú)法使用IMPI中的虛擬監(jiān)視器。

結(jié)論

擁有自己的硬件的主要好處是工作流。

不要在云計(jì)算上浪費(fèi)時(shí)間，應(yīng)該鼓勵(lì)進(jìn)行魯棒的實(shí)驗(yàn)。

親自搭建一個(gè)工作站，你會(huì)學(xué)到很多東西，成為一個(gè)受過(guò)更多教育的消費(fèi)者。另外，這是一個(gè)寶貴的技能。

英偉達(dá)正在努力讓3+GPU工作站能使用上高端消費(fèi)卡。對(duì)于家里有服務(wù)器的專(zhuān)業(yè)級(jí)工作站，我會(huì)選擇4 x 3090的開(kāi)放工作站?？臻g更有限的的話，就選擇2 x 3090的工作站。

如果有了更大的預(yù)算，4 x RTX A6000是一個(gè)不錯(cuò)的選擇，但考慮到噪音和熱量，我會(huì)選擇服務(wù)器解決方案，并將其放置在數(shù)據(jù)中心。

相比A100，A6000 / A40的性價(jià)比更高。SMX4太笨拙，與PCIe版本相比性能微不足道。

我希望大家能構(gòu)建包含大型集群的透明基準(zhǔn)，以了解實(shí)踐中的好處。

原文鏈接：

https://www.emilwallner.com/p/ml-rig

點(diǎn)個(gè)在看 paper不斷！

因買(mǎi)不到 RTX 3090，他花 19 萬(wàn)搭了一個(gè)專(zhuān)業(yè)級(jí)機(jī)器學(xué)習(xí)工作站

非企業(yè)級(jí)GPU的限制

為什么存在8-GPU消費(fèi)級(jí)工作站？

2專(zhuān)業(yè)級(jí)顯卡和企業(yè)級(jí)顯卡的功能

3服務(wù)器限制

4速度基準(zhǔn)