<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          因買(mǎi)不到 RTX 3090,他花 19 萬(wàn)搭了一個(gè)專(zhuān)業(yè)級(jí)機(jī)器學(xué)習(xí)工作站

          共 8872字,需瀏覽 18分鐘

           ·

          2021-04-13 13:35

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          作者 | Emil Wallner
          編譯 | 青暮、陳大鑫
          轉(zhuǎn)自 | AI科技評(píng)論

          Emil Wallner是一名自學(xué)成才的獨(dú)立機(jī)器學(xué)習(xí)研究員。在這篇文章中,他將向我們展示,自己是如何圍繞專(zhuān)業(yè)級(jí)顯卡NVIDIA RTX A6000,一步一步搭建起一個(gè)僅需價(jià)值19萬(wàn)人民幣的機(jī)器學(xué)習(xí)工作站。
          RTX A6000具備了RTX消費(fèi)級(jí)顯卡上同樣的光線追蹤特性,并與數(shù)據(jù)中心使用的A40進(jìn)行了區(qū)分。RTXA6000采用了完整的GA102芯片,這意味著它擁有10752個(gè)CUDA核心,可提供高達(dá)38.7 TFLOPs的單精度計(jì)算性能(比消費(fèi)級(jí)顯卡 top-1 GeForce RTX 3090高出3.1 TLFOPs)。
          圖注:RTX A6000和RTX 3090的性能對(duì)比(來(lái)源:expreview)
          這是我建立的第一個(gè)工作站。(見(jiàn)頭圖)
          它擁有4個(gè)NVIDIA RTX A6000和一個(gè)32核的AMD EPYC 2、192 GB的GPU顯存和256GB的RAM。我花費(fèi)了2.5萬(wàn)歐元(約19萬(wàn)人民幣)來(lái)搭建它,其中關(guān)鍵部件大概2萬(wàn)歐元。
          圖注:所有主要部件的價(jià)格列表
           
          1

          GPU

          在AMD的GPU機(jī)器庫(kù)變得更加穩(wěn)定之前,NVIDIA是唯一的選擇。由于NVIDIA最新的Ampere微架構(gòu)明顯優(yōu)于上一代產(chǎn)品,因此我僅采用了Ampere GPU。
          NVIDIA具有三種主要的GPU類(lèi)型:
          • 消費(fèi)級(jí):RTX 3080 / RTX 3090
          • 專(zhuān)業(yè)級(jí)(prosumer,或稱(chēng)生產(chǎn)性消費(fèi)級(jí)):A6000
          • 企業(yè)級(jí):A100
          每一類(lèi)顯卡都有對(duì)應(yīng)的容易配置的GPU數(shù)量:
          • 消費(fèi)級(jí):兩個(gè)RTX 3080s / RTX 3090s
          • 專(zhuān)業(yè)級(jí):四個(gè)A6000
          • 企業(yè)級(jí):8個(gè)A100或A6000(PCIe),或16個(gè)A100(SXM4),或20個(gè)A100(基于PCIe的模塊化刀片節(jié)點(diǎn))
          當(dāng)然,你也可以嘗試突破這些限制,但會(huì)增加風(fēng)險(xiǎn),并犧牲可靠性和便利性。

          非企業(yè)級(jí)GPU的限制

          我們概述一下消費(fèi)級(jí)顯卡和專(zhuān)業(yè)級(jí)顯卡的一些限制。
          主要限制:
          • PCIe轉(zhuǎn)接卡的主板限制:14個(gè)GPU(每個(gè)GPU x8 Gen 4.0)
          • 每個(gè)插槽的用電量限制:8個(gè)GPU(美國(guó)為4個(gè))
          • 消費(fèi)級(jí)電源限制:5個(gè)GPU(2000W)
          • 標(biāo)準(zhǔn)PC機(jī)箱尺寸:4個(gè)雙插槽GPU
          空間和環(huán)境限制:
          • 堆疊的顯卡彼此相鄰:4個(gè)A6000 / 3070或2個(gè)3080/3090
          • 熱量限制:2個(gè)GPU(最好是水冷式)
          • 消費(fèi)者供應(yīng)量:1個(gè)GPU(大多數(shù)商店只允許購(gòu)買(mǎi)一個(gè)消費(fèi)級(jí)GPU,并且通常僅在發(fā)布后3到12個(gè)月內(nèi)可購(gòu)買(mǎi))
          我嘗試過(guò)購(gòu)買(mǎi)5臺(tái)RTX 3090,由于供應(yīng)問(wèn)題等待了四個(gè)月之后,我選擇了采用四臺(tái)RTX A6000。
          根據(jù)Lamda Labs和Puget Systems的說(shuō)法,雙槽式鼓風(fēng)機(jī)3080和3090太熱,無(wú)法在標(biāo)準(zhǔn)尺寸的主板上可靠地將四個(gè)相鄰的鼓風(fēng)機(jī)安裝在一起。因此,你需要采用PCIe轉(zhuǎn)接卡、水冷設(shè)備或限制電源使用。
          在露天設(shè)備中使用PCIe轉(zhuǎn)接卡會(huì)使硬件暴露在灰塵下。水冷式則需要維護(hù),并且在運(yùn)輸過(guò)程中有泄漏的危險(xiǎn)。限制功率是非標(biāo)準(zhǔn)的做法,可能會(huì)導(dǎo)致可靠性下降和性能損失。
          對(duì)于3臺(tái)以上的GPU工作站,很多人選擇300W或更低功率的顯卡,即RTX 3070及以下,或A6000及以上。
          由于大多數(shù)主流的云GPU都是16 GB的GPU內(nèi)存,因此當(dāng)今的大多數(shù)模型都是為16 GB的顯卡設(shè)計(jì)的,并且我們正朝著40 GB的方向發(fā)展。因此,具有最低內(nèi)存的卡在重寫(xiě)軟件中會(huì)有增加的開(kāi)銷(xiāo),以適應(yīng)較低的內(nèi)存限制。

          為什么存在8-GPU消費(fèi)級(jí)工作站?

          人們?cè)诰W(wǎng)上看到的超過(guò)5個(gè)GPU消費(fèi)級(jí)設(shè)備,通常是具有多種電源的加密設(shè)備。
          由于加密裝置不需要高帶寬,因此它們使用特定的USB適配器來(lái)連接GPU。這是一個(gè)無(wú)需電力即可傳輸數(shù)據(jù)的適配器。因此,GPU和主板的電源是分開(kāi)的,從而減少了混合電路的問(wèn)題。
          但是,適配器的質(zhì)量通常很差,小的焊接錯(cuò)誤可能會(huì)損壞硬件并著火。而且,特別不建議將它們用于需要PCIe轉(zhuǎn)接卡以實(shí)現(xiàn)75W功率的機(jī)器學(xué)習(xí)工作站。
          加密工作站還使用了一些標(biāo)準(zhǔn)質(zhì)量較差的采礦電源或翻新企業(yè)電源。由于人們傾向于將它們放置在車(chē)庫(kù)或集裝箱中,因此他們會(huì)承受額外的安全風(fēng)險(xiǎn)。


          2

          專(zhuān)業(yè)級(jí)顯卡和企業(yè)級(jí)顯卡的功能 

          對(duì)于Ampere系列,NVIDIA很難將高端消費(fèi)卡用于具有2個(gè)以上GPU的工作站。很多跡象都表明了這一點(diǎn),比如:3槽寬度、高功率,并且有多家制造商中斷了3090的2寬度鼓風(fēng)機(jī)版本。
          因此,專(zhuān)業(yè)級(jí)和企業(yè)級(jí)Ampere卡的主要賣(mài)點(diǎn)是支持3個(gè)以上GPU工作站,進(jìn)行24/7/365的工作負(fù)載。
          專(zhuān)業(yè)級(jí)和企業(yè)級(jí)顯卡還具有一些附加功能。
          主要功能(與RTX 3090相比):
          • 快1.1-2倍(取決于GPU、二進(jìn)制浮點(diǎn)格式和模型)
          • 1.7-3.3倍的內(nèi)存
          • 能耗更低(更適合堆疊卡)
          • 數(shù)據(jù)中心部署(非營(yíng)利組織可以獲取消費(fèi)卡許可)
          其他不錯(cuò)的功能:
          • ECC內(nèi)存(防錯(cuò)內(nèi)存)
          • 每個(gè)GPU和MIG(僅限企業(yè)級(jí))可有多個(gè)用戶
          • NVSwitch(A100 SXM4),更快的GPU到GPU的通信
          80GB GPU可以提供針對(duì)特定型號(hào)的優(yōu)勢(shì),但是很難說(shuō)它們是否具有足夠的計(jì)算能力來(lái)從大型模型中有效受益。最安全的選項(xiàng)是40GB版本。
          通常,我不會(huì)針對(duì)NLP、CV或RL設(shè)置特定的工作負(fù)載。它們的性能會(huì)有所不同,但是由于機(jī)器學(xué)習(xí)的格局變化如此之快,因此不值得針對(duì)特定的工作負(fù)載進(jìn)行過(guò)度優(yōu)化。
          有關(guān)更深入的比較,請(qǐng)閱讀Tim Dettmers的GPU指南。請(qǐng)?zhí)貏e注意Tensor Core、稀疏訓(xùn)練、限制GPU功率和低精度計(jì)算等部分的內(nèi)容。
          Tim Dettmers的GPU指南:https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/

           
          3

          服務(wù)器限制

          消費(fèi)級(jí)設(shè)備主要受電源限制,而服務(wù)器設(shè)備主要受重量、機(jī)殼大小和網(wǎng)絡(luò)開(kāi)銷(xiāo)的限制。
          主要限制:
          • 帶有消費(fèi)級(jí)部件的服務(wù)器:4個(gè)PCIe GPU
          • PCIe服務(wù)器的限制:10個(gè)雙插槽GPU(標(biāo)準(zhǔn)服務(wù)器的寬度)
          • 重量:10個(gè)PCIe GPU或4個(gè)SMX4 GPU(30千克)
          附加限制:
          • PCIe服務(wù)器機(jī)箱的聯(lián)網(wǎng)限制:8個(gè)雙插槽GPU(2個(gè)雙插槽用于聯(lián)網(wǎng))
          • SXM4服務(wù)器的機(jī)箱數(shù)量限制:16個(gè)GPU(168千克)
          • PCIe刀片服務(wù)器限制:20個(gè)雙插槽GPU
          這里的關(guān)鍵限制是網(wǎng)絡(luò)開(kāi)銷(xiāo)。一旦連接一臺(tái)或多臺(tái)服務(wù)器,就需要軟件和硬件來(lái)管理系統(tǒng)。我強(qiáng)烈推薦觀看Stephen Balaban關(guān)于構(gòu)建用于機(jī)器學(xué)習(xí)的GPU集群的概述視頻。
          Building a GPU cluster for AI:https://www.youtube.com/watch?v=rfu5FwncZ6s
          第二個(gè)關(guān)鍵問(wèn)題是重量和維修。
          帶有8臺(tái)SXM4的服務(wù)器重約75kg。因此,理想情況下你得擁有一臺(tái)服務(wù)器升降機(jī)。與PCIe服務(wù)器隨附的更多標(biāo)準(zhǔn)零件相比,SXM4更難以維修。
          A100和A6000也有不帶內(nèi)置風(fēng)扇的版本。這些需要帶有十幾個(gè)10K + RPM風(fēng)扇的服務(wù)器機(jī)箱。由于可以熱插拔風(fēng)扇,因此它們將具有更多的容錯(cuò)能力。


          4

          速度基準(zhǔn)

          Lambda Labs擁有最佳的GPU基準(zhǔn)測(cè)試和整體基準(zhǔn)測(cè)試。
          基準(zhǔn)采用了PyTorch的幾個(gè)模型的半精度平均值。
          Lambda Labs:
          • https://lambdalabs.com/blog/tag/benchmarks/
          • https://lambdalabs.com/gpu-benchmarks

          FP16 PyTorch Lambda實(shí)驗(yàn)室基準(zhǔn)
          在速度方面,A100是A6000的1.4倍。但是A6000的速度是3090的1.2倍,是3080的兩倍。
          另一個(gè)值得注意的基準(zhǔn)是PCIe和SXM4之間的比較。NVIDIA的A100 PCIe只能連接到另一個(gè)GPU,而NVIDIA的A100 SXM4可以同時(shí)連接到8至16個(gè)GPU。

          F16 PyTorch Lambda Labs 基準(zhǔn)
          從理論上說(shuō),NVIDIA的NVswitch和SXM4的帶寬提高了10倍,但是在8-GPU設(shè)置下,與PCIe解決方案相比,它僅快了10%。由于每個(gè)GPU上SXM4的速度提高了8%,因此NVswitch的影響很小。
          對(duì)于8-GPU系統(tǒng),這應(yīng)該是很小的差異。Lamda Labs的首席執(zhí)行官表示,對(duì)于大型集群中的某些用例,他們可以實(shí)現(xiàn)2倍的改進(jìn)。因此,它主要針對(duì)多個(gè)8-GPU系統(tǒng)。具有數(shù)百個(gè)GPU規(guī)模的DGX A100 SuperPOD系統(tǒng)也值得研究。
          另外,在網(wǎng)絡(luò)基準(zhǔn)測(cè)試中,請(qǐng)注意GB / s和Gb / s的區(qū)別。GB / s比Gb / s快八倍。

          第一次測(cè)試我的機(jī)器學(xué)習(xí)工作站
           
          5

          GPU定價(jià)

          定價(jià)近似于實(shí)際零售價(jià),為簡(jiǎn)化起見(jiàn)四舍五入,沒(méi)有增值稅和折扣。
          企業(yè)級(jí)(歐元):
          • A100 SMX4(80 GB):€18k
          • A100 SMX4(40 GB):€13k
          • A100 PCIe(40 GB):€9k
          專(zhuān)業(yè)級(jí)和消費(fèi)級(jí)(歐元):
          • RTX A6000 / A40(48GB):€4500
          • RTX 3090(24 GB):€1500-2000
          • RTX 3080(10 GB):€800-1300
          • RTX 3070(12 GB):€700-1000
          NVIDIA還提供了創(chuàng)業(yè)和教育折扣,因此每個(gè)GPU可以節(jié)省15-30%。
          我在4 x RTX A6000上節(jié)省了約4000歐元。
          SMX4卡作為8 GPU服務(wù)器的一部分出售,由于定制的GPU到GPU的通信使其價(jià)格更高,因此上述每個(gè)GPU的價(jià)格是近似的。

          機(jī)器學(xué)習(xí)工作站預(yù)算

          這些是估計(jì)的預(yù)建價(jià)格,不含折扣和增值稅。
          高成長(zhǎng)的初創(chuàng)公司,大型研究實(shí)驗(yàn)室和企業(yè):
          • €240-340k:8 x A100 SXM4(80 GB)
          • €120-170k:8 x A100 SXM4(40 GB)
          初創(chuàng)企業(yè),研究實(shí)驗(yàn)室和中小型企業(yè):
          • €90k:8 x A100 PCIe(40 GB)
          • €50k:4 x A100 PCIe或8 x RTX A40(無(wú)風(fēng)扇RTX A6000)
          • €25k:4 x RTX A6000(我的裝備)
          • €25k:4 x RTX 3090(液冷)
          • €15k:4 x RTX 3090(加密風(fēng)格或上限性能)
          學(xué)生,業(yè)余愛(ài)好者:
          • €10k:4 x RTX 3070
          • €7k:2 x RTX 3090
          • €5k:1 x RTX 3090或2 x RTX 3080
          • €4k:1 x RTX 3080
          • €3k:1 x RTX 3070
          預(yù)算是一方面,但主要的關(guān)注點(diǎn)是放置位置。
          開(kāi)始時(shí),我們通常將機(jī)器放在同一個(gè)房間里,以應(yīng)對(duì)不便之處。
          隨著機(jī)器擴(kuò)展,我們將需要更多基礎(chǔ)架構(gòu)。我們可以將其移動(dòng)到單獨(dú)的辦公室中,然后將其放置在數(shù)據(jù)中心中,從并置開(kāi)始,然后從1個(gè)數(shù)據(jù)中心攀升至4個(gè)數(shù)據(jù)中心,以提高容錯(cuò)能力。
          我發(fā)現(xiàn)4個(gè)GPU的聲音太大,無(wú)法在辦公室或家里散熱而產(chǎn)生過(guò)多的熱量。想想看,一臺(tái)帶有熱風(fēng)的小型吹葉機(jī),相當(dāng)于一個(gè)1600W的散熱器。
          數(shù)據(jù)中心配置的起始價(jià)格為每個(gè)GPU每月80-250歐元左右,其中包括每個(gè)GPU 25歐元的電費(fèi)。你可以在此處查詢所有本地?cái)?shù)據(jù)中心配置的報(bào)價(jià)(https://www.datacentermap.com/quote.html)。如果你計(jì)劃在4個(gè)以上的GPU上運(yùn)行24/7/365的工作負(fù)載,我強(qiáng)烈建議你這樣做。
          你可以像購(gòu)買(mǎi)PC一樣輕松地為4 GPU服務(wù)器購(gòu)買(mǎi)零件。準(zhǔn)系統(tǒng)5+ GPU ML服務(wù)器的價(jià)格約為7,000歐元。

          6

          CPU

          選擇AMD。
          AMD的內(nèi)部帶寬是Intel的5倍。而且既便宜又更好。大多數(shù)Ampere 機(jī)器學(xué)習(xí)服務(wù)器都使用AMD。
          AMD具有三種主要的CPU類(lèi)型:
          • 消費(fèi)級(jí):帶有AM4插槽的Ryzen 5000
          • 專(zhuān)業(yè)級(jí):Ryzen Threadripper第三代,帶有sTRX4,以及用于第一代Pro版本的sWRX8插槽
          • 企業(yè)級(jí):帶有SP3插槽的EPYC 2
          對(duì)于1-GPU系統(tǒng),Ryzen非常出色;對(duì)于2-4 GPU PC的系統(tǒng),請(qǐng)搭配Threadripper。對(duì)于5個(gè)以上的GPU系統(tǒng)和服務(wù)器版本,請(qǐng)使用EPYC。
          Threadripper的速度比EPYC快,但EPYC的存儲(chǔ)通道是RDIMM的兩倍,并且能耗更低。如果你打算將計(jì)算機(jī)用作服務(wù)器,那么我建議選擇EPYC。
          我最終買(mǎi)到了32核的AMD EPYC 2 Rome 7502P。對(duì)于處理器,我將每個(gè)GPU對(duì)應(yīng)八個(gè)內(nèi)核作為一個(gè)粗略的指導(dǎo)。另外,請(qǐng)注意它們是否支持單處理器、雙處理器或兩種處理器設(shè)置都支持。

          CPU散熱

          對(duì)于散熱,Noctua風(fēng)扇是最安靜、性能最高且最可靠的風(fēng)扇。它們也很大,因此請(qǐng)確保它們適合你的RAM和機(jī)箱。
          對(duì)于RGB風(fēng)扇,我喜歡Corsair的多合一(AIO)液體CPU散熱器。它的顏色是可編程的,并且系統(tǒng)釋放了CPU周?chē)目臻g。它使用了防凍液,泄漏風(fēng)險(xiǎn)很小。
          所有Threadripper和EPYC CPU具有相同的尺寸,從而使散熱器兼容,但是你可能需要安裝支架。另外,請(qǐng)檢查散熱器是否支持你選擇的CPU的功率。
          這是我設(shè)想的頂級(jí)配置:
          • 銳龍5000:Noctua NH-D15或Corsair H100i RGB PLATINUM
          • Threadripper:Noctua NH-U14S TR4-SP3或Corsair Hydro系列H100x
          • EPYC:Dynatron A26 2U(用于服務(wù)器)
          由于成本、維護(hù)、凍結(jié)風(fēng)險(xiǎn)、運(yùn)輸風(fēng)險(xiǎn)和缺乏靈活性,我避免采用定制的液冷。
           
          7

          主板

          以下是一些值得考慮的AMD主板:
          • 銳龍5000:MSI PRO B550-A PRO AM4(ATX)
          • Threadripper 3rd Gen:華擎TRX40 CREATOR(ATX)
          • Threadripper Pro:ASUS Pro WS WRX80E-SAGE SE(ETAX)
          • EPYC 2:AsRock ROMED8-2T(ATX)(我的主板)
          我考慮的主要決定因素是PCIe插槽和IPMI。
          如果你打算將機(jī)器學(xué)習(xí)工作站用作普通PC,并希望內(nèi)置支持WIFI、耳機(jī)插孔、麥克風(fēng)插孔和睡眠功能,那么最好使用消費(fèi)級(jí)或?qū)I(yè)級(jí)主板。
          就我而言,我使用了雙重用途的專(zhuān)業(yè)級(jí)/服務(wù)器主板,該主板支持遠(yuǎn)程處理或智能平臺(tái)管理接口(IPMI)。通過(guò)以太網(wǎng)連接和Web GUI,我可以安裝操作系統(tǒng),打開(kāi)/關(guān)閉操作系統(tǒng)并連接到虛擬監(jiān)視器。如果計(jì)劃進(jìn)行24/7/365工作負(fù)載,則IPMI是理想的選擇。
          CPU插槽具有內(nèi)置芯片組,專(zhuān)業(yè)級(jí)和消費(fèi)級(jí)具有附加的芯片組以啟用特定的CPU或功能,例如,Ryzen的B550和Threadripper的TRX40。
          對(duì)于Ryzen 5000版本,理想的是具有BIOS刷新按鈕。否則,你需要更早的Gen Ryzen CPU來(lái)更新BIOS以與Ryzen 5000兼容。
          5+ GPU的server-only主板很難單獨(dú)購(gòu)買(mǎi)。消費(fèi)級(jí)設(shè)置是模塊化的,而較大的服務(wù)器則是集成的。

          主板尺寸

          主板的標(biāo)準(zhǔn)尺寸為ATX,尺寸為305×244毫米,非常適合服務(wù)器機(jī)箱和PC。我主要關(guān)注標(biāo)準(zhǔn)尺寸的ATX板,以避免出現(xiàn)任何機(jī)架間距問(wèn)題。
          其他的外形尺寸因制造商而異,因此你在機(jī)箱方面會(huì)受到更大的限制。對(duì)于消費(fèi)級(jí)機(jī)箱而言,這并不是什么大問(wèn)題,但是對(duì)于服務(wù)器機(jī)箱而言,其高度不會(huì)超過(guò)ATX的305毫米。
           
          8

          PCI Express(PCIe)

          下面是我用的主板:AsRock ROMED8-2T(ATX)
          需要著重注意的是要插入GPU的PCIe插槽,也就是上面的垂直灰色插槽。
          連接處位于GPU的最右側(cè)。你能看到,RAM插槽和第一個(gè)GPU之間的間隙很緊。
          當(dāng)你在7插槽板上有四個(gè)雙寬度的GPU時(shí),第4個(gè)GPU將超過(guò)板的底部。因此,您需要一個(gè)支持8個(gè)PCIe擴(kuò)展插槽的PC或服務(wù)器機(jī)箱。
          對(duì)于兩個(gè)RTX 3090三插槽卡,你的第一個(gè)GPU會(huì)覆蓋前三個(gè)PCIe插槽和空插槽,而第二個(gè)GPU將覆蓋最后三個(gè)插槽。
          如果你打算買(mǎi)一個(gè)NVlink來(lái)連接兩個(gè)GPU,它們通常會(huì)有2插槽、3插槽和4插槽幾個(gè)版本。在上圖中,你需要兩個(gè) 2-槽橋。而對(duì)于中間有間隙的三槽卡,你需要一個(gè)4-槽橋來(lái)滿足卡的寬度、3插槽以及1插槽間隙。
          關(guān)于PCIe插槽,有幾點(diǎn)值得了解:
          • PCIe物理長(zhǎng)度:圖中每個(gè)插槽的長(zhǎng)度為x16,GPU的標(biāo)準(zhǔn)長(zhǎng)度為89mm。
          • PCIe帶寬:有時(shí),你有一個(gè)16插槽的長(zhǎng)度,但只有一半的插槽有連接到主板的管腳,使其成為x8帶寬的x16插槽。作為參考,加密鉆機(jī)將使用x16適配器,但x1帶寬。
          • 生成速度:上面的板是4.0代。每一代的速度往往是上一代的兩倍。NVIDIA的最新gpu是gen4.0,但在實(shí)際應(yīng)用中在gen3.0板上的性能相當(dāng)。
          • 多GPU要求:對(duì)于4-10 GPU系統(tǒng),通常建議每個(gè)GPU至少x8 Gen 3.0。

          PCIe通道

          大多數(shù)人需要的另一個(gè)東西是PCIe通道的總量,即總的內(nèi)部帶寬。這里給一個(gè)網(wǎng)絡(luò)、存儲(chǔ)和多GPU容量的粗略指示。
          主板制造商會(huì)使用PCIe通道來(lái)優(yōu)先考慮某些功能,例如存儲(chǔ)、PCIe插槽、CPU—CPU直接的通信等。
          作為參考,一個(gè)GPU將使用16通道,一個(gè)10 GB/s以太網(wǎng)端口使用8通道,一個(gè)NVMe SSD將使用4通道。
           
          9

          機(jī)箱

          最常用的機(jī)器學(xué)習(xí)工作站機(jī)箱是Corsair Carbide Air 540,而對(duì)于消費(fèi)級(jí)服務(wù)器,則是Chenbro Micom RM41300-FS81。從聲音、灰塵和運(yùn)輸?shù)慕嵌葋?lái)看,這兩種情況是理想的。兩者都能容納RTX3090,但你需要為Chenbro配置一個(gè)后端電源連接器。
          我從Thermaltake Core P5鋼化玻璃版開(kāi)始。從苦行僧的角度來(lái)說(shuō),這是最好的。但它相當(dāng)笨重,不能沾染灰塵??紤]到GPU的熱量和噪音,我決定將其轉(zhuǎn)換成帶有Chenbro機(jī)箱的服務(wù)器,并將其放入數(shù)據(jù)中心。
          GPU之間的空間比主機(jī)箱氣流的影響更大。如果你采用了3+3080/3090,你可能需要開(kāi)放的加密工作站設(shè)置。然而,這是非常嘈雜和容易沾染灰塵的。理想情況下,你要把它放在一個(gè)隔音的房間里,安裝冷卻器和灰塵過(guò)濾器。
          Chenbro機(jī)箱蓋上有兩個(gè)120毫米2700轉(zhuǎn)的風(fēng)扇,為GPU創(chuàng)造了極好的氣流。


          10

          PSU、RAM和存儲(chǔ)

          如果你已經(jīng)選好了GPU、CPU、主板和機(jī)箱,其余的組件會(huì)很容易挑選。
          電源:關(guān)于電源,我看了兩個(gè)被認(rèn)為是最好的供應(yīng)商,EVGA和Corsair。我考慮了GPU的總功率,額外的250W,以及保險(xiǎn)邊界。這里有一個(gè)更精確的功率計(jì)算器(https://www.newegg.com/tools/power-supply-calculator/)。我最終得到了EVGA超新星1600W T2。
          RAM:我看了主板供應(yīng)商的推薦,買(mǎi)了一些我可以在網(wǎng)上輕松買(mǎi)到的東西。建議用RAM填充可用的插槽,我希望RAM內(nèi)存能匹配或超過(guò)相對(duì)應(yīng)的GPU內(nèi)存。據(jù)Tim Dettmers說(shuō),內(nèi)存速度對(duì)整體性能影響不大。我用的是8 x Kingston 32GB 3200MHz DDR4 KSM32RD4/32ME,所以總共是256 GB。
          NVMe SSD:我檢查了PCpartpicker和Newegg上評(píng)級(jí)最高的SSD。我的指導(dǎo)原則是在PCIe Gen 4.0的基礎(chǔ)上每GPU配上 0.5 TB。我用了兩個(gè)2 TB三星980 Pro 2到M.2 NVMe。
          硬盤(pán)驅(qū)動(dòng)器:我選擇了和SSD一樣的策略,每個(gè)GPU對(duì)應(yīng)有6TB的存儲(chǔ)空間。最終我采用了2 x 12 TB Seagate IronWolf Pro、3.5英寸、SATA 6Gb/s、7200 RPM、256MB緩存。對(duì)于更嚴(yán)格的基準(zhǔn)測(cè)試,可以研究磁盤(pán)故障率。
          NVlink:這是一個(gè)很好的方法,可以在特定的工作負(fù)載上提高百分之幾的性能。不過(guò),它沒(méi)有結(jié)合兩個(gè)GPU的內(nèi)存,只是一個(gè)營(yíng)銷(xiāo)誤導(dǎo)。
           
          11

          搭建和安裝

          搭建工作站最困難的部分是買(mǎi)到各種零件。(我咋覺(jué)得最困難的是錢(qián)
          把這些部件組裝起來(lái)只需要不到一個(gè)小時(shí),但是為了安全起見(jiàn),你可能需要多花幾個(gè)小時(shí)。
          我用遠(yuǎn)程管理系統(tǒng)安裝了軟件。當(dāng)我把以太網(wǎng)線插入路由器時(shí),它給我的路由器分配了一個(gè)IP地址,然后我把這個(gè)IP地址放進(jìn)瀏覽器,我可以訪問(wèn)一個(gè)web界面來(lái)更新BIOS并安裝了Ubuntu20.04 LTS。
          然后我為所有GPU驅(qū)動(dòng)程序和機(jī)器學(xué)習(xí)庫(kù)等安裝了Lambda堆棧,強(qiáng)烈推薦!
          如果你使用的是IMPI,請(qǐng)?jiān)贐IOS中將VGA輸出更改為internal。否則,如果不刪除GPU,就無(wú)法使用IMPI中的虛擬監(jiān)視器。
           
          12

          結(jié)論

          擁有自己的硬件的主要好處是工作流。
          不要在云計(jì)算上浪費(fèi)時(shí)間,應(yīng)該鼓勵(lì)進(jìn)行魯棒的實(shí)驗(yàn)。
          親自搭建一個(gè)工作站,你會(huì)學(xué)到很多東西,成為一個(gè)受過(guò)更多教育的消費(fèi)者。另外,這是一個(gè)寶貴的技能。
          英偉達(dá)正在努力讓3+GPU工作站能使用上高端消費(fèi)卡。對(duì)于家里有服務(wù)器的專(zhuān)業(yè)級(jí)工作站,我會(huì)選擇4 x 3090的開(kāi)放工作站??臻g更有限的的話,就選擇2 x 3090的工作站。
          如果有了更大的預(yù)算,4 x RTX A6000是一個(gè)不錯(cuò)的選擇,但考慮到噪音和熱量,我會(huì)選擇服務(wù)器解決方案,并將其放置在數(shù)據(jù)中心。
          相比A100,A6000 / A40的性價(jià)比更高。SMX4太笨拙,與PCIe版本相比性能微不足道。
          我希望大家能構(gòu)建包含大型集群的透明基準(zhǔn),以了解實(shí)踐中的好處。
          原文鏈接: 
          https://www.emilwallner.com/p/ml-rig


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 86
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产专区在线播放 | 亚洲Av无码成人专区擼 | 精品国产久久久久 | 欧美成人综合在线观看 | 国产精品三级网站 |