三巨頭激戰(zhàn)GPU數(shù)據(jù)中心市場(chǎng)


現(xiàn)代圖形處理單元 (GPU) 最初是作為Windows 視頻游戲的加速器,但在過(guò)去 20 年中已演變?yōu)橛糜诟咝阅苡?jì)算和人工智能應(yīng)用程序的企業(yè)服務(wù)器處理器。
現(xiàn)在,GPU 在超級(jí)計(jì)算、人工智能訓(xùn)練和推理、藥物研究、金融建模和醫(yī)學(xué)成像中處于性能領(lǐng)先地位。在 CPU 不夠快的情況下,它們也被應(yīng)用于更主流的任務(wù),例如在 GPU 驅(qū)動(dòng)的關(guān)系數(shù)據(jù)庫(kù)中。
隨著對(duì) GPU 需求的增長(zhǎng),為服務(wù)器制造 GPU 的供應(yīng)商之間的競(jìng)爭(zhēng)也越來(lái)越激烈。
GPU在數(shù)據(jù)中心的重要性
這三個(gè)供應(yīng)商認(rèn)識(shí)到數(shù)據(jù)中心對(duì) GPU 的需求是一個(gè)不斷增長(zhǎng)的機(jī)會(huì)。這是因?yàn)?GPU 比 CPU 更適合處理企業(yè)數(shù)據(jù)中心和超大規(guī)模網(wǎng)絡(luò)中人工智能和機(jī)器學(xué)習(xí)所需的許多計(jì)算。CPU可以處理工作,但需要更長(zhǎng)的時(shí)間。
由于 GPU 旨在通過(guò)將復(fù)雜的數(shù)學(xué)問(wèn)題分解為它們同時(shí)處理的單獨(dú)任務(wù)來(lái)并行解決復(fù)雜的數(shù)學(xué)問(wèn)題,因此它們可以更快地解決這些問(wèn)題。為了實(shí)現(xiàn)這一點(diǎn),它們具有多個(gè)內(nèi)核,比通用 CPU 多得多。例如,Intel 的 Xeon 服務(wù)器 CPU 有多達(dá) 28 個(gè)內(nèi)核,而 AMD 的 Epyc 服務(wù)器 CPU 有多達(dá) 64 個(gè)。相比之下,Nvidia 當(dāng)前一代的 GPU Ampere 有 6,912 個(gè)內(nèi)核,所有內(nèi)核并行運(yùn)行以做一件事:數(shù)學(xué)處理,特別是浮點(diǎn)數(shù)學(xué)。
GPU 的性能是通過(guò)它們每秒或 FLOPS 可以執(zhí)行多少次浮點(diǎn)數(shù)學(xué)運(yùn)算來(lái)衡量的。此數(shù)字有時(shí)指定進(jìn)行測(cè)量時(shí)使用的標(biāo)準(zhǔn)化浮點(diǎn)格式,例如 FP64。
那么服務(wù)器 GPU 的這一年會(huì)怎樣呢?事實(shí)證明,相當(dāng)多。英偉達(dá)、AMD 和英特爾已經(jīng)將他們的近期計(jì)劃擺在桌面上,看起來(lái)這將是一場(chǎng)激烈的競(jìng)爭(zhēng)。
英偉達(dá)
英偉達(dá)在 3 月份發(fā)布了其Hopper GPU架構(gòu),并宣布了其今年的 GPU 路線圖。根據(jù)使用情況,它可以提供其先前架構(gòu) Ampere 的三到六倍的性能,速度為 9.7 TFLOPS FP64。Nvidia 表示,Hopper H100 的 FP64 性能將達(dá)到 60TFLOPS。
與以前的 GPU 一樣,Hopper H100 GPU 可以作為獨(dú)立處理器運(yùn)行,在服務(wù)器的附加 PCI Express 板上運(yùn)行。但英偉達(dá)還將把它與定制的 Arm 處理器上的 CPU 配對(duì),該處理器名為 Grace,它開發(fā)并預(yù)計(jì)在 2023 年上市。
對(duì)于 Hopper,Nvidia 所做的不僅僅是增強(qiáng) GPU 處理器。它還修改了通常用于智能手機(jī)的低功耗雙倍數(shù)據(jù)速率 (LPDDR) 5 內(nèi)存,以創(chuàng)建 LPDDR5X。它支持糾錯(cuò)碼 (ECC) 和兩倍于傳統(tǒng) DDR5 內(nèi)存的內(nèi)存帶寬,吞吐量為 1TBps。
與 Hopper 一起,Nvidia 宣布了其最新的 GPU 到 GPU 互連 NVLink 4。NVLink 4C2C 允許 Hopper GPU 直接相互通信,最大總帶寬為 900GB——比通過(guò) PCIe Gen5 總線連接快七倍。
“如果您考慮數(shù)據(jù)中心產(chǎn)品,您將擁有三個(gè)組件,并且它們都必須以相同的速度向前發(fā)展。那就是內(nèi)存、處理器和通信,”Jon Peddie Research 總裁 Jon Peddie 說(shuō)?!岸?Nvidia 已經(jīng)通過(guò) Hopper 做到了這一點(diǎn)。這三種技術(shù)不會(huì)同步發(fā)展,但英偉達(dá)已經(jīng)做到了?!?/span>
Nvidia 計(jì)劃從 2022 年第三季度開始出貨 Hopper GPU。而其OEM 合作伙伴包括 Atos、BOXX Technologies、Cisco、Dell Technologies、Fujitsu、GIGABYTE、H3C、Hewlett Packard Enterprise、Inspur、Lenovo、Nettrix 和 Supermicro。
由于其芯片制造商臺(tái)積電的持續(xù)供應(yīng)壓力,英偉達(dá)打開了可能與英特爾的代工業(yè)務(wù)合作的大門,但警告稱這樣的交易將需要數(shù)年時(shí)間。
AMD
AMD 逆風(fēng)而行。銷售額逐季增長(zhǎng),x86 CPU 市場(chǎng)份額不斷增長(zhǎng),2 月份完成了對(duì) Xilinx 及其現(xiàn)場(chǎng)可編程門陣列 (FPGA)、自適應(yīng)片上系統(tǒng) (SoC)、AI 引擎和軟件專業(yè)知識(shí)的收購(gòu). 預(yù)計(jì) AMD 將在 2022 年底推出其 Zen 4 CPU。
AMD 基于其 RDNA 3 架構(gòu)的新游戲 GPU 也將于今年推出。
AMD 一直對(duì) RDNA 3 規(guī)格守口如瓶,但游戲愛(ài)好者的博主已經(jīng)散布了未經(jīng)證實(shí)的消息,即性能比 RDNA 2 提高了 50% 到 60%。
與此同時(shí),AMD 已經(jīng)開始推出用于企業(yè)計(jì)算的Instinct MI250系列 GPU 加速器,新產(chǎn)品比之前的 MI100 系列快得多,內(nèi)存總線從 4096 位翻倍到 8192 位,內(nèi)存帶寬從 1.23TBps 翻了一倍多到 3.2TBps,性能從 FP64 的 11.5 TFLOPS 翻了兩番多到 47.9TFLOPS。這比 AMD 的 Hopper 60TFLOPS 慢,但它仍然具有競(jìng)爭(zhēng)力。
Futurum Research 首席分析師 Daniel Newman 表示,AMD 搶占市場(chǎng)份額的機(jī)會(huì)將隨著 AI 市場(chǎng)的增長(zhǎng)而到來(lái)。他表示,他相信 AMD 在 CPU 市場(chǎng)上的成功可以幫助其 GPU 銷售。
“AMD 在過(guò)去五七年真正創(chuàng)造的是一種非常強(qiáng)大的忠誠(chéng)度,這種忠誠(chéng)度可能會(huì)延續(xù)下去,”他說(shuō)?!皢?wèn)題是,他們能否顯著增加 AI/HPC 市場(chǎng)份額?”
他說(shuō)答案可能是“是的”,因?yàn)樵摴疽恢狈浅I瞄L(zhǎng)尋找市場(chǎng)機(jī)會(huì)和管理其供應(yīng)鏈以實(shí)現(xiàn)其目標(biāo)。在首席執(zhí)行官 Lisa Su 的掌舵下,“我發(fā)現(xiàn)在他們決定在這一點(diǎn)上競(jìng)爭(zhēng)的任何領(lǐng)域都很難排除 AMD,”他說(shuō)。
Omdia 高級(jí)計(jì)算、人工智能和物聯(lián)網(wǎng)首席分析師 Jonathan Cassell 表示,他認(rèn)為 AMD 在 Epyc 服務(wù)器 CPU 方面的成功將為 Instinct 處理器提供一個(gè)機(jī)會(huì)。
“我認(rèn)為,隨著時(shí)間的推移,我們可以看到 AMD 在數(shù)據(jù)中心微處理器方面利用其成功,并利用這一點(diǎn)讓公司了解 [Instinct]。我認(rèn)為我們將看到 AMD 試圖利用其與客戶的關(guān)系來(lái)擴(kuò)大其在國(guó)外的影響力,”他說(shuō)。
Instinct 自 2022 年第一季度以來(lái)一直在發(fā)貨。到目前為止,其最引人注目的用例是橡樹嶺國(guó)家實(shí)驗(yàn)室的一臺(tái)超級(jí)計(jì)算機(jī),它將大量性能打包到一個(gè)非常小的空間中。但這些實(shí)驗(yàn)室也在建造一臺(tái)名為 Frontier 的全 AMD 百億億級(jí)超級(jí)計(jì)算機(jī),這將于今年晚些時(shí)候部署。Instinct 提供產(chǎn)品的 OEM 合作伙伴包括華碩、ATOS、戴爾科技、技嘉、惠普企業(yè) (HPE)、聯(lián)想、企鵝計(jì)算和 Supermicro。
英特爾
長(zhǎng)期以來(lái),英特爾一直在努力為其臺(tái)式機(jī) CPU 制造除基本集成 GPU 之外的任何產(chǎn)品。對(duì)于臺(tái)式機(jī),它擁有新的 Intel Xe 系列,而服務(wù)器等效產(chǎn)品稱為 Intel Server GPU。
現(xiàn)在,該公司表示今年將使用代號(hào)為 Ponte Vecchio 的處理器進(jìn)入數(shù)據(jù)中心 GPU 領(lǐng)域,據(jù)報(bào)道該處理器在 FP64 時(shí)可提供 45TFLOPS——幾乎與 AMD 的 MI250 相同,比 Nvidia 的 Hopper 落后 25%。
“這真的會(huì)破壞環(huán)境,”佩迪說(shuō)?!皬乃麄兏嬖V我們的情況來(lái)看——我們從謠言和其他泄密事件中聽到——它非常具有可擴(kuò)展性?!?Ponte Vecchio 將于今年晚些時(shí)候推出。
Newman 也聽到了關(guān)于 Ponte Vecchio 的積極消息,但表示英特爾的真正機(jī)會(huì)在于其oneAPI 軟件戰(zhàn)略。
oneAPI 是該公司正在開發(fā)的統(tǒng)一軟件開發(fā)平臺(tái),旨在在編譯應(yīng)用程序時(shí)選擇英特爾制造的最合適的芯片類型(x86、GPU、FPGA、AI 處理器),而不是強(qiáng)迫開發(fā)人員選擇一種類型的芯片并對(duì)其進(jìn)行編碼。它還為視頻處理、通信、分析和神經(jīng)網(wǎng)絡(luò)等功能提供了許多 API 庫(kù)。
這種抽象消除了確定最佳目標(biāo)處理器的需要,以及使用不同工具、庫(kù)和編程語(yǔ)言的需要。因此,開發(fā)人員可以專注于業(yè)務(wù)邏輯并使用 Data Parallel C++ (DPC++) 編寫代碼,而不是使用特定語(yǔ)言對(duì)特定處理器進(jìn)行編碼,DPC++ 是 C++ 的一種開源變體,專為數(shù)據(jù)并行和異構(gòu)編程而設(shè)計(jì)。
將英特爾與 Nvidia 和 AMD 區(qū)分開來(lái)的一個(gè)因素是它制造芯片的地方。雖然其他公司使用臺(tái)灣芯片制造商臺(tái)積電,但英特爾在美國(guó)生產(chǎn)許多自己的芯片,在愛(ài)爾蘭、馬來(lái)西亞和以色列設(shè)有其他工廠。并且 intel有在美國(guó)建造更多晶圓廠的宏偉計(jì)劃??ㄈ麪栒f(shuō),這給了它一定的優(yōu)勢(shì)?!癧它擁有]對(duì)自己制造的控制權(quán)使其以某種方式控制了自己的命運(yùn),”他說(shuō)?!拔覍⑦@些東西視為公司的資產(chǎn)。”
紐曼說(shuō),英偉達(dá)、AMD 和英特爾之間的競(jìng)爭(zhēng)最終可能歸結(jié)為軟件競(jìng)賽。“如果你問(wèn) [Nvidia 的] 頂級(jí)工程師,他們會(huì)說(shuō)我們不是一家芯片公司。我們是一家軟件公司。我真的相信英特爾到目前為止還沒(méi)有像軟件公司那樣真正考慮過(guò)人工智能,但如果他們能夠正確地 [oneAPI],我看到了一些真正的機(jī)會(huì),”他說(shuō)。
來(lái)源:半導(dǎo)體行業(yè)觀察
https://www.networkworld.com/article/3659836/the-three-way-race-for-gpu-dominance-in-the-data-center.html
下載鏈接:
ARM的體系結(jié)構(gòu)與編程.pdf
ARM架構(gòu)參考手冊(cè).pdf
ARM架構(gòu)參考手冊(cè)ARM V9.pdf
CPU之戰(zhàn):ARM vs Intel.pdf
ARM系列處理器應(yīng)用技術(shù)完全手冊(cè)
ARM系列處理器應(yīng)用技術(shù)完全手冊(cè)
1、行業(yè)深度報(bào)告:GPU研究框架
2、信創(chuàng)產(chǎn)業(yè)研究框架
3、ARM行業(yè)研究框架
4、CPU研究框架
5、國(guó)產(chǎn)CPU研究框架
6、行業(yè)深度報(bào)告:GPU研究框架
ARM系列處理器應(yīng)用技術(shù)完全手冊(cè)
深度報(bào)告:RISC-V異構(gòu)IoT全新架構(gòu)
RISC-V芯片產(chǎn)業(yè)指令集架構(gòu)研究
玄鐵C910實(shí)現(xiàn)RISC-V用戶自定義指令
新時(shí)代“芯”生態(tài):龍芯CPU技術(shù)與生態(tài)體系
龍芯架構(gòu)參考手冊(cè)卷一:基礎(chǔ)架構(gòu)
來(lái)源:智能計(jì)算芯世界
???????????????? ?END ?????????????????
轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者和來(lái)源,本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(37本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。
內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收198元(原總價(jià)350元)。
溫馨提示:
掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取“IT技術(shù)全店資料打包匯總(全)”電子書資料詳情。

