

近日,英特爾將開啟其Vision 2024 會議的第二天,這是該公司的年度閉門業(yè)務(wù)和以客戶為中心的聚會。雖然 Vision 通常不是英特爾發(fā)布新芯片的.場合(這更多的是秋季的創(chuàng)新活動),但今年展會的與會者不會空手而歸。隨著整個行業(yè)對人工智能的高度關(guān)注,英特爾利用今年的活動正式推出了 Gaudi 3 加速器,這是英特爾子公司 Habana Labs 的下一代 Gaudi 高性能人工智能加速器。
Gaudi 的最新版本將于 2024 年第三季度推出,英特爾現(xiàn)已向客戶提供樣品。硬件本身在某些方面是一個大雜燴(稍后會詳細(xì)介紹),但憑借 1835 TFLOPS 的 FP8 計算吞吐量,英特爾相信它足以在廣闊的(且昂貴的)領(lǐng)域中分得一杯羹。)自己的人工智能市場。根據(jù)內(nèi)部基準(zhǔn)測試,該公司預(yù)計至少在一些關(guān)鍵的大型語言模型中能夠擊敗 NVIDIA 的旗艦 Hx00 Hopper 架構(gòu)加速器,這將為英特爾在人工智能加速器市場的關(guān)鍵時刻搶占更大份額打開大門。整個行業(yè),以及一個根本沒有足夠的 NVIDIA 硬件可供使用的時刻。
1、AI算力賣水人系列(1):2024年互聯(lián)網(wǎng)AI開支持續(xù)提升 2、AI算力賣水人系列(2):芯片散熱從風(fēng)冷到液冷,AI驅(qū)動產(chǎn)業(yè)革新
1、2024年中國空間計算行業(yè)概覽(1):空間計算先行,軟硬件內(nèi)容生態(tài)共振
2、2024年中國空間計算行業(yè)概覽(Ⅱ):空間計算設(shè)備產(chǎn)業(yè)鏈拆解(摘要版)
1、Computex 2024系列AMD主題演講:CPU+GPU+UA互聯(lián)廠商
2、Computex 2024英偉達(dá)主題演講:AI時代如何在全球范圍內(nèi)推動新的工業(yè)革命
與其他包含矩陣數(shù)學(xué)單元和張量核心(一種特殊的矩陣數(shù)學(xué)單元)的 AI 加速器一樣,最初的 Gaudi 1 加速器理論上可用于加速其他類型的工作負(fù)載,包括 HPC 模擬和建模甚至數(shù)據(jù)分析。只需為其創(chuàng)建軟件堆棧即可。但在這種情況下,與其他混合精度人工智能加速器的情況一樣,混合(重要的是低精度)浮點(diǎn)和整數(shù)數(shù)學(xué)的可用性最適合人工智能訓(xùn)練和推理。
Habana Labs 整合的 Gaudi 1 加速器和軟件堆棧迫使英特爾收購該公司,盡管英特爾此前曾于2016 年 8 月以 3.5 億美元收購了人工智能加速器制造商 Nervana Systems。(英特爾直到 2019 年 11 月才將 Nervana NNP 產(chǎn)品化,一個月后它收購了 Habana Labs。想想看。)
該架構(gòu)包括一個通用 GEMM Engine 矩陣數(shù)學(xué)引擎,以及八個帶有自己的本地內(nèi)存的張量處理核心 (TPC)。GEMM 引擎以 16 位精度對全連接層、卷積和批量 GEMM 處理進(jìn)行數(shù)學(xué)運(yùn)算,而 TPC 是一種特殊的 SIMD 處理器,用于處理其他機(jī)器學(xué)習(xí)操作。TPC 處理 FP32、BF16、INT32、INT16、INT8、UINT32、UINT16 和 UINT8 格式的數(shù)據(jù)。
TPC(可能還有 GEMM 單元)共享的 SRAM 內(nèi)存容量為 24 MB,帶寬為 1 TB/秒;據(jù)我們所知,TPC 上本地存儲器的大小和帶寬從未被泄露。
Gaudi 2 采用臺積電 16 納米工藝蝕刻,并使用 2.5D CoWoS 封裝來鏈接四個 HBM2 內(nèi)存堆棧,每個堆棧 8 GB,總共 32 GB 內(nèi)存,聚合帶寬為 1 TB/秒。該芯片還具有 10 個 100 Gb/秒以太網(wǎng) RoCE 端口,用于在服務(wù)器節(jié)點(diǎn)內(nèi)以及集群中的服務(wù)器節(jié)點(diǎn)之間互連 Gaudi 處理器,最多有 128 個完全連接的節(jié)點(diǎn)。該設(shè)備還有一個 PCI-Express 4.0 x16 控制器來連接主機(jī) CPU。
Gaudi 2 于2022 年 5 月推出,并于 2023 年 6 月在英特爾開發(fā)者云上開始批量發(fā)貨,英特爾內(nèi)部的 Habana 團(tuán)隊全力以赴,這在很大程度上要?dú)w功于轉(zhuǎn)向臺積電的 7 納米蝕刻。
共享 SRAM 內(nèi)存從 24 MB 增加到 48 MB。TPC 的數(shù)量增加了 3 倍,達(dá)到 24 個單元,GEMM 單元(現(xiàn)在稱為矩陣數(shù)學(xué)引擎)的數(shù)量也增加了一倍。以太網(wǎng)端口數(shù)量增加了 2.4 倍,達(dá)到 24 個端口,這從根本上提高了 Gaudi 集群的可擴(kuò)展性,并添加了媒體解碼器來為 AI 視覺應(yīng)用程序進(jìn)行預(yù)處理。TPC 支持 FP32、TF32、BF16、FP16 和 FP8(E4M3 和 E5M2 變體)數(shù)據(jù)格式。根據(jù)文檔,MME 單元進(jìn)行矩陣數(shù)學(xué)運(yùn)算并累加為 FP32 格式。(尚不清楚 GEMM 是否與 MME 相同。但如果是,它會對 16 位整數(shù)進(jìn)行矩陣數(shù)學(xué)計算并累加到 32 位浮點(diǎn)數(shù)。)Gaudi 2 具有相同的 PCI-Express 4.0 x16 鏈路輸出到主機(jī),但具有六個 HBM2E 內(nèi)存控制器和六個 HBM2E 內(nèi)存堆棧,每個堆棧為 16 GB,這六個堆棧的總?cè)萘繛?96 GB,帶寬為 2.4 TB/秒。
這讓我們想到了 Gaudi 3 以及向臺積電 5 納米蝕刻的轉(zhuǎn)變。
即將推出的 Gaudi 3 也正值英特爾對其 AI 加速器產(chǎn)品的定位發(fā)生變化之際,Gaudi 系列已升級為英特爾的旗艦服務(wù)器加速器。傳統(tǒng)上,Habana Labs 和 Gaudi 在英特爾 GPU Data Center Max 產(chǎn)品(Ponte Vecchio)方面被低估,但在取消 Rialto Bridge 以支持 2025 年發(fā)布 Falcon Shores后,Habana Labs 和 Gaudi 在英特爾內(nèi)部獲得了新的定位。簡而言之,除了 Gaudi 3 之外,英特爾還沒有推出任何其他新的人工智能加速器芯片,因此英特爾將與其擁有的芯片展開戰(zhàn)爭。
英特爾認(rèn)為他們可以在性能上獲勝;如果他們可以的話,那是一件大事。但這是一款明顯從英特爾旗下的副業(yè)項目升級為前置中央處理器的產(chǎn)品。因此,Gaudi 3 的能力范圍、硬件以及英特爾正在追逐的市場類型,都比我們在其他一些旗艦產(chǎn)品上看到的要窄。
接下來,我們深入介紹一下硬件,讓我們來看看 Gaudi 3。
Gaudi 3 是 Gaudi 2 硬件的直接演變。Habana Labs 已經(jīng)選定了他們喜歡并認(rèn)為成功的架構(gòu),因此 Gaudi 3 不會對其架構(gòu)進(jìn)行大規(guī)模調(diào)整(這將隨 Falcon Shores 一起進(jìn)行)。然而,另一方面,就新功能或至少英特爾想要披露的功能而言,這里沒有太多可討論的內(nèi)容,因此從較高的層面來看,Gaudi 3 更像是一件好事。
上一代 Gaudi 2 加速器基于臺積電 7nm 工藝打造,Habana 將 Gaudi 3 引入了更新的 5nm 工藝。Gaudi 3 芯片又添加了適量的計算硬件,從 2 個矩陣數(shù)學(xué)引擎和 24 個張量核心擴(kuò)展到 4 個矩陣數(shù)學(xué)引擎和 32 個張量核心。鑒于 Gaudi 3 的架構(gòu)變化有限,我假設(shè)這些張量核心仍然是 256 字節(jié)寬的 VLIW SIMD 單元,就像在 Gaudi 2 中一樣。
雖然英特爾沒有透露 Gaudi 3 芯片的晶體管總數(shù),但新硬件的有限添加使 Gaudi 3 足夠小,以至于英特爾能夠?qū)蓚€芯片封裝到單個芯片上,從而使完整的 Gaudi 3 加速器成為雙芯片設(shè)置,這與 NVIDIA 最近發(fā)布的 Blackwell 加速器類似,兩個相同的芯片被放置在一個封裝上,并通過高帶寬鏈路連接,以便為芯片提供統(tǒng)一的內(nèi)存地址空間。據(jù)英特爾稱,組合后的芯片將像單個芯片一樣工作,盡管該公司沒有透露連接芯片的芯片到芯片鏈路的任何重要細(xì)節(jié),但目前尚不清楚實(shí)際上有多少帶寬可用于跨越die。
Habana 團(tuán)隊罕見地公開了該芯片 FP8 精度的總吞吐量:1835 TFLOPS,這是 Gaudi 2 FP8 性能的兩倍。更有趣的是,BF16 性能顯然比 Gaudi 2 提高了 4 倍英特爾尚未透露該模式的官方吞吐量數(shù)據(jù),也沒有透露哪些架構(gòu)變化帶來了這種改進(jìn)。不管怎樣,如果英特爾想要在人工智能市場上分一杯羹,他們就需要最大限度地發(fā)揮 Gaudi 3 的性能。
這個芯片集成的是一個奇怪過時的 HBM2e 內(nèi)存控制器,與 Gaudi 2 支持的內(nèi)存類型相同。雖然英特爾對于 HBM3E 可能有點(diǎn)太早了,但我很驚訝沒有看到 HBM3 支持,無論是為了更大的內(nèi)存帶寬還是更大的內(nèi)存HBM3 譜系提供的容量。由于堅持使用 HBM2e,可用的最高容量堆棧為 16GB,為加速器提供了總共 128GB 的內(nèi)存。其時鐘頻率為 3.7Gbps/pin,總內(nèi)存帶寬為 3.7TB/秒。每個 Gaudi 3 芯片都提供 4 個 HBM2e PHY,使芯片的內(nèi)存堆棧總數(shù)達(dá)到 8 個。
同時,每個 Gaudi 3 芯片都具有 48MB 板載 SRAM,這為整個芯片提供 96MB SRAM。據(jù)英特爾稱,SRAM 總帶寬為 12.8TB/秒。
計算由 64 個第五代張量處理核心 (TPC) 和 8 個矩陣數(shù)學(xué)引擎 (MME) 處理,并通過圖形編譯器和軟件堆棧在兩個引擎之間協(xié)調(diào)工作負(fù)載。Gaudi 3 芯片包還包括 24 個 200 Gbps RoCE 以太網(wǎng)控制器,可提供縱向擴(kuò)展(盒內(nèi))和橫向擴(kuò)展(節(jié)點(diǎn)到節(jié)點(diǎn))連接,使 Gaudi 2 上的 100 Gbps 連接增加一倍。
歸根結(jié)底,主導(dǎo)當(dāng)今人工智能訓(xùn)練和推理工作負(fù)載的關(guān)鍵在于將加速器擴(kuò)展到更大集群的能力。英特爾的 Gaudi 采用了與Nvidia 即將推出的 B200 NVL72 系統(tǒng)不同的方法,在 Gaudi 3 加速器之間使用快速 200 Gbps 以太網(wǎng)連接,并將服務(wù)器與葉子和主干交換機(jī)配對以創(chuàng)建集群。
Nvidia 的系統(tǒng)級架構(gòu)利用 PCIe 接口上的 NVLink 實(shí)現(xiàn) GPU 之間的盒內(nèi)連接,并通過 NVLink 交換機(jī)使用無源銅纜布線連接整個機(jī)架。AMD 也有自己的方法,即在服務(wù)器中的 GPU 之間使用 PCIe 接口及其 Infinity Fabric 協(xié)議,同時使用外部 NIC 與其他節(jié)點(diǎn)進(jìn)行通信,但這比 Intel 將網(wǎng)絡(luò) NIC 直接內(nèi)置到服務(wù)器中的方法增加了更多的網(wǎng)絡(luò)成本和復(fù)雜性。
英特爾沒有透露 Gaudi 3 加速器的時鐘速度(值得一提,他們也沒有透露 Gaudi 2 的時鐘速度)。然而,鑒于英特爾現(xiàn)有硬件數(shù)量增加了一倍以上,我們可能會考慮整體較低的時鐘速度。即使使用更小的 5nm 芯片,兩個芯片也意味著需要提供更多的晶體管,而不需要大量的額外功率。
在這一點(diǎn)上,基本風(fēng)冷式 Gaudi 3 加速器的 TDP 為 900 瓦,比其前身的 600 瓦限制高出 50%。英特爾在這里使用 OAM 2.0 外形尺寸,它提供比 OAM 1.x (700W) 更高的功率限制。不過,英特爾還在開發(fā)并驗證 Gaudi 3 的液冷版本,它將提供更高的性能,以換取更高的 TDP。所有形式的 Gaudi 3 都將使用 PCIe 回程連接到其主機(jī) CPU,其中 Gaudi 3 配備 PCIe Gen 5 x16 鏈路。
總的來說,Gaudi 架構(gòu)的有限細(xì)節(jié)讓我想起了AMD 的 Instinct MI250X 加速器。從很多方面來說,CDNA 2 部件都是將一對芯片縮小的 MI100 放在一塊芯片上,帶來了一些新的架構(gòu)功能,但需要更多的硅來完成繁重的工作。然而,重要的是,MI250X 將自己呈現(xiàn)為兩個加速器(盡管芯片之間有 Infinity Fabric 鏈接),而 Gaudi 3 應(yīng)該表現(xiàn)為單個統(tǒng)一加速器。
網(wǎng)絡(luò):以太網(wǎng)走向極致
除了 Gaudi 3 的核心架構(gòu)之外,Habana 對 Gaudi 3 的另一項重大技術(shù)升級是在 I/O 方面。回到 Gaudi 的早期,Habana 的芯片就依賴于全以太網(wǎng)架構(gòu),使用以太網(wǎng)進(jìn)行節(jié)點(diǎn)內(nèi)芯片到芯片連接和橫向擴(kuò)展節(jié)點(diǎn)到節(jié)點(diǎn)連接。它本質(zhì)上與 NVIDIA 所做的相反,將以太網(wǎng)擴(kuò)展到芯片級別,而不是將 NVLink 擴(kuò)展到機(jī)架級別。
Gaudi 2 每個芯片提供 24 個 100Gb 以太網(wǎng)鏈路;Gaudi 3 將這些鏈路的帶寬增加了一倍,達(dá)到 200Gb/秒,使芯片的外部以太網(wǎng) I/O 總帶寬達(dá)到 8.4TB/秒的累計向上/向下。
Gaudi 3 的推薦拓?fù)洌ㄒ约坝⑻貭枌⒃谧约旱牡装逯胁捎玫耐負(fù)洌┦?21/3 分割。21 條鏈路將用于節(jié)點(diǎn)內(nèi)、芯片到芯片的連接,其中 3 條鏈路將連接到完全填充的 8 路節(jié)點(diǎn)上的其他 7 個 Gaudi 3 加速器。
與此同時,每個芯片的剩余 3 個鏈路將用于為六組 800Gb 八路小型可插拔 (OSFP) 以太網(wǎng)鏈路提供信號。通過使用重定時器,端口將被分成兩個塊,然后在 5 個加速器上進(jìn)行平衡。
最終,英特爾希望在性能和適銷性方面提升 Gaudi 3 的可擴(kuò)展性。由于最大的LLM需要將許多節(jié)點(diǎn)鏈接在一起形成一個集群,以提供訓(xùn)練所需的內(nèi)存和計算性能,英特爾通過 Gaudi 3 追逐的最大客戶將需要一個可以擴(kuò)展到這些大型的人工智能加速器,這為英特爾提供了充足的機(jī)會來銷售同樣數(shù)量的加速器。一直以來,英特爾都希望通過采用純以太網(wǎng)設(shè)置來贏得那些不想投資 InfiniBand 等專有/替代互連技術(shù)的客戶。
最終,英特爾已經(jīng)開發(fā)了多達(dá) 512 個節(jié)點(diǎn)的網(wǎng)絡(luò)拓?fù)洌褂?48 個主干交換機(jī)連接多達(dá) 32 個集群,每個集群包含 16 個節(jié)點(diǎn)。
Gaudi 有兩種外形尺寸,其中 OAM(OCP 加速器模塊)HL-325L 是基于高性能 GPU 的系統(tǒng)中常見的夾層外形尺寸。該加速器具有 128GB HBM2e(不是HBM3E),可提供 3.7 TB/s 的帶寬。它還具有 24 個 200 Gbps 以太網(wǎng) RDMA NIC。HL-325L OAM 模塊具有 900W TDP(可能有更高的 TDP,表面上采用液體冷卻),額定 FP8 性能為 1,835 TFLOPS。OAM 以每個服務(wù)器節(jié)點(diǎn) 8 個為一組進(jìn)行部署,然后可以擴(kuò)展到 1,024 個節(jié)點(diǎn)。
每臺服務(wù)器由八個 Gaudi 3 加速器組成,每個加速器通過 21 個 200 Gbps 以太網(wǎng)連接相互通信。每個設(shè)備上的其余三個以太網(wǎng)端口用于通過葉交換機(jī)與集群進(jìn)行外部通信。該交換機(jī)將這些連接聚合到帶有 OFSP 連接器的 6 個 800 Gbps 以太網(wǎng)端口中,以促進(jìn)與其他節(jié)點(diǎn)的通信。
每個機(jī)架通常包含四個節(jié)點(diǎn),但這可能會根據(jù)機(jī)架功率限制和集群大小而有所不同。最多 16 個節(jié)點(diǎn)與三個以太網(wǎng)leaf交換機(jī)形成一個子集群,然后連接到主干交換機(jī)(通常具有 64 個端口),以形成更大的集群。800 Gbps leaf交換機(jī)上的 64 個端口中有一半連接到 16 個節(jié)點(diǎn),其余一半連接到主干交換機(jī)。
根據(jù)集群的大小,使用不同數(shù)量的主干交換機(jī),Intel 提供了一個示例,其中三個主干交換機(jī)用于由 512 個節(jié)點(diǎn)(4,096 個 Gaudi)組成的 32 個子集群。英特爾表示,這種配置為所有服務(wù)器到服務(wù)器的連接提供相同的帶寬(非阻塞所有到所有)。添加另一層以太網(wǎng)交換機(jī)可以支持多達(dá)數(shù)萬個加速器。
OAM 落入容納八個 OAM 的通用基板中。英特爾已經(jīng)向其合作伙伴發(fā)貨了 OAM 和基板,準(zhǔn)備在今年晚些時候全面上市。在 HLB-325 基板上擴(kuò)展到 8 個 OAM,可將 FP8 的性能提升至 14.6 PFLOPS,而所有其他指標(biāo)(例如內(nèi)存容量和帶寬)則呈線性擴(kuò)展。
英特爾還推出了 Gaudi 3 PCIe 雙槽附加卡,TDP 為 600W。該卡還具有 128GB HBMeE 和 24 個 200 Gbps 以太網(wǎng) NIC——英特爾表示,雙 400 Gbps NIC 用于橫向擴(kuò)展。英特爾表示 PCIe 卡的 FP8 性能峰值為 1,835 TFLOPS,與 OAM 相同,考慮到其 TDP 低 300W(這可能無法支持長時間工作負(fù)載),這一點(diǎn)很有趣。然而,盒子內(nèi)部的縮放受到更多限制,因為它被設(shè)計為四個一組工作。英特爾表示,該卡還可以橫向擴(kuò)展以創(chuàng)建更大的集群,但沒有提供詳細(xì)信息。
據(jù)英特爾稱,Gaudi 3 仍然可以進(jìn)一步擴(kuò)展,擴(kuò)展到數(shù)千個節(jié)點(diǎn)。
英特爾還宣布正在開發(fā)一款用于超以太網(wǎng)聯(lián)盟兼容網(wǎng)絡(luò)的 AI NIC ASIC 以及一款 AI NIC 小芯片,該芯片將用于其未來的 XPU 和 Gaudi 3 處理器,但他們沒有分享更多細(xì)節(jié)。
性能表現(xiàn):在Llamas和Falcons
比賽中擊敗H100
在 Gaudi 加速器的整個生命周期中,英特爾和 Habana 更愿意專注于談?wù)撔酒男阅埽粌H僅是規(guī)格,對于 Gaudi 3 來說,這一點(diǎn)并沒有改變。由于 Vision 的大部分與會者都是商業(yè)客戶,英特爾希望通過基于基準(zhǔn)的性能數(shù)據(jù)來展示 Gaudi 3 的實(shí)際功能,從而引起轟動。
在對比中,Gaudi 團(tuán)隊選擇直接使用 NVIDIA 自己的基準(zhǔn)測試和結(jié)果集。換句話說,英特爾提供的 Gaudi 性能數(shù)據(jù)是根據(jù) NVIDIA 自己報告的數(shù)據(jù)繪制的,而不是英特爾編造的場景來對 NVIDIA 不利。也就是說,還必須指出的是,這些是性能預(yù)測,而不是組裝系統(tǒng)的測量性能。
英特爾聲稱,與 H100 相比,Gaudi 3 在 16 個加速器集群中以 FP8 精度訓(xùn)練 Llama2-13B 時,性能比 H100 快 1.7 倍。盡管 H100 已經(jīng)問世 2 年了,但如果它成功的話,在任何訓(xùn)練方面都大幅擊敗 H100 對于英特爾來說將是一個巨大的勝利。
與此同時,英特爾預(yù)計采用 Gaudi 3 的 H200/H100 的推理性能將提高 1.3 倍至 1.5 倍,也許最值得注意的是,功效將提高至 2.3 倍。
然而,一如既往,細(xì)節(jié)決定成敗。在這些推理工作負(fù)載中,英特爾有時仍然會輸給 H100,尤其是那些沒有 2K 輸出的工作負(fù)載,因此 Gaudi 3 還遠(yuǎn)未橫掃一切。當(dāng)然,還有英特爾沒有宣傳的所有基準(zhǔn)測試結(jié)果。
然而,值得贊揚(yáng)的是,英特爾是迄今為止唯一一家提供 MLPerf 結(jié)果的主要硬件制造商。因此,無論 Gaudi 3 的表現(xiàn)如何(以及 Gaudi 2 目前的表現(xiàn)),他們在發(fā)布行業(yè)標(biāo)準(zhǔn)測試結(jié)果方面比大多數(shù)人都光明正大得多。
Gaudi 3的軟件生態(tài)系統(tǒng)
正如 Nvidia 在 CUDA 領(lǐng)域的主導(dǎo)地位所表明的那樣,軟件生態(tài)系統(tǒng)與硬件一樣重要。英特爾宣傳其端到端軟件堆棧,并表示“大多數(shù)”工程師目前正在致力于加強(qiáng)支持。英特爾目前的重點(diǎn)是支持多模態(tài)訓(xùn)練和推理模型以及RAG(檢索增強(qiáng)生成)。
Hugging Face 擁有超過 600,000 個可用的 AI 模型檢查點(diǎn),英特爾表示,其與 Hugging Face、PyTorch、DeepSpeed 和 Mosaic 的合作簡化了軟件移植過程,從而加快了部署 Gaudi 3 系統(tǒng)的周轉(zhuǎn)時間。英特爾表示,大多數(shù)程序員都在框架級別或更高級別進(jìn)行編程(即簡單地使用 PyTorch 并使用 Python 編寫腳本),并且使用 CUDA 進(jìn)行低級編程并不像人們想象的那么常見。
英特爾的工具旨在簡化移植過程,同時抽象出底層的復(fù)雜性,OneAPI 充當(dāng)?shù)讓觾?nèi)核和通信庫。這些庫遵循統(tǒng)一加速器基金會 (UXL)以及包括 Arm、英特爾、高通和三星等在內(nèi)的行業(yè)聯(lián)盟概述的規(guī)范,旨在提供 CUDA 的替代方案。PyTorch 2.0 針對使用 OneAPI 通過 Intel CPU 和 GPU 進(jìn)行推理和訓(xùn)練進(jìn)行了優(yōu)化。英特爾表示,其 OpenVino 也繼續(xù)受到快速采用,今年迄今為止下載量已超過 100 萬次。
英特爾、Nvidia 和 AMD 都在采取不同的途徑來提供增強(qiáng)的集群可擴(kuò)展性,這對于人工智能訓(xùn)練和推理工作負(fù)載的性能至關(guān)重要。每種方法都有其各自的優(yōu)勢,但 Nvidia 專有的 NVLink 是最成熟、最完善的解決方案,其擴(kuò)展到機(jī)架規(guī)模架構(gòu)是一個顯著的優(yōu)勢。也就是說,英特爾基于以太網(wǎng)的網(wǎng)絡(luò)方法帶來了開放式解決方案,通過支持多個供應(yīng)商的網(wǎng)絡(luò)交換機(jī)提供了大量的定制選項,而且其內(nèi)置網(wǎng)卡還比 AMD 的競爭Instinct MI300 系列提供成本優(yōu)勢。
然而,Nvidia 的基于 Grace 的產(chǎn)品和 AMD 的 MI300A 都提供了復(fù)雜的合并 CPU+GPU 套件,在某些工作負(fù)載中將很難被擊敗,而英特爾由于取消了合并的 CPU+GPU 版本,繼續(xù)依賴單獨(dú)的 CPU 和加速器組件Falcon Shores。據(jù)報道,Nvidia 的新型 GB200 CPU+GPU 服務(wù)器占據(jù)了該公司 Blackwell 訂單的大部分,這凸顯了該行業(yè)對此類緊密耦合產(chǎn)品的巨大需求。
英特爾未來的 Falcon Shores 產(chǎn)品將以純?nèi)斯ぶ悄芗铀倨髟O(shè)計的形式推出,因此它仍然能夠與純 GPU 的 Nvidia 和 AMD 集群競爭。我們還看到了新一代 Gaudi 3 的空間,從 HBM2E 轉(zhuǎn)向 HBM3/E——AMD 和 Nvidia 在其 AI 產(chǎn)品中都采用了更快的內(nèi)存。盡管英特爾尚未分享硬數(shù)據(jù),但英特爾表示,它還計劃在價格上展開積極競爭,這可能是一個強(qiáng)有力的良方,因為英偉達(dá)仍在努力應(yīng)對因 GPU 需求銳減而導(dǎo)致的短缺問題。
Falcon Shores 還將兼容針對 Gaudi 優(yōu)化的代碼,提供前向兼容性。英特爾還以過去幾個季度其 Gaudi 2 平臺的 3 倍改進(jìn)作為其平臺采用率增加的例子。
值得注意的是,英特爾沒有在此次活動中宣傳其 Ponte Vecchio GPU,考慮到英特爾取消了下一代 Rialto Bridge GPU ,這并不奇怪,因此我們預(yù)計該公司的 AI 工作將僅在 Gaudi 3 上進(jìn)行,因為它正在為 Falcon Shores 做準(zhǔn)備明年推出。
值得一提,風(fēng)冷式 Gaudi 3 型號已向合作伙伴提供樣品,并于第三季度全面上市。液冷型號將在第四季度推出。讓我們期待一下英特爾在這個市場的表現(xiàn)。
https://www.anandtech.com/show/21342/intel-introduces-gaudi-3-accelerator-going-bigger-and-aiming-higher
https://www.tomshardware.com/pc-components/cpus/intel-details-guadi-3-at-vision-2024-new-ai-accelerator-sampling-to-partners-now-volume-production-in-q3
https://www.nextplatform.com/2024/04/09/with-gaudi-3-intel-can-sell-ai-accelerators-to-the-pytorch-masses/
下載鏈接:
2024年中國安防視頻監(jiān)控SoC芯片行業(yè)研究報告:安防SoC市場喜迎百億爆發(fā),眾企競逐后海思時代
邁向巔峰之路:中國成長型AI企業(yè)研究報告(2024)
2024安全大模型技術(shù)與市場研究報告
2024大模型典型示范應(yīng)用案例集
HBM專題:逐鹿頂尖工藝,HBM4的三國時代
AI Agent行業(yè)詞條報告:驅(qū)動智能交互變革,重塑服務(wù)生態(tài)
空間數(shù)據(jù)智能大模型研究:2024年中國空間數(shù)據(jù)智能戰(zhàn)略發(fā)展白皮書
企業(yè)競爭圖譜:2024年量子計算詞條報告
2024中國服務(wù)器CPU行業(yè)概覽:信創(chuàng)帶動服務(wù)器CPU國產(chǎn)化
HBM專題報告:跨越帶寬增長極限,HBM賦能AI新紀(jì)元
2024基于標(biāo)準(zhǔn)PCIe接口的人工智能加速卡液冷設(shè)計白皮書
《新型智算中心改造系列報告合集》
1、新型智算中心改造系列報告二:拉動全球電力消耗增長,液冷滲透率快速提升 2、新型智算中心改造系列報告一:網(wǎng)絡(luò)成大模型訓(xùn)練瓶頸,節(jié)點(diǎn)內(nèi)外多方案并存
《國產(chǎn)異構(gòu)處理器定位優(yōu)化技術(shù)合集》
1、面向申威眾核處理器的規(guī)則處理優(yōu)化技術(shù) 2、神威超級計算機(jī)運(yùn)行時故障定位方法
2024中國半導(dǎo)體深度分析與展望報告
面向異構(gòu)硬件架構(gòu)軟件支撐和優(yōu)化技術(shù)
AI大模型賦能手機(jī)終端,擁抱AI手機(jī)新機(jī)遇
全球AI算力行業(yè)首次覆蓋:從云到端,云端協(xié)同,AI開啟科技行業(yè)超級成長周期
2024年中國大模型行業(yè)應(yīng)用研究:大模型引領(lǐng)智能時代,助力各行業(yè)全面升級
《半導(dǎo)體行業(yè)系列專題合集》
1、半導(dǎo)體行業(yè)系列專題:刻蝕—半導(dǎo)體制造核心設(shè)備,國產(chǎn)化典范
2、半導(dǎo)體行業(yè)系列專題:碳化硅—襯底產(chǎn)能持續(xù)擴(kuò)充,加速國產(chǎn)化機(jī)會
3、半導(dǎo)體行業(yè)系列專題:直寫光刻篇,行業(yè)技術(shù)升級加速應(yīng)用滲透
4、半導(dǎo)體行業(yè)系列專題:先進(jìn)封裝—先進(jìn)封裝大有可為,上下游產(chǎn)業(yè)鏈?zhǔn)芤?/span>
“人工智能+”進(jìn)入爆發(fā)臨界,開啟繁榮生態(tài)前景
鯤鵬處理器軟件性能調(diào)優(yōu)(精編版)
《算力網(wǎng)絡(luò):光網(wǎng)絡(luò)技術(shù)合集(1)》
1、面向算力網(wǎng)絡(luò)的新型全光網(wǎng)技術(shù)發(fā)展及關(guān)鍵器件探討
2、面向算力網(wǎng)絡(luò)的光網(wǎng)絡(luò)智能化架構(gòu)與技術(shù)白皮書
3、2023開放光網(wǎng)絡(luò)系統(tǒng)驗證測試規(guī)范
4、面向通感算一體化光網(wǎng)絡(luò)的光纖傳感技術(shù)白皮書
《算力網(wǎng)絡(luò):光網(wǎng)絡(luò)技術(shù)合集(2)》
1、數(shù)據(jù)中心互聯(lián)開放光傳輸系統(tǒng)設(shè)計
2、確定性光傳輸支撐廣域長距算力互聯(lián)
3、面向時隙光交換網(wǎng)絡(luò)的納秒級時間同步技術(shù)
4、數(shù)據(jù)中心光互聯(lián)模塊發(fā)展趨勢及新技術(shù)研究
面向超萬卡集群的新型智算技術(shù)白皮書
面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。

免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實(shí)時掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。