免费看韩国毛片,天天草天天射天天撸,国产乱伦自拍视频,亚洲操一操,男女激情毛片,中文字幕aⅴ一区中文字幕天堂,色天堂在线,黄色p网站

近日，英特爾將開啟其Vision 2024 會議的第二天，這是該公司的年度閉門業(yè)務(wù)和以客戶為中心的聚會。雖然 Vision 通常不是英特爾發(fā)布新芯片的.場合（這更多的是秋季的創(chuàng)新活動），但今年展會的與會者不會空手而歸。隨著整個行業(yè)對人工智能的高度關(guān)注，英特爾利用今年的活動正式推出了 Gaudi 3 加速器，這是英特爾子公司 Habana Labs 的下一代 Gaudi 高性能人工智能加速器。

Gaudi 的最新版本將于 2024 年第三季度推出，英特爾現(xiàn)已向客戶提供樣品。硬件本身在某些方面是一個大雜燴（稍后會詳細(xì)介紹），但憑借 1835 TFLOPS 的 FP8 計算吞吐量，英特爾相信它足以在廣闊的（且昂貴的）領(lǐng)域中分得一杯羹。）自己的人工智能市場。根據(jù)內(nèi)部基準(zhǔn)測試，該公司預(yù)計至少在一些關(guān)鍵的大型語言模型中能夠擊敗 NVIDIA 的旗艦 Hx00 Hopper 架構(gòu)加速器，這將為英特爾在人工智能加速器市場的關(guān)鍵時刻搶占更大份額打開大門。整個行業(yè)，以及一個根本沒有足夠的 NVIDIA 硬件可供使用的時刻。

下載鏈接：

英偉達(dá)GPU加速迭代，聚焦AI光通信核心廠商

2024中國服務(wù)器CPU行業(yè)概覽：信創(chuàng)帶動服務(wù)器CPU國產(chǎn)化

《AI算力“賣水人”系列報告合集》

1、AI算力賣水人系列（1）：2024年互聯(lián)網(wǎng)AI開支持續(xù)提升 2、AI算力賣水人系列（2）：芯片散熱從風(fēng)冷到液冷，AI驅(qū)動產(chǎn)業(yè)革新

從云到端，AI產(chǎn)業(yè)的新范式（2024）

大模型時代，基于AI Agent的數(shù)據(jù)分析與決策新趨勢

2024年AI發(fā)展?fàn)顩r

2024面向AI智算數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展路線展望白皮書

先進(jìn)封裝大勢所趨，國產(chǎn)供應(yīng)鏈機(jī)遇大于挑戰(zhàn)

《2024年中國空間計算行業(yè)概覽合集》

1、2024年中國空間計算行業(yè)概覽（1）：空間計算先行，軟硬件內(nèi)容生態(tài)共振

2、2024年中國空間計算行業(yè)概覽（Ⅱ）：空間計算設(shè)備產(chǎn)業(yè)鏈拆解（摘要版）

干貨分享：“人工智能+”引爆新質(zhì)生產(chǎn)力革命（2024）

模型即服務(wù)：MaaS框架與應(yīng)用研究報告（2024年）

《Computex 2024系列主題演講合集》

1、Computex 2024系列AMD主題演講：CPU+GPU+UA互聯(lián)廠商

2、Computex 2024英偉達(dá)主題演講：AI時代如何在全球范圍內(nèi)推動新的工業(yè)革命

GPU研究框架（2023）

SOC芯片研究框架（2022）

信創(chuàng)研究專題框架

從軟件算法生態(tài)看GPU發(fā)展與局限

NVIDIA GPU架構(gòu)白皮書

GPU技術(shù)專題下載鏈接

深度報告：GPU研究框架

CPU和GPU研究框架合集

AI算力研究：英偉達(dá)B200再創(chuàng)算力奇跡，液冷、光模塊持續(xù)革新

GPU深度報告：英偉達(dá)GB200 NVL72全互聯(lián)技術(shù)，銅纜方案或?qū)⒊蔀槲磥碲厔荩?/span>

為數(shù)學(xué)而生的Gaudi芯片

與其他包含矩陣數(shù)學(xué)單元和張量核心（一種特殊的矩陣數(shù)學(xué)單元）的 AI 加速器一樣，最初的 Gaudi 1 加速器理論上可用于加速其他類型的工作負(fù)載，包括 HPC 模擬和建模甚至數(shù)據(jù)分析。只需為其創(chuàng)建軟件堆棧即可。但在這種情況下，與其他混合精度人工智能加速器的情況一樣，混合（重要的是低精度）浮點(diǎn)和整數(shù)數(shù)學(xué)的可用性最適合人工智能訓(xùn)練和推理。

Habana Labs 整合的 Gaudi 1 加速器和軟件堆棧迫使英特爾收購該公司，盡管英特爾此前曾于2016 年 8 月以 3.5 億美元收購了人工智能加速器制造商 Nervana Systems。（英特爾直到 2019 年 11 月才將 Nervana NNP 產(chǎn)品化，一個月后它收購了 Habana Labs。想想看。）

這是 Gaudi 1 的框圖：

該架構(gòu)包括一個通用 GEMM Engine 矩陣數(shù)學(xué)引擎，以及八個帶有自己的本地內(nèi)存的張量處理核心 (TPC)。GEMM 引擎以 16 位精度對全連接層、卷積和批量 GEMM 處理進(jìn)行數(shù)學(xué)運(yùn)算，而 TPC 是一種特殊的 SIMD 處理器，用于處理其他機(jī)器學(xué)習(xí)操作。TPC 處理 FP32、BF16、INT32、INT16、INT8、UINT32、UINT16 和 UINT8 格式的數(shù)據(jù)。

TPC（可能還有 GEMM 單元）共享的 SRAM 內(nèi)存容量為 24 MB，帶寬為 1 TB/秒；據(jù)我們所知，TPC 上本地存儲器的大小和帶寬從未被泄露。

Gaudi 2 采用臺積電 16 納米工藝蝕刻，并使用 2.5D CoWoS 封裝來鏈接四個 HBM2 內(nèi)存堆棧，每個堆棧 8 GB，總共 32 GB 內(nèi)存，聚合帶寬為 1 TB/秒。該芯片還具有 10 個 100 Gb/秒以太網(wǎng) RoCE 端口，用于在服務(wù)器節(jié)點(diǎn)內(nèi)以及集群中的服務(wù)器節(jié)點(diǎn)之間互連 Gaudi 處理器，最多有 128 個完全連接的節(jié)點(diǎn)。該設(shè)備還有一個 PCI-Express 4.0 x16 控制器來連接主機(jī) CPU。

Gaudi 2 于2022 年 5 月推出，并于 2023 年 6 月在英特爾開發(fā)者云上開始批量發(fā)貨，英特爾內(nèi)部的 Habana 團(tuán)隊全力以赴，這在很大程度上要?dú)w功于轉(zhuǎn)向臺積電的 7 納米蝕刻。

共享 SRAM 內(nèi)存從 24 MB 增加到 48 MB。TPC 的數(shù)量增加了 3 倍，達(dá)到 24 個單元，GEMM 單元（現(xiàn)在稱為矩陣數(shù)學(xué)引擎）的數(shù)量也增加了一倍。以太網(wǎng)端口數(shù)量增加了 2.4 倍，達(dá)到 24 個端口，這從根本上提高了 Gaudi 集群的可擴(kuò)展性，并添加了媒體解碼器來為 AI 視覺應(yīng)用程序進(jìn)行預(yù)處理。TPC 支持 FP32、TF32、BF16、FP16 和 FP8（E4M3 和 E5M2 變體）數(shù)據(jù)格式。根據(jù)文檔，MME 單元進(jìn)行矩陣數(shù)學(xué)運(yùn)算并累加為 FP32 格式。（尚不清楚 GEMM 是否與 MME 相同。但如果是，它會對 16 位整數(shù)進(jìn)行矩陣數(shù)學(xué)計算并累加到 32 位浮點(diǎn)數(shù)。）Gaudi 2 具有相同的 PCI-Express 4.0 x16 鏈路輸出到主機(jī)，但具有六個 HBM2E 內(nèi)存控制器和六個 HBM2E 內(nèi)存堆棧，每個堆棧為 16 GB，這六個堆棧的總?cè)萘繛?96 GB，帶寬為 2.4 TB/秒。

這讓我們想到了 Gaudi 3 以及向臺積電 5 納米蝕刻的轉(zhuǎn)變。

Gaudi 3細(xì)節(jié)，首次披露

即將推出的 Gaudi 3 也正值英特爾對其 AI 加速器產(chǎn)品的定位發(fā)生變化之際，Gaudi 系列已升級為英特爾的旗艦服務(wù)器加速器。傳統(tǒng)上，Habana Labs 和 Gaudi 在英特爾 GPU Data Center Max 產(chǎn)品（Ponte Vecchio）方面被低估，但在取消 Rialto Bridge 以支持 2025 年發(fā)布 Falcon Shores后，Habana Labs 和 Gaudi 在英特爾內(nèi)部獲得了新的定位。簡而言之，除了 Gaudi 3 之外，英特爾還沒有推出任何其他新的人工智能加速器芯片，因此英特爾將與其擁有的芯片展開戰(zhàn)爭。

英特爾認(rèn)為他們可以在性能上獲勝；如果他們可以的話，那是一件大事。但這是一款明顯從英特爾旗下的副業(yè)項目升級為前置中央處理器的產(chǎn)品。因此，Gaudi 3 的能力范圍、硬件以及英特爾正在追逐的市場類型，都比我們在其他一些旗艦產(chǎn)品上看到的要窄。

接下來，我們深入介紹一下硬件，讓我們來看看 Gaudi 3。

Gaudi 3 是 Gaudi 2 硬件的直接演變。Habana Labs 已經(jīng)選定了他們喜歡并認(rèn)為成功的架構(gòu)，因此 Gaudi 3 不會對其架構(gòu)進(jìn)行大規(guī)模調(diào)整（這將隨 Falcon Shores 一起進(jìn)行）。然而，另一方面，就新功能或至少英特爾想要披露的功能而言，這里沒有太多可討論的內(nèi)容，因此從較高的層面來看，Gaudi 3 更像是一件好事。

上一代 Gaudi 2 加速器基于臺積電 7nm 工藝打造，Habana 將 Gaudi 3 引入了更新的 5nm 工藝。Gaudi 3 芯片又添加了適量的計算硬件，從 2 個矩陣數(shù)學(xué)引擎和 24 個張量核心擴(kuò)展到 4 個矩陣數(shù)學(xué)引擎和 32 個張量核心。鑒于 Gaudi 3 的架構(gòu)變化有限，我假設(shè)這些張量核心仍然是 256 字節(jié)寬的 VLIW SIMD 單元，就像在 Gaudi 2 中一樣。

雖然英特爾沒有透露 Gaudi 3 芯片的晶體管總數(shù)，但新硬件的有限添加使 Gaudi 3 足夠小，以至于英特爾能夠?qū)蓚€芯片封裝到單個芯片上，從而使完整的 Gaudi 3 加速器成為雙芯片設(shè)置，這與 NVIDIA 最近發(fā)布的 Blackwell 加速器類似，兩個相同的芯片被放置在一個封裝上，并通過高帶寬鏈路連接，以便為芯片提供統(tǒng)一的內(nèi)存地址空間。據(jù)英特爾稱，組合后的芯片將像單個芯片一樣工作，盡管該公司沒有透露連接芯片的芯片到芯片鏈路的任何重要細(xì)節(jié)，但目前尚不清楚實(shí)際上有多少帶寬可用于跨越die。

Habana 團(tuán)隊罕見地公開了該芯片 FP8 精度的總吞吐量：1835 TFLOPS，這是 Gaudi 2 FP8 性能的兩倍。更有趣的是，BF16 性能顯然比 Gaudi 2 提高了 4 倍英特爾尚未透露該模式的官方吞吐量數(shù)據(jù)，也沒有透露哪些架構(gòu)變化帶來了這種改進(jìn)。不管怎樣，如果英特爾想要在人工智能市場上分一杯羹，他們就需要最大限度地發(fā)揮 Gaudi 3 的性能。

這個芯片集成的是一個奇怪過時的 HBM2e 內(nèi)存控制器，與 Gaudi 2 支持的內(nèi)存類型相同。雖然英特爾對于 HBM3E 可能有點(diǎn)太早了，但我很驚訝沒有看到 HBM3 支持，無論是為了更大的內(nèi)存帶寬還是更大的內(nèi)存HBM3 譜系提供的容量。由于堅持使用 HBM2e，可用的最高容量堆棧為 16GB，為加速器提供了總共 128GB 的內(nèi)存。其時鐘頻率為 3.7Gbps/pin，總內(nèi)存帶寬為 3.7TB/秒。每個 Gaudi 3 芯片都提供 4 個 HBM2e PHY，使芯片的內(nèi)存堆棧總數(shù)達(dá)到 8 個。

同時，每個 Gaudi 3 芯片都具有 48MB 板載 SRAM，這為整個芯片提供 96MB SRAM。據(jù)英特爾稱，SRAM 總帶寬為 12.8TB/秒。

計算由 64 個第五代張量處理核心 (TPC) 和 8 個矩陣數(shù)學(xué)引擎 (MME) 處理，并通過圖形編譯器和軟件堆棧在兩個引擎之間協(xié)調(diào)工作負(fù)載。Gaudi 3 芯片包還包括 24 個 200 Gbps RoCE 以太網(wǎng)控制器，可提供縱向擴(kuò)展（盒內(nèi)）和橫向擴(kuò)展（節(jié)點(diǎn)到節(jié)點(diǎn)）連接，使 Gaudi 2 上的 100 Gbps 連接增加一倍。

歸根結(jié)底，主導(dǎo)當(dāng)今人工智能訓(xùn)練和推理工作負(fù)載的關(guān)鍵在于將加速器擴(kuò)展到更大集群的能力。英特爾的 Gaudi 采用了與Nvidia 即將推出的 B200 NVL72 系統(tǒng)不同的方法，在 Gaudi 3 加速器之間使用快速 200 Gbps 以太網(wǎng)連接，并將服務(wù)器與葉子和主干交換機(jī)配對以創(chuàng)建集群。

Nvidia 的系統(tǒng)級架構(gòu)利用 PCIe 接口上的 NVLink 實(shí)現(xiàn) GPU 之間的盒內(nèi)連接，并通過 NVLink 交換機(jī)使用無源銅纜布線連接整個機(jī)架。AMD 也有自己的方法，即在服務(wù)器中的 GPU 之間使用 PCIe 接口及其 Infinity Fabric 協(xié)議，同時使用外部 NIC 與其他節(jié)點(diǎn)進(jìn)行通信，但這比 Intel 將網(wǎng)絡(luò) NIC 直接內(nèi)置到服務(wù)器中的方法增加了更多的網(wǎng)絡(luò)成本和復(fù)雜性。

英特爾沒有透露 Gaudi 3 加速器的時鐘速度（值得一提，他們也沒有透露 Gaudi 2 的時鐘速度）。然而，鑒于英特爾現(xiàn)有硬件數(shù)量增加了一倍以上，我們可能會考慮整體較低的時鐘速度。即使使用更小的 5nm 芯片，兩個芯片也意味著需要提供更多的晶體管，而不需要大量的額外功率。

在這一點(diǎn)上，基本風(fēng)冷式 Gaudi 3 加速器的 TDP 為 900 瓦，比其前身的 600 瓦限制高出 50%。英特爾在這里使用 OAM 2.0 外形尺寸，它提供比 OAM 1.x (700W) 更高的功率限制。不過，英特爾還在開發(fā)并驗證 Gaudi 3 的液冷版本，它將提供更高的性能，以換取更高的 TDP。所有形式的 Gaudi 3 都將使用 PCIe 回程連接到其主機(jī) CPU，其中 Gaudi 3 配備 PCIe Gen 5 x16 鏈路。

總的來說，Gaudi 架構(gòu)的有限細(xì)節(jié)讓我想起了AMD 的 Instinct MI250X 加速器。從很多方面來說，CDNA 2 部件都是將一對芯片縮小的 MI100 放在一塊芯片上，帶來了一些新的架構(gòu)功能，但需要更多的硅來完成繁重的工作。然而，重要的是，MI250X 將自己呈現(xiàn)為兩個加速器（盡管芯片之間有 Infinity Fabric 鏈接），而 Gaudi 3 應(yīng)該表現(xiàn)為單個統(tǒng)一加速器。

網(wǎng)絡(luò)：以太網(wǎng)走向極致

除了 Gaudi 3 的核心架構(gòu)之外，Habana 對 Gaudi 3 的另一項重大技術(shù)升級是在 I/O 方面。回到 Gaudi 的早期，Habana 的芯片就依賴于全以太網(wǎng)架構(gòu)，使用以太網(wǎng)進(jìn)行節(jié)點(diǎn)內(nèi)芯片到芯片連接和橫向擴(kuò)展節(jié)點(diǎn)到節(jié)點(diǎn)連接。它本質(zhì)上與 NVIDIA 所做的相反，將以太網(wǎng)擴(kuò)展到芯片級別，而不是將 NVLink 擴(kuò)展到機(jī)架級別。

Gaudi 2 每個芯片提供 24 個 100Gb 以太網(wǎng)鏈路；Gaudi 3 將這些鏈路的帶寬增加了一倍，達(dá)到 200Gb/秒，使芯片的外部以太網(wǎng) I/O 總帶寬達(dá)到 8.4TB/秒的累計向上/向下。

Gaudi 3 的推薦拓?fù)洌ㄒ约坝⑻貭枌⒃谧约旱牡装逯胁捎玫耐負(fù)洌┦?21/3 分割。21 條鏈路將用于節(jié)點(diǎn)內(nèi)、芯片到芯片的連接，其中 3 條鏈路將連接到完全填充的 8 路節(jié)點(diǎn)上的其他 7 個 Gaudi 3 加速器。

與此同時，每個芯片的剩余 3 個鏈路將用于為六組 800Gb 八路小型可插拔 (OSFP) 以太網(wǎng)鏈路提供信號。通過使用重定時器，端口將被分成兩個塊，然后在 5 個加速器上進(jìn)行平衡。

最終，英特爾希望在性能和適銷性方面提升 Gaudi 3 的可擴(kuò)展性。由于最大的LLM需要將許多節(jié)點(diǎn)鏈接在一起形成一個集群，以提供訓(xùn)練所需的內(nèi)存和計算性能，英特爾通過 Gaudi 3 追逐的最大客戶將需要一個可以擴(kuò)展到這些大型的人工智能加速器，這為英特爾提供了充足的機(jī)會來銷售同樣數(shù)量的加速器。一直以來，英特爾都希望通過采用純以太網(wǎng)設(shè)置來贏得那些不想投資 InfiniBand 等專有/替代互連技術(shù)的客戶。

最終，英特爾已經(jīng)開發(fā)了多達(dá) 512 個節(jié)點(diǎn)的網(wǎng)絡(luò)拓?fù)洌褂?48 個主干交換機(jī)連接多達(dá) 32 個集群，每個集群包含 16 個節(jié)點(diǎn)。

Gaudi 有兩種外形尺寸，其中 OAM（OCP 加速器模塊）HL-325L 是基于高性能 GPU 的系統(tǒng)中常見的夾層外形尺寸。該加速器具有 128GB HBM2e（不是HBM3E），可提供 3.7 TB/s 的帶寬。它還具有 24 個 200 Gbps 以太網(wǎng) RDMA NIC。HL-325L OAM 模塊具有 900W TDP（可能有更高的 TDP，表面上采用液體冷卻），額定 FP8 性能為 1,835 TFLOPS。OAM 以每個服務(wù)器節(jié)點(diǎn) 8 個為一組進(jìn)行部署，然后可以擴(kuò)展到 1,024 個節(jié)點(diǎn)。

每臺服務(wù)器由八個 Gaudi 3 加速器組成，每個加速器通過 21 個 200 Gbps 以太網(wǎng)連接相互通信。每個設(shè)備上的其余三個以太網(wǎng)端口用于通過葉交換機(jī)與集群進(jìn)行外部通信。該交換機(jī)將這些連接聚合到帶有 OFSP 連接器的 6 個 800 Gbps 以太網(wǎng)端口中，以促進(jìn)與其他節(jié)點(diǎn)的通信。

每個機(jī)架通常包含四個節(jié)點(diǎn)，但這可能會根據(jù)機(jī)架功率限制和集群大小而有所不同。最多 16 個節(jié)點(diǎn)與三個以太網(wǎng)leaf交換機(jī)形成一個子集群，然后連接到主干交換機(jī)（通常具有 64 個端口），以形成更大的集群。800 Gbps leaf交換機(jī)上的 64 個端口中有一半連接到 16 個節(jié)點(diǎn)，其余一半連接到主干交換機(jī)。

根據(jù)集群的大小，使用不同數(shù)量的主干交換機(jī)，Intel 提供了一個示例，其中三個主干交換機(jī)用于由 512 個節(jié)點(diǎn)（4,096 個 Gaudi）組成的 32 個子集群。英特爾表示，這種配置為所有服務(wù)器到服務(wù)器的連接提供相同的帶寬（非阻塞所有到所有）。添加另一層以太網(wǎng)交換機(jī)可以支持多達(dá)數(shù)萬個加速器。

OAM 落入容納八個 OAM 的通用基板中。英特爾已經(jīng)向其合作伙伴發(fā)貨了 OAM 和基板，準(zhǔn)備在今年晚些時候全面上市。在 HLB-325 基板上擴(kuò)展到 8 個 OAM，可將 FP8 的性能提升至 14.6 PFLOPS，而所有其他指標(biāo)（例如內(nèi)存容量和帶寬）則呈線性擴(kuò)展。

英特爾還推出了 Gaudi 3 PCIe 雙槽附加卡，TDP 為 600W。該卡還具有 128GB HBMeE 和 24 個 200 Gbps 以太網(wǎng) NIC——英特爾表示，雙 400 Gbps NIC 用于橫向擴(kuò)展。英特爾表示 PCIe 卡的 FP8 性能峰值為 1,835 TFLOPS，與 OAM 相同，考慮到其 TDP 低 300W（這可能無法支持長時間工作負(fù)載），這一點(diǎn)很有趣。然而，盒子內(nèi)部的縮放受到更多限制，因為它被設(shè)計為四個一組工作。英特爾表示，該卡還可以橫向擴(kuò)展以創(chuàng)建更大的集群，但沒有提供詳細(xì)信息。

據(jù)英特爾稱，Gaudi 3 仍然可以進(jìn)一步擴(kuò)展，擴(kuò)展到數(shù)千個節(jié)點(diǎn)。

英特爾還宣布正在開發(fā)一款用于超以太網(wǎng)聯(lián)盟兼容網(wǎng)絡(luò)的 AI NIC ASIC 以及一款 AI NIC 小芯片，該芯片將用于其未來的 XPU 和 Gaudi 3 處理器，但他們沒有分享更多細(xì)節(jié)。

性能表現(xiàn)：在Llamas和Falcons

比賽中擊敗H100

在 Gaudi 加速器的整個生命周期中，英特爾和 Habana 更愿意專注于談?wù)撔酒男阅埽粌H僅是規(guī)格，對于 Gaudi 3 來說，這一點(diǎn)并沒有改變。由于 Vision 的大部分與會者都是商業(yè)客戶，英特爾希望通過基于基準(zhǔn)的性能數(shù)據(jù)來展示 Gaudi 3 的實(shí)際功能，從而引起轟動。

在對比中，Gaudi 團(tuán)隊選擇直接使用 NVIDIA 自己的基準(zhǔn)測試和結(jié)果集。換句話說，英特爾提供的 Gaudi 性能數(shù)據(jù)是根據(jù) NVIDIA 自己報告的數(shù)據(jù)繪制的，而不是英特爾編造的場景來對 NVIDIA 不利。也就是說，還必須指出的是，這些是性能預(yù)測，而不是組裝系統(tǒng)的測量性能。

英特爾聲稱，與 H100 相比，Gaudi 3 在 16 個加速器集群中以 FP8 精度訓(xùn)練 Llama2-13B 時，性能比 H100 快 1.7 倍。盡管 H100 已經(jīng)問世 2 年了，但如果它成功的話，在任何訓(xùn)練方面都大幅擊敗 H100 對于英特爾來說將是一個巨大的勝利。

與此同時，英特爾預(yù)計采用 Gaudi 3 的 H200/H100 的推理性能將提高 1.3 倍至 1.5 倍，也許最值得注意的是，功效將提高至 2.3 倍。

然而，一如既往，細(xì)節(jié)決定成敗。在這些推理工作負(fù)載中，英特爾有時仍然會輸給 H100，尤其是那些沒有 2K 輸出的工作負(fù)載，因此 Gaudi 3 還遠(yuǎn)未橫掃一切。當(dāng)然，還有英特爾沒有宣傳的所有基準(zhǔn)測試結(jié)果。

然而，值得贊揚(yáng)的是，英特爾是迄今為止唯一一家提供 MLPerf 結(jié)果的主要硬件制造商。因此，無論 Gaudi 3 的表現(xiàn)如何（以及 Gaudi 2 目前的表現(xiàn)），他們在發(fā)布行業(yè)標(biāo)準(zhǔn)測試結(jié)果方面比大多數(shù)人都光明正大得多。

Gaudi 3的軟件生態(tài)系統(tǒng)

正如 Nvidia 在 CUDA 領(lǐng)域的主導(dǎo)地位所表明的那樣，軟件生態(tài)系統(tǒng)與硬件一樣重要。英特爾宣傳其端到端軟件堆棧，并表示“大多數(shù)”工程師目前正在致力于加強(qiáng)支持。英特爾目前的重點(diǎn)是支持多模態(tài)訓(xùn)練和推理模型以及RAG（檢索增強(qiáng)生成）。

Hugging Face 擁有超過 600,000 個可用的 AI 模型檢查點(diǎn)，英特爾表示，其與 Hugging Face、PyTorch、DeepSpeed 和 Mosaic 的合作簡化了軟件移植過程，從而加快了部署 Gaudi 3 系統(tǒng)的周轉(zhuǎn)時間。英特爾表示，大多數(shù)程序員都在框架級別或更高級別進(jìn)行編程（即簡單地使用 PyTorch 并使用 Python 編寫腳本），并且使用 CUDA 進(jìn)行低級編程并不像人們想象的那么常見。

英特爾的工具旨在簡化移植過程，同時抽象出底層的復(fù)雜性，OneAPI 充當(dāng)?shù)讓觾?nèi)核和通信庫。這些庫遵循統(tǒng)一加速器基金會 (UXL)以及包括 Arm、英特爾、高通和三星等在內(nèi)的行業(yè)聯(lián)盟概述的規(guī)范，旨在提供 CUDA 的替代方案。PyTorch 2.0 針對使用 OneAPI 通過 Intel CPU 和 GPU 進(jìn)行推理和訓(xùn)練進(jìn)行了優(yōu)化。英特爾表示，其 OpenVino 也繼續(xù)受到快速采用，今年迄今為止下載量已超過 100 萬次。

一些想法

英特爾、Nvidia 和 AMD 都在采取不同的途徑來提供增強(qiáng)的集群可擴(kuò)展性，這對于人工智能訓(xùn)練和推理工作負(fù)載的性能至關(guān)重要。每種方法都有其各自的優(yōu)勢，但 Nvidia 專有的 NVLink 是最成熟、最完善的解決方案，其擴(kuò)展到機(jī)架規(guī)模架構(gòu)是一個顯著的優(yōu)勢。也就是說，英特爾基于以太網(wǎng)的網(wǎng)絡(luò)方法帶來了開放式解決方案，通過支持多個供應(yīng)商的網(wǎng)絡(luò)交換機(jī)提供了大量的定制選項，而且其內(nèi)置網(wǎng)卡還比 AMD 的競爭Instinct MI300 系列提供成本優(yōu)勢。

然而，Nvidia 的基于 Grace 的產(chǎn)品和 AMD 的 MI300A 都提供了復(fù)雜的合并 CPU+GPU 套件，在某些工作負(fù)載中將很難被擊敗，而英特爾由于取消了合并的 CPU+GPU 版本，繼續(xù)依賴單獨(dú)的 CPU 和加速器組件Falcon Shores。據(jù)報道，Nvidia 的新型 GB200 CPU+GPU 服務(wù)器占據(jù)了該公司 Blackwell 訂單的大部分，這凸顯了該行業(yè)對此類緊密耦合產(chǎn)品的巨大需求。

英特爾未來的 Falcon Shores 產(chǎn)品將以純?nèi)斯ぶ悄芗铀倨髟O(shè)計的形式推出，因此它仍然能夠與純 GPU 的 Nvidia 和 AMD 集群競爭。我們還看到了新一代 Gaudi 3 的空間，從 HBM2E 轉(zhuǎn)向 HBM3/E——AMD 和 Nvidia 在其 AI 產(chǎn)品中都采用了更快的內(nèi)存。盡管英特爾尚未分享硬數(shù)據(jù)，但英特爾表示，它還計劃在價格上展開積極競爭，這可能是一個強(qiáng)有力的良方，因為英偉達(dá)仍在努力應(yīng)對因 GPU 需求銳減而導(dǎo)致的短缺問題。

Falcon Shores 還將兼容針對 Gaudi 優(yōu)化的代碼，提供前向兼容性。英特爾還以過去幾個季度其 Gaudi 2 平臺的 3 倍改進(jìn)作為其平臺采用率增加的例子。

值得注意的是，英特爾沒有在此次活動中宣傳其 Ponte Vecchio GPU，考慮到英特爾取消了下一代 Rialto Bridge GPU ，這并不奇怪，因此我們預(yù)計該公司的 AI 工作將僅在 Gaudi 3 上進(jìn)行，因為它正在為 Falcon Shores 做準(zhǔn)備明年推出。

值得一提，風(fēng)冷式 Gaudi 3 型號已向合作伙伴提供樣品，并于第三季度全面上市。液冷型號將在第四季度推出。讓我們期待一下英特爾在這個市場的表現(xiàn)。

來源：半導(dǎo)體行業(yè)觀察

參考鏈接：

https://www.anandtech.com/show/21342/intel-introduces-gaudi-3-accelerator-going-bigger-and-aiming-higher

https://www.tomshardware.com/pc-components/cpus/intel-details-guadi-3-at-vision-2024-new-ai-accelerator-sampling-to-partners-now-volume-production-in-q3

https://www.nextplatform.com/2024/04/09/with-gaudi-3-intel-can-sell-ai-accelerators-to-the-pytorch-masses/

下載鏈接：

2024年中國安防視頻監(jiān)控SoC芯片行業(yè)研究報告：安防SoC市場喜迎百億爆發(fā)，眾企競逐后海思時代

邁向巔峰之路：中國成長型AI企業(yè)研究報告（2024）

2024安全大模型技術(shù)與市場研究報告

2024大模型典型示范應(yīng)用案例集

HBM專題：逐鹿頂尖工藝，HBM4的三國時代

AI Agent行業(yè)詞條報告：驅(qū)動智能交互變革，重塑服務(wù)生態(tài)

空間數(shù)據(jù)智能大模型研究：2024年中國空間數(shù)據(jù)智能戰(zhàn)略發(fā)展白皮書

企業(yè)競爭圖譜：2024年量子計算詞條報告

2024中國服務(wù)器CPU行業(yè)概覽：信創(chuàng)帶動服務(wù)器CPU國產(chǎn)化

HBM專題報告：跨越帶寬增長極限，HBM賦能AI新紀(jì)元