<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AMD Zen 5架構(gòu)深入研究

          共 14719字,需瀏覽 30分鐘

           ·

          2024-07-25 07:37

          AMD 在 Zen 5 技術(shù)日上詳細(xì)介紹了其 Zen 5 Ryzen 9000 "Granite Ridge" 和 Ryzen AI 300 系列 "Strix Point" 芯片,深入探討了公司下一代芯片。

          AMD 一直在緩慢地公布 Zen 5 處理器的細(xì)節(jié),但今天我們可以分享更多關(guān)于桌面和移動(dòng) Ryzen 處理器與競爭對手 Intel、Apple 和 Qualcomm 處理器的詳細(xì) AMD 基準(zhǔn)測試。

          AMD 還推出了一系列新主板,并深入介紹了 Zen 5 CPU、RDNA 3.5 GPU 和 XDNA 2 NPU 微架構(gòu)。

          下載鏈接:
          AMD:算力帝國的挑戰(zhàn)者(2024)
          英偉達(dá)GPU加速迭代,聚焦AI光通信核心廠商
          《Computex 2024系列主題演講合集》
          1、Computex 2024系列AMD主題演講:CPU+GPU+UA互聯(lián)廠商 2、Computex 2024英偉達(dá)主題演講:AI時(shí)代如何在全球范圍內(nèi)推動(dòng)新的工業(yè)革命
          科技前瞻專題:國際巨頭的端側(cè)AI布局(2024)
          AIoT白皮書:AI硬化向?qū)嵍?/a>
          異構(gòu)大規(guī)模分布式網(wǎng)絡(luò)設(shè)計(jì)與性能評估

          AI算力研究:英偉達(dá)B200再創(chuàng)算力奇跡,液冷、光模塊持續(xù)革新



          AMD 的 Zen 5 芯片采用全新的微架構(gòu),不斷改進(jìn),每周期指令 (IPC) 吞吐量平均提高 16%。正如您在上面的路線圖中看到的,Zen 5 架構(gòu)將在其生命周期內(nèi)跨越 4nm (N4P) 和 3nm 工藝節(jié)點(diǎn)。這意味著,就像該公司的其他幾代微架構(gòu)一樣,我們可以期待具有更高性能的第二代模型在更小的工藝節(jié)點(diǎn)上出現(xiàn)。

          AMD Zen 5 Ryzen 9000 "Granite Ridge" 基準(zhǔn)測試和規(guī)格
          我們已經(jīng)涵蓋了 Ryzen 9000 系列的產(chǎn)品堆棧,如下所示。需要提醒的是,除旗艦型號外,所有型號的 TDP 都低于其前代產(chǎn)品,但仍提供令人印象深刻的代際性能提升。AMD 仍未公布價(jià)格,但我們被告知將在 Ryzen 9000 的 7 月 31 日發(fā)布之前宣布價(jià)格。
          所有 Ryzen 9000 型號都可以插入現(xiàn)有的 AM5 平臺(tái),并支持即將推出的 800 系列芯片組系列。因此,這些芯片支持許多與之前相同的功能,包括 PCIe 5.0 和 DDR5-5600 內(nèi)存。與所有供應(yīng)商提供的基準(zhǔn)測試一樣,對這些測試結(jié)果應(yīng)持保留態(tài)度。




          AMD Zen 5 Ryzen 9000 系列性能
          AMD 之前分享了其旗艦 16 核 32 線程 Ryzen 9 9950X 相對于 Intel Core 9-14900K 的基準(zhǔn)測試,生產(chǎn)力性能平均提升 21%,游戲性能提升 11%。值得注意的是,生產(chǎn)力提升的一部分來自 Ryzen 9000 在 AVX-512 工作負(fù)載中的性能翻倍,但在其他類型的工作負(fù)載中的提升也同樣令人印象深刻。
          AMD 的 12 核 24 線程 Ryzen 9 9900X 在與 14900K 的比較中同樣令人印象深刻,在一系列生產(chǎn)力應(yīng)用中領(lǐng)先 2% 到 41%。在一系列游戲中,它也領(lǐng)先 4% 到 22%。總的來說,這些數(shù)字平均表現(xiàn)出對 Intel 旗艦產(chǎn)品在生產(chǎn)力和游戲方面的約 10% 的領(lǐng)先優(yōu)勢。
          Ryzen 9 9900X 的勝利尤為值得注意,因?yàn)檫@款 120/162W 的芯片(比前代峰值降低 68W)面對的是一款 125/253W 的 Intel 芯片,后者在移除功率限制后通常達(dá)到 350W。當(dāng)然,Intel 的 Arrow Lake 芯片將于今年晚些時(shí)候推出,以挑戰(zhàn)這一功率/性能領(lǐng)先地位。
          八核 16 線程的 Ryzen 7 9700X 在基準(zhǔn)測試中與 Core i7-14700K 競爭。盡管 AMD 的 65/88W 低功耗芯片面對的是 125/253W 的 Intel 模型,AMD 在生產(chǎn)力工作中的優(yōu)勢變得更加顯著。總體而言,AMD 聲稱在生產(chǎn)力應(yīng)用中領(lǐng)先約 13%,在游戲中領(lǐng)先 10%。
          六核 12 線程的 Ryzen 5 9600X 與 Core i5-14600K(分別為 88W 對 181W 的峰值功耗)競爭,在生產(chǎn)力性能方面領(lǐng)先 22%(除去 HandBrake 異常值則為 15%),在游戲中領(lǐng)先 11%。這代表了 Zen 5 CPU 堆棧底部的強(qiáng)勁性能提升。
          AMD 還包括了 AI 基準(zhǔn)測試,突出了其對 VNNI(AI 優(yōu)化指令集)的支持在 Zen 5 處理器上運(yùn)行 Llama 和 Mistral 大型語言模型(LLM)的優(yōu)勢。正如你所見,Ryzen 9 9900X 輕松擊敗了 14900K,但我們認(rèn)為這不是一個(gè)非常相關(guān)的比較——大多數(shù)人會(huì)直接在 GPU 上運(yùn)行這些模型。AMD 還展示了其相對于 Intel 當(dāng)前芯片的 PCIe 通道優(yōu)勢,這在運(yùn)行多個(gè) GPU 的 AI 模型時(shí)表現(xiàn)出更高的性能,同時(shí)保持附加 SSD 的完整 PCIe 5.0 速度。AMD 在這些 AI 工作負(fù)載中獲勝,但我們認(rèn)為這些對大多數(shù)桌面 PC 用戶來說不是相關(guān)的工作負(fù)載。
          AMD Ryzen 9000 系列游戲性能
          AMD 強(qiáng)調(diào)了 Zen 5 在游戲性能上的飛躍,比較了 9700X 和最快的 Zen 3 游戲芯片 Ryzen 7 5800X3D。在發(fā)布 AM4 平臺(tái)之后很久,Zen 3 驅(qū)動(dòng)的 5800X3D 仍在 AMD 的較新標(biāo)準(zhǔn) Zen 4 處理器中保持顯著的領(lǐng)先地位——到目前為止,它比最快的標(biāo)準(zhǔn) Zen 4 芯片高出約 8%。現(xiàn)在,你需要升級到更昂貴的 Zen 5 X3D 型號才能在游戲中超過 5800X3D,但 AMD 聲稱 Zen 5 Ryzen 7 9700X 在 1080p 游戲中比 5800X3D 快約 12%,盡管其功耗低 40W。
          值得注意的是,AMD 避免了將其新芯片與其前一代 Zen 4 模型進(jìn)行比較,但表示 9700X 將比目前市場上最好的游戲 CPU Ryzen 7 7800X3D 高出 "幾個(gè)百分點(diǎn)"。這些結(jié)果表明 Ryzen 7 9700X 比前一代 Ryzen 7 7700X 的游戲性能提高了約 20%。
          個(gè)別游戲結(jié)果仍然值得一看。在 AMD 的測試中,9700X 未能在某些游戲中擊敗 5800X3D,更不用說較新的 7800X3D 了。對于那些非常喜歡大 L3 緩存的游戲,IPC 和其他改進(jìn)仍然無法彌補(bǔ)差距,我們需要等待不可避免的 Zen 5 X3D 部件在今年晚些時(shí)候到來。
          TSMC N4P 節(jié)點(diǎn)和 Zen 5 IPC
          AMD 的工程師證實(shí)了我們對 Zen 5 處理器使用 TSMC N4P 節(jié)點(diǎn)的懷疑,這比 Zen 4 的 5nm 節(jié)點(diǎn)有了顯著的改進(jìn)。這很重要,因?yàn)?TSMC 的標(biāo)準(zhǔn) 4nm 節(jié)點(diǎn)(N4)比 5nm 改進(jìn)不大,而 N4P 在 4nm 系列中提供了最佳的代際改進(jìn)(TSMC 的 4nm 節(jié)點(diǎn)正式屬于其 5nm 系列)。
          TSMC 表示,N4P 節(jié)點(diǎn)比 N5(5nm)節(jié)點(diǎn)性能提升 11%,功效提升 22%,晶體管密度提高 6%(光學(xué)縮小)。此外,TSMC 表示,由于 EUV 層數(shù)的增加,該工藝的生產(chǎn)使用的掩膜數(shù)量減少了 6%,這意味著它更具成本效益。AMD 還為 TSMC 3nm 節(jié)點(diǎn)設(shè)計(jì)了 Zen 5 工藝,但該公司尚未提供該節(jié)點(diǎn)的詳細(xì)信息或這些芯片的發(fā)布日期。
          N4P 工藝節(jié)點(diǎn)顯然有助于提供更快且更高效的處理器性能。加上 16% 的 IPC 提升,AMD 的 Zen 5 前景非常光明。我們將在 Zen 5 架構(gòu)頁面深入探討 IPC 增益。首先,讓我們來看一下功效、超頻、主板和 Ryzen AI 300。
          Zen 5 Ryzen 9000 的功效與熱量表現(xiàn)
          AMD 表示,Ryzen 9000 系列運(yùn)行溫度顯著低于其前代產(chǎn)品,從而幫助保持頻率駐留在高位(更好的有效頻率和更長的加速時(shí)長)。這是由于熱阻提高了 15%,使得芯片在相同 TDP 下運(yùn)行溫度比 Zen 4 芯片低 7 攝氏度。

          正如上面的第二張幻燈片所示,Ryzen 9000 改進(jìn)的熱性能使得三款新桌面芯片的 TDP 得以降低,同時(shí)在重度多線程工作負(fù)載中提供了顯著的性能提升,這些工作負(fù)載將芯片推向了功率極限。AMD 使用 Blender 基準(zhǔn)測試來突出重負(fù)載下的性能改進(jìn)。
          部分功效改進(jìn)無疑是由于從 5nm 節(jié)點(diǎn)轉(zhuǎn)移到 N4P,但 AMD 還進(jìn)行了其他有針對性的優(yōu)化以提高性能。AMD 的工程師表示,Zen 4 設(shè)計(jì)中的熱點(diǎn)是一個(gè)挑戰(zhàn),因此他們減少了熱點(diǎn)數(shù)量,并更好地分散了計(jì)算芯片上的剩余熱點(diǎn)。工程師們還修復(fù)了 Zen 4 在整個(gè)芯片上分布的溫度傳感器的“次優(yōu)”布局。與更智能的固件控制算法配對,溫度傳感器的更好布局使得對可用溫度余量的控制更加精確。
          AMD 表示,結(jié)果是顯著減少了功耗,使系統(tǒng)比上一代型號以及 Intel 的競品 Raptor Lake Refresh 運(yùn)行得更冷、更安靜。
          新的 800 系列芯片組和超頻
          AMD 的原始 AM4 平臺(tái)以其長壽命著稱,自 2017 年推出以來支持了所有版本的 Ryzen(甚至包括之前的 Bristol Ridge 系列)。現(xiàn)在,它涵蓋了 145 個(gè) CPU 和 APU 型號,并且這個(gè)列表還在不斷增長。

          AMD 表示,我們可以期待 AM5 持續(xù)到 2027 年以后,因?yàn)樗彩菫殚L遠(yuǎn)考慮而設(shè)計(jì)的。AMD 已經(jīng)在 2024 年 Computex 展會(huì)上推出了其頂級的 X870 和 X870E 芯片組,最顯著的新增功能是強(qiáng)制加入 USB4 和 PCIe 5.0 支持,無論是用于圖形還是存儲(chǔ)。
          現(xiàn)在,AMD 正在宣布面向性價(jià)比導(dǎo)向的 B 系列芯片組,除了我們預(yù)期的標(biāo)準(zhǔn) B850,還新增了一個(gè)新的層級。新的 B840 主板介于廉價(jià)的 A 系列主板和標(biāo)準(zhǔn)完全支持超頻的 B850 之間。兩個(gè)層級之間有幾個(gè)區(qū)別。B840 完全支持內(nèi)存超頻,但不像高端型號那樣支持 CPU 超頻。B840 主板還只有一個(gè) PCIe 3.0 x16 連接——相對于 B850 主板上的 PCIe 5.0 和 4.0 連接,這是一個(gè)很大的削減。
          B850 和 B840 都支持 USB 3.2,而不是 X 系列主板上的強(qiáng)制 USB 4。盡管 AMD 的 AM5 定價(jià)問題在很大程度上已經(jīng)緩解,但 B840 的變化創(chuàng)造了一個(gè)更便宜的 B 系列主板,特別是為 OEM 提供了更多的價(jià)格靈活性。
          不幸的是,AMD 的 800 系列主板在 Ryzen 9000 處理器于月底發(fā)布時(shí)不會(huì)上市。AMD 表示,各主板供應(yīng)商將按各自的時(shí)間表發(fā)布,據(jù)我們早期的跡象顯示,第一批主板將在 9 月底到貨,比 Ryzen 9000 的發(fā)布日期晚了不少。Ryzen 9000 芯片完全兼容現(xiàn)有的 AM5 主板(需要進(jìn)行必要的 BIOS 更新),因此早期采用者有選擇。然而,分階段的發(fā)布顯然不是理想的。
          超頻增強(qiáng)和新功能
          AMD 還在超頻方面進(jìn)行了多項(xiàng)改進(jìn)。新的 800 系列 AM5 主板將支持比現(xiàn)有主板更高的內(nèi)存超頻上限。AMD 表示,800 系列可以支持高達(dá) DDR5-8000 的內(nèi)存超頻。Ryzen 9000 還增加了實(shí)時(shí)內(nèi)存超頻功能,允許你在 Ryzen Master 應(yīng)用程序中實(shí)時(shí)更改內(nèi)存速度和時(shí)序。
          AMD 還有一個(gè)新的內(nèi)存優(yōu)化性能配置文件,允許在 JEDEC 和 EXPO 超頻配置文件之間手動(dòng)或自動(dòng)切換,以根據(jù)正在運(yùn)行的應(yīng)用程序類型優(yōu)先考慮帶寬或延遲(時(shí)序)。你可以在 Ryzen Master 實(shí)用程序中在不同配置文件之間切換,或啟用自動(dòng)切換。關(guān)于這一機(jī)制的細(xì)節(jié)尚不完全清楚,但我們將在芯片到貨測試時(shí)了解更多。
          AMD 現(xiàn)有的 Curve Optimizer 功能允許你為整個(gè)電壓/頻率曲線設(shè)置一個(gè)負(fù)或正偏移,處理器然后在整個(gè)曲線上應(yīng)用這一偏移。新的 Curve Shaper 功能提供了更細(xì)致的控制,允許對三個(gè)溫度點(diǎn)和五個(gè)頻率點(diǎn)進(jìn)行調(diào)整,為用戶提供 15 個(gè)控制點(diǎn)。相對于現(xiàn)有機(jī)制允許的單點(diǎn)控制,這是一個(gè)重大增加。
          AMD 的 Ryzen Master 已經(jīng)有一個(gè)自動(dòng)測試選項(xiàng),可以分配 Curve Optimizer 偏移。這將繼續(xù)工作,但不會(huì)提供全 15 點(diǎn)的優(yōu)化——Curve Shaper 需要手動(dòng)調(diào)整。然而,這兩個(gè)功能可以結(jié)合使用,用戶可以在分配單個(gè) Curve Optimizer 值的基礎(chǔ)上增加 Curve Shaper 點(diǎn)(Curve Shaper 作為一種全局修改器,將調(diào)整所有分配的范圍)。
          自動(dòng)超頻 Precision Boost Overdrive (PBO) 也回歸了,AMD 表示,Ryzen 9000 的較低 TDP 范圍為 PBO 增益提供了更多空間。公司指出,在啟用 PBO 的情況下,Ryzen 5、7 和 9 處理器的多線程 Cinebench 性能提高了 6% 到 15%,但未在 PBO 示例中包含 Ryzen 9 9950X(可能是因?yàn)樵鲆姘俜直容^低)。我們將在評測中測試所有這些新的超頻旋鈕。
          在接下來的內(nèi)容中,我們將繼續(xù)探討 Ryzen AI 300 基準(zhǔn)測試,然后討論 CPU、GPU 和 NPU 架構(gòu)。
          AMD Zen 5 Ryzen AI 300 ‘Strix Point’ 游戲和生產(chǎn)力基準(zhǔn)測試
          AMD 還在 2024 年 Computex 展會(huì)上發(fā)布了 Ryzen AI 300 ‘Strix Point’ 處理器。首批搭載這些處理器的筆記本電腦將于本月在主要零售商處上市。雖然 AMD 沒有宣布任何新的 Strix Point 芯片,但分享了新的基準(zhǔn)測試結(jié)果。
          AMD 將推出 12 核、24 線程的 Ryzen AI 9 HX 370(四個(gè) Zen 5 核心和八個(gè)密度優(yōu)化的 Zen 5c 核心)和 10 核、20 線程的 Ryzen AI 9 365(四個(gè) Zen 5 核心和六個(gè) Zen 5c 核心)。
          公司的基準(zhǔn)測試重點(diǎn)比較了 Asus Zenbook S 16 上的 Ryzen AI 9 HX 370 與 Asus Vivobook S 16 上的 Intel Core Ultra 9 185H 以及 Samsung Galaxy Book 4 上的 Snapdragon X Elite X1E-84-100。
          AMD 的生產(chǎn)力基準(zhǔn)測試顯示,在 PCMark 10 的應(yīng)用啟動(dòng)測試中,Ryzen 處理器有 7% 的優(yōu)勢,在完整的 PCMark 10 基準(zhǔn)測試中有 13% 的領(lǐng)先,在 Procyon 辦公生產(chǎn)力套件中有 21% 的領(lǐng)先,在 Kraken 網(wǎng)頁瀏覽 JavaScript 基準(zhǔn)測試中有 30% 的優(yōu)勢。然而,這些百分比似乎是相對于 Intel Core Ultra 芯片的,而不是 Snapdragon 筆記本。缺少標(biāo)記軸使得與 X Elite 的比較變得困難。
          在內(nèi)容創(chuàng)作測試中,我們看到了另一輪有些難以理解的結(jié)果,但除了單線程 Cinebench 2024 基準(zhǔn)測試外,Ryzen 處理器在所有測試中都占據(jù)了總體領(lǐng)先地位。在 Cinebench 2024 基準(zhǔn)測試中,Snapdragon X Elite 占據(jù)領(lǐng)先地位,盡管 AMD 芯片上標(biāo)有 1.2 倍的標(biāo)簽,X Elite 也在多線程 Cinebench 基準(zhǔn)測試中緊追其后。AMD 在 Blender 基準(zhǔn)測試中享有巨大的優(yōu)勢,并在 HandBrake 和 PCMark 10 中也取得了可觀的領(lǐng)先。
          AMD 還在游戲中對其競爭對手進(jìn)行了挑戰(zhàn),聲稱比 Intel Core Ultra 9 處理器有 27% 到 65% 的領(lǐng)先優(yōu)勢。然而,由于圖表標(biāo)簽不清晰,X Elite 的具體優(yōu)勢仍然難以辨別。AMD 快速指出,三個(gè)游戲標(biāo)題在 X Elite 處理器上無法運(yùn)行,這并不完全令人驚訝。
          我們總是預(yù)期供應(yīng)商提供的基準(zhǔn)測試結(jié)果會(huì)有不一致之處,因此對這些結(jié)果應(yīng)持保留態(tài)度。測試說明(相冊末尾)還指出,Intel 處理器只有 16GB 內(nèi)存,而 Ryzen 處理器有 32GB 內(nèi)存,這引發(fā)了 Intel 系統(tǒng)是否運(yùn)行在性能不佳的單通道配置中的疑問——希望不是如此,但內(nèi)存配置不一致顯然不理想。
          直接對比 Apple M 系列處理器的性能
          AMD 傳統(tǒng)上避免直接與 Apple M 系列處理器進(jìn)行性能對比。然而,華碩在活動(dòng)上展示了其搭載 AMD 處理器的新款 Zenbook S 16,并分享了一些自己的基準(zhǔn)測試,以突出 Ryzen AI 9 HX 370 在與搭載 M3 處理器的 Apple MacBook Air 15 比較時(shí)的性能。華碩在幻燈片中提供的測試配置信息很少,因此我們對這些基準(zhǔn)測試結(jié)果要持保留態(tài)度。
          華碩聲稱在 Geekbench OpenCL CPU 分?jǐn)?shù)基準(zhǔn)測試中領(lǐng)先 20%,在 UL Procyon 基準(zhǔn)測試中則領(lǐng)先高達(dá) 118%。其他顯著的領(lǐng)先包括在 Cinebench(很可能是多線程基準(zhǔn)測試)中領(lǐng)先 60% 以及在 Geekbench CPU 分?jǐn)?shù)中領(lǐng)先 20%。
          華碩還展示了 AMD 的 Fluid Motion Frames (AFMF) 和 54W Strix Point 的 Radeon 890M 集成顯卡的性能增益,顯示組合性能超過了一個(gè)獨(dú)立的 RTX 2050 GPU(60W GPU + 45W CPU)。正如預(yù)期的那樣,Radeon 只有在 AFMF 增加額外幀時(shí)才占據(jù)領(lǐng)先,AFMF 是一種幀生成的驅(qū)動(dòng)級實(shí)現(xiàn),并不總是如圖表所示那樣有效(我們在上面的幻燈片中有兩張同樣的幻燈片,一張是沒有 AFMF 的 Radeon 分?jǐn)?shù),另一張是啟用 AFMF 的比較幻燈片)。
          AMD Zen 5 微架構(gòu)

          Zen 架構(gòu)于 2017 年首次亮相,比 Bulldozer 提高了 52% 的 IPC,自那以來每一代都實(shí)現(xiàn)了兩位數(shù)的 IPC 增長。Zen 5 的 IPC 提高了 16%,這是通過 13 個(gè)工作負(fù)載測量的。Zen 5 顯著提高了矢量數(shù)學(xué)性能,在單核機(jī)器學(xué)習(xí)(VNNI)中比 Zen 4 提高了 32%,在單核 AES-XTS 加密工作負(fù)載(AVX-512)中提高了 35%,這些都是通過 Geekbench 子測試測量的。
          Zen 5 是一個(gè)全面改進(jìn)的架構(gòu),其首席架構(gòu)師 Mike Clark 表示,這將成為未來幾代微架構(gòu)的基礎(chǔ)。它還將用于采用 TSMC 4nm 和 3nm 工藝節(jié)點(diǎn)的芯片,并且有并行的跨越團(tuán)隊(duì)在這兩種設(shè)計(jì)上工作。

          與 Zen 4 處理器一樣,核心計(jì)算晶粒(CCD)最多有八個(gè)核心和一個(gè)大的 32MB 共享 L3 中心。兩個(gè) CCD 連接到與 Zen 4 處理器相同的 6nm I/O Die(IOD),因此該芯片提供相同的圖形支持和基本連接選項(xiàng)。你可以在上面的第二張圖片中看到 Ryzen 9000 的示意圖。
          AMD 沒有分享任何關(guān)于緊湊型 Zen 5c 核心的新幻燈片,但我們揭示了一些細(xì)節(jié)。需要提醒的是,AMD 的 Zen 5c 核心設(shè)計(jì)比“標(biāo)準(zhǔn)” Zen 5 性能核心占用更少的晶粒空間,同時(shí)為不太需要的任務(wù)提供足夠的性能,從而節(jié)省功耗并在每平方毫米上提供更多的計(jì)算性能(深度解析見此)。
          Intel 的 E-Cores 采用類似的方法,但 AMD 的 Zen 5c 使用與標(biāo)準(zhǔn) Zen 5 核心相同的微架構(gòu),并支持相同的功能,而其核心較小。相比之下,Intel 的設(shè)計(jì)在每種核心類型上采用不同的架構(gòu)和功能支持。較小的 Zen 5c 核心以較低的時(shí)鐘速率運(yùn)行,提供的峰值性能比標(biāo)準(zhǔn)核心低,但它們也為其他元素(如更大的 GPU 和 NPU)保留了晶粒面積。
          上面可以看到之前共享的顯示 Ryzen AI 300 處理器平面圖的圖像,以及隨后顯示砂磨后的晶粒圖像,揭示了封面下的架構(gòu)。這顯示了令人驚訝的細(xì)節(jié)。四個(gè)標(biāo)準(zhǔn) Zen 4 核心排列在 Zen 5 核心群的底部,八個(gè) Zen 5C 核心排列在頂部。
          這兩種核心類型都有各自的 L1 和 L2 緩存,但 16MB 的 L3 緩存被分成兩個(gè) 8MB 的切片,一個(gè)切片在 Zen 5C 核心之間共享,另一個(gè)切片在標(biāo)準(zhǔn) Zen 5 核心之間共享(這可以在框圖中看到為八個(gè) Zen 5C 核心中間的一條線)。
          因此,這兩個(gè) L3 緩存必須通過數(shù)據(jù)織構(gòu)相互通信,就像 AMD 舊的 Zen 2 架構(gòu)中的 CCX-to-CCX 緩存一致性機(jī)制一樣。這確實(shí)會(huì)引入緩存到緩存?zhèn)鬏數(shù)母哐舆t,AMD 表示“并不比你去內(nèi)存所需的時(shí)間多”。因此,AMD 使用 Windows 調(diào)度機(jī)制試圖將工作負(fù)載限制在 Zen 5 或 5C 核心上,以減少高延遲傳輸?shù)陌l(fā)生,后臺(tái)工作負(fù)載通常分配給 5C 核心。AMD 將研究在實(shí)際應(yīng)用中在這兩種核心類型上運(yùn)行的并發(fā)應(yīng)用程序的行為,從而不斷評估在未來設(shè)計(jì)中是否統(tǒng)一 L3 緩存是合理的。
          該設(shè)計(jì)將三個(gè)計(jì)算引擎——CPU、NPU 和 GPU——與數(shù)據(jù)織構(gòu)連接在一起。每個(gè) CPU 集群(Zen 5 和 5C)都有一個(gè) 32B/周期的接口,而 GPU 在數(shù)據(jù)織構(gòu)中有四個(gè) 32B/周期的接口,XDNA 引擎有一個(gè) 32B/周期的接口。
          AMD 重新設(shè)計(jì)了設(shè)計(jì)前端,改進(jìn)了取指、解碼和調(diào)度元素,以供給更寬的執(zhí)行引擎。它還將 L2 和 L1 緩存之間以及 L1 到浮點(diǎn)單元之間的數(shù)據(jù)帶寬加倍,這有助于實(shí)現(xiàn)代際游戲性能的提升。
          前端采用了雙管道取指和改進(jìn)的分支預(yù)測精度,從而每個(gè)周期提供更多的預(yù)測(TAGE 分支預(yù)測引擎)。這些預(yù)測被送入現(xiàn)在雙端口的指令和操作緩存,從而減少延遲。AMD 還添加了一個(gè)雙 4 寬解碼路徑,供給微操作隊(duì)列,然后是八寬調(diào)度。
          Zen 執(zhí)行引擎長期以來支持每周期最多六條指令和四個(gè)算術(shù)邏輯單元(ALU)進(jìn)行整數(shù)執(zhí)行。Zen 5 是 AMD 首次將 Zen 執(zhí)行引擎擴(kuò)展到支持每周期調(diào)度和退休最多八條指令,從而滿足來自前端的增加的指令吞吐量。
          Zen 4 為整數(shù)單元提供了四個(gè)調(diào)度器,而 Zen 5 為所有六個(gè) ALU 單元提供了統(tǒng)一的 ALU 調(diào)度器。執(zhí)行窗口也擴(kuò)大了 40%(最多 448 個(gè)未完成的操作),以更好地處理更寬調(diào)度和執(zhí)行帶來的額外未命中。
          AMD RDNA 3.5
          AMD 的 RDNA 3.5 引擎為 Strix Point 處理器中的 Radeon 890M 和 880M 集成顯卡提供動(dòng)力,但 AMD 并未在 Ryzen 9000 處理器中使用它們——這些處理器仍然采用 RDNA 2 架構(gòu)。
          AMD 的 Mark Papermaster 將公司與三星的合作(公司將其 RDNA 圖形 IP 授權(quán)用于 Galaxy 智能手機(jī))視為了解低功耗環(huán)境的關(guān)鍵來源。這些經(jīng)驗(yàn)對同樣受電池電量限制的其他移動(dòng)設(shè)計(jì)(如筆記本電腦)也非常有用。
          AMD 將這些經(jīng)驗(yàn)融入 RDNA 3.5 中,這是對 RDNA 3 引擎的漸進(jìn)改進(jìn),通過一系列優(yōu)化提高了每瓦特的性能,包括對紋理和著色引擎的有針對性的改變。該設(shè)計(jì)還通過優(yōu)化內(nèi)存子系統(tǒng)提高了每比特性能。Papermaster 表示,這些變化帶來了“單位能量消耗的雙位數(shù)性能提升”。
          其他改進(jìn)包括通過將紋理采樣單元數(shù)量翻倍來實(shí)現(xiàn)紋理采樣率的翻倍,以為游戲紋理引入更多并行性。AMD 還將像素插值和比較率翻倍,并添加了一個(gè)標(biāo)量算術(shù)邏輯單元來識(shí)別單次寫入操作,然后丟棄它們以提高性能和效率。Papermaster 還指出了一種全新的方法,通過創(chuàng)建更小的子批次來減少對 LPDDR5 內(nèi)存的訪問,并優(yōu)化內(nèi)存壓縮以減少數(shù)據(jù)傳輸,這兩者都節(jié)省了電能并提高了性能。
          AMD XDNA 2 NPU 架構(gòu)
          AMD 的 Ryzen AI 300 系列是該公司第三代內(nèi)置神經(jīng)處理單元 (NPU) 的處理器。AMD 的 Phoenix 芯片是首款帶有內(nèi)置 NPU 的 x86 處理器,通過 XDNA NPU 提供 10 TOPS 的性能,而 AMD 通過第二代 Hawk Point 模型將這一性能提升至 16 TOPS。然而,這些增益來自于時(shí)鐘速度的提升,而不是 XDNA 架構(gòu)的變化。
          Strix Point 通過第二代 XDNA 2 引擎將 NPU 性能提升至 50 TOPS,這項(xiàng)技術(shù)源于 AMD 對 Xilinx 的收購。除了速度和供給的提升,我們還可以看到本地 AI 加速的最大合理性之一——節(jié)能。在這里,AMD 表明其 XDNA 2 引擎在運(yùn)行 AI 模型時(shí)比 CPU 節(jié)能高達(dá) 35 倍,而這一能力對于長時(shí)間的后臺(tái)工作負(fù)載至關(guān)重要,這是 NPU 的最佳應(yīng)用場景。
          XDNA 2 引擎是一個(gè)空間數(shù)據(jù)流架構(gòu),具有二維計(jì)算瓦片陣列,通過一個(gè)靈活的互連網(wǎng)絡(luò)連接在一起,可以在運(yùn)行時(shí)編程以創(chuàng)建自定義計(jì)算層次結(jié)構(gòu)。AMD 表示,所有其他 NPU 都有固定的層次結(jié)構(gòu),并且沒有 XDNA 2 的互連結(jié)構(gòu)中提供的 TB 級東西向帶寬。該架構(gòu)還在陣列中放置了 SRAM 緩存。AMD 聲稱無緩存設(shè)計(jì)提供了非常確定性的延遲——這是 AI 工作負(fù)載的關(guān)鍵——可編程互連通過允許單元之間的無縫數(shù)據(jù)多播最大化帶寬,以減少對互連結(jié)構(gòu)的流量。
          該設(shè)計(jì)還支持靈活的實(shí)時(shí)分區(qū)。例如,一個(gè) AIE 計(jì)算瓦片列可以專用于輕量級工作負(fù)載,而一個(gè)四列陣列可以分配給較重的任務(wù)。這種技術(shù)旨在優(yōu)化功率、性能、帶寬和延遲,同時(shí)運(yùn)行并發(fā)的 AI 模型。
          架構(gòu)增強(qiáng)增加了每個(gè)瓦片的處理能力,但 AMD 還必須將瓦片數(shù)量從 20 增加到 32 才能達(dá)到 50 TOPS 的目標(biāo)。公司還增加了 1.6 倍的片上內(nèi)存,并將每個(gè)瓦片的 MAC(乘法累加器)數(shù)量增加了一倍。
          XDNA 2 引擎的架構(gòu)變化使其計(jì)算能力提高了 5 倍,能效提高了 2 倍。XDNA 2 還支持同時(shí)運(yùn)行多達(dá) 8 個(gè) AI 模型。

          NPU 性能通常通過 INT8 工作負(fù)載中的性能來衡量,這是一種不太精確的數(shù)據(jù)類型,使用較少的計(jì)算和內(nèi)存來運(yùn)行模型。然而,模型必須首先量化為 INT8 格式,并且在此過程中會(huì)損失一些精度。
          AMD 的 XDNA 2 NPU 支持 Block BF16,一種據(jù)稱提供與 FP16 相同精度且具有許多與 INT8 相同計(jì)算和內(nèi)存特征的新數(shù)據(jù)格式。AMD 表示 Block FP16 與其實(shí)現(xiàn)即插即用;它不需要對現(xiàn)有模型進(jìn)行量化、調(diào)優(yōu)或重新訓(xùn)練。
          AMD 聲稱擁有市場上唯一支持 Block FP16 的 NPU,但英特爾表示 Lunar Lake 也支持這種數(shù)學(xué)格式。AMD 的代表似乎對英特爾對這種格式的支持并不熟悉,他們承認(rèn)這會(huì)使上述基準(zhǔn)中的 Lunar Lake 性能預(yù)測失效。
          觀點(diǎn)
          Ryzen 9000 “Granite Ridge” 處理器將在 7 月 31 日發(fā)布,時(shí)機(jī)非常合適。英特爾的旗艦發(fā)燒級處理器存在廣泛的崩潰問題,這一未解決的問題以及競爭對手 Arrow Lake 處理器要到今年晚些時(shí)候才會(huì)上市,這可能會(huì)讓 AMD 在幾個(gè)月內(nèi)贏得性能桂冠。Ryzen 9000 準(zhǔn)備迎接英特爾即將推出的芯片,16% 的 IPC 提升在性能方面提升了所有領(lǐng)域,而低端型號的 TDP 減少多達(dá) 40% 則利用了 AMD 的功耗優(yōu)勢。
          然而,Arrow Lake 將是一個(gè)強(qiáng)勁的競爭對手——它將是首款采用英特爾新 20A 工藝節(jié)點(diǎn)的處理器。這個(gè)節(jié)點(diǎn)具有英特爾首個(gè)背面供電(PowerVia)和全環(huán)柵極(GAA/RibbonFET)晶體管。芯片還據(jù)說配備了新的 Lion Cove P 核和 Skymont E 核,再次標(biāo)志著向前邁出重要一步,應(yīng)能在桌面 PC 市場保持激烈競爭。
          搭載 AMD Ryzen AI 300 “Strix Point” 處理器的筆記本電腦將于本月上市,時(shí)機(jī)再好不過——高通的 Snapdragon X Elite Arm 處理器憑借成為唯一符合微軟要求以品牌為 Windows Copilot+ PC 的系統(tǒng)而出盡風(fēng)頭。
          看來 AMD 的官方 Copilot+ 認(rèn)證要到今年晚些時(shí)候才會(huì)推出。不過,即便只增加了 5 個(gè) TOPS 的 NPU 性能,能夠提供具備更高 TOPS 性能的 AI 電腦也是一個(gè)營銷勝利,將有助于 AMD 在 AI PC 升級熱潮中保持關(guān)注。AMD 還享有擊敗英特爾 Lunar Lake 上市的優(yōu)勢,暫時(shí)獲得了一些喘息空間。并且 AMD 無需擔(dān)心 x86 仿真或圖形驅(qū)動(dòng)問題,這是高通仍在努力解決的問題。
          Zen 5 Ryzen 9000 “Granite Ridge” 處理器將于 7 月 31 日發(fā)布,搭載 Ryzen AI 300 “Strix Point” 的筆記本電腦也將于本月底上架。
          原文:
          https://www.tomshardware.com/pc-components/cpus/amd-deep-dives-zen-5-ryzen-9000-and-strix-point-cpu-rdna-35-gpu-and-xdna-2-architectures
          來源:EETOP

          下載鏈接:

          2024年中國安防視頻監(jiān)控SoC芯片行業(yè)研究報(bào)告:安防SoC市場喜迎百億爆發(fā),眾企競逐后海思時(shí)代

          邁向巔峰之路:中國成長型AI企業(yè)研究報(bào)告(2024)

          2024安全大模型技術(shù)與市場研究報(bào)告

          2024大模型典型示范應(yīng)用案例集

          HBM專題:逐鹿頂尖工藝,HBM4的三國時(shí)代

          AI Agent行業(yè)詞條報(bào)告:驅(qū)動(dòng)智能交互變革,重塑服務(wù)生態(tài)

          空間數(shù)據(jù)智能大模型研究:2024年中國空間數(shù)據(jù)智能戰(zhàn)略發(fā)展白皮書

          企業(yè)競爭圖譜:2024年量子計(jì)算詞條報(bào)告

          2024中國服務(wù)器CPU行業(yè)概覽:信創(chuàng)帶動(dòng)服務(wù)器CPU國產(chǎn)化

          HBM專題報(bào)告:跨越帶寬增長極限,HBM賦能AI新紀(jì)元

          2024基于標(biāo)準(zhǔn)PCIe接口的人工智能加速卡液冷設(shè)計(jì)白皮書

          大模型時(shí)代的算力和存儲(chǔ)產(chǎn)業(yè)新機(jī)遇

          《新型智算中心改造系列報(bào)告合集》

          1、新型智算中心改造系列報(bào)告二:拉動(dòng)全球電力消耗增長,液冷滲透率快速提升 2、新型智算中心改造系列報(bào)告一:網(wǎng)絡(luò)成大模型訓(xùn)練瓶頸,節(jié)點(diǎn)內(nèi)外多方案并存

          《國產(chǎn)異構(gòu)處理器定位優(yōu)化技術(shù)合集》

          1、面向申威眾核處理器的規(guī)則處理優(yōu)化技術(shù) 2、神威超級計(jì)算機(jī)運(yùn)行時(shí)故障定位方法

          2024中國半導(dǎo)體深度分析與展望報(bào)告

          面向異構(gòu)硬件架構(gòu)軟件支撐和優(yōu)化技術(shù)

          AI大模型賦能手機(jī)終端,擁抱AI手機(jī)新機(jī)遇

          全球AI算力行業(yè)首次覆蓋:從云到端,云端協(xié)同,AI開啟科技行業(yè)超級成長周期

          2024年中國大模型行業(yè)應(yīng)用研究:大模型引領(lǐng)智能時(shí)代,助力各行業(yè)全面升級

          《半導(dǎo)體行業(yè)系列專題合集》

          1、半導(dǎo)體行業(yè)系列專題:刻蝕—半導(dǎo)體制造核心設(shè)備,國產(chǎn)化典范

          2、半導(dǎo)體行業(yè)系列專題:碳化硅—襯底產(chǎn)能持續(xù)擴(kuò)充,加速國產(chǎn)化機(jī)會(huì) 

          3、半導(dǎo)體行業(yè)系列專題:直寫光刻篇,行業(yè)技術(shù)升級加速應(yīng)用滲透 

          4、半導(dǎo)體行業(yè)系列專題:先進(jìn)封裝—先進(jìn)封裝大有可為,上下游產(chǎn)業(yè)鏈?zhǔn)芤?/span>

          “人工智能+”進(jìn)入爆發(fā)臨界,開啟繁榮生態(tài)前景

          鯤鵬處理器軟件性能調(diào)優(yōu)(精編版)

          《算力網(wǎng)絡(luò):光網(wǎng)絡(luò)技術(shù)合集(1)》

          1、面向算力網(wǎng)絡(luò)的新型全光網(wǎng)技術(shù)發(fā)展及關(guān)鍵器件探討 

          2、面向算力網(wǎng)絡(luò)的光網(wǎng)絡(luò)智能化架構(gòu)與技術(shù)白皮書 

          3、2023開放光網(wǎng)絡(luò)系統(tǒng)驗(yàn)證測試規(guī)范 

          4、面向通感算一體化光網(wǎng)絡(luò)的光纖傳感技術(shù)白皮書

          《算力網(wǎng)絡(luò):光網(wǎng)絡(luò)技術(shù)合集(2)》

          1、數(shù)據(jù)中心互聯(lián)開放光傳輸系統(tǒng)設(shè)計(jì) 

          2、確定性光傳輸支撐廣域長距算力互聯(lián) 

          3、面向時(shí)隙光交換網(wǎng)絡(luò)的納秒級時(shí)間同步技術(shù) 

          4、數(shù)據(jù)中心光互聯(lián)模塊發(fā)展趨勢及新技術(shù)研究

          面向超萬卡集群的新型智算技術(shù)白皮書

          面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書

          網(wǎng)絡(luò)系列報(bào)告之交換機(jī)概覽:IB性能占優(yōu),以太網(wǎng)開放占優(yōu)

          中國分布式存儲(chǔ)產(chǎn)業(yè)未來發(fā)展空間廣闊(2024)


          本號資料全部上傳至知識(shí)星球,更多內(nèi)容請登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。




          免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。



          溫馨提示:

          請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。


          瀏覽 92
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品国产18久久久久久 | 亚洲色图成人在线 | 日本操逼网站 | 黄色级级级级级级级级级级级级 | 麻豆传媒一区二区 |