Arm最強(qiáng)CPU及GPU內(nèi)核發(fā)布:聯(lián)發(fā)科天璣9400將首發(fā)!
共 8014字,需瀏覽 17分鐘
·
2024-05-30 12:35
5月30日消息,當(dāng)?shù)貢r(shí)間周三,Arm在其全面計(jì)算解決方案(CSS)取得成功的基礎(chǔ)上,正式發(fā)布了首款面向客戶端產(chǎn)品的 Arm 計(jì)算子系統(tǒng) ——CSS for Client,以及新的 Arm Kleidi 軟件,大大簡(jiǎn)化了運(yùn)行 Android、Linux 和 Windows 的臺(tái)式機(jī)、筆記本電腦、平板電腦處理器的開發(fā)和人工智能(AI)的部署。
CSS for Client包括最新的Armv9.2指令集的CPU集群,即最高性能的Cortex-X925 CPU、最高效的Cortex-A725 CPU和更新后的Arm Cortex-A520 CPU;Arm Immortalis GPU和 Mali GPU;CoreLink 互連系統(tǒng) IP;以及用于領(lǐng)先代工廠 3nm 工藝的 CPU 和 GPU 的生產(chǎn)就緒物理實(shí)現(xiàn)。
Arm表示,CSS for Client 是 Arm 迄今為止最快的 Android 平臺(tái),與 TCS23 平臺(tái)相比,在關(guān)鍵基準(zhǔn)測(cè)試和通用計(jì)算用例方面有了顯著改進(jìn)。同時(shí),CSS for Client也是 AI 驅(qū)動(dòng)體驗(yàn)的計(jì)算基礎(chǔ),可在最廣泛的消費(fèi)類設(shè)備中實(shí)現(xiàn)性能、效率和可擴(kuò)展性的階躍式變化。
“該平臺(tái)為我們的合作伙伴提供了最快的芯片生產(chǎn)途徑。這些物理實(shí)現(xiàn)使 Arm 的合作伙伴能夠釋放領(lǐng)先 3nm 工藝的所有優(yōu)勢(shì),同時(shí)實(shí)現(xiàn)高度靈活、可定制的硅設(shè)計(jì)。”Arm在其官方博客中寫道。
Cortex-X925 CPU:?jiǎn)尉€程性能提升36%,AI算力提升50%
Arm臺(tái)灣總裁曾志光指出,Cortex-X925的前一代是Cortex-X4,由于IPC(每周期指令)史上大幅提升,因此更改名稱來凸顯與前代產(chǎn)品的差異。但下一代名稱是否從這個(gè)編號(hào)繼續(xù)沿用下去,要等到明年新產(chǎn)品揭曉。
Cortex-X925是Arm迄今為止最為強(qiáng)大的CPU內(nèi)核,基于最新的Armv9.2指令集,可以支持支持 SVE、SVE2指令,主頻最高可達(dá)3.8GHz(常規(guī)為3.6GHz),并且通過DSU-120(DynamIQ共享單元)可以實(shí)現(xiàn)最高14核集群,適用于從旗艦智能手機(jī)到筆記本電腦的設(shè)備。
具體到性能方面,Arm終端產(chǎn)品事業(yè)部產(chǎn)品管理副總經(jīng)理James McNiven表示,Cortex-X925這次帶來了兩方面的性能提升:一是在Geekbench中,單線程性能提升了36%,達(dá)到了歷史上最大的同比性能提升;二是相對(duì)于上一代的Cortex-X4 CPU,Cortex-X925的AI性能大幅提升,基于Tiny-Llama模型的首個(gè)token生成時(shí)間,縮短了41%,可大幅改善大型語言模型的初始響應(yīng)速度。
McNiven指出,Cortex-X925之所以能夠有如此大的性能提升,主要是因?yàn)锳rm對(duì)微構(gòu)架進(jìn)行重大改變,使AI算力TOPS增加了50%,并采用更大的3MB的私有L2緩存(也可以配置為2MB),同時(shí)通過RTL和實(shí)體設(shè)計(jì)團(tuán)隊(duì)間的合作,達(dá)成在3nm制程的最優(yōu)化。
Arm稱,通過DSU-120實(shí)現(xiàn)的最高14核由于Cortex-X925集群,可以提供“個(gè)人電腦的終極性能”,相比當(dāng)前已上市的筆記本電腦性能高出25%,將助力Windows on Arm筆記本電腦。
Cortex-A725:性能提升12%,能效提升25%
Cortex-A725 也是一款超高效的基于 Armv9.2 指令集架構(gòu)的CPU,可在受限的功率包絡(luò)內(nèi)提供業(yè)界領(lǐng)先的持續(xù)性能。這款 AArch64 位 CPU 配備了更新的 DSU-120(DynamIQ共享單元),可以與 Cortex-X925 和 Cortex-A520 結(jié)合使用。LITTLE 配置。
與 Arm Cortex-A720 相比,Cortex-A725的微架構(gòu)改進(jìn)可提供 25% 的效率和 12% 的性能提升。為成本受限的市場(chǎng)量身定制的配置選項(xiàng),在相同的硅面積范圍內(nèi),與 Armv8.2 的Cortex-A720相比,性能提高了兩位數(shù)。
另外,Cortex-A725的L2 緩存大小增加了一倍,再加上更新的 Arm DSU-120 的功耗改進(jìn),可大幅節(jié)省功耗,從而提高效率。
總體來看,Cortex-A725在性能效率上比上一代A720提高了35%。
新版Cortex-A520 CPU:功耗可降低22%,性能提升8%
Cortex-A520是Arm去年發(fā)布的2023全面計(jì)算解決方案(TCS23)當(dāng)中的一款全新64位CPU,此次,Arm對(duì)其進(jìn)行了進(jìn)一步的更新,升級(jí)為最新的Armv9.2 架構(gòu),并帶來了新的 QARMA3 PAC 算法,降低了性能成本,加強(qiáng)了 PAC 在消費(fèi)技術(shù)市場(chǎng)的部署,可提供更高的電源效率,并針對(duì)后臺(tái)和輕量級(jí)工作負(fù)載進(jìn)行調(diào)整,以延長(zhǎng)電池壽命。這與新的 DSU-120 一起提供,并與 Cortex-X925 和 Cortex-A725 兼容,用于構(gòu)建大型的CPU集群。
性能方面,與 Cortex-A510 相比,Cortex-A520的功耗可降低高達(dá) 22%,性能可提升8%,可跨多個(gè)細(xì)分市場(chǎng)進(jìn)行擴(kuò)展。如果Cortex-A520 采用先進(jìn)的3nm制程,可將能效提高多達(dá)15%。
Immortalis-G925
Arm Immortalis-G925 是專為旗艦智能手機(jī)設(shè)計(jì)的最新旗艦 GPU,基于第 5 代 Arm GPU 架構(gòu)構(gòu)建。Immortalis-G925 提供片段預(yù)傳遞和雙平鋪和移位轉(zhuǎn)換單元吞吐量,從而可以實(shí)現(xiàn)更好、更持久的幀速率,實(shí)現(xiàn)功能豐富和更長(zhǎng)的游戲時(shí)間。這也是 Arm 迄今為止性能最高、效率最高的 GPU。
與Immortalis G720相比,Immortalis G925在圖形性能方面提升了37%,而相同性能下功耗可降低30%,在一系列流行的手機(jī)游戲中支持以平均每秒 120 幀的幀率運(yùn)行。面對(duì)復(fù)雜對(duì)象的光線追蹤性能提升52%。
在AI和機(jī)器學(xué)習(xí)工作負(fù)載方面,Immortalis G925性能平均提升了34%。比如,AI推理速度比當(dāng)前GPU要快36%,自然語言處理速度最高可提升50%,圖像分割速度最高可提升41%,語音轉(zhuǎn)文本速度最高可提升32%。
有分析稱,Arm對(duì)GPU設(shè)計(jì)的升級(jí)“雖小但很關(guān)鍵”,看起來強(qiáng)大得多的一個(gè)重要原因是增加了GPU的最大著色器核心(shader core)數(shù)量,G720提供10到16個(gè)著色器核心,而全新的Immortal G925提供10到24個(gè)著色器核心,這將提供游戲內(nèi)的性能與效率并在渲染線程上顯著釋放CPU。
CSS for Client所帶來的整體提升
首先,CSS for Client 的系統(tǒng)集成和擴(kuò)展是通過最新的 CoreLink Interconnect 實(shí)現(xiàn)的。集成的系統(tǒng)級(jí)緩存 (SLC) 通過減少 DRAM 帶寬和訪問來實(shí)現(xiàn)最佳系統(tǒng)能效。系統(tǒng)內(nèi)存管理單元 (SMMU) 通過階段 2 轉(zhuǎn)換提供增強(qiáng)的安全性,以支持虛擬化安全框架,例如 Android 虛擬化框架 (AVF)。
CSS for Client 也將成為 3nm 工藝節(jié)點(diǎn)上第一代 Android SoC 的一部分,從而在芯片中實(shí)現(xiàn)一流的 PPA(功耗、性能和面積)。作為 CSS for Client 的一部分,Arm 的物理實(shí)現(xiàn)釋放了 3nm 技術(shù)的全部潛力,最大限度地提高了高端平臺(tái)的 PPA 優(yōu)勢(shì),并為我們的合作伙伴創(chuàng)造了最快的芯片之路。
Arm表示,其與領(lǐng)先的代工合作伙伴合作,共同設(shè)計(jì)和交付 CPU 和 GPU 物理實(shí)現(xiàn),其中包括用于 3nm 的流片就緒 Cortex-X925 CPU 和 Immortalis-G925 物理實(shí)現(xiàn)。這有助于合作伙伴在 3nm 工藝上獲得全部 PPA 優(yōu)勢(shì),同時(shí)通過生產(chǎn)就緒型芯片解決方案縮短芯片開發(fā)和部署時(shí)間。它還使我們的合作伙伴能夠靈活地使用 CSS for Client 構(gòu)建特定于市場(chǎng)的差異化 CPU 集群和 GPU。
可以說,CSS for Client 是 Arm 迄今為止最快的 Android 平臺(tái),與 TCS23 平臺(tái)相比,在關(guān)鍵基準(zhǔn)測(cè)試和通用計(jì)算用例方面有了顯著改進(jìn)。這些包括:
得益于新的 Cortex-X925,峰值性能提高了 36%,以 Geekbench 6 單核分?jǐn)?shù)衡量;
在前 10 個(gè)應(yīng)用程序中,有 5 個(gè)應(yīng)用程序的應(yīng)用程序啟動(dòng)時(shí)間平均縮短了 33%,從而提高了工作效率,并在移動(dòng)設(shè)備上提供了流暢的用戶體驗(yàn);
使用 Speedometer 2.1 瀏覽器基準(zhǔn)測(cè)試測(cè)得網(wǎng)頁瀏覽速度提高 60%;
得益于新的Immortalis-G925 GPU,在七個(gè)圖形基準(zhǔn)測(cè)試中,峰值圖形性能平均提高了 30%,這些測(cè)試包括了光線追蹤和可變速率著色 (VRS) 基準(zhǔn)測(cè)試。
CSS for Client 特別突出的這些 AI 用例之一,是計(jì)算攝影和 AI 相機(jī)。能夠拍攝具有逼真的散景效果的令人驚嘆的照片和視頻,這些效果會(huì)模糊背景并專注于選定的主題,這很復(fù)雜。AI相機(jī)散景管線由多個(gè)階段組成,如深度估計(jì)、分割、遮罩和混合,以產(chǎn)生高質(zhì)量的結(jié)果。與 TCS23 相比,CSS for Client 通過在 CPU 上進(jìn)行散景工作負(fù)載的 AI 處理,將散景性能提高了 24%。這意味著用戶可以在照片和視頻上享受更快、更流暢的散景效果,而不會(huì)影響電池壽命。
然后,通過軟件和工具的組合,客戶可以在 Client for CSS 上進(jìn)行進(jìn)一步的性能和功耗優(yōu)化。Arm 推出新的 Kleidi 庫(kù),該庫(kù)具有 KleidiAI(高度優(yōu)化的機(jī)器學(xué)習(xí) (ML) 內(nèi)核的集合),使開發(fā)人員能夠在通過高度優(yōu)化的生成式 AI 框架運(yùn)行 AI 工作負(fù)載時(shí)釋放 Arm CPU 的全部潛力。這意味著開發(fā)人員可以在最廣泛的設(shè)備上以盡可能高的性能快速構(gòu)建基于 AI 的應(yīng)用程序。
與 Cortex-X4 相比,新的 Cortex-X925 平臺(tái)在使用旨在加速現(xiàn)代 Arm CPU 上的 AI 應(yīng)用的 KleidiAI 庫(kù)時(shí),在 LLaMA 3(80 億個(gè)參數(shù))中性能提升高達(dá) 42%,在 Phi 3(38 億個(gè)參數(shù))AI 模型中性能提升高達(dá) 46%。
對(duì)于更身臨其境和更長(zhǎng)的游戲會(huì)話,CSS for Client 提供了兩位數(shù)的性能和能效改進(jìn)。這包括在相同功耗下平均性能提升 37%,GPU 功耗降低 30%,在一系列流行的手機(jī)游戲中平均以每秒 120 幀 (fps) 的速度播放。
跨平臺(tái)、面向所有人的 AI
Arm 表示,CSS for Client 是專為跨各種消費(fèi)類設(shè)備提供下一代 AI 體驗(yàn)的平臺(tái),致力于為每個(gè)人提供 AI,通過 CSS for Client 可在廣泛的消費(fèi)類設(shè)備和外形尺寸上擴(kuò)展,不懈地推動(dòng)性能和效率。
在移動(dòng)設(shè)備上,用戶將以前所未有的方式體驗(yàn) Android,CSS for Client 將是 Arm 最快的 Android 計(jì)算平臺(tái)。該平臺(tái)的 PPA 優(yōu)勢(shì)是通過物理實(shí)施實(shí)現(xiàn)的,這些實(shí)施為我們的芯片合作伙伴提供了更快的上市時(shí)間和平滑的部署機(jī)會(huì)。
CSS for Client 還可針對(duì)進(jìn)入市場(chǎng)的性能最高的消費(fèi)類設(shè)備進(jìn)行擴(kuò)展,其中包括下一代 AI PC,與 Arm Cortex-X4 CPU 相比,Cortex-X925 提供的 TOPS 提高了 50%。CSS for Client 為 PC 市場(chǎng)提供了一個(gè)專門構(gòu)建的可擴(kuò)展平臺(tái)。它采用 Cortex-X925,通過新更新的 DSU-120 提供一流的單線程性能和最佳的性能可擴(kuò)展性,可在單個(gè) CPU 集群中提供多達(dá) 14 個(gè) CPU 內(nèi)核。除了 SVE2 之外,PC 市場(chǎng)還推出了更多的 Armv9 架構(gòu)功能,包括指針身份驗(yàn)證 (PAC)、分支目標(biāo)識(shí)別 (BTI) 和內(nèi)存標(biāo)記擴(kuò)展 (MTE),這些技術(shù)已經(jīng)在移動(dòng)生態(tài)系統(tǒng)中得到了驗(yàn)證。
通過 CSS for Client,Arm 在消費(fèi)類設(shè)備市場(chǎng)的所有性能和成本點(diǎn)上提供可訪問的 AI。Cortex-A725 是高能效 AI 吞吐量的主要處理器,是成本更敏感的大眾市場(chǎng)消費(fèi)技術(shù)細(xì)分市場(chǎng)的 AI 處理的主要主力和開發(fā)目標(biāo)。例如,此虛擬助手演示展示了在使用 3 個(gè) Cortex-A700 系列 CPU 內(nèi)核的現(xiàn)有 Android 智能手機(jī)上運(yùn)行 Llama2-7B 和 Phi-3 3.8B LLM 的性能。最后,區(qū)域優(yōu)化的 Cortex-A725 允許在廣泛的消費(fèi)技術(shù)領(lǐng)域中高效部署生成式 AI 工作負(fù)載。
顯然,Arm CSS for Client 有望在幫助Arm推升面向旗艦級(jí)AI智能手機(jī)性能的同時(shí),進(jìn)一步向更高性能的AI PC市場(chǎng)進(jìn)行開拓。預(yù)計(jì)接下來,將會(huì)有更多廠商(此前傳聞顯示聯(lián)發(fā)科、英偉達(dá)都有此計(jì)劃)借助Arm CSS for Client 進(jìn)入AI PC市場(chǎng),與蘋果M系列和高通驍龍X系列進(jìn)行競(jìng)爭(zhēng)。
Arm強(qiáng)調(diào),CSS for Client 的可擴(kuò)展性能功能可提供“面向所有人的 AI”,有助于在各種不同設(shè)備和外形規(guī)格類型中釋放所有成本點(diǎn)的 AI 性能。
Arm表示,CSS for Client 允許我們的生態(tài)系統(tǒng)做更多的事情,無論是釋放更多的性能、更多的 AI、更多的應(yīng)用體驗(yàn),還是更先進(jìn)的芯片,我們涵蓋了所有的基礎(chǔ)。通過該平臺(tái),Arm 正在為當(dāng)今和未來的基于 AI 的體驗(yàn)構(gòu)建消費(fèi)者計(jì)算的未來。
聯(lián)發(fā)科天璣9400將首發(fā)
值得一提的是,最新的爆料顯示,聯(lián)發(fā)科天璣9400或?qū)⒊蔀槭着鋫銫ortex-X925 CPU和Immortalis G925 GPU的芯片,而首發(fā)機(jī)型極有可能是vivo X200系列。對(duì)此聯(lián)發(fā)科技資深副總經(jīng)理、無線通信事業(yè)部總經(jīng)理徐敬全博士和vivo 首席芯片規(guī)劃專家夏曉菲,在Arm的新聞稿中對(duì)此也予以了證實(shí)。
徐敬全博士表示,“我們將于今年下半年推出新一代旗艦移動(dòng)芯片天璣 9400,該芯片將搭載最新的 Armv9 Cortex-X925 CPU 和 Arm Immortalis-G925 GPU。我們與 Arm 保持著長(zhǎng)期而緊密的合作關(guān)系,致力于不斷提升移動(dòng)芯片的性能和功能,共同推動(dòng)計(jì)算技術(shù)的快速發(fā)展。”
夏曉菲表示:“vivo 非常注重用戶體驗(yàn),在 Arm CSS 的技術(shù)基礎(chǔ)之上,我們與 Arm 的密切合作,共同推動(dòng)開發(fā)者生態(tài),使手機(jī)更流暢更好用,同時(shí)也為設(shè)備端帶來了前沿的 AI 體驗(yàn)。我們很高興看到 Arm 終端 CSS 所引入的新方向,以及通過 Armv9 CPU 與 Arm GPU,這套計(jì)算子系統(tǒng)將賦能新一代設(shè)備端生成式 AI,從而實(shí)現(xiàn)沉浸式的智能移動(dòng)端解決方案。”
在代工方面,Arm與臺(tái)積電、英特爾、三星都進(jìn)行了合作,為CSS for Client 基于他們的尖端制程的量產(chǎn)做好了準(zhǔn)備。
臺(tái)積電生態(tài)系統(tǒng)與合作聯(lián)盟管理部門負(fù)責(zé)人 Dan Kochpatcharin表示:“AI 優(yōu)化的 Arm CSS 是 Arm 與臺(tái)積公司的一個(gè)合作典范,共同助力芯片設(shè)計(jì)商實(shí)現(xiàn)前所未有的性能和能效,突破面向 AI 的半導(dǎo)體創(chuàng)新極限。通過與 Arm 以及我們開放創(chuàng)新平臺(tái) (OIP) 生態(tài)伙伴攜手合作,我們能夠提供最先進(jìn)的工藝技術(shù)和設(shè)計(jì)解決方案,賦能客戶加速 AI 創(chuàng)新。”
英特爾代工副總裁兼生態(tài)系統(tǒng)技術(shù)辦公室總經(jīng)理 Suk Lee:“英特爾代工與 Arm 深度合作,此次發(fā)布彰顯了 Arm 在終端業(yè)務(wù)上的進(jìn)展。我們雙方在 Intel 18A 工藝等前沿技術(shù)節(jié)點(diǎn)上密切合作,以提供一流的功率、性能和面積指標(biāo),并基于新的 Arm 終端 CSS 賦能新一代移動(dòng)端 SoC 產(chǎn)品。”
三星電子執(zhí)行副總裁兼代工設(shè)計(jì)平臺(tái)開發(fā)主管 Jongwook Kye表示:“在移動(dòng)端設(shè)備中嵌入生成式 AI 功能是客戶的主要需求,這就需要將頂尖的芯片技術(shù)與領(lǐng)先的計(jì)算解決方案相集成。Arm Cortex-X925 CPU 解決方案與三星代工廠最新的3nm GAA 工藝節(jié)點(diǎn)相結(jié)合,可以滿足這一需求。我們與 Arm 的長(zhǎng)期合作伙伴關(guān)系使我們能夠在最大化 DTCO 和 PPA 方面從早期便開始展開緊密合作,從而按時(shí)交付芯片,并滿足性能和效率需求。”
編輯:芯智訊-浪客劍
中美芯片戰(zhàn)之下,馬來西亞的半導(dǎo)體“野心”曝光
集成16個(gè)類腦器官,全球首個(gè)生物計(jì)算平臺(tái)上線!
涉嫌違規(guī)對(duì)華供貨,應(yīng)用材料再度收到美國(guó)商務(wù)部傳票
中國(guó)市場(chǎng)需求不佳,傳英偉達(dá)下調(diào)H20芯片價(jià)格!
151.8億元!紫光股份擬收購(gòu)新華三30%股權(quán)!
臺(tái)積電3nm產(chǎn)能今年將增加3倍!南京廠獲“無限期豁免”!
英偉達(dá)Q1凈利暴漲628%!股價(jià)首次突破1000美元!
投資120億元!士蘭集宏擬建8英寸SiC芯片產(chǎn)線,總產(chǎn)能6萬片/月
2024Q1全球智能手機(jī)AP市場(chǎng):展銳出貨暴漲64%,海思出貨800萬顆!
全球Top500超算公布:中國(guó)官方超算不再參加測(cè)試!
行業(yè)交流、合作請(qǐng)加微信:icsmart01
芯智訊官方交流群:221807116
