ARMv9指令集加持,Cortex-X2/A710/A510詳解!還有四款全新Mali GPU

今年3月底,Arm發(fā)布了全新的64位指令集ARMv9,號稱10年來最重要的創(chuàng)新,IPC性能提升多達(dá)30%。5月25日晚間,Arm正式發(fā)布了最新一代的基于ARMv9指令集的處理器IP:超大核心Cortex-X2、高性能大核心Cortex-A710,高能效小核心Cortex-A510,分別取代現(xiàn)在的X1、A78、A55。這三款處理器IP均配備了三級緩存和叢簇共享單元DSU-110。
同時,Arm還發(fā)布了全新的Mali GPU IP——Mali G710/G510/G310,以及可以與 Arm CPU、GPU 和 NPU IP 無縫配合工作,使整個 SoC 解決方案的系統(tǒng)增強(qiáng)成為可能的互連網(wǎng)格網(wǎng)絡(luò)IP CI-700和芯片網(wǎng)絡(luò)IP NI-700。至此,Arm新的全面計(jì)算解決方案正式推出。
全新ARMv9指令集加持,Arm新一代Cortex CPU解析
Arm表示,自2020年啟動了Cortex-X 自定義 (CXC) 計(jì)劃以來,使定制和分化超越了Arm Cortex 產(chǎn)品的傳統(tǒng)路線圖,為合作伙伴提供了一種提供特定使用案例所需的最終性能的方法。而作為 CXC 計(jì)劃的一部分,新一代Arm Cortex-X2 CPU則專為最終極的性能需求而設(shè)計(jì),旨在最大限度地提高單線程和"突發(fā)"工作負(fù)載的性能,使其成為了目前性能最出色的基于ArmV9指令集的CPU。
Cortex-A710則是Arm的第一代基于Armv9指令集的大核CPU,它提供了性能和效率的最佳平衡。而Cortex-A510 CPU則專注于輕量級工作負(fù)載,效率是放在第一的,其將是應(yīng)用極為廣泛的Cortex-A55 CPU的繼任者。
特別需要指出的是,Cortex-X2和Cortex-A710及Cortex-A510都可以集成在一顆SoC當(dāng)中,但是,Cortex-X2和Cortex-A510都是純64位的,不再兼容32位,而Cortex-A710則將繼續(xù)支持OL0 AArch32。據(jù)了解,這是應(yīng)中國客戶要求特殊設(shè)計(jì)的,因?yàn)橹袊袌鲞€有太多應(yīng)用停留在32位。
所有這些 CPU 都可以通過全新的 DynamIQ 共享單元DSU-110 以不同的 CPU 集群配置結(jié)合在一起。這種可配置集群方法的多功能性滿足了從高級智能手機(jī)和筆記本電腦到 DTV 和可穿戴設(shè)備等各種市場需求。這是Arm新的計(jì)算解決方案的支柱,該解決方案在多個消費(fèi)設(shè)備市場和使用案例中提供不同級別的性能、效率和可擴(kuò)展性的最新 Armv9 功能。
Arm高級副總裁兼終端設(shè)備事業(yè)部總經(jīng)理 Paul Williamson 表示:“我們正致力于將 Armv9 技術(shù)引入到各個領(lǐng)域,以系統(tǒng)級設(shè)計(jì)最大程度地提高性能。安全和專用的處理能力,意味著基于 Arm架構(gòu)的計(jì)算技術(shù)也將在智能手機(jī)以外的市場上獲得領(lǐng)導(dǎo)地位,借助移動生態(tài)系統(tǒng)帶來的巨大規(guī)模優(yōu)勢,在筆記本電腦、臺式機(jī)、云等應(yīng)用領(lǐng)域打造領(lǐng)先的解決方案。”
超大核心Cortex-X2
作為Arm最新的旗艦級的ARMv9指令集的CPU IP,Cortex-X2僅支持AArch64 64位指令而不再兼容32位,擁有全新層級的性能。


在前端方面,分支預(yù)測與預(yù)取單元解耦分離,從而可以在內(nèi)核之前提前運(yùn)行,從而減少預(yù)測錯誤,同時改進(jìn)了分支預(yù)測精度,提升了大型指令負(fù)載的性能。
核心方面,流水線長度從11個指令周期減少到10個,其中分派階段從2個周期減少到1個,這可是個非常大的變動。同時,亂序執(zhí)行窗口增大了最多30%,244條增至最多288條,再加上指令壓縮和綁定,實(shí)際還可以保存更多。FP/ASIMD流水線現(xiàn)在支持SVE2,矢量長度為128b,可以使得機(jī)器學(xué)習(xí)性能提升2倍以上。

后端方面,載入存儲窗口和結(jié)構(gòu)增大了33%,可以提升內(nèi)存級并行度,一級緩存d-TLB也增大了20%,另外增強(qiáng)了數(shù)據(jù)預(yù)取能力。

性能方面,ARM宣稱Cortex-X2相比于Cortex-X1整數(shù)性能提升16%,機(jī)器學(xué)習(xí)性能則是其兩倍。不過需要指出的是,Cortex-X2的三級緩存容量為8MB,比Cortex-X1增大了一倍。

此外,在能效方面Cortex-X2也是大幅優(yōu)于Cortex-X1。

Arm表示,Cortex-X2 代表其性能表現(xiàn)最優(yōu)的 Armv9 CPU,可跨高端智能手機(jī)和筆記本電腦。當(dāng)結(jié)合最新的制程節(jié)點(diǎn)和適當(dāng)?shù)南到y(tǒng)配置時,相比當(dāng)今最好的 Android 旗艦智能手機(jī),基于Cortex-X2的旗艦智能手機(jī)能夠提供 30%的單線程性能改進(jìn)。如果Cortex-X2被應(yīng)用到筆記本電腦上,將能夠提供比2020年主流筆記本電腦設(shè)備高出40%的單線程性能改進(jìn)。

另外,通過 DSU-110 的擴(kuò)展性能,單個 DSU 集群中可支持多達(dá) 8 個Cortex-X2 內(nèi)核,并支持高達(dá) 16MB 的 L3 緩存。這意味著合作伙伴可以根據(jù)不同的市場需求調(diào)整 CPU 配置。
高性能大核心Cortex-A710
作為注重于性能和能耗平衡的高性能大核心,Cortex-A710基于ArmV9指令集,采用了新的微體系結(jié)構(gòu),通過提升單位面積能效的方式提高了性能。

在前端和X2一樣改進(jìn)了分支預(yù)測,精度更高,關(guān)鍵分支預(yù)測能力倍增。一級指令緩存TLB也從32條增至48條,不過macro-OP緩存仍然是1.5K(X2則是3K)。

相比Cortex-A78,Cortex-A710分支單元的寬度從6縮減到了5,提升了能效。在調(diào)度方面刪除了一個管道階段,現(xiàn)在10周期的管道,提升了調(diào)度的效率。

在核心設(shè)計(jì)上,Cortex-710也有針對性的提升了預(yù)取增強(qiáng)功能,包括采用新一代的數(shù)據(jù)預(yù)取器,提高了覆蓋率和準(zhǔn)確性,并且優(yōu)化了核心與DSU的聯(lián)系,核心與三級緩存、內(nèi)存之間的延遲更低。Cortex-710擁有4MB二級緩存和8MB三級緩存。


△Cortex-A710:DVFS視圖示例,可大規(guī)模提高持續(xù)用例的效率
據(jù)介紹,而Cortex-A710 在與上一代Cortex-A78 CPU (ISO 工藝) 的相同功率下,性能提升了10%,而在相同的性能下,能效則提升了30%。通過這些性能提升,用戶在智能手機(jī)(如AAA 游戲)上運(yùn)行要求苛刻的應(yīng)用程序時,增強(qiáng)了體驗(yàn)。同時還可延長所有移動設(shè)備的電池續(xù)航時間,并減少運(yùn)行應(yīng)用程序時的發(fā)熱情況。

Arm表示,在大核CPU的設(shè)計(jì)中,需要平衡性能、功率和面積 (PPA)。新的 Cortex-A700 系列 CPU 是針對苛刻的工作負(fù)載確定持續(xù)性能的優(yōu)先級,同時最大限度地延長電池續(xù)航時間。Cortex-A710 將我們的性能和能效提升到新的水平,在多種形式因素之間提供不折不扣的可擴(kuò)展性和性能。這意味著Cortex-A710可以瞄準(zhǔn)廣泛的消費(fèi)類設(shè)備,從高級智能手機(jī)和筆記本電腦到智能家居設(shè)備和智能電視。
高能效小核心Cortex-A510
Cortex-A510繼續(xù)使用3寬度的順序執(zhí)行架構(gòu),但也借鑒了X系列在分支預(yù)測、數(shù)據(jù)預(yù)取方面的一些技術(shù),繼續(xù)提升能效。

Cortex-A510還引入了合并核心(merged-core)的新設(shè)計(jì),可以使得兩個核心可以組合成一個復(fù)合體,每個簇可以有多個復(fù)合體,并且二級緩存、二級TLB和向量數(shù)據(jù)路徑在復(fù)雜系統(tǒng)中可共享,這提高了單位面積效率,配置的可擴(kuò)展性大大提升。


需要指出的是,Cortex-A510每個核心則有自己完整的前端、核心、整數(shù)后端、一級緩存,只是共享了二級緩存(最大512KB)、FP/NEON/SVE流水線。
如果客戶喜歡,也可以繼續(xù)使用獨(dú)立核心,但是面積效率會低一些。

前端設(shè)計(jì)方面,Cortex-A510具備128位預(yù)取流水線,每個時鐘周期可以拾取4條指令,解碼器寬度從2增加到3。
分支預(yù)測沒有透露細(xì)節(jié),只是說頂級的多級設(shè)計(jì),另外一級緩存可以32KB或者64KB。
核心方面,可以設(shè)置2個64位流水線或者2個128位流水線,后者是Cortex-A55的兩倍。

盡管是順序架構(gòu),Cortex-A510后端依然加寬包括3個整數(shù)ALU單元、一個復(fù)雜MAC/DIV單元、一個分支派送端口。

在載入存儲方面,Cortex-A510相比Cortex-A55有了極大的改進(jìn),從載入存儲流水線,變成了2個載入+1存儲流水線,每時鐘周期可執(zhí)行的載入數(shù)量翻了一番,另外流水線寬度也從64位提升到了到2×128位,使得總的載入帶寬達(dá)到了Cortex-A55的四倍。



Cortex-A510還配備了32KB一級緩存、256KB二級緩存、8MB三級緩存,對比Cortex-A55的32KB一級緩存、128KB二級緩存、4MB三級緩存有了大幅的提升。具體到性能方面,Arm公布的數(shù)據(jù)顯示,Cortex-A510相比Cortex-A55提升幅達(dá)到了35-62%。

Arm表示,Cortex-A510是其四年來首款高效小核心,核心性能比Cortex-A55提升了超過35%,機(jī)器學(xué)習(xí)性能提升超過3倍。這種性能已經(jīng)接近幾年前的上一代大核CPU,這意味著在切換到大核CPU 之前,更多的工作量可以通過小核CPU來完成,在更大的內(nèi)核上運(yùn)行所需的計(jì)算工作量更少,使得整體的續(xù)航可以進(jìn)一步提升。
另外,作為高效小核心,Cortex-A510在能效上相比Cortex-A55也有了20%的提升,這將使得設(shè)備續(xù)航能力進(jìn)一步提高。而這也得益于Cortex-A510支持將兩個Cortex-A510組合為一個復(fù)合體,每個 CPU 集群可以包含多個復(fù)合體。其結(jié)果是在更高的性能點(diǎn),提高單位面積效率。合并的核心微結(jié)構(gòu)還為不同消費(fèi)設(shè)備的可擴(kuò)展性提供了廣泛的配置范圍。
Arm稱,Cortex-A510將成為智能手機(jī)、家用和可穿戴設(shè)備的理想之選。
共享單元DSU-110
眾所周知,在之前的Arm的CPU集群當(dāng)中,大小核的搭配主要是基于DynamIQ的big-LITTLE架構(gòu),而Arm針對基于ARMv9指令集的DynamIQ CPU 集群,引入了新的共享單元DSU-110。它將支持將不同的ARMv9 CPU 結(jié)合到不同的集群配置中,這些配置可解決不同 PPA 節(jié)點(diǎn)的不同細(xì)分市場需求。
正如前面提到的,最大的 CPU集群可配置8個Cortex-X2:但是,針對不同的市場需求,有一系列不同的 CPU 集群配置。例如,4個Cortex-X2 和4個Cortex-A710 的高性能 CPU 配置,可針對高級筆記本電腦設(shè)備。一個Cortex-X2+3個Cortex-A710+4個Cortex-A510,可以支持高端智能手機(jī)。當(dāng)然,還有更多的其他的組合。

而引入的共享單元DSU-110 的微結(jié)構(gòu)可大幅提高帶寬(高達(dá) 5 倍)、改進(jìn)多處理器性能以及應(yīng)對所有設(shè)備市場的可擴(kuò)展性,并降低功耗。DSU-110 的更高頻率功能帶來了帶寬、延遲和功率改進(jìn)的組合,可圍繞不同的要求進(jìn)行調(diào)整。例如,這可以使帶寬更高、延遲更低或在現(xiàn)有頻率下降低功耗。多處理器性能改進(jìn)得益于更大的 L3 緩存(高達(dá) 16MB)和最多 8 個 Cortex-X2 內(nèi)核的支持。
在續(xù)航方面,DSU-110 可減少 CPU 集群的電源泄露,以改善設(shè)備上的“使用天數(shù)”。即配置為更高的帶寬,可使得其比上一代的功耗更低。此外,當(dāng) DSU-110 部分?jǐn)嚯姇r,低強(qiáng)度工作負(fù)載仍然可以運(yùn)行,這是“熄屏工作”場景下的理想選擇。DSU-110 還通過新的集成電源策略單元 (PPU) 和多種節(jié)電模式帶來了先進(jìn)的電源管理功能。
機(jī)器學(xué)習(xí)性能大幅提升
隨著 ML (機(jī)器學(xué)習(xí))性能成為所有消費(fèi)設(shè)備的要求,Arm 的Cortex-CPU 越來越多地用于 ML 計(jì)算。這主要是因?yàn)樗鼈兤毡榇嬖谇乙子诰幊獭6诖饲癉ynamIQ CPU 推出之時,Arm就特別強(qiáng)化了ML的能力。

而對于全新的ARMv9 CPU,Arm則引入新的功能,如支持 BFloat16 格式、Int8 和 BF16 和 SVE2 的矩陣乘數(shù)指令。這些使較新的使用案例在性能上得到改善。例如,由于新的馬特穆爾指令支持,Cortex-X2的ML性能將比Cortex-X1提高了一倍。與Cortex-A78相比,Cortex-A710也是如此。而與Cortex-A55相比,Cortex-A510的ML性能則達(dá)到其3倍。
安全性
隨著越來越多的消費(fèi)設(shè)備以更先進(jìn)的計(jì)算能力進(jìn)入市場,并因此產(chǎn)生也產(chǎn)生了很多針對這些設(shè)備的攻擊,安全威脅變得越來越復(fù)雜和普遍。與此同時,通過這些始終連接的設(shè)備獲得的個人內(nèi)容和數(shù)據(jù)的數(shù)量和價(jià)值也在不斷增加。因此,Arm認(rèn)為必須提供可信賴且易于部署的安全功能,使合作伙伴能夠構(gòu)建更安全的 SoC,從而為最終用戶提供安全可靠的數(shù)字體驗(yàn)。
作為全面計(jì)算解決方案的一部分,Arm正在提高安全性標(biāo)準(zhǔn)。在 Armv9 架構(gòu)中,Arm構(gòu)建了一系列新的和現(xiàn)有的安全功能,以改善所有消費(fèi)細(xì)分市場的安全性。這意味著Arm的合作伙伴可以從軟件投資到安全措施實(shí)現(xiàn)更好的價(jià)值,從而找到更標(biāo)準(zhǔn)化和可擴(kuò)展的安全解決方案,從而應(yīng)對多種安全挑戰(zhàn)。

Arm引入的Secure-EL2 為受信任的服務(wù)提供了標(biāo)準(zhǔn)的安全隔離機(jī)制,并使維護(hù)設(shè)備安全性的方法更加簡單。內(nèi)存標(biāo)記擴(kuò)展 (MTE)可檢測和防止整個生態(tài)系統(tǒng)中的記憶安全漏洞,為一系列 Arm 合作伙伴提供性能和上市時間優(yōu)勢。包括從解決 SoC 中錯誤問題的硅供應(yīng)商,到使用 MTE 設(shè)備查找自己的緩存溢出和代碼堆損壞的 OSV 和應(yīng)用程序開發(fā)人員。Arm表示,其已經(jīng)與谷歌合作,在Android上采用MTE后,其項(xiàng)目團(tuán)隊(duì)表示,70%的嚴(yán)重安全漏洞是內(nèi)存安全問題。
Arm還通過兩個新的內(nèi)置功能——指針身份驗(yàn)證 (PAC) 和分支目標(biāo)標(biāo)識符 (BTI) 來解決控制流完整性問題。這兩個硬件機(jī)制能夠有力地防止返回導(dǎo)向編程 (ROP) 和跳向編程 (JOP) 攻擊。根據(jù)Arm對啟用這兩個功能的研究,Glibc 中攻擊者可用的小工具數(shù)量減少了約 98%,而代碼大小僅增加了 2% 左右。
Arm還通過在 NEON 和 SVE2 空間中添加加密指令進(jìn)一步擴(kuò)展了現(xiàn)有的安全支持。這加速了與各種消費(fèi)設(shè)備相關(guān)的加密算法。最后, Armv9 CPU 支持使用微型架構(gòu)內(nèi)置防御的投機(jī)障礙,可以減輕側(cè)通道攻擊。
Arm全新GPU IP:Mali-G710/510/310
除了全新的ARMv9 CPU IP之外,Arm此次還推出了全新的Mali-G710 、Mali-G510和Mali-310 GPU。

據(jù)介紹,在過去的一年里,Arm的合作伙伴已經(jīng)出貨了超過 10 億顆Mali GPU。這也是Arm連續(xù)第五年實(shí)現(xiàn)這一里程碑。現(xiàn)在,Arm推出全新一代的Mali GPU系列IP,希望能夠繼續(xù)引領(lǐng)移動GPU市場。
Mali-G710
Arm表示,Mali-G710 GPU是Arm有史以來性能最強(qiáng)的GPU,主要面向希望獲得更好、更長時間的娛樂體驗(yàn)高端智能手機(jī),可提供強(qiáng)大的圖形計(jì)算密集型體驗(yàn),如AAA級高保真度游戲。
與上一代Arm Mali-G78 (ISO 工藝) 相比,Mali-G710 在性能上提升了20%、能效提升了20% 和機(jī)器學(xué)習(xí) (ML)性能提升了35%。

而手機(jī)游戲市場正是Mali-G710 GPU的一大焦點(diǎn)。游戲市場情報(bào)機(jī)構(gòu)Neozoo估計(jì)手機(jī)游戲收入達(dá)到767億美元。這比2019年增長了12%,目前超過了PC和主機(jī)游戲收入。移動游戲體驗(yàn)也變得越來越復(fù)雜,更多的高級 AAA 級游戲體驗(yàn)將進(jìn)入移動端。智能手機(jī)需要匹配更大的游戲復(fù)雜性,通過以下增強(qiáng)功能實(shí)現(xiàn)這些體驗(yàn):
更好的光線效果
更復(fù)雜的幾何形狀、陰影、紋理和粒子效果
高級后處理效果
更高的刷新率,以獲得更流暢的游戲體驗(yàn)。
基于此,Arm Mali-G710 帶來了一系列新的"改變游戲規(guī)則"功能和技術(shù),滿足了高端智能手機(jī)設(shè)備對游戲增強(qiáng)的需求。這些新功能還能夠提升性能、能效和 ML。
首先,Mali-G710 引入了新的命令流前端 (CSF) 是一個重大變化。CSF 使Mali GPU 符合現(xiàn)代 API(如 Vulkan)的要求以及未來的移動游戲內(nèi)容趨勢。CSF 的最大好處之一是它減少了 CPU 必須執(zhí)行的工作量。這反過來又降低了需要提供給 CPU 的電力預(yù)算,使 GPU 能夠執(zhí)行更多任務(wù)。

其次,Arm還為Mali-G710帶來了經(jīng)過大量重新設(shè)計(jì)的著色器核心,以增加性能密度。同時Mali-G710擁有可配置的內(nèi)核數(shù)量,從 7 個核心擴(kuò)展到了多達(dá) 16 個核心,雖然這比Mali-G78 的可支持的內(nèi)核數(shù)量(24 個核心)要少,但是Mali-G710核心更大,性能更出色,更節(jié)能。
具體來看,Arm在Mali-G710的每個著色器內(nèi)核中添加了第二個執(zhí)行引擎,使每個內(nèi)核的計(jì)算能力翻倍,并更有效地利用共享資源。可使整個(ISO 流程)節(jié)能 20%。這有助于在高級 GPU 中提供 Arm 有史以來最高的能效,從而延長目標(biāo)設(shè)備的電池續(xù)航時間。對最終用戶,這意味著他們可以“做更多”和“玩更多”。

除了在執(zhí)行引擎和著色器核心上進(jìn)行大量工作外,Aalim還重新設(shè)計(jì)了紋理單元。與上一代相比,Mali-G710的紋理性能翻了一番。但是,性能翻倍不會花費(fèi)兩倍于該區(qū)域的費(fèi)用。這也意味著Mali-710的圖形性能增加了一倍,而芯片面積只增加了50%,這意味著性能密度顯著提高。增強(qiáng)的紋理功能尤其適用于復(fù)雜的游戲場景。
與每一個高級 GPU 一樣,Arm也為Mali-G710帶來了更多的 ML 提升(35%)。因?yàn)?GPU 現(xiàn)在用于各種不同的 ML 相關(guān)任務(wù),特別是圖像增強(qiáng)和再培訓(xùn)。這為智能手機(jī)設(shè)備帶來了先進(jìn)的用戶體驗(yàn),如新的攝像頭和視頻模式,以及安全增強(qiáng)功能。
Mali-G610
Mali-G610繼承了Mali-G710的所有特性,如新的CSF,但它的可配置著色器內(nèi)核(1-6)較少。這也為價(jià)格較低的次旗艦智能手機(jī)帶來了近乎旗艦級的性能,有助于將高級使用案例(如高性能 AAA 游戲)帶給更廣泛的開發(fā)人員和消費(fèi)者。許可 Mali-G710 的合作伙伴可以重復(fù)使用該IP,以快速將最新的 GPU 功能帶給次旗艦級細(xì)分市場的更多受眾。

Mali-G510和Mali-G310
Mali-G510 GPU代表了性能和效率的完美平衡,主要面向中端智能手機(jī)、高級 DTV、機(jī)頂盒 (STB)和 Chromebook。
最后,Mali-G310則是Arm最高效的GPU,與上一代Mali-G31 GPU相比,性能有了巨大的提升。Mali-G310也是Arm有史以來首款基于Valhall架構(gòu)的高效 GPU,主要面向入門級智能手機(jī)、入門和中端 DTV 和 STB、智能手表以及AR 和 VR可穿戴設(shè)備。
與上一代 GPU 相比,Mali-G510 和 Mali-G310 帶來了顯著的性能提升,同時提供可減少帶寬的功能,從而進(jìn)一步提升性能和降低功耗。
具體來看,與上一代Arm Mali-G57相比,Mali-G510實(shí)現(xiàn)了性能和效率的完美平衡,性能提升了100%、電池續(xù)航時間提升了22% 和 ML性能提升了100%。

同時,與上一代 Mali-G31 相比,Mali-G310紋理性能達(dá)到了其6倍、Vulkan 性能達(dá)到了其4.5倍、 Android UI 內(nèi)容性能則達(dá)到了其2倍。這些巨大的改進(jìn)是由于Mali-G310是有史以來第一個基于Valhall架構(gòu)的高效 GPU。它還受益于Arm過去三代 GPU 的微觀結(jié)構(gòu)變化。從本質(zhì)上講,Mali-G310 旨在以最小的區(qū)域成本提供最高的性能。

綜合來看,Mali-G510 和Mali-G310 的顯著性能提升,得益于 GPU 采用了Mali-G710 的一些特性和增強(qiáng)功能,然后針對不同的性能、功率和區(qū)域 (PPA) 需求來進(jìn)行優(yōu)化。
比如,與Mali-G710最大的區(qū)別是著色器內(nèi)核的數(shù)量,Mali-G510有2-6個可配置的著色器內(nèi)核,Mali-G310則有一個。但是,后兩者都繼承了 CSF、重新設(shè)計(jì)和附加執(zhí)行引擎以及Mali-G710 重新設(shè)計(jì)的紋理單元。
此外,Mali-G510 和Mali-G310 還支持了其他功能,以滿足廣泛的設(shè)備。例如,Mali-G510 提供更好的 HDR 支持、Arm Frame Buffer Compression (AFBC) 未壓縮緩沖器和用于減少帶寬的新的Arm Fixed Rate Compression (AFRC)。同樣,Mali-G310 也可提供更好的 HDR 支持和 AFBC 未壓縮緩沖區(qū)格式。AFRC 是Mali-G310 的可選功能,同時還可提供用于 AR 和 VR 提升的 foved 渲染(Mali-G57 的一個功能)。
值得一提的是,Arm將視覺上無損的固定費(fèi)率壓縮(AFRC)引入,可提供出色的視覺質(zhì)量,具有高固定壓縮率。在此之前,Arm主要是采用AFBC來提供無損壓縮,但是要無損,則無法保證內(nèi)存帶寬的減少。而新的 AFRC 技術(shù)保證了帶寬和內(nèi)存占用量的減少,具體取決于壓縮水平和內(nèi)容類型,最低區(qū)域成本。這轉(zhuǎn)化為性能提升和節(jié)能,因?yàn)橄?DRAM 讀取和編寫的數(shù)據(jù)較少。僅使用 AFRC就使帶寬減少 60%,同時使峰值性能增加 80%。這反過來又降低了內(nèi)存子系統(tǒng)和 DRAM 的成本,從而降低了 SoC 本身的成本。

上述功能允許每個 GPU 具有不同的配置選項(xiàng),以解決特定設(shè)備以及不同的性能和效率需求。這也意味著兩個 GPU 的可擴(kuò)展性更高。Mali-G510有10種配置選項(xiàng),而Mali-G310則有5種配置選項(xiàng)。事實(shí)上,Mali-G510 的產(chǎn)品配置和粒度是馬里 GPU 有史以來最高的。每個配置可解決不同的區(qū)域和性能點(diǎn),以及不同的計(jì)算和處理需求。
Arm表示,2021 年將為所有細(xì)分市場引入新的GPU。該套 GPU 涵蓋廣泛的消費(fèi)設(shè)備、廣泛的娛樂和生產(chǎn)力體驗(yàn),具有針對不同性能和效率需求的靈活性和可擴(kuò)展性。Mali-G710 繼續(xù)推動高級性能,使移動游戲終端的 AAA 游戲體驗(yàn)更加普及,而Mali-G510 和 Mali-G310則可幫助客戶在各種低成本消費(fèi)設(shè)備上提供更先進(jìn)的用戶體驗(yàn)和圖形。我們相信,這種廣度的 GPU 能力和無與倫比的靈活性將繼續(xù)保持Mali GPU作為世界第一移動圖形處理器的市場領(lǐng)先地位。
CoreLink CI-700/NI-700
Arm此次還針對全新CPU/GPU IP,推出了最新的互連網(wǎng)格網(wǎng)絡(luò)IP CoreLink CI-700和芯片網(wǎng)絡(luò)IP CoreLink NI-700,他們可以與 Arm CPU、GPU 和 NPU IP 無縫配合工作,使整個 SoC 解決方案的系統(tǒng)增強(qiáng)成為可能。CoreLink CI-700 和NI-700 為新的 Armv9-A 功能(如內(nèi)存標(biāo)記擴(kuò)展 (MTE) 帶來了硬件級別支持,并支持增強(qiáng)安全性、改進(jìn)帶寬和延遲。

具體來看,CoreLink CI-700是一種可配置的連貫互連,與 ARMv9處理器和最新的 Arm 技術(shù)一起設(shè)計(jì),可實(shí)現(xiàn)完全優(yōu)化的總計(jì)算解決方案。每個 CoreLink CI-700 可跨總計(jì)算解決方案擴(kuò)展,用于高級、性能和效率層。這些解決方案提供不同級別的性能、效率和可擴(kuò)展性,可在多個消費(fèi)設(shè)備市場提供專業(yè)計(jì)算。CoreLink CI-700 的可擴(kuò)展性意味著它可以支持低功耗互連實(shí)現(xiàn),從 1GHz 一直到 5nm制程高達(dá) 2GHz 的高性能實(shí)現(xiàn)。
CoreLink NI-700 是一種靈活的分組網(wǎng)絡(luò)片上互連,用于高帶寬加速器(如 GPU 和 NPU)以及 SoC 其余連接。分包可使布線減少 30%,從而簡化物理設(shè)計(jì)。芯片網(wǎng)絡(luò) (NoC) 互連還采用最新的 Arm 架構(gòu)功能和 AMBA 接口標(biāo)準(zhǔn)。這可提高性能、可靠性和虛擬化。此外,先進(jìn)的模布支持能夠更快地設(shè)計(jì)、配置和實(shí)施復(fù)雜的 SoC,從而改善系統(tǒng)性能,減少路由擁塞和區(qū)域。
合作伙伴證言
King CTO Steve Collins:“Arm新的全面計(jì)算解決方案使得處理器和系統(tǒng)設(shè)計(jì)向前邁出的一大步。這種全面計(jì)算方案將帶來性能、功率效率和我們玩家將重視的一系列功能。我們期待利用新的 IP 為我們世界各地的玩家提供更豐富的游戲體驗(yàn),提供更高的保真度圖形和游戲性能,幫助 King 讓世界更加俏皮。
聯(lián)發(fā)科CTO Dr. Kevin Jou:“移動設(shè)備,比如智能手機(jī)、平板電腦、電子書,已經(jīng)改變了我們的社交、工作和學(xué)習(xí)的方式。Arm 的全面計(jì)算解決方案為移動領(lǐng)域帶來了令人興奮的新進(jìn)展,提高了計(jì)算性能,提高了系統(tǒng)效率,并為未來的設(shè)備提供了更強(qiáng)的安全性。我們期待繼續(xù)與 Arm 合作,提高下一代用戶在娛樂、教育和生產(chǎn)力方面的體驗(yàn)。”
三星電子CTO Dr. Kevin Jou:“智能設(shè)備已成為我們生活的數(shù)字?jǐn)U展,而這需要依賴于性能、效率和安全性。憑借 Arm 基于其最新的 Armv9 架構(gòu)和增強(qiáng)的領(lǐng)先合作伙伴關(guān)系的全面計(jì)算解決方案,三星的系統(tǒng) LSI 業(yè)務(wù)和 Arm 將為下一代移動平臺開辟新的可能性,我們對此感到興奮,這將通過我們未來的技術(shù)為用戶體驗(yàn)帶來變革。”
Unity vice president of Platforms, Scott Flynn:“我們很高興能支持 Arm新的全面計(jì)算解決方案。這種新解決方案是向前邁出的一大步,為基于 Arm 的設(shè)備提供更好的性能創(chuàng)造了基礎(chǔ)。我們的軟件和基礎(chǔ)硬件之間的緊密聯(lián)系將幫助 Unity 創(chuàng)作者進(jìn)一步推動他們的游戲和應(yīng)用程序,帶來更多身臨其境和令人驚嘆的體驗(yàn)。”
Zoom Head of Hardware Partnership, Eric Yu:“過去一年,我們推動了技術(shù)解決方案,改變了人們的互動方式。我們現(xiàn)在要求在平臺一級更加需要安全和情報(bào)。基于 Armv9 的全計(jì)算解決方案具有增強(qiáng)的安全功能和更高的性能,將為使用 Arm 技術(shù)的下一代智能手機(jī)和筆記本電腦設(shè)備提供更無縫的沉浸式體驗(yàn)。”
編輯:芯智訊-浪客劍
規(guī)劃總投資598億元,濟(jì)南泉芯也要“爛尾”了?
韓國為美國送上394億美元大禮包:除了5nm晶圓廠,還有電動車廠和電池廠等
520億美元!美國公布芯片投資法案,加速組建“排華供應(yīng)鏈”!
華為加速布局“賣車”!今年將開1000家體驗(yàn)店,明年要賣30萬輛?
90億大陸擴(kuò)產(chǎn),34.6億韓國收購,SK海力士要做8吋晶圓代工市場大玩家
“祝融號”成功登陸火星的背后:十二大關(guān)鍵問題詳解
官媒定調(diào)“臺積電南京廠擴(kuò)產(chǎn)爭議”:堅(jiān)持全球合作和開放創(chuàng)新,鼓勵內(nèi)外資企業(yè)加大投資
特斯拉遭遇大麻煩?網(wǎng)信辦發(fā)布新規(guī):汽車數(shù)據(jù)未經(jīng)允許禁止傳至境外!
IPFS分布式存儲市場持續(xù)爆發(fā),西部數(shù)據(jù)創(chuàng)新存儲架構(gòu)如何助力?
大突破!IBM全球首發(fā)2nm制程芯片及制造技術(shù)
行業(yè)交流、合作請加微信:icsmart01
芯智訊官方交流群:221807116
