5nm/2個X1超大核/20核G78/edgeTPU!谷歌Tensor處理器詳解:三星成幕后大贏家!

早在今年8月,谷歌母公司Alphabet CEO Sundar Pichai正式曝光了谷歌首款自研手機芯片“Tensor”。隨后在10月下旬,首發(fā)搭載Tensor處器的Pixel 6和Pixel 6 Pro兩款智能手機正式上市。近日,國外分析機構(gòu)TechInsights對谷歌Tensor處理器芯片進行了拆解,隨后科技媒體Anandtech也對于Tensor處理器進行了詳細的分析。
三星除了提供5nm代工服務,還參與了Tensor的設計?
雖然谷歌自稱Tensor處理器是完全由自己公司設計的,但是Anandtech認為該芯片應該是由谷歌和三星LSI合作設計的,谷歌在此過程中模糊了傳統(tǒng)定制設計和半定制設計之間的界限。
“谷歌Tensor”的命名比較抽象,目前官方?jīng)]有給這款芯片貼上具體的型號。因此,下一代是否會命名為“Tensor 2”或其他名稱還有待觀察。而在內(nèi)部,谷歌稱該芯片為“GS101”,雖然不確定確定 “GS”代表什么,但可能是 Google SoC 或 Google Silicon。
通過TechInsights對于谷歌Tensor處理器的分析發(fā)現(xiàn),Tensor處理器的封裝尺寸為 10.38mm x 10.43mm = 108.26mm 2,其內(nèi)部的芯片標識為“S5P9845”,而這一標識符合傳統(tǒng)三星Exynos處理器命名規(guī)則,比如Exynos 990的芯片標識為S5E9830,Exynos 2100 5G SoC芯片標識為S5E9840,Exynos 1080 5G SoC芯片標識為S5E988。
因此,TechInsights也懷疑谷歌Tensor 和三星Exynos處理器之間可能存在聯(lián)系。雖然谷歌Tensor芯片可能采用的是三星的5LPE工藝代工,但是其他的芯片廠商交由三星代工的芯片并不會擁有三星Exynos處理器類似的芯片標識。

△谷歌Tensor處理器的標記

△Tensor處理器的die照片
根據(jù)此前媒體的報道,我們可以發(fā)現(xiàn),在幾年前,三星就已經(jīng)對外開放了半定制芯片設計產(chǎn)品的服務。從2020年8月ETNews發(fā)布的一篇報道當中,就描述了三星的業(yè)務計劃,以及它如何涉及到谷歌的芯片(以及描述對于思科的design win):
“三星電子將為全球頂級網(wǎng)絡設備制造商思科系統(tǒng)公司制造半導體芯片,將負責谷歌公司的芯片從設計到生產(chǎn)的整個半導體制造過程。
[…]
三星電子目前正處于涉及芯片設計的開發(fā)階段。
[…]
三星電子還從谷歌獲得了一份關于制造多個芯片的訂單。聽說谷歌需要一種半導體芯片,該半導體芯片將用于可以測量身體運動的傳感器,而不是用于當前 IT 設備和前所未有的應用處理器 (AP) 的處理器。
[…]
三星電子正在采取不同的方法,因為它希望在芯片設計中積極利用其技術。其戰(zhàn)略是提供客戶從設計階段到生產(chǎn)所需要的“定制”技術和功能。
從以上的描述來看,三星與谷歌的合作,并不是簡單地作為一個純粹的芯片代工制造商,而是作為完全參與到芯片設計的一方。這在很大程度上可以與 ASIC 設計服務相提并論。同樣,另一家芯片設計廠商聯(lián)發(fā)科也對外提供ASIC設計服務。
8核CPU :2×Cortex-X1+2×Cotex-A76+4×Cortex-A55
在CPU方面,谷歌Tensor處理器與很多旗艦處理器一樣,采用了大中小核三叢八核心設計,不同的是,大多數(shù)旗艦芯片采用的是1+3+4的架構(gòu),而谷歌Tensor處理器在采用了2+2+4的架構(gòu)。
具體來看,谷歌Tensor處理器采用了兩顆Arm Cortex-X1超大核,主頻為2.8GHz,擁有2×1024KB二級緩存;2顆Cortex-A76大核,主頻2.25GHz,擁有2×256KB二級緩存;4顆 Cortex-A55小核,主頻1.8GHz,擁有4×128KB二級緩存。

理論上,谷歌Tensor處理器采用了兩顆Arm Cortex-X1超大核,使得其在在大核性能上要高于其他僅有一個超大核的處理器,只不過,其超大核的2.8GHz主頻要略低于高通驍龍 888的2.86GHz 和 三星Exynos 2100的2.91GHz。另外,在二級緩存方面,Tensor處理器與驍龍888相近都配備了1MB的二級緩存,這是三星Exynos 2100的兩倍。
在中間的大核心上,Tensor處理器并沒有采用性能更強的Cortex-A77或A78,而是選擇了Cortex-A76,這似乎是從功耗方面來考慮,但是如果真的考慮整體功耗的話,那么就不應該用兩個Cortex-X1大核,這似乎有些不合理。Anandtech認為,這可能是因為Tensor處理器在設計時,三星并沒有準備好集成更新的CPU IP。Anandtech也不認為谷歌是刻意選擇Cortex-A76,而放棄了A77或A78,因為在性能基準測試中舊的設計表現(xiàn)并不佳。
在小核心上,Tensor處理器采用的是4個1.8GHz主頻的Cortex-A55 核心。與三星自家的 Exynos 2100芯片相比,谷歌決定為小核配備了128KB 的二級緩存,而不僅僅是64KB,與驍龍 888的配置相近。不過,谷歌的一個奇怪選擇是,集群的三級緩存與 Cortex-A55 內(nèi)核在同一時鐘平面上,這會影響延遲和功耗。這也與我們在 Exynos 2100上看到的專用的三級緩存時鐘平面不一致。
GPU:20核心Mali-G78
谷歌Tensor處理器采用了20核心的Mali-G78 GPU,848 MHz (shaders)、996 MHz (tiler/L2),使得其成為了全球第二大Mali GPU集群配置的處理器,僅次于華為麒麟9000的24核Mali-G78 GPU。
Anandtech最初認為,Tensor處理器的GPU可能會以低頻率運行,以優(yōu)化能效,但實際上,其是以驚人的 848MHz 的峰值時鐘速度運行GPU,用于著色器內(nèi)核,和 996MHz 為 tiler和L2緩存。要知道三星的Exynos 2100集成的14核心的Mali-G78 GPU也只是運行在854MHz,而Tensor處理器的GPU的數(shù)量與其相比增加了42%。這也意味著Tensor處理器的GPU性能將會非常強大。Anandtech表示,谷歌Tensor 似乎是第一個利用了Arm 的Mali-G78時鐘平面分離設計的芯片。
LPDDR5,8MB SLC 緩存
谷歌Tensor處理器上的內(nèi)存控制器似乎與 Exynos 2100 上的相同,在 4x 16bit通道配置中支持 LPDDR5內(nèi)存,理論峰值帶寬為 51.2GB/s。
此外,Tensor處理器還集成了 8MB 的SLC系統(tǒng)緩存,不清楚這與三星在 Exynos 2100 上使用的 IP 是否相同,但它們都是 8MB,但Anandtech傾向于兩者是不同的 IP,或者至少是 IP 的不同版本,因為它們的架構(gòu)方式和運行方式存在一些真正的差異。
谷歌在這里非常廣泛地使用 SLC 來提高 SoC 的性能,包括他們自己的自定義模塊。SLC 允許對自身進行分區(qū),并將 SRAM 區(qū)域?qū)S糜?SoC 上的特定 IP 塊,使它們能夠在不同的用例情況下獨占訪問全部或部分緩存。
自定義混合ISP
在目前用戶對于手機拍照性能要求越來越高的背景之下,從關乎手機拍照成相質(zhì)量的ISP(圖像信號處理器)開始變得越來越關鍵,因此我們也能夠看到,此前谷歌、小米、vivo等都有專門推出獨立的ISP芯片來應對。
在谷歌 Tensor 處理器中,其集成的ISP內(nèi)核,將三星Exynos處理器上集成的ISP的部分功能模塊和谷歌自研的自定義ISP集成到了一起。
Anandtech表示, Tensor 處理器的ISP使用與 Exynos ISP相對應的 IP 塊,例如像素相位檢測處理單元、對比度自動對焦處理單元、圖像縮放器、失真校正處理塊和視圖相關的遮擋紋理功能處理塊。這里缺少的是缺少其他一些處理塊,Anandtech認為這與三星使用的更多后處理計算塊有關。
谷歌自研的ISP IP塊似乎是他們自己的3AA IP(Auto-Exposure,Auto-White Balance,Auto-Focus),以及一對定制的時間降噪IP塊,能夠?qū)R和合并圖像。這些可能是谷歌在說他們開發(fā)的塊有助于加速他們用作 Pixel 系列計算攝影的一部分的圖像處理類型時所談論的自定義塊。
谷歌Tensor TPU
早在2018年7月,谷歌正式推出了用于邊緣計算的edge TPU,作為其Cloud TPU的補充,當時Edge TPU僅用于推理,專為在邊緣運行TensorFlow Lite ML模型而設計。除了自用,谷歌edge TPU也將提供給其他廠商使用。根據(jù)官方的資料,edge TPU的算力為4TOPS,功耗為2W。
目前在中高端智能手機處理器中,基本都有集成專用的AI內(nèi)核,用以除了各種人工智能計算。此次谷歌自研的Tenso處理器當中,也集成了谷歌自研的TPU內(nèi)核,不過在驅(qū)動程序上,谷歌將其稱之為“edge TPU”。
也就是說,Tenso處理器當中集成的TPU可能就是基于此前發(fā)布的edge TPU的IP的修改版。雖然谷歌沒有介紹Tensor內(nèi)置 TPU的性能指標,不過有數(shù)據(jù)顯示該TPU功率為 5W,這與之前谷歌edge TUP存在差異 。因此,如果兩者確實相關,那么鑒于顯著的工藝節(jié)點優(yōu)勢和整體更新的 IP,Tensor TPU的性能應該比之前的edge TPU更強大。
媒體編解碼器
在媒體編碼器方面,谷歌Tensor處理器集成了三星的多功能編解碼器IP(Multi-Function Codec),可支持8K@30fps & 4K@120fps encode & 8K@60fps decode,H.265/HEVC、H.264、VP9、AV1 decode。同時Tensor處理器還集成了谷歌自研的似乎是專用于AV1解碼的被稱之為?“BigOcean” 的Decode解碼器,支持4K@60fps AV1解碼。
但奇怪的是三星宣傳其Exynos 2100的媒體編解碼器具有 AV1 解碼能力,而且該功能似乎確實存在于內(nèi)核驅(qū)動程序中。然而,在 Galaxy S21 系列上,此功能從未在 Android 框架級別上實現(xiàn)。這或許也解釋了,為什么Tensor處理器還集成了被稱之為“BigOcean”的谷歌AV1解碼器,而其他的格式的所有編碼和解碼都交給了三星Multi-Function Codec。
另外,谷歌Tensor處理器還采用了自己設計的低功耗音頻解碼子系統(tǒng),允許低功耗音頻播放而無需喚醒SoC中的CPU核心。同時,谷歌還采用了一個名為 Emerald Hill 的塊形式的固定功能硬件內(nèi)存壓縮器,它為內(nèi)存頁面提供 LZ77 壓縮加速,并且可以反過來用于加速交換中的 ZRAM 卸載。
外掛三星5G基帶芯片
由于谷歌Tensor處理器是一款針對智能手機的 SoC,因此 Tensor自然還需要有配套的帶芯片來支持手機的移動通信功能。根據(jù)TechInsights對于Pixel Pro 6的拆解發(fā)現(xiàn),Pixel Pro 6內(nèi)部的Tensor處理器(下圖中藍色方框內(nèi)美光DRAM下方就是Tensor處理器)只是一款AP,其通信功能則是依靠外掛的三星 SHANNON A5123 5G基帶芯片(下圖中紫色方框內(nèi))來實現(xiàn)的,可支持LTE Category 24/18以及5G NR Sub-6、5G NR mmWave。此外還有高通5G基帶芯片的版本。

△谷歌Pixel Pro 6主板
另外,TechInsights還發(fā)現(xiàn)拆解的美國版的谷歌Pixel 6系列還配套了三星的毫米波射頻收發(fā)器 SHANNON 5710、三星 SHANNON 5511 射頻收發(fā)器、SHANNON ?5311A PMIC、三星 Exynos SM 5800 電源調(diào)制器、三星 PMIC S2MPG10和三星 PMIC S2MPG11。

△三星毫米波射頻收發(fā)器?SHANNON 5710
小結(jié):
將谷歌Tensor處理器和三星Exynos 2100對比來看,可以看到,這兩顆芯片之間有著很多的類似之處,并且谷歌Tensor處理器還采用了很多三星提供的IP。Anandtech表示,兩款芯片采用了相同的時鐘管理和電源管理架構(gòu)、內(nèi)存控制器、結(jié)構(gòu) IP、用于各種面向外部的接口的 PHY IP,甚至還有更大的 IP 功能模塊,例如 ISP 或多媒體解碼器/編碼器。有趣的是,這些東西現(xiàn)在可以在Github上公開查詢到。當然,從整體的芯片規(guī)格來看,谷歌Tensor處理器要比三星Exynos 2100更為強大。

綜合以上的信息,Anandtech表示,谷歌聲稱 Tensor處理器是他們自己的設計,這在一定程度上是正確的。但根據(jù)外界通常對于“設計”的定義來看,還是有所不同的。盡管 Tensor/GS101 建立在 Exynos 基礎模塊和 IP 之上,同時也是由三星流片和制造,但 SoC的定義在谷歌的控制之下,因為它是谷歌的最終產(chǎn)品。雖然在 Tensor 的基礎和最低層模塊方面與 Exynos 2100 非常相似,但在結(jié)構(gòu)和內(nèi)部互連方面,谷歌的設計卻有所不同。這意味著各種 IP 塊如何相互交互的網(wǎng)絡與三星自己的 SoC 不同。
這方面的一個實際例子是,如何將 CPU 內(nèi)核集成到 SoC 中。雖然在 Exynos 2100 上,CPU集群似乎非常明顯地位于更小、更明確的三星相干互連中,但 Tensor SoC 將 CPU 集群集成在更大的 CCI 中,這似乎是一種非常不同的互連設置配置,或者是一個完全不同的IP。與此同時,二者仍有一些相似之處,例如將一條主要的內(nèi)存流量總線連接到內(nèi)存控制器,并將另一條流量較低的“內(nèi)部”總線連接到其他 IP,這就是 Exynos SoC 傾向于分離事物的方式。具體如何需要對 SoC 進行更詳細的逆向工程和映射,但這超出了本文討論的范圍,因為這是一件非常耗時的事情。
編輯:芯智訊-浪客劍? ??
綜合編譯自:Anandtech、TechInsights
IGBT6.0年底推出!比亞迪半導體:明年國內(nèi)新能源汽車銷量將突破600萬輛
聞泰科技拿到Macbook訂單是假消息?相關知情人士:純屬“野雞機構(gòu)”的臆測!
終端節(jié)點已突破2.8億個!LoRa將拿下50%的LPWAN物聯(lián)網(wǎng)市場?
張忠謀:英特爾CEO基辛格是個人才,但美國半導體本地制造不會成功!
重磅!聞泰科技取代臺廠成為蘋果2022款MacBook獨家組裝廠
占據(jù)90%光刻機市場!狂奔中的ASML,依然看不到任何對手
過去6個月,華為、中芯國際供應商獲得價值數(shù)十億美元的許可證!美國鷹派欲徹底封堵
平頭哥半導體副總裁孟建熠專訪:揭開玄鐵RISC-V處理器開源背后的秘密
行業(yè)交流、合作請加微信:icsmart01
芯智訊官方交流群:221807116
