半導(dǎo)體芯片:NVIDIA、AMD和Intel三雄逐鹿全球


賽靈思近年布局的自適應(yīng)計(jì)算加速平臺(tái)ACAP以FPGA+AI 引擎的方式實(shí)現(xiàn)異構(gòu)加速。兩家公司在深度學(xué)習(xí)項(xiàng)目均有合作,包括賽靈思Alveo 加速技術(shù)+AMD EPYC 服務(wù)器的協(xié)同方案;此外賽靈思收購(gòu)深鑒科技獲得的深度學(xué)習(xí)處理器DPU 方案也能賦能AMD 在云和邊緣計(jì)算的AI 計(jì)算實(shí)力,與英偉達(dá)進(jìn)一步抗衡。
FPGA 可在系統(tǒng)制造完成后依據(jù)期望的功能進(jìn)行重新編程,具備配置靈活、設(shè)計(jì)時(shí)間短、物料成本低的優(yōu)點(diǎn)。它是作為專用集成電路(ASIC)領(lǐng)域中的一種半定制電路而出現(xiàn)的,既能解決了定制電路的不足,又能克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。FPGA 的基本特點(diǎn)包括:
1、采用FPGA 設(shè)計(jì)ASIC 電路,用戶不需要投片生產(chǎn),就能得到合用的芯片;
2、FPGA 可做其它全定制或半定制 ASIC 電路的中試樣片;
3、FPGA內(nèi)部有豐富的觸發(fā)器和 I/O 引腳;
4、FPGA 是 ASIC 電路中設(shè)計(jì)周期最短、開發(fā)費(fèi)用最低、 風(fēng)險(xiǎn)最小的器件之一;
5、FPGA 采用高速 CMOS 工藝,功耗低,可以與 CMOS、TTL 電平兼容。
可以說(shuō),F(xiàn)PGA 芯片是小批量系統(tǒng)用來(lái)提高系統(tǒng)集成度、可靠性的最佳選擇之一。FPGA 是由存放在片內(nèi) RAM 中的程序來(lái)設(shè)置其工作狀態(tài)的,因此工作時(shí)需要對(duì)片內(nèi)的 RAM 進(jìn) 行編程。用戶可以根據(jù)不同的配置模式,采用不同的編程方式。
英偉達(dá)今年剛完成跟Mellanox 的并表,以強(qiáng)化高性能計(jì)算壁壘,觸及數(shù)據(jù)中心通信傳輸和處理領(lǐng)域。英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)在今年重拾動(dòng)力,2016 年以來(lái),AI 云端訓(xùn)練需求雖已達(dá)到更新迭代的周期,但新AI 應(yīng)用才是需求放量的關(guān)鍵。未來(lái)AI 將應(yīng)用于醫(yī)藥、金融和無(wú)人駕駛等方面,需求正在爆發(fā)。近日更推出DPU(數(shù)據(jù)處理器),把Arm 處理器核、VLIW 矢量計(jì)算引擎和智能網(wǎng)卡進(jìn)行集成,提升在分布式存儲(chǔ)、網(wǎng)絡(luò)計(jì)算和網(wǎng)絡(luò)安全領(lǐng)域的性能。
英偉達(dá)早前提出以400 億美元收購(gòu)移動(dòng)處理器巨頭Arm,希望加入CPU 以擴(kuò)大在GPU 以外的版圖,但能否收入囊中仍存疑。若能成功收購(gòu)Arm,英偉達(dá)不但能鞏固移動(dòng)端的產(chǎn)品線,也能打造一套完整的GPU+Arm 的服務(wù)器計(jì)算架構(gòu)。我們認(rèn)為這架構(gòu)有望成為低端x86 CPU 服務(wù)器市場(chǎng)的新進(jìn)者。然而,我們認(rèn)為有兩個(gè)問(wèn)題需要關(guān)注:
1)Arm 先天架構(gòu)劣勢(shì)導(dǎo)致其在高性能計(jì)算市場(chǎng)尚無(wú)成功方案,計(jì)算生態(tài)也暫時(shí)難以與英特爾/AMD 的x86 CPU服務(wù)器相匹敵。
2)行業(yè)對(duì)于英偉達(dá)并購(gòu)Arm 存在異議,而有關(guān)監(jiān)管機(jī)構(gòu)亦或會(huì)對(duì)收購(gòu)施加壓力。
英特爾也在經(jīng)歷了管理層變革后展現(xiàn)出相對(duì)銳意改革的決心,我們認(rèn)為公司繼續(xù)重點(diǎn)打造CPU+FPGA+存儲(chǔ)+GPU 的完整計(jì)算生態(tài),還是能受益于全球云計(jì)算需求成長(zhǎng)周期。目前來(lái)看,英特爾依托其龐大的產(chǎn)品組合可及市場(chǎng),仍然是云計(jì)算、AI、5G、智能駕駛、物聯(lián)網(wǎng)等市場(chǎng)發(fā)展的錨。另外從估值層面看,英特爾2021 年P(guān)S 3x,對(duì)比英偉達(dá)19x、AMD 9x,疊加返現(xiàn),估值也相對(duì)較低。
賽靈思的產(chǎn)品矩陣由三類基于FPGA 的平臺(tái)產(chǎn)品構(gòu)成:傳統(tǒng)的FPGA 及3D IC 產(chǎn)品;全可編程的SoC、MPSoC、和RFSoC 系列產(chǎn)品以及2019 下半年推出的自適應(yīng)計(jì)算平臺(tái)ACAP 產(chǎn)品。三類平臺(tái)產(chǎn)品均隨著納米制程的不斷縮小(45nm、28nm、20nm、16nm 到7nm)進(jìn)行升級(jí),公司的技術(shù)演進(jìn)也一直走在行業(yè)前列。
2013 年-2014 年,賽靈思在突破20nm 工藝節(jié)點(diǎn)的基礎(chǔ)上,發(fā)布業(yè)內(nèi)首款A(yù)SIC 級(jí)可編程架構(gòu)UltraScale,不僅標(biāo)志著Xilinx 再次從納米制程上實(shí)現(xiàn)突破,也標(biāo)志著賽靈思不再局限于以前的FPGA 行業(yè),而是面向更廣闊的PLD+ASIC 市場(chǎng)。
2015-2016 年,賽靈思在UltraScale 架構(gòu)上完成20nm 平面晶體管結(jié)構(gòu)工藝向16nm晶體管工藝的技術(shù)擴(kuò)展,還推出了第二代Zynq 全可編程SoC——Zynq UltraScale+多處理SoC (MPSoC)。該產(chǎn)品采用了16nm FinFET+工藝技術(shù),異構(gòu)多核處理的MPSoC 標(biāo)志著賽靈思SoC 系列產(chǎn)品再次完成重大技術(shù)演進(jìn)。
2017 年,賽靈思推出第三代Zynq 全可編程SoC——Zynq UltraScale+ RFSoC,通過(guò)將直接RF 采樣技術(shù)取代分立數(shù)據(jù)轉(zhuǎn)換器,并將穩(wěn)定可靠的Arm 級(jí)處理系統(tǒng)以及FPGA架構(gòu)整合到單芯片器件中,在集成度方面實(shí)現(xiàn)重大突破,削減了50-75%的功耗和封裝尺寸。通過(guò) Zynq UltraScale+ RFSoC,無(wú)線基礎(chǔ)設(shè)施制造商可實(shí)現(xiàn)顯著的占板面積及功耗減少,為5G 建設(shè)中大規(guī)模部署MIMO 提供重要保障;同時(shí)作為面向可擴(kuò)展、多功能、相控陣?yán)走_(dá)的單芯片TRX 解決方案,Zynq UltraScale+ RFSoC 也能夠滿足軍工應(yīng)用場(chǎng)景下復(fù)雜的需求并實(shí)現(xiàn)高效的響應(yīng)。
2018 年,賽靈思采用最新的7nm FinFET 工藝技術(shù),在RFSoC 的基礎(chǔ)上演進(jìn)出業(yè)界首款自適應(yīng)計(jì)算加速平臺(tái)(ACAP)Versal,將標(biāo)量引擎、自適應(yīng)引擎和AI 引擎相結(jié)合,實(shí)現(xiàn)顯著的性能提升,主要面向數(shù)據(jù)中心、有線網(wǎng)絡(luò)、5G 無(wú)線和汽車駕駛輔助應(yīng)用,并在2019 下半年正式出貨。此后賽靈思進(jìn)一步擴(kuò)充Versal ACAP 產(chǎn)品組合,先后發(fā)布了Versal AI Core、Versal Prime 和Versal Premium 系列,針對(duì)超大規(guī)模數(shù)據(jù)中心工作負(fù)載加速。

目前,賽靈思將28nm、20nm、16nm、7nm 等制程產(chǎn)品歸類為先進(jìn)產(chǎn)品,其他制程的產(chǎn)品歸類為核心產(chǎn)品,先進(jìn)產(chǎn)品的銷售穩(wěn)步增長(zhǎng)。
賽靈思若能并入 AMD,對(duì)于AMD的AI 數(shù)據(jù)中心業(yè)務(wù)來(lái)說(shuō)將會(huì)是如虎添翼。以往AMD在數(shù)據(jù)中心市場(chǎng)主要以服務(wù)器CPU 為主營(yíng)業(yè)務(wù),而GPU 方面也主要應(yīng)用于圖像處理,在AI 加速計(jì)算市場(chǎng)目前尚難與英偉達(dá)正面交鋒。如若合并后AMD 有望能搶占云計(jì)算數(shù)據(jù)中心以及 AI 推理端份額,有效形成協(xié)同效應(yīng),也讓 AMD 產(chǎn)品線可進(jìn)一步跟 Intel 和英偉達(dá)看齊。
賽靈思預(yù)計(jì),未來(lái)三年公司整體市場(chǎng)規(guī)模空間的CAGR 增長(zhǎng)將達(dá)到16%,從2020財(cái)年的150 億美元到2024 財(cái)年的280 億美元。

在云計(jì)算深度學(xué)習(xí)上游訓(xùn)練端,GPU是當(dāng)仁不讓的第一選擇,但以 ASIC 為底芯片的包括谷歌的 TPU、寒武紀(jì)的 MLU 等,也如雨后春筍。以 TPU 為代表的 ASIC 定制化芯片,針對(duì)特定算法深度優(yōu)化和加速。我們認(rèn)為深度學(xué)習(xí) ASIC 芯片,將依靠特定優(yōu)化和效能優(yōu)勢(shì),未來(lái)在細(xì)分市場(chǎng)領(lǐng)域發(fā)揮所長(zhǎng)。而下游推理端更接近終端應(yīng)用,需求更加細(xì)分。逐步形成 GPU 向推理端滲透,與 ASIC 和 FPGA 共同繁榮發(fā)展的格局。

此外,F(xiàn)PGA 依靠電路級(jí)別的通用性,加上可編程性,適用于開發(fā)周期較短的 IoT 產(chǎn)品、傳感器數(shù)據(jù)預(yù)處理工作,以及小型開發(fā)試錯(cuò)升級(jí)迭代階段等。

在自動(dòng)駕駛行業(yè)中,賽靈思目前主要定位在 ADAS 層面,車載前置攝像頭處理單元出貨量?jī)H次于Mobileye。雖然 2018 年全球無(wú)人駕駛行業(yè)出現(xiàn)陣痛期,但 2020 年的全球疫情一定程度上催化了智能駕駛行業(yè)的發(fā)展。而隨著 L3 以下智能駕駛需求的加速滲透,也有望在未來(lái)為賽靈思帶來(lái)新的成長(zhǎng)空間。

2020 年 9 月,賽靈思宣布將通過(guò) Zynq UltraScale+ MPSoC 平臺(tái)支持大陸開發(fā)新款高級(jí)雷達(dá)傳感器(ARS)540,聯(lián)手打造汽車行業(yè)首款量產(chǎn)版 4D 成像傳感器。4D 成像雷達(dá)能夠通過(guò)距離(Range)、方位(Azimuth)、仰角(Elevation)和相對(duì)速度確定物體位置, 助力 L2 到 L5 等級(jí)功能。賽靈思的 Zynq MPSoC 可達(dá)到車規(guī)級(jí),為 4D 雷達(dá)提供 DSP功能、網(wǎng)絡(luò)接口和天線數(shù)據(jù)處理能力。Yole Dévelopement 預(yù)測(cè) 4D 雷達(dá)將首先出現(xiàn)在豪華轎車和自動(dòng)駕駛出租車上,市場(chǎng)規(guī)模將達(dá)到 5.5 億美元。
英偉達(dá)在AI 訓(xùn)練端基本占?jí)艛嗟匚唬匈囉谧陨韽?qiáng)勁的計(jì)算能力。而推理端則更重視低功耗和低延遲,對(duì)算力的要求雖然較低,但 GPU 的高適應(yīng)性則體現(xiàn)在它的通用性和可編程性。在市場(chǎng)蛋糕變大的同時(shí),逐步形成 GPU 向推理端滲透,與 ASIC 和 FPGA 共同繁榮發(fā)展的格局。
另外,英偉達(dá)通過(guò)收購(gòu) Mellanox 觸及數(shù)據(jù)中心通信傳輸和處理領(lǐng)域。近日更推出DPU(Data Processing Unit,數(shù)據(jù)處理器),把 Arm 處理器核、VLIW 矢量計(jì)算引擎和智能網(wǎng)卡進(jìn)行集成,提升在分布式存儲(chǔ)、網(wǎng)絡(luò)計(jì)算和網(wǎng)絡(luò)安全領(lǐng)域的性能。
Mellanox 在數(shù)據(jù)中心服務(wù)器方面的核心產(chǎn)品InfiniBand 網(wǎng)絡(luò)互聯(lián),用于數(shù)據(jù)中心、超級(jí)計(jì)算機(jī)的數(shù)據(jù)傳輸和網(wǎng)絡(luò)互聯(lián),包括與微軟數(shù)據(jù)中心的合作方案中,將網(wǎng)絡(luò)堆棧處理從CPU 卸載到網(wǎng)絡(luò),成為面向數(shù)據(jù)庫(kù)處理、人工智能機(jī)器學(xué)習(xí)等高存儲(chǔ)需求工作負(fù)載的最佳解決方案。InfiniBand憑借其低延遲和高吞吐量互聯(lián)特性,在高性能計(jì)算HPC 市場(chǎng)成為網(wǎng)絡(luò)標(biāo)準(zhǔn),目前這個(gè)市場(chǎng)主要供應(yīng)商為Mellanox 和英特爾。此前傳出包括微軟、英特爾、賽靈思的競(jìng)購(gòu),體現(xiàn)了公司在數(shù)據(jù)中心服務(wù)器市場(chǎng)中的戰(zhàn)略卡位地位,也讓英偉達(dá)有機(jī)會(huì)打造“計(jì)算+傳輸”產(chǎn)品閉環(huán)。
InfiniBand 具有低延遲、高吞吐量的特點(diǎn),近兩年TOP10 高性能計(jì)算機(jī)用戶有60-70%裝載InfiniBand,對(duì)比英特爾Omini-Path 的10%。基于這兩條產(chǎn)品線之上的Mellanox ConnectX-6 Dx 智能網(wǎng)卡可增強(qiáng)系統(tǒng)安全性并降低延遲,在邊緣提供更加安全的實(shí)時(shí)AI處理。FY21Q2 起Mellanox 開始計(jì)入英偉達(dá)財(cái)報(bào),5 月英偉達(dá)發(fā)布7nm 的Ampere 新架構(gòu)GPU,性能提升20 倍。當(dāng)季性能計(jì)算芯片和網(wǎng)絡(luò)連接貢獻(xiàn)收入創(chuàng)下歷史新高,數(shù)據(jù)中心業(yè)務(wù)收入同比提升167%、環(huán)比增長(zhǎng)54%。
英偉達(dá)近日發(fā)布的BlueField DPU 系列便是基于Mellanox 的產(chǎn)品,通過(guò)以數(shù)據(jù)為中心、數(shù)據(jù)處理與傳輸同時(shí)進(jìn)行的模式,希望能代替原有的以計(jì)算單元為中心、數(shù)據(jù)處理滯后于數(shù)據(jù)傳輸?shù)倪^(guò)時(shí)范例,從而減輕CPU和GPU的運(yùn)行負(fù)擔(dān),實(shí)現(xiàn)整體計(jì)算性能的優(yōu)化。

BlueField 2 搭載8 顆64bit 的Arm A72 CPU 內(nèi)核,2 VLIM 加速器和Connect X6 Dx智能網(wǎng)卡,可以提供雙端口最高100Gps 和單端口200Gps 的網(wǎng)絡(luò)連接。BlueField 可以快速有效地捕獲、分析、分類、管理和存儲(chǔ)海量數(shù)據(jù),實(shí)現(xiàn)RDMA/RoCE、DPUDirect、彈性存儲(chǔ)、分塊存儲(chǔ)加密和惡意外部應(yīng)用自動(dòng)檢測(cè)等功能,從而實(shí)現(xiàn)單顆DPU 芯片對(duì)125個(gè)CPU 內(nèi)核的釋放。BlueField 2X 在此基礎(chǔ)上集成了5 月新發(fā)布的7 nm 級(jí)Ampere 架構(gòu)GPU 和第三代Tensor 內(nèi)核,可通過(guò)AI 加速數(shù)據(jù)中心的安全、網(wǎng)絡(luò)連接、數(shù)據(jù)存儲(chǔ)等任務(wù)。

此外,英偉達(dá)還發(fā)布了面向開發(fā)者的平臺(tái)DOCA SDK,通過(guò)集成Ampere GPU 和BlueField2 DPU 優(yōu)化EGX AI 平臺(tái),向流媒體、智能駕駛、醫(yī)療等終端場(chǎng)景擴(kuò)展。BlueField 2 DPU目前處于樣品階段,預(yù)計(jì)2021 年將在服務(wù)器制造商的新系統(tǒng)中使用。BlueField 2X DPU正在開發(fā)中,預(yù)計(jì)將在2021年上市。
英偉達(dá)預(yù)計(jì)BlueField 3 和BlueField 4 將于22/23年發(fā)布,預(yù)計(jì)性能可提升1000 倍,達(dá)到75/400TOPS,400Gbps,吞吐量有望較BlueField2提升1000 倍。英偉達(dá)希望憑借GPU 和Mellanox 智能網(wǎng)卡技術(shù)壁壘的協(xié)同效應(yīng),再輔以Arm 處理器整合協(xié)同后的性能提升,有望進(jìn)一步抗衡英特爾/AMD 的x86 CPU 體系。
英特爾堅(jiān)定以“數(shù)據(jù)導(dǎo)向”為戰(zhàn)略,重新上路聚焦主營(yíng)。英特爾早在2015 年已收購(gòu)了FPGA 行業(yè)第二的Altera,在2017 年收購(gòu)ADAS 龍頭Mobileye,以擴(kuò)大自身在人工智能和數(shù)據(jù)中心的版圖。值得注意的是,若AMD 完成對(duì)賽靈思收購(gòu),市場(chǎng)上只剩下Microchip和萊迪斯兩家FPGA 公司。此外近日SK 海力士宣布將以90 億美元收購(gòu)英特爾NAND 閃存及存儲(chǔ)業(yè)務(wù),也讓英特爾能更為聚焦主營(yíng)業(yè)務(wù)。

Intel 雖然計(jì)劃今年投資150 億美元和擴(kuò)建晶圓廠,但關(guān)鍵在于公司能否跟上臺(tái)積電的先進(jìn)制程腳步。對(duì)于先進(jìn)產(chǎn)能的追求變成負(fù)擔(dān),以及是否將7nm 產(chǎn)能外包給臺(tái)積電的猶豫反復(fù),都可能讓英特爾在高性能計(jì)算競(jìng)爭(zhēng)中日漸式微。
參考文獻(xiàn):中信證券 半導(dǎo)體產(chǎn)業(yè)的三分天下:英偉達(dá)、AMD、英特爾

電子書<服務(wù)器基礎(chǔ)知識(shí)全解(終極版)>更新完畢,知識(shí)點(diǎn)深度講解,提供182頁(yè)完整版下載。
獲取方式:點(diǎn)擊“閱讀原文”即可查看詳情,提供PPT可編輯版本和PDF閱讀版本。
溫馨提示:
請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

