數(shù)據(jù)處理器(DPU)行業(yè)概覽(2021)


今天分享內(nèi)容來源頭豹“中國(guó)數(shù)據(jù)處理器行業(yè)概覽(2021)”,重點(diǎn)分析DPU定義、分類、技術(shù)路線、產(chǎn)業(yè)鏈、商業(yè)模式、主流應(yīng)用場(chǎng)景以及全球競(jìng)爭(zhēng)格局。
文章來源:智能計(jì)算芯世界
下載鏈接:中國(guó)數(shù)據(jù)處理器行業(yè)概覽(2021)
DPU產(chǎn)品最初主要游有一定市場(chǎng)和技術(shù)儲(chǔ)備的成熟網(wǎng)絡(luò)設(shè)備生產(chǎn)商以及芯片巨頭 提供,包括Mellanox,Netronome,Broadcom,Cavium。隨著數(shù)據(jù)流量的暴漲以 及CPU算力瓶頸的凸顯,中小企業(yè)亦開始布局DPU市場(chǎng),例如BittWare與Ethernity 等。DPU市場(chǎng)處于早期階段,技術(shù)路線與產(chǎn)品形態(tài)均不明確,中小企業(yè)試錯(cuò)成本 高,難以迅速發(fā)展。云計(jì)算廠商巨頭包括亞馬遜以及華為云通過收購優(yōu)質(zhì)的DPU 企業(yè)或自研DPU用于自身部署。
國(guó)際DPU市場(chǎng)上,英偉達(dá)、英特爾以及博通均推出了多款產(chǎn)品,數(shù)據(jù)的傳輸速率以及存儲(chǔ)的讀寫速率分別達(dá)到40Gbps以及32Gbps。中國(guó)本土DPU企業(yè)起步較晚,數(shù)據(jù)的傳輸速率以及存儲(chǔ)的讀寫速率分別為10Gbps與8Gbps,與國(guó)際頭部廠商有著1-2代的技術(shù)差距。同時(shí),本土企業(yè)DPU商用化不足,在性能上以及可靠性上都無法滿足當(dāng)代云計(jì)算廠商的需求。
速向100Gbps發(fā)展。數(shù)據(jù)中心算力提升遭遇瓶頸,難以匹配快速增長(zhǎng)的網(wǎng)絡(luò)傳輸速率,激發(fā)DPU需求。此外,CPU相對(duì)更適合處理串行的復(fù)雜指令操作,對(duì)大量并行的固定模式計(jì)算并不適用,例如網(wǎng)絡(luò)傳輸?shù)膮f(xié)議棧(TCP/IP)等。
DPU本質(zhì)作用在于承載網(wǎng)絡(luò)側(cè)專用性的網(wǎng)絡(luò)堆棧算法和傳輸協(xié)議運(yùn)算轉(zhuǎn)移,核心效用在于釋放CPU算力資源、助力其他計(jì)算模塊高效處理業(yè)務(wù)數(shù)據(jù)。相對(duì)而言,傳統(tǒng)網(wǎng)卡僅負(fù)責(zé)數(shù)據(jù)鏈路的傳輸,故而CPU承擔(dān)存儲(chǔ)、數(shù)據(jù)、網(wǎng)絡(luò)加密等繁雜事務(wù),占用大量業(yè)務(wù)計(jì)算資源。
DPU可基于FPGA、MP(Multi-core,MP)與ASIC三類核心處理器進(jìn)行設(shè)計(jì);產(chǎn)品實(shí)現(xiàn)角度:已商用的DPU產(chǎn)品形態(tài)包括“ASIC+GP”(NVIDIA等采用)、“ASIC+NP”(華為等采用)。
差異化技術(shù)路徑滿足用戶差異化需求:基于FPGA、MP、ASIC的DPU在性能、成本、可編程性等方面的表現(xiàn)存在較大差異,供應(yīng)商可通過不同處理器組合的技術(shù)路徑,實(shí)現(xiàn)單點(diǎn)突破的產(chǎn)品模式,或?qū)で蟛煌枨簏c(diǎn)之間的平衡。
云數(shù)據(jù)中心流量高速增長(zhǎng),軟件加速、嵌入式CPU加速方案將逐漸被DPU替代;FPGA與SoC是DPU主流的技術(shù)路線,在性能、成本以及靈活性上實(shí)現(xiàn)了較為理想的平衡。
DPU是網(wǎng)卡與處理器的結(jié)合,具備傳輸與計(jì)算的能力。早期,Intel為對(duì)抗異構(gòu)芯片(CPU+專用芯片)的趨勢(shì),推出了軟件加速(SR-IOV、DPDK)與嵌入式CPU的加速方案。軟件加速與嵌入式CPU都存在性能上限,無法滿足當(dāng)前數(shù)據(jù)中心需求,因此逐漸被DPU替代。
嵌入式CPU逐漸被DPU替代,削弱了Intel在服務(wù)器處理器的市場(chǎng)份額以及影響力;服務(wù)器處理器有望形成DPU、GPU、CPU三足鼎立的狀態(tài);NVIDIA通過收購Mellanox積極布局DPU,搶占市場(chǎng)。憑借在GPU的絕對(duì)優(yōu)勢(shì)以及未來DPU的發(fā)力,NVIDIA有望在服務(wù)器處理器三大芯片中占據(jù)其二,替代Intel的霸權(quán)地位。
DPU產(chǎn)線向上游采購三類處理器,采購方式包括外購、同廠跨部門采購等,DPU產(chǎn)線基于底層處理器開發(fā)更為專用的計(jì)算、傳輸?shù)裙δ埽恢袊?guó)DPU行業(yè)下游市場(chǎng)發(fā)展成熟,數(shù)通市場(chǎng)需求擴(kuò)容速度最快,電信市場(chǎng)存在潛在底層需求,或驅(qū)動(dòng)下一輪數(shù)通市場(chǎng)對(duì)DPU需求釋放。
DPU產(chǎn)線上游EDA市場(chǎng)已在全球范圍形成較為成熟、全面、分工明晰的產(chǎn)品線,EDA三巨頭已通過兼并購形成壁壘。中國(guó)本土EDA廠商可通過行業(yè)資源整合、定制化產(chǎn)品路線突圍。
DPU采用10/14納米先進(jìn)工藝,集成的IP數(shù)量多,設(shè)計(jì)成本高;在NPU、BPU等專用產(chǎn)線,中國(guó)IP核市場(chǎng)取得突破,在CPU、GPU等通用處理器市場(chǎng),中國(guó)IP核積累不足。
隨著先進(jìn)制程的演進(jìn),線寬的縮小使得芯片中晶體管數(shù)量大幅提升,單顆芯片中可集成的IP數(shù)量也因此大幅增加。IP可幫助降低芯片的開發(fā)難度、縮短芯片的開發(fā)周期并提升芯片性能。隨著先進(jìn)工藝的升級(jí),IP核數(shù)升級(jí)為芯片設(shè)計(jì)廠商帶來的收益呈現(xiàn)邊際遞減趨勢(shì)。中國(guó)IP產(chǎn)業(yè)發(fā)展滯后,難以為中游DPU設(shè)計(jì)廠商提供有力支持,限制DPU新興市場(chǎng)的發(fā)展。
中國(guó)IP產(chǎn)業(yè)目前已實(shí)現(xiàn)在接口IP細(xì)分領(lǐng)域的國(guó)產(chǎn)替代,但在處理器類芯片的IP產(chǎn)出較少。在人工智能芯片領(lǐng)域,以寒武紀(jì)為代表的本土廠商在NPU IP細(xì)分市場(chǎng)已有較強(qiáng)的影響力;地平線在BPU IP細(xì)分市場(chǎng)取得重大突破。
數(shù)通領(lǐng)域是DPU最大的應(yīng)用市場(chǎng),可為終端政企用戶提供較為成熟的硬件加速解決方案;隨著NFV技術(shù)的演進(jìn),電信市場(chǎng)對(duì)DPU的需求將逐步釋放。
網(wǎng)絡(luò)虛擬化(NFV)是5G關(guān)鍵技術(shù)之一。NFV技術(shù)推動(dòng)下,運(yùn)營(yíng)商對(duì)于邊緣計(jì)算開放生態(tài)、降本增效、縮減部署周期的訴求愈發(fā)明晰。邊緣計(jì)算是賦能行業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵技術(shù),對(duì)網(wǎng)絡(luò)帶寬、時(shí)延、可靠性要求嚴(yán)苛,進(jìn)而激發(fā)電信行業(yè)對(duì)DPU硬件加速技術(shù)的需求。
中國(guó)本土初創(chuàng)DPU供應(yīng)商:前期資本充足的情況下,初創(chuàng)DPU團(tuán)隊(duì)可自主研發(fā)處理器微架構(gòu),該類企業(yè)或?qū)⒊蔀橥苿?dòng)DPU國(guó)產(chǎn)替代的主力;以高級(jí)軟件自研為核心的初創(chuàng)企業(yè)通過定制化服務(wù)方案積累第一批熟客,以平均低于境外同類服務(wù)>10%的價(jià)格,滿足并理解中國(guó)云計(jì)算市場(chǎng)復(fù)雜應(yīng)用場(chǎng)景的需求。
全球DPU供應(yīng)商:收并購擴(kuò)充產(chǎn)線是DPU頭部供應(yīng)商鞏固現(xiàn)有市場(chǎng)地位的慣用手段。初創(chuàng)企業(yè)通過相同技術(shù)與產(chǎn)品難以顛覆頭部企業(yè)的市場(chǎng)地位,只有結(jié)合商業(yè)模式以及邏輯上的創(chuàng)新才有機(jī)會(huì)突破頭部企業(yè)的封鎖。
2020 年 , 中國(guó)DPU產(chǎn)品主要由 NVIDIA(Mellanox)、Intel與Broadcom三家企業(yè)提供,其中Mellanox憑借在網(wǎng)卡上積累的優(yōu)勢(shì),占據(jù)市場(chǎng)龍頭位置。中國(guó)DPU市場(chǎng)規(guī)模預(yù)計(jì)在2025年達(dá)到40億美元。通常數(shù)據(jù)中心帶寬升級(jí)周期在3年左右。中國(guó)將在2023-2025年進(jìn)入下一輪服務(wù)器設(shè)備以及DPU更換周期,DPU市場(chǎng)規(guī)模有明顯的增幅。
數(shù)通市場(chǎng)是DPU最大的應(yīng)用市場(chǎng),其中裸金屬服務(wù)器對(duì)DPU存在剛需。DPU在電信市場(chǎng)的應(yīng)用主要為邊緣計(jì)算場(chǎng)景,滲透率不足5%。針對(duì)智能駕駛領(lǐng)域的DPU仍在探索階段,預(yù)計(jì)在2023年DPU才有望布局在智能駕駛領(lǐng)域。
數(shù)通市場(chǎng):數(shù)據(jù)中心2-3年迭代一次,DPU隨數(shù)據(jù)中心帶寬的升級(jí)而迭代。2020年,頭部云計(jì)算廠商買入400G數(shù)據(jù)中心時(shí)代,對(duì)DPU的需求為25G/40G。預(yù)計(jì)到2023年,數(shù)據(jù)中心將升級(jí)至800G,屆時(shí)云計(jì)算廠商需要升級(jí)100G DPU。
數(shù)據(jù)中心帶寬升級(jí),出于成本與算力需求考慮云計(jì)算廠商同時(shí)會(huì)在當(dāng)年更換1/3的DPU。在隨后2年里,算力需求持續(xù)增加,更換老舊服務(wù)器(服務(wù)器的生命周期通常在4-5年)的性價(jià)比更高。
電信市場(chǎng):5G技術(shù)要求網(wǎng)絡(luò)實(shí)現(xiàn)“大容量、大帶寬、大聯(lián)結(jié)、低延遲、低功耗”驅(qū)動(dòng)了DPU在邊緣機(jī)房部署的可能。在當(dāng)前網(wǎng)絡(luò)架構(gòu)中,核心網(wǎng)部署在遠(yuǎn)端,傳輸時(shí)延較大,且無法滿足5G時(shí)代下數(shù)字化和智能化對(duì)算力的高要求。
為了分擔(dān)終端算力,將算力向云端移動(dòng),同時(shí)為了降低時(shí)延,將業(yè)務(wù)向邊緣移動(dòng)。MEC部署在網(wǎng)絡(luò)邊緣,可以減少數(shù)據(jù)傳輸過程中的轉(zhuǎn)發(fā)和處理時(shí)延,并降低終端成本。但隨著各種業(yè)務(wù)和應(yīng)用匯聚在邊緣端,導(dǎo)致MEC邊緣云的計(jì)算開銷激增,而邊緣機(jī)房的供電、散熱及承重能力有限,無法通過堆加大量的X86 CPU來提升算力,且CPU性能已無法按摩爾定律增長(zhǎng)。此時(shí),在MEC邊緣云上,可將消耗CPU資源高的業(yè)務(wù)卸載至DPU上,釋放邊緣機(jī)房CPU的算力,降低機(jī)房功耗,同時(shí)提升邊緣業(yè)務(wù)體驗(yàn)。
智能駕駛:未來智能駕駛汽車可看做一個(gè)小型數(shù)據(jù)中心,并伴有大量的數(shù)據(jù)處理、轉(zhuǎn)發(fā)、交換和存儲(chǔ)。為降低車載終端在無線側(cè)的傳輸時(shí)延,每輛智能駕駛汽車有望配備至少兩塊DPU。
5G時(shí)代,自動(dòng)駕駛和車聯(lián)網(wǎng)等智能駕駛相關(guān)業(yè)務(wù)為行業(yè)帶來了高帶寬、低時(shí)延以及大聯(lián)接的網(wǎng)絡(luò)需求。自動(dòng)駕駛業(yè)務(wù)中輔助駕駛要求時(shí)延為20~100ms,而自動(dòng)駕駛要求時(shí)延可低至3ms。DPU在車載終端的部署可提升終端處理能力并降低時(shí)延。
全球DPU市場(chǎng)排名前三的企業(yè)包括NVIDIA、Intel與Broadcom,在技術(shù)積累與市場(chǎng)渠道上優(yōu)勢(shì)顯著。其中,NVIDIA通過收購優(yōu)質(zhì)標(biāo)的,在DPU市場(chǎng)實(shí)現(xiàn)彎道超車。
DPU市場(chǎng)是 各 大 芯 片廠商新戰(zhàn) 場(chǎng) 。NVIDIA 、 Intel 以 及Broadcom陸續(xù)發(fā)布旗下的DPU(Intel與Broadcom定義為智能網(wǎng)卡),分別位列市場(chǎng)前三。NVIDIA通過收購Mellanox,其產(chǎn)品在時(shí)延與功能均位居市場(chǎng)第一。
超低時(shí)延:Mellanox在InfiniBand領(lǐng)域技術(shù)專利第一。相比于以太網(wǎng)技術(shù),InfiniBand具備高帶寬、低時(shí)延的優(yōu)勢(shì)。Mellanox也因此在時(shí)延上領(lǐng)先于Intel與Broadcom。在25G及以上的網(wǎng)卡領(lǐng)域,Mellanox市場(chǎng)份額領(lǐng)先于Intel,位列市場(chǎng)第一。中國(guó)初創(chuàng)企業(yè)25G網(wǎng)卡中使用的網(wǎng)絡(luò)芯片多基于Mellanox的CX5與CX6(ConnectX-6)架構(gòu)上研發(fā)。
RDMA業(yè)界獨(dú)一檔:RDMA最初是InfiniBand網(wǎng)絡(luò)的技術(shù),最后移植在以太網(wǎng)技術(shù)上。Mellanox在InfiniBand網(wǎng)絡(luò)上提前布局,因此在RDMA的開發(fā)上具備天然的優(yōu)勢(shì)。NVIDIA通過收購Mellanox ,其DPU產(chǎn)品RDMA功能的實(shí)現(xiàn)節(jié)點(diǎn)與性能上都領(lǐng)先Intel與Broadcom。
DPU是芯片異構(gòu)趨勢(shì)下的產(chǎn)物。英偉達(dá)是芯片異構(gòu)的擁護(hù)者,期望通過發(fā)力DPU狙擊英特爾。英特爾CPU“一招吃遍天下”的模式與異構(gòu)相違背。因此,為順應(yīng)大趨勢(shì),英特爾亦大力布局FPGA以及DPU。
來源:智能計(jì)算芯世界
下載鏈接:
中國(guó)數(shù)據(jù)處理器行業(yè)概覽(2021)
DPU在數(shù)據(jù)中心和邊緣云上的應(yīng)用

轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者和來源,本號(hào)發(fā)布文章若存在版權(quán)等問題,請(qǐng)留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(37本技術(shù)資料打包匯總詳情可通過“閱讀原文”獲取)。
全店內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收198元(原總價(jià)350元)。
溫馨提示:
掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書資料詳情。

