NVIDIA BlueField-3 DPU技術(shù)架構(gòu)分析


現(xiàn)代超大規(guī)模云技術(shù)推動數(shù)據(jù)中心走向了新的架構(gòu),利用一種專門針對數(shù)據(jù)中心基礎(chǔ)架構(gòu)軟件而設(shè)計的新型處理器,來卸載和加速由虛擬化、網(wǎng)絡(luò)、存儲、安全和其它云原生AI服務(wù)產(chǎn)生的巨大計算負(fù)荷,這種產(chǎn)品即BlueField DPU系列。
本內(nèi)容來自《2021中國DPU行業(yè)發(fā)展白皮書》,內(nèi)容共分4章:包括智能網(wǎng)卡的簡介及趨勢分析、DPU的簡介及分析、DPU產(chǎn)業(yè)分析及NVIDIA的DPU前景展望等。
下載鏈接:
NVIDIA的BlueField DPU產(chǎn)品發(fā)展路線圖如圖所示,包括了已有的二代產(chǎn)品BlueField-2,目前即將面世的首款達(dá)400Gb/s速度的BlueField-3 DPU,以及未來整合了NVIDIA GPU功能,可達(dá)800Gb/s的BlueField-4 DPU。

BlueField-3 DPU是首款達(dá)400Gb/s為AI和加速計算而設(shè)計的DPU,助力各企業(yè)在任何規(guī)模的應(yīng)用上都能實現(xiàn)業(yè)內(nèi)領(lǐng)先的性能和數(shù)據(jù)中心的安全性。一個BlueField-3 DPU所提供的數(shù)據(jù)中心服務(wù)可相當(dāng)于多達(dá)300個CPU核才能實現(xiàn)的服務(wù),從而釋放寶貴的CPU資源來運行關(guān)鍵業(yè)務(wù)應(yīng)用。這款DPU針對多租戶、云原生環(huán)境進行了優(yōu)化,提供數(shù)據(jù)中心級的軟件定義和硬件加速的網(wǎng)絡(luò)、存儲、安全和管理等服務(wù)。
BlueField-3 DPU的出現(xiàn)解決了目前產(chǎn)業(yè)無法完全確保數(shù)據(jù)安全的問題。BlueField-3 DPU完全承接了BlueField-2 DPU的先進特性,并將其進行了性能加強與擴展,如下圖。

BlueField架構(gòu)本質(zhì)上將網(wǎng)卡子系統(tǒng)與可編程數(shù)據(jù)路徑、用于加密、壓縮等的硬件加速器子系統(tǒng)以及用于控制的ARM處理器子系統(tǒng)融合在一起。在BlueField-3中,數(shù)據(jù)路徑加速分組(DPA)包括16個處理器核,可并行處理256個線程的任務(wù)。BlueField-3的重要技術(shù)特性按照網(wǎng)絡(luò)業(yè)務(wù)、安全業(yè)務(wù)、存儲業(yè)務(wù)等方面具體說明:
在網(wǎng)絡(luò)業(yè)務(wù)中,BlueField-3專門對RDMA、連接跟蹤(Connection Tracking)、ASAP2等這些網(wǎng)絡(luò)通信技術(shù)做了進一步加強,特別是對時間精度,可在數(shù)據(jù)中心和邊緣之間做非常及時的時鐘同步。重要特性技術(shù)分析如下:
RDMA技術(shù),可直接在內(nèi)存之間交換數(shù)據(jù),并獲得較好的擴展性,提升運行性能,且可卸載CPU算力。RDMA優(yōu)勢如下包括:
(1)零拷貝(Zero-copy),應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到應(yīng)用的緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層;
(2)內(nèi)核旁路(Kernel bypass),應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換;
(3)不需要CPU干預(yù)(No CPU involvement),應(yīng)用程序可以訪問遠(yuǎn)程主機內(nèi)存而不消耗遠(yuǎn)程主機中的任何CPU??梢栽谶h(yuǎn)程主機不知情的情況下對其進行讀寫操作;
(4)操作基于消息(Message based transactions),數(shù)據(jù)被處理為離散消息而不是流,消除了應(yīng)用程序?qū)⒘髑懈顬椴煌?事務(wù)的需求,用戶可以用高達(dá)2GB的消息進行編程;
(5)支持Scatter/gather操作(Scatter/gather entries support),RDMA原生態(tài)支持分散/聚合。也就是說,讀取多個內(nèi)存緩沖區(qū)然后作為一個消息發(fā)出去或者接收一個消息然后寫入到多個內(nèi)存緩沖區(qū)里去。

GPU-direct RDMA技術(shù),簡稱GDR技術(shù),該技術(shù)可實現(xiàn)計算機1的GPU可以直接訪問計算機2的GPU內(nèi)存。而在沒有這項技術(shù)之前,GPU需要先將數(shù)據(jù)從GPU內(nèi)存搬移到系統(tǒng)內(nèi)存,然后再利用RDMA傳輸?shù)接嬎銠C2,計算機2的GPU還要做一次數(shù)據(jù)從系統(tǒng)內(nèi)存到GPU內(nèi)存的搬移動作。
GPU-Direct RDMA技術(shù)使得進一步減少了GPU通信的數(shù)據(jù)復(fù)制次數(shù),通信延遲進一步降低。Mellanox網(wǎng)卡已經(jīng)提供了GPUDirect RDMA的支持(既支持InfiniBand傳輸,也支持RoCE傳輸),在英偉達(dá)收購Mellanox后,英偉達(dá)的所有網(wǎng)卡已全面支持GPU-Direct RDMA技術(shù)。

安全業(yè)務(wù)上,BlueField-3可以實現(xiàn)從IP層,傳輸層以及到MAC層的400Gb/s全線速在線加解密,當(dāng)使用RegEx和DPI做深度包檢測時,速度可以達(dá)到50Gb/s。重要特性技術(shù)分析如下:
支持IPSec協(xié)議,在IP層對數(shù)據(jù)進行加解密,通過與網(wǎng)絡(luò)線速相同的IPSec速度來達(dá)到安全性。IPSec(Internet Protocol Security)是IETF(Internet Engineering Task Force)制定的一組開放的網(wǎng)絡(luò)安全協(xié)議。它并不是一個單獨的協(xié)議,而是一系列為IP網(wǎng)絡(luò)提供安全性的協(xié)議和服務(wù)的集合。IPSec用來解決IP層安全性問題的技術(shù),同時支持IPv4和IPv6網(wǎng)絡(luò)。IPSec主要包括安全協(xié)議AH(Authentication Header)和ESP(Encapsulating Security Payload),密鑰管理交換協(xié)議IKE(Internet Key Exchange)以及用于網(wǎng)絡(luò)認(rèn)證及加密的一些算法等。IPSec主要通過加密與驗證等方式,為IP數(shù)據(jù)包提供安全服務(wù)。BlueField-3對IPSec加解密速度可以達(dá)到400Gb/s,相比之下,如果在用搭配100Gb/s、200Gb/s網(wǎng)絡(luò)的CPU做IPSec,性能也僅達(dá)20-40Gb/s級別,并在加解密方面耗費大量CPU資源,而使用BlueField-3做IPSec可以釋放這部分CPU的算力。
支持TLS協(xié)議,在TCP層對數(shù)據(jù)進行安全保障。TLS協(xié)議是HTTP通信所使用的加密通信,用以降低信息明文傳播所具有的三大風(fēng)險:
(1)竊聽風(fēng)險(eavesdropping),第三方可以獲知通信內(nèi)容;
(2)篡改風(fēng)險(tampering),第三方可以修改通信內(nèi)容;
(3)冒充風(fēng)險(pretending),第三方可以冒充他人身份參與通信。
相應(yīng)TLS協(xié)議的設(shè)計目標(biāo)為:
(1)所有信息都是加密傳播,第三方無法竊聽;
(2)具有校驗機制,一旦被篡改,通信雙方會立刻發(fā)現(xiàn);
(3)配備身份證書,防止身份被冒充。
TLS協(xié)議的基本思路是采用公鑰加密法,也就是說,客戶端先向服務(wù)器端索要公鑰,然后用公鑰加密信息,服務(wù)器收到密文后,用自己的私鑰解密。BlueField-3對TLS加解密速度也可以達(dá)到400Gb/s,使用BlueField-3做TLS同樣可以釋放大量CPU的算力。
在存儲業(yè)務(wù)中,BlueField-3可以實現(xiàn)以往不可能做到的事情,可以做到塊存儲(Block Storage)、文件存儲(File Storage)、對象存儲(Object Storage)或者NVMe存儲(NVMe Storage)的仿真,還可以在數(shù)據(jù)落盤時加解密的操作(如AES-XTS)進行硬件卸載,甚至是各種簽名操作都可以分流到DPU上。其彈性塊存儲(EBS)可以達(dá)到18M的 IOP/s的讀寫性能,在虛擬化I/O加速方面可以達(dá)到80Mpps的性能。
BlueField SNAP技術(shù),基于軟件定義的網(wǎng)絡(luò)加速處理,該SNAP技術(shù)允許用戶訪問與服務(wù)器連接的遠(yuǎn)程NVMe存儲像訪問本地存儲一樣,實現(xiàn)了遠(yuǎn)程存儲的所有效率和管理優(yōu)點,同時具有本地存儲的簡單性。NVIDIA BlueField SNAP解決方案消除了對本地存儲的依賴性,滿足了云計算對于存儲解耦以及可組合性存儲的日益增長的需求。BlueField SNAP可以無縫集成到采用任何操作系統(tǒng)或虛擬機管理程序的幾乎所有服務(wù)器中,支持在不同的數(shù)據(jù)中心環(huán)境更快地采用NVMe over Fabrics (NVMe-oF),從而有效地為任何應(yīng)用程序立即部署NVMe-oF技術(shù)。BlueField SNAP解決方案(作為 BlueField系列 PCIe DPU智能網(wǎng)卡的一部分提供)使網(wǎng)絡(luò)閃存存儲如同本地NVMe存儲,以有效地虛擬化物理存儲。如今,所有主要的操作系統(tǒng)和虛擬機管理程序均已支持本地NVMe SSD。
BlueField SNAP利用這些現(xiàn)有的NVMe接口,并結(jié)合本地SSD性能、管理和軟件透明度的優(yōu)勢,為客戶帶來網(wǎng)絡(luò)閃存存儲的可組合性和靈活性。這種BlueField SNAP技術(shù)與BlueField強大的多核ARM處理器、虛擬交換機和RDMA卸載引擎相結(jié)合,支持廣泛的加速存儲、軟件定義網(wǎng)絡(luò)和應(yīng)用解決方案。ARM處理器與SNAP相結(jié)合,還可用于加速分布式文件系統(tǒng)、壓縮、重復(fù)數(shù)據(jù)消除、大數(shù)據(jù)、人工智能、負(fù)載均衡、安全性等諸多應(yīng)用。
在開發(fā)生態(tài)上,專為助力BlueField合作生態(tài)系統(tǒng)而生的DOCA(集數(shù)據(jù)中心基礎(chǔ)設(shè)施于芯片的架構(gòu))軟件開發(fā)包,可以通過DOCA來實現(xiàn)軟件定義網(wǎng)絡(luò)、存儲、安全,開發(fā)人員可以通過DOCA直接調(diào)用到BlueField硬件的加速引擎。
NVIDIA DOCA SDK為開發(fā)者提供一個完整、開放的軟件開發(fā)平臺,在BlueField系列 DPU上開發(fā)軟件定義和硬件加速的網(wǎng)絡(luò)、存儲、安全和管理等應(yīng)用。DOCA功能包含利用BlueField DPU來創(chuàng)建、編譯和優(yōu)化應(yīng)用的運行時環(huán)境,用于配置、升級和監(jiān)控整個數(shù)據(jù)中心數(shù)千個DPU的編排工具,以及各種庫、API和日益增加的各種應(yīng)用,如深度數(shù)據(jù)包檢測和負(fù)載均衡等。
DOCA是一個由庫、內(nèi)存管理、服務(wù)組成的框架,建立在一套成熟的驅(qū)動程序之上。部分庫與開源項目有關(guān),部分庫是NVIDIA獨有的。如同CUDA抽象GPU編程一樣,DOCA則將DPU編程抽象到了更高的層次。英偉達(dá)通過結(jié)合面向開發(fā)人員的DOCA軟件開發(fā)工具包和用于開箱即用部署的DOCA管理軟件來提供完整的解決方案。例如,ASAP2是基于硬件的對網(wǎng)絡(luò)數(shù)據(jù)路徑進行處理的協(xié)議,以二進制形式提供。它通過Virt I/O以及配置流跟蹤和Regex加速器的下層API來實現(xiàn)網(wǎng)絡(luò)設(shè)備仿真。安全驅(qū)動程序為TLS提供內(nèi)嵌的內(nèi)核卸載。存儲業(yè)務(wù)中,SNAP驅(qū)動程序提供了NVMe虛擬化。
DOCA可不斷實現(xiàn)向后兼容,NVIDIA的愿景是讓DPU成為異構(gòu)計算的第三條腿,補充CPU和GPU的功能,而DOCA對于在諸多應(yīng)用中實現(xiàn)這一愿景至關(guān)重要。
DPU延續(xù)了智能網(wǎng)卡“釋放CPU開銷”、“可編程”、“任務(wù)加速”、“流量管理”等功能,并實現(xiàn)了控制面和數(shù)據(jù)面的通用可編程加速。如今數(shù)據(jù)中心中的各項操作主要都在CPU上完成,包括計算任務(wù)和各項基礎(chǔ)設(shè)施任務(wù)等,而面對數(shù)據(jù)處理需求的增長,CPU的算力已經(jīng)達(dá)到瓶頸,摩爾定律逐漸失效,GPU的出現(xiàn)解決了CPU的算力問題,數(shù)據(jù)中心的瓶頸轉(zhuǎn)向基礎(chǔ)設(shè)施任務(wù),如數(shù)據(jù)存儲、數(shù)據(jù)驗證、網(wǎng)絡(luò)安全等。DPU的出現(xiàn)滿足了這樣的通用的基礎(chǔ)設(shè)施任務(wù)加速的需求。由DPU構(gòu)建強大的基礎(chǔ)設(shè)施層,上層的CPU和GPU來完成計算任務(wù)。DPU具有的特性為:

1)行業(yè)標(biāo)準(zhǔn)、高性能、軟件可編程的多核CPU,通常基于廣泛使用的ARM架構(gòu),與其它SoC組件緊密耦合。
2)高性能網(wǎng)絡(luò)接口,能夠以線速或網(wǎng)絡(luò)其余部分的速度解析、處理和有效地將數(shù)據(jù)傳輸?shù)紾PU和CPU。
3)豐富的靈活可編程加速引擎,可為AI和機器學(xué)習(xí)、安全、電信、存儲和虛擬化等執(zhí)行卸載并提高應(yīng)用程序性能。
DPU最核心的任務(wù)是數(shù)據(jù)的預(yù)處理和后處理,如網(wǎng)絡(luò)類任務(wù)(包括ALL2ALL、點對點等各種通信模式加速,IPSec,TCP連接跟蹤,RDMA等)、存儲類任務(wù)(分布式存儲,數(shù)據(jù)落盤加解密,數(shù)據(jù)壓縮,數(shù)據(jù)冗余算法等)、虛擬化加速(OVS及各種Hypervisor的卸載,控制平面和業(yè)務(wù)平面分離)、對硬件安全的保障(Root of Trust等)。從云計算業(yè)務(wù)的角度看,DPU是把整個IaaS的服務(wù)完整的卸載到硬件做加速。
智能網(wǎng)卡中包括FPGA型和ARM核心型,F(xiàn)PGA型難以處理控制平面任務(wù);ARM型則會因處理其它任務(wù)而負(fù)載過重,DPU包含數(shù)據(jù)平面和控制平面的雙平面卸載及加速,可以解決以上問題。另外DPU與智能網(wǎng)卡的最大區(qū)別是可作為數(shù)據(jù)中心的最小節(jié)點存在,擁有計算功能、網(wǎng)卡功能、加速計算引擎、安全引擎等并可拓展,未來將成為數(shù)據(jù)中心的標(biāo)配與三大核心之一(CPU、GPU、DPU)。
更多DPU行業(yè)分析,請參閱白皮書《2021中國DPU行業(yè)發(fā)展白皮書》。本白皮書內(nèi)容共分4章內(nèi)容,包括智能網(wǎng)卡的簡介及趨勢分析、DPU的簡介及分析、DPU產(chǎn)業(yè)分析及NVIDIA的DPU前景展望等。
下載鏈接:
2、信創(chuàng)產(chǎn)業(yè)研究框架
3、ARM行業(yè)研究框架
4、CPU研究框架
5、國產(chǎn)CPU研究框架
6、行業(yè)深度報告:GPU研究框架
2021年信創(chuàng)產(chǎn)業(yè)發(fā)展報告
信創(chuàng)產(chǎn)業(yè)系列專題(總篇)
中國信創(chuàng)產(chǎn)業(yè)發(fā)展白皮書(2021)
來源:智能計算芯世界

轉(zhuǎn)載申明:轉(zhuǎn)載本號文章請注明作者和來源,本號發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)知識總結(jié)請參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(37本技術(shù)資料打包匯總詳情可通過“閱讀原文”獲取)。
全店內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店內(nèi)容更新“免費”贈閱,價格僅收198元(原總價350元)。
溫馨提示:
掃描二維碼關(guān)注公眾號,點擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書資料詳情。

