HPC和數(shù)據(jù)中心融合網(wǎng)絡(luò)研究綜述

在較新的國(guó)際高性能計(jì)算排行榜TOP500中,大部分機(jī)器并非應(yīng)用在傳統(tǒng)的科學(xué)計(jì)算領(lǐng)域,而是應(yīng)用在新興的互聯(lián)網(wǎng)云計(jì)算和大數(shù)據(jù)領(lǐng)域。HPC應(yīng)用已從過(guò)去的高精尖向更平民化、普惠化的方向發(fā)展。HPC正與云計(jì)算、大數(shù)據(jù)、AI不斷融合創(chuàng)新。HPCN與互聯(lián)網(wǎng)技術(shù)進(jìn)行融合,拓展傳統(tǒng)HPCN支持DCN協(xié)議棧已成為當(dāng)前國(guó)際高速互連領(lǐng)域的重要發(fā)展趨勢(shì)。
本文選自“HPC和數(shù)據(jù)中心融合網(wǎng)絡(luò)研究綜述”,對(duì)融合網(wǎng)絡(luò)進(jìn)行詳細(xì)闡述,全面展示該領(lǐng)域的最新技術(shù)和動(dòng)態(tài);提出融合網(wǎng)絡(luò)面臨的技術(shù)挑戰(zhàn)。
下載鏈接:
隨著大型DC采用具有更高帶寬需求的高性能加速器,數(shù)據(jù)中心網(wǎng)絡(luò)通過(guò)支持遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)、RDMA融合以太網(wǎng)(RDMA over converged Ethernet,RoCE)、互聯(lián)網(wǎng)廣域RDMA協(xié)議(iWarp)等新技術(shù)不斷向HPCN融合。


融合網(wǎng)絡(luò)研究現(xiàn)狀

NV的IB高性能互連網(wǎng)絡(luò)通過(guò)開發(fā)多模芯片,設(shè)計(jì)基于IB的以太網(wǎng)協(xié)議向以太網(wǎng)融合,已經(jīng)推出多款多網(wǎng)絡(luò)融合的芯片產(chǎn)品,具有低延遲和高帶寬等高性能,可以極大地提高高性能計(jì)算系統(tǒng)和數(shù)據(jù)中心的性能。
Cray的Slingshot技術(shù)以HPC為中心增加了以太網(wǎng)兼容性,其交換機(jī)兼容傳統(tǒng)以太網(wǎng)并對(duì)RoCE的一些不足進(jìn)行了改進(jìn),同時(shí)支持高性能計(jì)算和數(shù)據(jù)中心。
國(guó)防科技大學(xué)在自主定制高速互連網(wǎng)絡(luò)的基礎(chǔ)上提出一種融合網(wǎng)絡(luò)創(chuàng)新架構(gòu),實(shí)現(xiàn)高速網(wǎng)/以太網(wǎng)無(wú)縫兼容,靈活支持科學(xué)計(jì)算和云計(jì)算等多領(lǐng)域應(yīng)用。

“天河”融合網(wǎng)絡(luò)架構(gòu)包含PCIE主機(jī)接口處理模塊、高速網(wǎng)網(wǎng)卡核心邏輯、交叉開關(guān)XBAR、以太網(wǎng)網(wǎng)卡核心邏輯、以太網(wǎng)報(bào)文拆分/拼裝模塊、物理層邏輯、高速網(wǎng)/以太網(wǎng)報(bào)文轉(zhuǎn)換模塊(Ethernet over high performance express,EoH)以及高速網(wǎng)/以太網(wǎng)可配的網(wǎng)絡(luò)端口。EoH將高速網(wǎng)虛擬為以太網(wǎng),使得連接在高速網(wǎng)中的節(jié)點(diǎn)直接與連接在以太網(wǎng)中的節(jié)點(diǎn)通信,通過(guò)高速網(wǎng)傳輸以太網(wǎng)報(bào)文,實(shí)現(xiàn)高速網(wǎng)/以太網(wǎng)無(wú)縫兼容,在一套物理硬件上靈活支持科學(xué)計(jì)算和云計(jì)算應(yīng)用。
微軟云平臺(tái)、亞馬遜云平臺(tái)、百度機(jī)器學(xué)習(xí)和騰訊云都利用rdma來(lái)滿足在線服務(wù)。大規(guī)模數(shù)據(jù)中心和云計(jì)算對(duì)網(wǎng)絡(luò)延遲、吞吐量和CPU計(jì)算性能的嚴(yán)格要求形成了一切都在RDMA之上的局面。
RDMA技術(shù)最早在IB專用傳輸網(wǎng)絡(luò)上實(shí)現(xiàn),技術(shù)先進(jìn),性能最優(yōu),但價(jià)格高昂,應(yīng)用局限在HPC領(lǐng)域。隨著以太網(wǎng)性能的大幅提升,越來(lái)越多的人想要選擇能兼容傳統(tǒng)以太網(wǎng)的高性能網(wǎng)絡(luò)解決方案,而傳統(tǒng)TCP/IP堆棧應(yīng)用無(wú)法支撐HPC網(wǎng)絡(luò)通信。業(yè)界廠家把RDMA技術(shù)移植到傳統(tǒng)以太網(wǎng)上,降低了RDMA的使用成本,推動(dòng)了 RDMA技術(shù)普及。如圖 4所示,根據(jù)協(xié)議棧融合度的差異,分為 RoCE和iWARP兩種技術(shù),而 RoCE又包括 RoCE v1和 RoCEv2兩個(gè)版本。

谷歌的Aquila是一種實(shí)驗(yàn)性的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),將超低延遲作為核心設(shè)計(jì)目標(biāo),同時(shí)也支持傳統(tǒng)的數(shù)據(jù)中心業(yè)務(wù)。Aquila芯片架構(gòu)基于GNet協(xié)議設(shè)計(jì)了融合交換和網(wǎng)卡的定制芯片,具有低延遲遠(yuǎn)程存儲(chǔ)訪問(wèn)。Aquila芯片架構(gòu)包含100Gbps的IP網(wǎng)卡、1RMA網(wǎng)卡、基于信元的GNet交換芯片以及IP協(xié)議引擎。當(dāng)流量進(jìn)入交換機(jī)時(shí),一部分通過(guò)IP網(wǎng)卡走傳統(tǒng)的基于數(shù)據(jù)包的以太網(wǎng)交換,一部分通過(guò)1RMA網(wǎng)卡走基于信元的GNet交換。芯片中間的IP協(xié)議引擎負(fù)責(zé)兩種交換單位的轉(zhuǎn)換,將IP數(shù)據(jù)包切割處理為多個(gè)信元或者將信元重新組裝為IP數(shù)據(jù)包。

阿里自主研發(fā)了高性能網(wǎng)絡(luò),以應(yīng)用為中心,通過(guò)“阿里云全棧自研+端網(wǎng)融合技術(shù)”,實(shí)現(xiàn)高性能可預(yù)期網(wǎng)絡(luò)。2022年8月阿里在頂級(jí)會(huì)議SIGCOMM上發(fā)表端網(wǎng)融合架構(gòu),提出了要將數(shù)據(jù)中心網(wǎng)絡(luò)從“低時(shí)延大帶寬”演進(jìn)到“確定性可預(yù)期”的目標(biāo),開啟了確定性數(shù)據(jù)中心網(wǎng)絡(luò)研究的新紀(jì)元。
展望
隨著HPC、大數(shù)據(jù)和AI計(jì)算呈融合發(fā)展趨勢(shì),高性能計(jì)算機(jī)和數(shù)據(jù)中心之間的界限越來(lái)越模糊,HPCN和DCN融合網(wǎng)絡(luò)成為互連網(wǎng)絡(luò)發(fā)展的重要趨勢(shì),從而支撐同一套基礎(chǔ)設(shè)施高帶寬、低延遲運(yùn)行HPC、云計(jì)算、大數(shù)據(jù)處理和AI計(jì)算多領(lǐng)域應(yīng)用,降低網(wǎng)絡(luò)成本。
論文分析了當(dāng)前融合網(wǎng)絡(luò)研究現(xiàn)狀,針對(duì)當(dāng)前最具代表性的融合網(wǎng)絡(luò)進(jìn)行了詳細(xì)闡述,全面展示了該領(lǐng)域的最新技術(shù)動(dòng)態(tài),提出了融合網(wǎng)絡(luò)面臨的技術(shù)挑戰(zhàn)。基于技術(shù)挑戰(zhàn),對(duì)融合網(wǎng)絡(luò)的發(fā)展趨勢(shì)進(jìn)行了展望,包括融合網(wǎng)絡(luò)協(xié)議棧設(shè)計(jì)中融合與分化并存、基于在網(wǎng)計(jì)算實(shí)現(xiàn)融合網(wǎng)絡(luò)性能加速,面向新興應(yīng)用需求,優(yōu)化融合網(wǎng)絡(luò)性能。
本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。

免責(zé)申明:本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號(hào)立場(chǎng),可追溯內(nèi)容均注明來(lái)源,發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系刪除,謝謝。
溫馨提示:
請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

