數(shù)據(jù)中心網(wǎng)絡(luò):詳談CLOS、Dragonfly、Torus架構(gòu)如何演進?


據(jù)Hyperion Research 公司按照系統(tǒng)驗收的時間估算,2021至2026年期間,全球?qū)⒔ǔ?8~38臺E級或接近 E 級的超級計算機。本文參考自“總線級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)白皮書”。

在原先傳統(tǒng)數(shù)據(jù)中心內(nèi),計算存儲性能未提升前,端到端的時延主要在端側(cè),即計算和存儲所消耗的時延占比較大,而當(dāng)計算存儲器件性能大幅提升后,網(wǎng)絡(luò)成為了數(shù)據(jù)中心內(nèi)端到端的性能瓶頸。下圖顯示了計算存儲性能提升前后,端到端時延的占比變化。

?零拷貝(Zero-copy) - 應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。 ?內(nèi)核旁路(Kernel bypass) - 應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。 ?不需要 CPU 干預(yù)(No CPU involvement) - 應(yīng)用程序可以訪問遠(yuǎn)程主機內(nèi)存而不消耗遠(yuǎn)程主機中的任何 CPU。遠(yuǎn)程主機內(nèi)存能夠被讀取而不需要遠(yuǎn)程主機上的進程(或 CPU)參與。遠(yuǎn)程主機的 CPU 的緩存(cache)不會被訪問的內(nèi)存內(nèi)容所填充。? ?消息基于事務(wù)(Message based transactions) - 數(shù)據(jù)被處理為離散消息而不是流,消除了應(yīng)用程序?qū)⒘髑懈顬椴煌?事務(wù)的需求。 ?支持分散/聚合條目(Scatter/gather entries support) - RDMA 原生態(tài)支持分散/聚合。也就是說,讀取多個內(nèi)存緩沖區(qū)然后作為一個流發(fā)出去或者接收一個流然后寫入到多個內(nèi)存緩沖區(qū)里去。

動態(tài)時延:主要由排隊時延產(chǎn)生,受端口擁塞影響; 靜態(tài)時延:主要包括網(wǎng)絡(luò)轉(zhuǎn)發(fā)(查表)時延和轉(zhuǎn)發(fā)接口時延,一般為固定值,當(dāng)前以太交換靜態(tài)時延遠(yuǎn)高于超算專網(wǎng); 網(wǎng)絡(luò)跳數(shù):指消息在網(wǎng)絡(luò)中所經(jīng)歷的設(shè)備數(shù); 入網(wǎng)次數(shù):指消息進入網(wǎng)絡(luò)的次數(shù)。總線級數(shù)據(jù)中心網(wǎng)絡(luò)在動態(tài)時延、靜態(tài)時延、網(wǎng)絡(luò)跳數(shù)以及入網(wǎng)次數(shù)幾個方面均作出了系統(tǒng)性的優(yōu)化,大幅優(yōu)化了網(wǎng)絡(luò)性能,已滿足高性能計算場景的實際訴求。

最大吞吐保證:僅優(yōu)先發(fā)送部分報文,同樣提供最大吞吐保證。 極低平均隊列時延:通過接收端調(diào)度,嚴(yán)格控制網(wǎng)絡(luò)注入流量,保證接近于0的平均隊列時延。 極低最大隊列時延:對于不由接收端調(diào)度的報文,通過窗口限制注入流量,不會出現(xiàn)大幅震蕩,保證最大隊列時延極低。


中國聯(lián)通的開放網(wǎng)絡(luò)研究與實踐
中國聯(lián)通開放硬件網(wǎng)絡(luò)設(shè)備白皮書
???????????????? ?END ?????????????????
免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言刪除,謝謝。
溫馨提示:
搜索關(guān)注“全棧云技術(shù)架構(gòu)”微信公眾號,“掃碼”或點擊“閱讀原文”進入知識星球獲取1000+份技術(shù)資料。

評論
圖片
表情
