<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          高性能計算:RoCE v2 vs. InfiniBand網(wǎng)絡(luò)該怎么選?

          共 2745字,需瀏覽 6分鐘

           ·

          2022-05-15 22:46



          高性能計算網(wǎng)絡(luò)平臺解決方案能夠解決物探高性能計算中,基于GPU的程序必須調(diào)用 IB棧,而傳統(tǒng)TCP/IP 堆棧應(yīng)用無法支撐高性能計算網(wǎng)絡(luò)通信的問題。


          ROCE v2架構(gòu)解決方案逐漸被客戶接受(參考:詳解RoCE網(wǎng)絡(luò)技術(shù)RoCE網(wǎng)絡(luò)技術(shù)和實現(xiàn)方式), 生態(tài)和應(yīng)用不斷成熟,同時網(wǎng)絡(luò)傳輸效率和可靠性也得到加強,通過ROCE v2 技術(shù)的運營降低了主機CPU消耗。



          HPC是指利用聚集起來的計算能力來處理標(biāo)準(zhǔn)工作站無法完成的數(shù)據(jù)密集型計算任務(wù),例如勘探業(yè)務(wù)中所需要的仿真、建模和渲染等。我們在處理各種計算問題時常常遇到這樣的情況:由于需要大量的運算,一臺通用的計算機無法在合理的時間內(nèi)完成工作,或者由于所需的數(shù)據(jù)量過大而可用的資源有限,導(dǎo)致根本無法執(zhí)行計算。


          HPC方法通過使用專門或高端的硬件,或是將多個單元的計算能力進行整合,能夠有效地克服這些限制。將數(shù)據(jù)和運算相應(yīng)地分布到多個單元中,這就需要引入并行概念。?


          不同類型的建模問題具有不同的可并行程度。以參數(shù)化掃描為例,這種問題求解多個具有獨立的幾何、邊界條件或材料屬性的相似的模型,幾乎可以完全并行計算。具體的實現(xiàn)方法是為將每一個模型設(shè)置分配給一個計算單元。這類問題非常適合并行計算,因此通常稱為“易并行問題”并行問題對集群中的網(wǎng)絡(luò)速度和延遲非常敏感。(在其他情況下,由于網(wǎng)絡(luò)速度不夠快,無法有效處理通信,很可能導(dǎo)致速度減慢。)因此,可以將通用硬件連接起來,加快這類問題的計算速度。?


          傳統(tǒng)網(wǎng)絡(luò)中 TCP/IP 堆棧隨著網(wǎng)絡(luò)接入帶寬的增長,對 CPU 的消耗越來越高,HPC 網(wǎng)絡(luò)通常采用 RDMA 技術(shù)對網(wǎng)絡(luò)減少TCP/IP 堆棧對計算節(jié)點 CPU 的消耗,降低網(wǎng)絡(luò)傳輸延時。


          RDMA 允許在兩臺服務(wù)器的內(nèi)存之間直接轉(zhuǎn)移數(shù)據(jù)(參考:詳解RDMA架構(gòu)和技術(shù)原理、談?wù)劯咝阅躌DMA網(wǎng)絡(luò)優(yōu)勢和實踐深入淺出全面解析RDMA),而無需任何一臺服務(wù)器的 CPU 參與(也稱為零拷貝網(wǎng)絡(luò)),因此可實現(xiàn)更高效的通信。這種處理在支持 RDMA 的網(wǎng)絡(luò)接口卡(NIC)上進行,并且會避開TCP/IP 堆棧,因而加快數(shù)據(jù)轉(zhuǎn)移。如此,就可以直接將數(shù)據(jù)傳送到目標(biāo)服務(wù)器上的遠程內(nèi)存中,降低用于其他處理的服務(wù)器的 CPUI/O 工作負載。?


          傳統(tǒng)的IB交換體系架構(gòu)(參考:Infiniband架構(gòu)和技術(shù)實戰(zhàn)InfiniBand高速互連網(wǎng)絡(luò)設(shè)計的研究200G HDR InfiniBand有啥不同?)利用了 RDMA 技術(shù)技術(shù),通過業(yè)界最小的轉(zhuǎn)發(fā)延時,為 HPC 提供高性能低延時的網(wǎng)絡(luò)平臺,但 Infinband交換機有自己的獨立架構(gòu)體系和協(xié)議(IB 協(xié)議和規(guī)范):


          • 1. 必須和支持 IB 協(xié)議的設(shè)備進行互聯(lián)。
          • 2.Infinband 體系相對封閉,難以替換。
          • 3. Infinband 體系和傳統(tǒng)網(wǎng)絡(luò)對接需要單獨的網(wǎng)關(guān)。


          對于在整體 HPC 計算平臺中,存在這大量對延時并非絕對敏感的應(yīng)用,而以昂貴的 IB 交換端口來承載數(shù)目眾多的這些應(yīng)用無形中增加了企業(yè)的計算成本、維護成本、管理成本,制約了 HPC 整體系統(tǒng)的擴展。從業(yè)界以太網(wǎng)絡(luò)基于10G/25G/40G/100G 帶寬增長的趨勢的發(fā)展趨勢來看,隨著計算規(guī)模的不斷擴增,原有很多基于 IB 建立的網(wǎng)絡(luò)無論從帶寬介質(zhì)形態(tài),端口密度等都需要擴容,對于非延時絕對要求的 HPC 應(yīng)用接入,都傾向于采用以太網(wǎng)替換原有 IB 交換機以降低成本。?


          RoCE 規(guī)范在以太網(wǎng)上實現(xiàn)了 RDMA 功能,ROCE 需要無損網(wǎng)絡(luò),RoCE的主要優(yōu)勢在于它的延遲較低,因此可提高網(wǎng)絡(luò)利用率;同時它可避開TCP/IP 并采用硬件卸載,因此 CPU 利用率也較低。



          新 RoCEv2 標(biāo)準(zhǔn)可實現(xiàn) RDMA 路由在第三層以太網(wǎng)網(wǎng)絡(luò)中的傳輸。RoCEv2 規(guī)范將用以太網(wǎng)鏈路層上的 IP 報頭和 UDP 報頭替代 InfiniBand 網(wǎng)絡(luò)層。這樣,就可以在基于 IP 的傳統(tǒng)路由器之間路由 RoCE。?


          • RoCE v1協(xié)議:基于以太網(wǎng)承載?RDMA,只能部署于二層網(wǎng)絡(luò),它的報文結(jié)構(gòu)是在原有的?IB架構(gòu)的報文上增加二層以太網(wǎng)的報文頭,通過?Ethertype 0x8915?標(biāo)識?RoCE?報文。?
          • RoCE v2協(xié)議:基于?UDP/IP?協(xié)議承載?RDMA,可部署于三層網(wǎng)絡(luò),它的報文結(jié)構(gòu)是在原有的?IB?架構(gòu)的報文上增加UDP頭、IP?頭和二層以太網(wǎng)報文頭,通過?UDP?目的端口號?4791?標(biāo) 識?RoCE?報文。RoCE v2?支持基于源端口號?hash,采用?ECMP?實現(xiàn)負載分擔(dān),提高了網(wǎng)絡(luò)的利用率。


          利用這項創(chuàng)新,業(yè)界就能夠滿足企業(yè)內(nèi)日益增長的高性能和橫向擴展架構(gòu)需求。RoCEv2 可幫助其實現(xiàn)融合路徑的持續(xù)性并提供高度密集的數(shù)據(jù)中心,同時為基于 IB 的應(yīng)用移植,提供了快速遷移的方式,減少了開發(fā)工作量,提高了用戶部署應(yīng)用和遷移應(yīng)用的效率。



          國內(nèi)華為、浪潮、華三等主流網(wǎng)絡(luò)廠商都支持RoCE網(wǎng)絡(luò)方案。以浪潮為例,典型方案采用CN12000 接入核心,形成三張網(wǎng):計算網(wǎng)、管理網(wǎng)、存儲網(wǎng),在計算網(wǎng)實現(xiàn)高密度,高轉(zhuǎn)發(fā),配合主機實現(xiàn) RDMA 關(guān)鍵技術(shù)的運用,實現(xiàn)基于 IB 協(xié)議開發(fā)的高性能應(yīng)用平滑遷移到更低成本的以太交換網(wǎng)絡(luò)中來。


          網(wǎng)絡(luò)高性能產(chǎn)品的支持,極大簡化了高性能網(wǎng)絡(luò)架構(gòu),并降低了多級架構(gòu)層次造成的延時,為關(guān)鍵計算節(jié)點接入帶寬的平滑升級提供有力支撐。采用 RoCEv2 標(biāo)準(zhǔn)作為核心,通過對計算節(jié)點 RoCEv2、DCE/DCB 的支持,消除了程序移植帶來的復(fù)雜性和額外的工作量,降低了計算節(jié)點 TCP/IP 堆棧對主機 CPU 的消耗。?


          核心網(wǎng)絡(luò)通過PFC/RoCE等技術(shù)的支撐,使得高性能計算網(wǎng)絡(luò)具備更高的開放性,在沒有降低計算效率的前提下,降低了整個高性能集群平臺建設(shè)的成本。


          各位看官,今天的內(nèi)容分享完畢,深入技術(shù)細節(jié)及解決方案,請參考:
          高性能計算技術(shù)、方案和行業(yè)全解(第二版)
          InfiniBand架構(gòu)和技術(shù)實戰(zhàn)總結(jié)(第二版)
          RDMA原理分析、對比和技術(shù)實現(xiàn)解析

          或者獲取全店資料打包,后續(xù)免費獲取全店所有新增和更新。

          全店鋪技術(shù)資料打包(全)




          轉(zhuǎn)載申明:轉(zhuǎn)載本號文章請注明作者來源,本號發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系處理,謝謝。


          推薦閱讀

          更多架構(gòu)相關(guān)技術(shù)總結(jié)請參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(37本技術(shù)資料打包匯總詳情可通過“閱讀原文”獲取)。

          內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店更新“免費”贈閱,價格僅收198元(原總價350元)。



          溫馨提示:

          掃描二維碼關(guān)注公眾號,點擊閱讀原文鏈接獲取“IT技術(shù)全店資料打包匯總(全)電子書資料詳情。


          瀏覽 114
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲视频在线观看视频 | 特污的免费网站中文字幕 | 亚洲美女被操 | 中文字幕tⅴ | 日本人妻在线播放 |