<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          性能爆漲:搭載1536MB緩存霄龍的GPU服務(wù)器實(shí)測(cè)

          共 3876字,需瀏覽 8分鐘

           ·

          2022-06-13 07:29


          Milan-X 7773X是AMD今年上市的處理器,其基于Milan第三代EPYC處理器7003系列升級(jí),主要特點(diǎn)包括:

          1. 采用3D堆疊技術(shù)(3D V-Cache),增加了額外的L3緩存芯片(SRAM),使得單個(gè)處理器可用L3緩存總數(shù)增大三倍,達(dá)到768MB;
          2. 仍由多芯片模塊(MCM)封裝而成,包含8個(gè)CCD和1個(gè)大型IO芯片。3D V-Cache 使用臺(tái)積電N7工藝,在原有的32MiB芯片頂部增加一個(gè)64MiB芯片;
          3. 與當(dāng)前LGA 4094主板兼容,每個(gè)插槽支持8個(gè)DDR4-3200 MT/s內(nèi)存模塊,最大支持內(nèi)存容量為4TB,雙路插槽共8TB。


           

          圖1 AMD Milan-X 7773X處理器


          Milan-X對(duì)應(yīng)用的性能提升能發(fā)揮多大的作用?特別是對(duì)計(jì)算性能有極致需求的高性能計(jì)算(HPC)應(yīng)用。可以看到,近年來(lái)盡管CPU性能不斷提升,但是訪存系統(tǒng)性能幾乎維持不變,越來(lái)越多的軟件性能瓶頸從計(jì)算過(guò)程轉(zhuǎn)移到數(shù)據(jù)訪存過(guò)程。我們知道,HPC應(yīng)用通常是采用當(dāng)前最先進(jìn)的超算集群來(lái)完成一系列復(fù)雜物理模型的計(jì)算過(guò)程,對(duì)集群整體性能有極高的需求,包括浮點(diǎn)計(jì)算速度、內(nèi)存帶寬、網(wǎng)絡(luò)帶寬等。最新推出的Milan-X 中包含了超大L3緩存,理論上可以將更多的數(shù)據(jù)緩存在CPU中,提供更高的數(shù)據(jù)訪問(wèn)能力,進(jìn)而提升HPC應(yīng)用的性能。


          為了評(píng)估Milan-X對(duì)HPC應(yīng)用的性能提升效果,我們選取常見(jiàn)的氣象應(yīng)用WRF和計(jì)算流體力學(xué)應(yīng)用OpenFOAM,使用浪潮NF5468A5 GPU服務(wù)器分別搭載2顆AMD Rome 7742、Milan 7543、Milan-X 7773X處理器,進(jìn)行了實(shí)測(cè)對(duì)比分析。


          一、平臺(tái)簡(jiǎn)介


          本次拿到的浪潮信息NF5468A5是一款4U支持2顆AMD EPYC處理器和8顆雙寬GPU卡,面向AI訓(xùn)練、推理、視頻編解碼等多種應(yīng)用場(chǎng)景的GPU服務(wù)器。

          圖2 浪潮NF5468A5服務(wù)器


          NF5468A5采用分區(qū)散熱設(shè)計(jì),內(nèi)置獨(dú)立的CPU和GPU主板,且分別安裝在不同的平面。從機(jī)箱內(nèi)部結(jié)構(gòu)來(lái)看,設(shè)計(jì)者將發(fā)熱量高的的GPU放在了機(jī)箱上3U空間,CPU板處于機(jī)箱下1U,內(nèi)置6對(duì)12個(gè)6056風(fēng)扇模組配合導(dǎo)風(fēng)罩,實(shí)現(xiàn)機(jī)箱內(nèi)風(fēng)道分流,正是基于這種獨(dú)特分層散熱設(shè)計(jì),使得送測(cè)的NF5468A5服務(wù)器可以支持280W最高功耗的Milan-X 7773X。系統(tǒng)設(shè)計(jì)支持32條DDR4 ECC內(nèi)存,支持LRDIMM/RDIMM,提供高達(dá)8T的本地內(nèi)存,實(shí)現(xiàn)與1536 MB超大L3 cache間的高速數(shù)據(jù)交互。

          圖3 浪潮NF5468A5開(kāi)箱俯視圖


          從浪潮官網(wǎng)發(fā)布的信息來(lái)看,NF5468A5采用了CPU直連GPU架構(gòu)設(shè)計(jì),率先支持PCI-E 4.0技術(shù),最大限度提升CPU與GPU間的帶寬,降低通信延遲,達(dá)到最佳效能,為客戶提供極致優(yōu)化的算力。系統(tǒng)提供豐富的IO擴(kuò)展能力,提供10個(gè)PCIe 4.0 X16擴(kuò)展槽位,支持8個(gè)全高全長(zhǎng)的GPU加速卡。提供靈活存儲(chǔ)方案,可選前置12×3.5英寸硬盤或24×2.5英寸硬盤,提供超大的本地存儲(chǔ)能力,同時(shí)最大可支持8個(gè)熱插拔NVMe SSD全閃配置,提供存儲(chǔ)到內(nèi)存到L3 cache的高速訪存,可實(shí)現(xiàn)十倍于高端企業(yè)級(jí)SATA SSD的IOPS性能,帶來(lái)極致IO存儲(chǔ)性能飛躍。


          二、性能測(cè)評(píng)


          在本次測(cè)試中,我們選取了在氣象和CFD領(lǐng)域應(yīng)用最廣泛的兩款應(yīng)用軟件WRF和OpenFOAM進(jìn)行測(cè)試。測(cè)試時(shí),基于浪潮NF5468A5 GPU服務(wù)器,選配了AMD Rome 7742、Milan 7543和Milan-X 7773-X三種型號(hào)CPU進(jìn)行對(duì)比,同時(shí)配備16條DDR4 3200MT/s內(nèi)存條,保證使用全部?jī)?nèi)存通道。在測(cè)試過(guò)程中將分別使用節(jié)點(diǎn)內(nèi)1/8、1/4、1/2和全部核心對(duì)應(yīng)用運(yùn)行時(shí)間進(jìn)行測(cè)試,考察應(yīng)用擴(kuò)展性能。在軟件安裝和運(yùn)行中使用的操作系統(tǒng)、編譯器和MPI并行環(huán)境如下表所示。

          表1 測(cè)試安裝軟件和對(duì)應(yīng)版本

          軟件環(huán)境

          軟件版本

          操作系統(tǒng)

          RedHat Enterprise Linux 8.3.2011 x86_64

          編譯器

          Intel Compiler 2021.2.0

          并行環(huán)境

          Intel MPI 2021.2.0

          應(yīng)用軟件

          WRF-v3.9.1,OpenFOAM-v1906


           

          1. WRF性能測(cè)試


          中尺度預(yù)報(bào)模式WRF(Weather Research and Forecasting model)模式是由美國(guó)國(guó)家大氣研究中心(NCAR)、美國(guó)大氣海洋局(NOAA)和美國(guó)空間氣象局(AFWA) 等共同開(kāi)發(fā)的,可用于數(shù)值天氣預(yù)報(bào)的研究與業(yè)務(wù)化、物理參數(shù)化方案研究、數(shù)據(jù)同化、驅(qū)動(dòng)空氣質(zhì)量模式、中小尺度氣候模擬以及海洋大氣模式的耦合等。


          本次WRF測(cè)試采用兩層嵌套網(wǎng)格計(jì)算,包括d01和d02。水平分辨率分別為 12 km 和 4 km,對(duì)應(yīng)水平網(wǎng)格數(shù)分別為425300和1150802,垂向網(wǎng)格數(shù)為35層,積分時(shí)間步長(zhǎng)為 30 s 和 10 s,模擬總時(shí)間為3h。模擬結(jié)束后可以獲得計(jì)算區(qū)域內(nèi)包括氣溫和累積降水量等結(jié)果,如下圖所示。


          圖4 模擬區(qū)域海拔高度圖(單位:m)

          圖5 WRF模擬結(jié)束時(shí)刻氣溫分布(左,單位:K)和3小時(shí)累積降水量分布(右,單位mm)

          在測(cè)試過(guò)程中,采用相同核心數(shù)運(yùn)行WRF時(shí)間對(duì)比如圖所示。以Rome 7742處理器運(yùn)行時(shí)間為基準(zhǔn),使用Milan 7543時(shí)WRF運(yùn)行速度提升至1.14至1.27倍左右,在Milan--X 7773X 處理器上運(yùn)行速度則提升到1.23到1.34倍左右。


          圖6 使用相同核心數(shù)時(shí),WRF在不同AMD處理器上的性能對(duì)比

          使用AMD Milan-X CPU對(duì)WRF運(yùn)行性能提升顯著,其主要原因就是超大L3緩存緩解了數(shù)據(jù)訪問(wèn)需求。以滿核心運(yùn)行時(shí)L3緩存不命中指標(biāo)為例,在Milan 7543 CPU運(yùn)行過(guò)程中為50%到70%左右,而在Milan-X平臺(tái)則下降到25%到55%左右。

          圖7 WRF 在 Milan 7543 和 Milan-X 7773X 處理器上單節(jié)點(diǎn)滿核心運(yùn)行時(shí)的實(shí)時(shí) L3緩存不命中率

          2. OpenFOAM性能測(cè)試


          計(jì)算流體力學(xué)領(lǐng)域應(yīng)用OpenFOAM 是使用 C++ 編寫的數(shù)值離散函數(shù)庫(kù),具有很高的抽象性,能很好地支持復(fù)雜偏微分方程求解器的建立和線性方程組求解等功能,同時(shí)支持大規(guī)模并行計(jì)算。


          在本次測(cè)試中,使用OpenFOAM基準(zhǔn)算例motorBike進(jìn)行測(cè)試。motorBike算例使用求解器simpleFoam計(jì)算,模擬摩托車和騎手周圍空氣的運(yùn)動(dòng)情況。在simpleFoam 計(jì)算過(guò)程中,使用的是不可壓形式控制方程進(jìn)行求解,紊流模型采用的是 SST ??-??方程。


          測(cè)試前首先需要使用blockMesh工具構(gòu)建背景計(jì)算網(wǎng)格,隨后使用snappyHexMesh工具根據(jù)輸入STL文件對(duì)摩托車外形進(jìn)行細(xì)分,得到計(jì)算所需的摩托車計(jì)算網(wǎng)格。細(xì)分結(jié)束后,計(jì)算區(qū)域內(nèi)總單元總數(shù)達(dá)到1030萬(wàn)。在并行計(jì)算前,使用decomposePar工具將計(jì)算單元按照并行計(jì)算進(jìn)程數(shù)將計(jì)算區(qū)域進(jìn)行拆分,最后使用simpleFoam求解器并行求解。計(jì)算結(jié)束后,可以采用后處理工具paraview獲得恒定狀態(tài)下摩托車手周圍空氣流速分布信息等,如下圖所示。


          圖8 motorBike 算例STL文件和劃分網(wǎng)格示意圖

          圖9 motorBike 算例結(jié)果中摩托車手周圍空氣流速分布

          在OpenFOAM測(cè)試過(guò)程中,使用相同核心運(yùn)行時(shí)間如下圖所示。以Rome 7742處理器為基準(zhǔn),OpenFOAM在Milan 7543處理器上使用單節(jié)點(diǎn)相同核心測(cè)試時(shí)性能提升至1.23 至 1.28 倍左右。在Milan-X 7773X處理器上性能提升至1.34 至1.80倍左右。

          圖10 motorbike算例在不同AMD處理器上的性能對(duì)比

          與WRF類似,OpenFOAM在Milan-X平臺(tái)性能提升也是受益于超大L3緩存影響。從緩存不命中指標(biāo)來(lái)看,在Milan平臺(tái)L3緩存不命中比率約為40%左右,而在Milan-X平臺(tái)則降低至20%至30%左右,顯著提升了內(nèi)存系統(tǒng)性能。

          圖11 Milan(左)和 Milan-X平臺(tái)(右)滿核運(yùn)行時(shí)緩存不命中比率(L2:藍(lán)色,L3:橙色)

          三、總結(jié)


              根據(jù)WRF和OpenFOAM測(cè)試性能和結(jié)果可以看出,采用選配超大L3緩存的AMD Milan-X CPU可以大幅提升內(nèi)存系統(tǒng)工作性能,降低L3緩存不命中的比率。與AMD Rome平臺(tái)相比,Milan-X CPU可以將WRF和OpenFOAM運(yùn)行速度最高提升至1.34和1.80倍左右,大幅度緩解由于內(nèi)存系統(tǒng)引起的運(yùn)行瓶頸。


          在本次測(cè)試中由于環(huán)境限制,僅使用了單臺(tái)NF5468A5服務(wù)器進(jìn)行模擬。對(duì)于多節(jié)點(diǎn)并行環(huán)境下Milan-X性能將在未來(lái)進(jìn)一步研究。


          最后,提供一下NF5468A5 GPU服務(wù)器的配置建議,如下表。


          表2 浪潮NF5468A5 GPU服務(wù)器配置建議

          類別

          配置

          CPU

          2* AMD 7773X/7663/7453

          Memory

          32* 64GB

          DISK

          2* 480GB M.2 SSD系統(tǒng)盤,

          3* 3.84TB數(shù)據(jù)盤

          GPU

          8* NVIDIA A100 / A30 / A40

          網(wǎng)絡(luò)

          雙口 HDR 200G / 100G

          應(yīng)用場(chǎng)景

          面向推理和中小規(guī)模訓(xùn)練場(chǎng)景,以及高頻高核、內(nèi)存高帶寬需求的應(yīng)用

          本文轉(zhuǎn)載于:公眾號(hào)li12242

          瀏覽 24
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.大香蕉日日撸 | 国产一级a毛一级a做免费高清视频 | 在线黄色免费 | 成人做爱视频免费在线 | 欧美性爱影音先锋 |