欧美精品久久人妻无码免费视频 ,少妇一级婬片50分钟,天天摸天天,AV软件在线免费观看,91丝袜一区在线观看,520大香蕉亚洲综合视频,伊人网影院,九九无码视频

Milan-X 7773X是AMD今年上市的處理器，其基于Milan第三代EPYC處理器7003系列升級(jí)，主要特點(diǎn)包括：

采用3D堆疊技術(shù)（3D V-Cache），增加了額外的L3緩存芯片（SRAM），使得單個(gè)處理器可用L3緩存總數(shù)增大三倍，達(dá)到768MB；
仍由多芯片模塊（MCM）封裝而成，包含8個(gè)CCD和1個(gè)大型IO芯片。3D V-Cache 使用臺(tái)積電N7工藝，在原有的32MiB芯片頂部增加一個(gè)64MiB芯片；
與當(dāng)前LGA 4094主板兼容，每個(gè)插槽支持8個(gè)DDR4-3200 MT/s內(nèi)存模塊，最大支持內(nèi)存容量為4TB，雙路插槽共8TB。

圖1 AMD Milan-X 7773X處理器

Milan-X對(duì)應(yīng)用的性能提升能發(fā)揮多大的作用？特別是對(duì)計(jì)算性能有極致需求的高性能計(jì)算（HPC）應(yīng)用。可以看到，近年來(lái)盡管CPU性能不斷提升，但是訪存系統(tǒng)性能幾乎維持不變，越來(lái)越多的軟件性能瓶頸從計(jì)算過(guò)程轉(zhuǎn)移到數(shù)據(jù)訪存過(guò)程。我們知道，HPC應(yīng)用通常是采用當(dāng)前最先進(jìn)的超算集群來(lái)完成一系列復(fù)雜物理模型的計(jì)算過(guò)程，對(duì)集群整體性能有極高的需求，包括浮點(diǎn)計(jì)算速度、內(nèi)存帶寬、網(wǎng)絡(luò)帶寬等。最新推出的Milan-X 中包含了超大L3緩存，理論上可以將更多的數(shù)據(jù)緩存在CPU中，提供更高的數(shù)據(jù)訪問(wèn)能力，進(jìn)而提升HPC應(yīng)用的性能。

為了評(píng)估Milan-X對(duì)HPC應(yīng)用的性能提升效果，我們選取常見(jiàn)的氣象應(yīng)用WRF和計(jì)算流體力學(xué)應(yīng)用OpenFOAM，使用浪潮NF5468A5 GPU服務(wù)器分別搭載2顆AMD Rome 7742、Milan 7543、Milan-X 7773X處理器，進(jìn)行了實(shí)測(cè)對(duì)比分析。

一、平臺(tái)簡(jiǎn)介

本次拿到的浪潮信息NF5468A5是一款4U支持2顆AMD EPYC處理器和8顆雙寬GPU卡，面向AI訓(xùn)練、推理、視頻編解碼等多種應(yīng)用場(chǎng)景的GPU服務(wù)器。

圖2 浪潮NF5468A5服務(wù)器

NF5468A5采用分區(qū)散熱設(shè)計(jì)，內(nèi)置獨(dú)立的CPU和GPU主板，且分別安裝在不同的平面。從機(jī)箱內(nèi)部結(jié)構(gòu)來(lái)看，設(shè)計(jì)者將發(fā)熱量高的的GPU放在了機(jī)箱上3U空間，CPU板處于機(jī)箱下1U，內(nèi)置6對(duì)12個(gè)6056風(fēng)扇模組配合導(dǎo)風(fēng)罩，實(shí)現(xiàn)機(jī)箱內(nèi)風(fēng)道分流，正是基于這種獨(dú)特分層散熱設(shè)計(jì)，使得送測(cè)的NF5468A5服務(wù)器可以支持280W最高功耗的Milan-X 7773X。系統(tǒng)設(shè)計(jì)支持32條DDR4 ECC內(nèi)存，支持LRDIMM/RDIMM，提供高達(dá)8T的本地內(nèi)存,實(shí)現(xiàn)與1536 MB超大L3 cache間的高速數(shù)據(jù)交互。

圖3 浪潮NF5468A5開(kāi)箱俯視圖

從浪潮官網(wǎng)發(fā)布的信息來(lái)看，NF5468A5采用了CPU直連GPU架構(gòu)設(shè)計(jì)，率先支持PCI-E 4.0技術(shù)，最大限度提升CPU與GPU間的帶寬，降低通信延遲，達(dá)到最佳效能，為客戶提供極致優(yōu)化的算力。系統(tǒng)提供豐富的IO擴(kuò)展能力，提供10個(gè)PCIe 4.0 X16擴(kuò)展槽位，支持8個(gè)全高全長(zhǎng)的GPU加速卡。提供靈活存儲(chǔ)方案，可選前置12×3.5英寸硬盤或24×2.5英寸硬盤，提供超大的本地存儲(chǔ)能力，同時(shí)最大可支持8個(gè)熱插拔NVMe SSD全閃配置，提供存儲(chǔ)到內(nèi)存到L3 cache的高速訪存，可實(shí)現(xiàn)十倍于高端企業(yè)級(jí)SATA SSD的IOPS性能，帶來(lái)極致IO存儲(chǔ)性能飛躍。

二、性能測(cè)評(píng)

在本次測(cè)試中，我們選取了在氣象和CFD領(lǐng)域應(yīng)用最廣泛的兩款應(yīng)用軟件WRF和OpenFOAM進(jìn)行測(cè)試。測(cè)試時(shí)，基于浪潮NF5468A5 GPU服務(wù)器，選配了AMD Rome 7742、Milan 7543和Milan-X 7773-X三種型號(hào)CPU進(jìn)行對(duì)比，同時(shí)配備16條DDR4 3200MT/s內(nèi)存條，保證使用全部?jī)?nèi)存通道。在測(cè)試過(guò)程中將分別使用節(jié)點(diǎn)內(nèi)1/8、1/4、1/2和全部核心對(duì)應(yīng)用運(yùn)行時(shí)間進(jìn)行測(cè)試，考察應(yīng)用擴(kuò)展性能。在軟件安裝和運(yùn)行中使用的操作系統(tǒng)、編譯器和MPI并行環(huán)境如下表所示。

表1 測(cè)試安裝軟件和對(duì)應(yīng)版本

軟件環(huán)境	軟件版本
操作系統(tǒng)	RedHat Enterprise Linux 8.3.2011 x86_64
編譯器	Intel Compiler 2021.2.0
并行環(huán)境	Intel MPI 2021.2.0
應(yīng)用軟件	WRF-v3.9.1，OpenFOAM-v1906

1. WRF性能測(cè)試

中尺度預(yù)報(bào)模式WRF(Weather Research and Forecasting model)模式是由美國(guó)國(guó)家大氣研究中心(NCAR)、美國(guó)大氣海洋局(NOAA)和美國(guó)空間氣象局(AFWA) 等共同開(kāi)發(fā)的，可用于數(shù)值天氣預(yù)報(bào)的研究與業(yè)務(wù)化、物理參數(shù)化方案研究、數(shù)據(jù)同化、驅(qū)動(dòng)空氣質(zhì)量模式、中小尺度氣候模擬以及海洋大氣模式的耦合等。

本次WRF測(cè)試采用兩層嵌套網(wǎng)格計(jì)算，包括d01和d02。水平分辨率分別為 12 km 和 4 km，對(duì)應(yīng)水平網(wǎng)格數(shù)分別為425300和1150802，垂向網(wǎng)格數(shù)為35層，積分時(shí)間步長(zhǎng)為 30 s 和 10 s，模擬總時(shí)間為3h。模擬結(jié)束后可以獲得計(jì)算區(qū)域內(nèi)包括氣溫和累積降水量等結(jié)果，如下圖所示。

圖4 模擬區(qū)域海拔高度圖（單位：m）

圖5 WRF模擬結(jié)束時(shí)刻氣溫分布（左，單位：K）和3小時(shí)累積降水量分布（右，單位mm）

在測(cè)試過(guò)程中，采用相同核心數(shù)運(yùn)行WRF時(shí)間對(duì)比如圖所示。以Rome 7742處理器運(yùn)行時(shí)間為基準(zhǔn)，使用Milan 7543時(shí)WRF運(yùn)行速度提升至1.14至1.27倍左右，在Milan--X 7773X 處理器上運(yùn)行速度則提升到1.23到1.34倍左右。

圖6 使用相同核心數(shù)時(shí)，WRF在不同AMD處理器上的性能對(duì)比

使用AMD Milan-X CPU對(duì)WRF運(yùn)行性能提升顯著，其主要原因就是超大L3緩存緩解了數(shù)據(jù)訪問(wèn)需求。以滿核心運(yùn)行時(shí)L3緩存不命中指標(biāo)為例，在Milan 7543 CPU運(yùn)行過(guò)程中為50%到70%左右，而在Milan-X平臺(tái)則下降到25%到55%左右。

圖7 WRF 在 Milan 7543 和 Milan-X 7773X 處理器上單節(jié)點(diǎn)滿核心運(yùn)行時(shí)的實(shí)時(shí) L3緩存不命中率

2. OpenFOAM性能測(cè)試

計(jì)算流體力學(xué)領(lǐng)域應(yīng)用OpenFOAM 是使用 C++ 編寫的數(shù)值離散函數(shù)庫(kù)，具有很高的抽象性，能很好地支持復(fù)雜偏微分方程求解器的建立和線性方程組求解等功能，同時(shí)支持大規(guī)模并行計(jì)算。

在本次測(cè)試中，使用OpenFOAM基準(zhǔn)算例motorBike進(jìn)行測(cè)試。motorBike算例使用求解器simpleFoam計(jì)算，模擬摩托車和騎手周圍空氣的運(yùn)動(dòng)情況。在simpleFoam 計(jì)算過(guò)程中，使用的是不可壓形式控制方程進(jìn)行求解，紊流模型采用的是 SST ??-??方程。

測(cè)試前首先需要使用blockMesh工具構(gòu)建背景計(jì)算網(wǎng)格，隨后使用snappyHexMesh工具根據(jù)輸入STL文件對(duì)摩托車外形進(jìn)行細(xì)分，得到計(jì)算所需的摩托車計(jì)算網(wǎng)格。細(xì)分結(jié)束后，計(jì)算區(qū)域內(nèi)總單元總數(shù)達(dá)到1030萬(wàn)。在并行計(jì)算前，使用decomposePar工具將計(jì)算單元按照并行計(jì)算進(jìn)程數(shù)將計(jì)算區(qū)域進(jìn)行拆分，最后使用simpleFoam求解器并行求解。計(jì)算結(jié)束后，可以采用后處理工具paraview獲得恒定狀態(tài)下摩托車手周圍空氣流速分布信息等，如下圖所示。

圖8 motorBike 算例STL文件和劃分網(wǎng)格示意圖

圖9 motorBike 算例結(jié)果中摩托車手周圍空氣流速分布

在OpenFOAM測(cè)試過(guò)程中，使用相同核心運(yùn)行時(shí)間如下圖所示。以Rome 7742處理器為基準(zhǔn)，OpenFOAM在Milan 7543處理器上使用單節(jié)點(diǎn)相同核心測(cè)試時(shí)性能提升至1.23 至 1.28 倍左右。在Milan-X 7773X處理器上性能提升至1.34 至1.80倍左右。

圖10 motorbike算例在不同AMD處理器上的性能對(duì)比

與WRF類似，OpenFOAM在Milan-X平臺(tái)性能提升也是受益于超大L3緩存影響。從緩存不命中指標(biāo)來(lái)看，在Milan平臺(tái)L3緩存不命中比率約為40%左右，而在Milan-X平臺(tái)則降低至20%至30%左右，顯著提升了內(nèi)存系統(tǒng)性能。

圖11 Milan（左）和 Milan-X平臺(tái)（右）滿核運(yùn)行時(shí)緩存不命中比率（L2：藍(lán)色，L3：橙色）

三、總結(jié)

根據(jù)WRF和OpenFOAM測(cè)試性能和結(jié)果可以看出，采用選配超大L3緩存的AMD Milan-X CPU可以大幅提升內(nèi)存系統(tǒng)工作性能，降低L3緩存不命中的比率。與AMD Rome平臺(tái)相比，Milan-X CPU可以將WRF和OpenFOAM運(yùn)行速度最高提升至1.34和1.80倍左右，大幅度緩解由于內(nèi)存系統(tǒng)引起的運(yùn)行瓶頸。

在本次測(cè)試中由于環(huán)境限制，僅使用了單臺(tái)NF5468A5服務(wù)器進(jìn)行模擬。對(duì)于多節(jié)點(diǎn)并行環(huán)境下Milan-X性能將在未來(lái)進(jìn)一步研究。

最后，提供一下NF5468A5 GPU服務(wù)器的配置建議，如下表。

表2 浪潮NF5468A5 GPU服務(wù)器配置建議

類別	配置
CPU	2* AMD 7773X/7663/7453
Memory	32* 64GB
DISK	2* 480GB M.2 SSD系統(tǒng)盤， 3* 3.84TB數(shù)據(jù)盤
GPU	8* NVIDIA A100 / A30 / A40
網(wǎng)絡(luò)	雙口 HDR 200G / 100G
應(yīng)用場(chǎng)景	面向推理和中小規(guī)模訓(xùn)練場(chǎng)景，以及高頻高核、內(nèi)存高帶寬需求的應(yīng)用

本文轉(zhuǎn)載于：公眾號(hào)li12242

性能爆漲：搭載1536MB緩存霄龍的GPU服務(wù)器實(shí)測(cè)