

什么是FLOPS
FLOPS,是“每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)”(floating-point operations per second) 的縮寫。它常被用來估算電腦的執(zhí)行效能,尤其是在使用到大量浮點(diǎn)運(yùn)算的科學(xué)計(jì)算領(lǐng)域中。在這里所謂的“浮點(diǎn)運(yùn)算”,實(shí)際上含括了所有涉及小數(shù)的運(yùn)算。這類運(yùn)算在某類應(yīng)用軟件中常常出現(xiàn),而它們也較整數(shù)運(yùn)算花時(shí)間。現(xiàn)今大部分的處理器中,都有一個專門用來處理浮點(diǎn)運(yùn)算的“浮點(diǎn)單元”(FPU)。也因此 FLOPS 所量測的,實(shí)際上就是 FPU 的執(zhí)行速度。對于處理器處理浮點(diǎn)運(yùn)算來說,而最常用來測量 FLOPS 的基準(zhǔn)程序 (benchmark) 之一,就是 Linpack。例如:算能公司的“基于SOPHON第三代智算芯片 BM1684”芯片。該款芯片F(xiàn)P32 精度算力也達(dá)到 2.2 TFlops,INT8算力可高達(dá)17.6Tops,在Winograd卷積加速下,INT8算力更提升至35.2 Tops,是一顆低功耗、高性能的SoC芯片。
BM1684還內(nèi)置了張量計(jì)算模塊TPU,該TPU模塊包含64個NPU運(yùn)算單元,每個NPU包括16個EU單元,總共有1024個EU運(yùn)算單元。
1TFlops=1024GFlowps,即1T=1024G。各種FLOPS的含義:
- 1) 一個MFLOPS(megaFLOPS)等于每秒1百萬(=10^6)次的浮點(diǎn)運(yùn)算;
- 2) 一個GFLOPS(gigaFLOPS)等于每秒10億(=10^9)次的浮點(diǎn)運(yùn)算;
- 3) 一個TFLOPS(teraFLOPS)等于每秒1萬億(=10^12)次的浮點(diǎn)運(yùn)算;
- 4) 一個PFLOPS(petaFLOPS)等于每秒1千億(=10^15)次的浮點(diǎn)運(yùn)算。
關(guān)于?Linpack
Linpack是國際上使用最廣泛的測試高性能計(jì)算機(jī)系統(tǒng)浮點(diǎn)性能的基準(zhǔn)測試。通過對高性能計(jì)算機(jī)采用高斯消元法求解一元 N次稠密線性代數(shù)方程組的測試,評價(jià)高性能計(jì)算機(jī)的浮點(diǎn)計(jì)算性能。Linpack的結(jié)果按每秒浮點(diǎn)運(yùn)算次數(shù)(flops)表示。很多人把用 Linpack基準(zhǔn)測試出的最高性能指標(biāo)作為衡量機(jī)器性能的標(biāo)準(zhǔn)之一。這個數(shù)字可以作為對系統(tǒng)峰值性能的一個修正。通過測試求解不同問題規(guī)模的實(shí)際得分,我們可以得到達(dá)到最佳性能的問題規(guī)模,而這些數(shù)字與理論峰值性能一起列在 TOP500列表中。
Linpack 測試包括三類,Linpack100、Linpack1000和HPL。Linpack100求解規(guī)模為100階的稠密線性代數(shù)方程組,它只允許采用編譯 優(yōu)化選項(xiàng)進(jìn)行優(yōu)化,不得更改代碼,甚至代碼中的注釋也不得修改。Linpack1000要求求解1000階的線性代數(shù)方程組,達(dá)到指定的精度要求,可以在 不改變計(jì)算量的前提下做算法和代碼上做優(yōu)化。HPL即High Performance Linpack,也叫高度并行計(jì)算基準(zhǔn)測試,它對數(shù)組大小N沒有限制,求解問題的規(guī)模可以改變,除基本算法(計(jì)算量)不可改變外,可以采用其它任何優(yōu)化方 法。前兩種測試運(yùn)行規(guī)模較小,已不是很適合現(xiàn)代計(jì)算機(jī)的發(fā)展。HPL是針對現(xiàn)代并行計(jì)算機(jī)提出的測試方式。用戶在不修改任意測試程序的基礎(chǔ)上,可 以調(diào)節(jié)問題規(guī)模大小(矩陣大小)、使用CPU數(shù)目、使用各種優(yōu)化方法等等來執(zhí)行該測試程序,以獲取最佳的性能。HPL采用高斯消元法求解線性方程組。求解 問題規(guī)模為N時(shí),浮點(diǎn)運(yùn)算次數(shù)為(2/3 * N^3-2*N^2)。因此,只要給出問題規(guī)模N,測得系統(tǒng)計(jì)算時(shí)間T,峰值=計(jì)算量(2/3 * N^3-2*N^2)/計(jì)算時(shí)間T,測試結(jié)果以浮點(diǎn)運(yùn)算每秒(Flops)給出。HPL測試結(jié)果是TOP500排名的重要依據(jù)。計(jì)算機(jī)計(jì)算峰值簡介:衡量計(jì)算機(jī)性能的一個重要指標(biāo)就是計(jì)算峰值或者浮點(diǎn)計(jì)算峰值,它是指計(jì)算機(jī)每秒鐘能完成的浮點(diǎn)計(jì)算最大次數(shù)。包括理論浮點(diǎn)峰值和實(shí)測浮點(diǎn)峰值。理論浮點(diǎn)峰值是該計(jì)算機(jī)理論上能達(dá)到的每秒鐘能完成浮點(diǎn) 計(jì)算最大次數(shù),它主要是由 CPU的主頻決定的。計(jì)算公式如下:?、理論浮點(diǎn)峰值=CPU主頻×CPU每個時(shí)鐘周期執(zhí)行浮點(diǎn)運(yùn)算次數(shù)×CPU數(shù)量。
AI算力評估為什么不用?Linpack
傳統(tǒng)的高性能計(jì)算機(jī)評測方法和體系與當(dāng)前人工智能需求的性能并不完全一致。例如,LINPACK是一個目前被廣泛采用的高性能計(jì)算機(jī)雙精度浮點(diǎn)運(yùn)算性能基準(zhǔn)評測程序,國際超算Top 500榜單依據(jù)LINPACK值來進(jìn)行排名,而典型的人工智能 應(yīng)用并不需要雙精度浮點(diǎn)數(shù)運(yùn)算。大部分人工智能訓(xùn)練任務(wù)以單精度浮點(diǎn)數(shù)或半精度浮點(diǎn)數(shù)為主,推理以Int8為主。對大規(guī)模人工智能算力來說,制定一個簡單有效的指標(biāo)和測試方法并不是一件容易的事情。首先,大部分單個人工智能訓(xùn)練任務(wù)(例如訓(xùn)練一個推薦系統(tǒng)或者圖像分類的神經(jīng)網(wǎng)絡(luò)模型)達(dá)不到全機(jī)上百張加速器卡規(guī)模的計(jì)算需求。很多人工智能應(yīng)用,即使使用全機(jī)規(guī)模,其訓(xùn)練時(shí)間和準(zhǔn)確率也可能沒有改進(jìn)。其次,如果要測試規(guī)模變化的人工智能集群計(jì)算機(jī),測試程序必須能夠規(guī)模可變。首先必須明確,什么樣的主流人工智能應(yīng)用是規(guī)模可以任意調(diào)整的。最后,準(zhǔn)確率的判定和計(jì)算是大規(guī)模人工智能算力評測與傳統(tǒng)高性能計(jì)算基準(zhǔn)評測之間的一個顯著區(qū)別。是否需要使殘差小于給定標(biāo)準(zhǔn),是否要將準(zhǔn)確度計(jì)入分?jǐn)?shù)統(tǒng)計(jì),同樣是需要明確的問題。目前,各大企業(yè)、高校和相關(guān)組織在人工智能性能基準(zhǔn)測試領(lǐng)域已經(jīng)有了很多探索,相繼開發(fā)了各類基準(zhǔn)評測程序,比如谷歌等公司主導(dǎo)的MLPerf,小米公司的MobileAI bench,百度公司的DeepBench,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的AIIA DNN Benchmark,以及在雙精度的LINPACK基礎(chǔ)上改成混合精度的HPL-AI等。但是這些基準(zhǔn)測試方案都不能很好地解決上述問題。根據(jù)MLPerf公開發(fā)表的數(shù)據(jù),MLPerf程序在百張TPU加速卡以上規(guī)模測試下擴(kuò)展性就會出現(xiàn)下滑,在千張TPU加速卡級別到達(dá)評測體系的擴(kuò)展性瓶頸,該評測程序很難評價(jià)不同系統(tǒng)在該規(guī)模下人工智能算力的差異。

MLPerf是一套衡量機(jī)器學(xué)習(xí)系統(tǒng)性能的權(quán)威標(biāo)準(zhǔn),于2018年由谷歌、哈佛、斯坦福、百度等機(jī)構(gòu)聯(lián)合發(fā)起成立,每年定期公布榜單成績,它將在標(biāo)準(zhǔn)目標(biāo)下訓(xùn)練或推理機(jī)器學(xué)習(xí)模型的時(shí)間,作為一套系統(tǒng)性能的測量標(biāo)準(zhǔn)。MLPerf訓(xùn)練任務(wù)包括圖像分類(ResNet50)、目標(biāo)物體檢測(SSD)、目標(biāo)物體檢測(Mask R-CNN)、智能推薦(DLRM)、自然語言處理(BERT)以及強(qiáng)化機(jī)器學(xué)習(xí)(Minigo)等。最新的1.0版本增加了兩項(xiàng)新的測試項(xiàng)目:語音識別(RNN-T)和醫(yī)學(xué)影像分割(U-Net3D)。在Resnet50訓(xùn)練中,硬件及設(shè)備平臺的選取至關(guān)重要。其中磁盤讀取性能、CPU運(yùn)算性能、內(nèi)存到顯存的傳輸性能以及GPU運(yùn)算性能對訓(xùn)練速度的影響都比較大:磁盤讀取性能直接決定訓(xùn)練數(shù)據(jù)供給的速度;CPU的性能、CPU到GPU的傳輸帶寬以及GPU的性能共同決定了數(shù)據(jù)前處理的速度;而訓(xùn)練中的前向推理和反向傳播由GPU的性能及GPU之間的數(shù)據(jù)傳輸帶寬決定。如同工廠流水線上的幾名工人,任何一名工人的處理速度跟不上就會導(dǎo)致堆積,成為性能瓶頸,影響最終結(jié)果。因此這幾個重要部分不能有明顯的短板。此時(shí)就會用Resnet50模型進(jìn)行圖片分揀,得出每秒處理圖片數(shù)量作為一個性能指標(biāo)。
經(jīng)典芯片的算力
以下列出幾個有代表性硬件的每秒浮點(diǎn)運(yùn)算次數(shù)GFLOPS
Intel Xeon 3.6 GHz: <1.8 GFLOPS
Intel Pentium 4 HT 3.6Ghz: 7 GFLOPS
Intel Core 2 Duo E4300 14 GFLOPS
Intel Core 2 Duo E8400 24 GFLOPS
AMD Phenom 9950: 29.05 GFLOPS
Intel Core 2 Quad Q8200: 37 GFLOPS
Intel Core 2 QX9770: 39.63 GFLOPS
AMD Phenom II x4 955: 42.13 GFlopS
Intel Core i7-965: 69.23 GFLOPS
Intel Core i7-980 XE : 107.6 GFLOPS
Intel Core i5-2500K @4.5GHz: 123.35 GFLOPS (w/AVX instruction set)
IBM POWER7: 264.96GFLOPS[2]
nVIDIA Geforce 8800 Ultra(G80-450 GPU):393.6 GFLOPS
nVIDIA Geforce GTX 280(G200-300 GPU):720 GFLOPS
AMD Radeon HD 3870(RV670 GPU):497 GFLOPS
AMD Radeon HD 4870(RV770 GPU):1008 GFlops
TFLOPS
nVIDIA Geforce GTX 580(GF110-375 GPU):2.37 TFLOPS
AMD Radeon HD 6990(R900 GPU):4.98 TFLOPS
nVIDA Geforce GTX 1070: 6.5 TFLOPS
nVIDA Geforce GTX 1080: 9 TFLOPS
nVIDA Geforce GTX 1080Ti: 10.8 TFLOPS
nIVIDIA Titan Xp : 12.1 TFLOPS
ASCI White:12.3TFLOPS
AMD Vega Frontier Edition : 13.1 TFLOPS
Earth Simulator: 35.61 TFLOPS
Blue Gene/L: 135.5 TFLOPS
中國曙光Dawning 5000A: 230 TFLOPS
PFLOPS
IBM Roadrunner:1.026 PFLOPS
Jaguar:1.75 PFLOPS
天河一號:2.566 PFLOPS
Folding@home運(yùn)算平臺:4.769 PFLOPS
BOINC運(yùn)算平臺:6.282 PFLOPS (持續(xù)增加中)
IBM Mira: 8.16 PFLOPS
京:10.51 PFLOPS
IBM Sequoia:16.32 PFLOPS
Cray Titan:17.59 PFLOPS
天河二號:33.86PFLOPS
神威·太湖之光:125PFLOPS
參考“2020年HPC市場總結(jié)和預(yù)測報(bào)告(附下載)”,2020年HPC市場總結(jié)和預(yù)測報(bào)告。美國在3大超算系統(tǒng)(Aurora、Frontier和EI Capitan)近兩年投入預(yù)算均超過18億美元。
Aurora:英特爾推遲推出7納米的Ponte Vecchio GPU,計(jì)劃在Aurora與英特爾Xeon CUP集成,算力>1EF。
Focus on Frontier (CORAL-2):美國第一個Exascale System (由于Aurora延期),第二代AI系統(tǒng);
日本Fugaku超算系統(tǒng)在2020年6月TOP500榜單中位居榜首。基于Fujitsu A64 ARMv8.2處理器,無GPU加速,Linpack (HPL)?測試基準(zhǔn)達(dá) 415.5 petaflops。
中國三個超算原型機(jī)(NUDT、Sugon和Sunway)在開發(fā)中,其中一個或多個原型可能被選擇為充分生產(chǎn)。
歐洲EuroHPC項(xiàng)目于2018年啟動,歐盟32個參與國開發(fā)歐盟范圍內(nèi)高性能計(jì)算系統(tǒng),選擇芬蘭卡賈尼,西班牙巴塞羅那和意大利博洛尼亞,投資6.5億歐元實(shí)施150,200Pflops系統(tǒng),投資1.8億歐元建設(shè)中規(guī)模HPC系統(tǒng)(~4Pflops)
此外,在2022-2023將從采購3個大型系統(tǒng),至少有一個采用歐盟技術(shù)(特別是使用EPI處理器);大約在2027年部署首個混合高性能計(jì)算/量子基礎(chǔ)設(shè)施(Post Exascale System)。
下載鏈接:
SoC芯片研究框架
電子氣體:研究框架
AIoT芯片研究框架
DRAM存儲芯片研究框架
CPU和GPU研究框架合集
信創(chuàng)研究專題框架
異構(gòu)芯片研究框架合集
電源管理芯片研究框架
2021 HPC China大會因特爾方案資料(下)
2021 HPC China大會因特爾方案資料(上)
2020年HPC市場總結(jié)和預(yù)測報(bào)告
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計(jì)算芯知識(知識星球)星球下載全部資料。

免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。
電子書<服務(wù)器基礎(chǔ)知識全解(終極版)>更新完畢,知識點(diǎn)深度講解,提供182頁完整版下載。
獲取方式:點(diǎn)擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。
