全球首個智能超算排行榜來襲!中美日霸榜Top10,谷歌竟敗給富士通!

??新智元報道??
??新智元報道??
編輯:QJP
【新智元導讀】人工智能正逐漸取代數(shù)值計算成為最重要的數(shù)據(jù)分析和計算技術。以智能芯片和系統(tǒng)為基礎的智能計算產(chǎn)業(yè)已成為國際科技和產(chǎn)業(yè)競爭的焦點,智能超級計算機更成為競爭的標桿。在這個背景下,急需制定智能芯片、系統(tǒng)以及智能超級計算機性能評價的標準。
國際測試委員會(BenchCouncil)在青島舉辦的2020年國際測試委員會芯片和智能計算機聯(lián)合大會上發(fā)布了 HPC AI500 智能超級計算機測試標準和 AIBench 智能芯片測試標準,這兩個標準均由中科院計算所主導。
?
正如倪光南院士在2020年國際測試委員芯片大會開幕式致辭中指出的那樣:“這些標準是控制計算機生態(tài)的關鍵 ”,同時將通過具體的性能排名引領產(chǎn)業(yè)良性競爭。
?
?
發(fā)布智能芯片、系統(tǒng)以及超級計算機排行榜的目的在于制定本領域競爭的規(guī)則。
?
當前美、歐、中、日都在爭奪這個全新領域的標準。與其他組織主導的標準相比,中科院計算所主導的人工智能測試標準的科學性體現(xiàn)在以下三個方面:
?
(一)從大量的人工智能任務和模型中選擇最有代表性的任務和模型作為測試工具;每個測試任務需要解決一個實際的挑戰(zhàn);
?
(二)評價指標不僅考慮性能,同時考慮對人工智能應用至關重要的精度;要求測試中止時達到當前最高的精度。將測試中止時所花費的時間也作為重要的性能指標;
?
(三)強調(diào)了測試的可重復性,排除了可重復性差的算法及模型。
?
智能芯片測試標準 AIBench 由中科院計算所聯(lián)合阿里、騰訊、微軟亞洲研究院、Paypal 等國內(nèi)外17家知名企業(yè)共同發(fā)布。
?
AIBench 具體包含3個互聯(lián)網(wǎng)人工智能場景和17個人工智能任務,是目前最全面的人工智能基準測試標準。
?
通過科學合理的實驗,智能超級計算機測試標準 HPC AI500 榜單從人工智能基準測試標準AIBench 中選取了最有代表性的智能超級計算機測試程序:圖像分類和極端天氣分析(目標檢測)。
?
考慮到模型精度在人工智能領域的重要性,HPC AI500 使用每秒有效浮點操作數(shù)(VFLOPS)作為主要的性能指標, 該指標是一個兼顧系統(tǒng)性能和模型精度的指標。
?
除了VFLOPS,HPC AI500同時還使用訓練人工智能模型所需時間和相應模型所能達到的精度作為輔助指標。
?
全球首個智能超算放榜,前十里中美日占九成騰訊排第四
全球首個智能超算放榜,前十里中美日占九成騰訊排第四
?
依據(jù) HPC AI500 性能評價標準,2020年國際測試委員會芯片大會發(fā)布了國際上第一個智能超級計算機排行榜。
?
? ? ? ?
圖:HPC AI500 VFLOPS排名
?
從 HPC AI500 排名來看,富士通、谷歌和索尼分列前三,騰訊位列第四。
?? ? ? ?
圖:在不同超級計算機上訓練人工智能模型所需的時間
?
最快的富士通依靠2048塊TeslaV100 GPU和新穎的通訊算法優(yōu)化在1.2分鐘完成了圖像分類模型訓練。
?? ? ??
圖:在不同超級計算機上訓練人工智能模型達到的精度
?
目前,中、美、日包攬了榜單的前九名,并且都在加大投入,爭奪智能超計算機的主導權,但誰都沒有確立真正的領先地位。
?
大會同時還發(fā)布了智能芯片性能榜單,該排行榜從最全面的人工智能性能評價標準 AIBench 中選擇了三個代表性負載:圖像分類、目標檢測和學習排序 進行測試。
?
基于這些測試,對20多款主流人工智能芯片進行了性能排名:?
?? ? ??
?圖:智能芯片排行榜,使用圖像分類負載測試
?? ? ? ?
?圖:智能芯片排行榜,使用目標檢測負載測試
?? ? ? ?
?圖:智能芯片排行榜,使用學習排序負載測試
?
基于這些測試,對近20款主流人工智能芯片進行了性能排名。?最后,還使用 K-Means 對AIBench 全部負載的系統(tǒng)特征進行聚類,并使用 t-SNE 展示聚類結(jié)果:
? ? ? ?
? ? ? ?
智能超算榜單深度分析:我國AI芯片軟件有點「頭重腳輕」
智能超算榜單深度分析:我國AI芯片軟件有點「頭重腳輕」
?
通過對榜單的分析,我國智能超級計算產(chǎn)業(yè)的發(fā)展面臨以下機遇和挑戰(zhàn):
?
1、未來隨著機器的進一步性能提升,有可能在數(shù)百毫秒內(nèi)完成模型的訓練(學習),從而有望從速度上追趕人類的學習能力。這將使得智能超級計算機真正成為國之利器。但這需要從體系結(jié)構、系統(tǒng)軟件、算法、應用等領域進一步開展基礎研究和技術研發(fā)。
?
2、我國智能訓練芯片的水平與國外還存在較大差距。目前國內(nèi)上榜的系統(tǒng)均基于國外的芯片。其中,英特爾CPU配合英偉達GPU是當前智能超級計算機的主要選擇。谷歌發(fā)布的TPU也展現(xiàn)出了相當?shù)母偁幜Γ訲PU為訓練芯片構建的超算系統(tǒng)在榜單中排行第二名。
?
3、智能超級計算機需要均衡發(fā)展全方面的技術,智能芯片僅僅是構建系統(tǒng)的基礎。首先,充分發(fā)揮芯片的性能需要基于特定芯片的體系結(jié)構開發(fā)基礎操作(算子)庫;其次,基于算子庫的編程框架要求高效和易用,不僅能夠最優(yōu)化的調(diào)度算子,同時支持豐富的人工智能算法、模型和應用;最后,超級計算機往往由成千上萬計算節(jié)點組成,節(jié)點間的通信的優(yōu)化也至關重要。低效的通信往往會造成集群資源利用率低下,從而降低性能。
?
4、專有芯片是帶來性能飛躍的一種有效途徑。例如單個TPU v3(谷歌研制)在圖像分類應用中只需要5.8個小時,而英偉達V100則需要76.6個小時,性能差異達13倍多。但是專有芯片對應用支持的通用性不足。雖然谷歌官方不斷支持新的應用,但無法追趕上人工智能算法的變化。
?
5、智能軟件生態(tài)與智能芯片同等重要。谷歌的TPU在訓練圖像分類模型時,使用自行研制的TensorFlow框架,只需要5.8個小時,但是使用開源框架PyTorch卻需要將近13天。即使對PyTorch開發(fā)的程序進行優(yōu)化,也仍然需要2天半,性能仍差10多倍。但PyTorch在GPU上獲得的性能并不遜色于TensorFlow。從這個角度來說,孤立的評價智能芯片或者系統(tǒng)框架的性能會誤導用戶。
?
6、我國智能芯片軟件生態(tài)薄弱,存在頭重腳輕的現(xiàn)象。盡管我國在人工智能應用方面有著大量的人力投入,但在人工智能系統(tǒng)軟件、編譯、通訊庫等領域投入嚴重不足。百度、華為等國內(nèi)廠商推出的深度學習框架,流行度遠遠不如國外的TensorFlow和PyTorch等。
?
中科院領銜AIBench硬剛MLPerf,基準測試能由中國主導嗎?
中科院領銜AIBench硬剛MLPerf,基準測試能由中國主導嗎?
?
? ? ? ?
? 圖:國際和國內(nèi)主要人工智能標準發(fā)展時間軸
?
國際測試委員會(BenchCouncil)是一個非營利性的國際標準組織,旨在促進源芯片、人工智能、大數(shù)據(jù)和區(qū)塊鏈等新技術的評價、驗證、研討、孵化和推廣。
?
國際測試委員會發(fā)布的人工智能測試標準(HPC AI500 和 AIBench),中科院計算所都起著主導作用。
?
從時間上來看,與圖靈獎得主David Patterson參與的斯坦福、Google、哈佛的聯(lián)合項目 ?MLPerf 是同一時期的工作,由于有直接的競爭關系,這些標準屢屢遭遇坎坷。
?? ?
? ? ? ?
從論文提交以及 ArXiv 上公開的時間來看,AIBench 等標準均早于 MLPerf。
?
AIBench 在提交給體系結(jié)構領域權威會議HPCA 2020工業(yè)版審稿時,4個審稿人同時都同意接受,但最后主席以作者不是來自工業(yè)界的錯誤理由直接拒稿。作者向HPCA委員會申述,程序委員會主席兩次變更理由。
?
同樣,另外一篇論文投稿到體系結(jié)構領域權威會議 Micro 2020,三個評閱人同意錄用。盡管論文獲得高分,最終也被拒絕。

? 圖:對AIBench 17個負載進行的可重復性測試。表格從左至右依次為負載的編號、負載名、遍歷一次數(shù)據(jù)所需時間、訓練總時間、多次運行中訓練總時間的差異。從圖中可以看出,隨機性最高的算法3D Face Recognition 高達38.46%。AutoML的核心算法Neural Architecture Search達到了6.15%。HPC AI500選擇的兩個算法Image Classification和Object Detection隨機性最低。IEEE Fellow和基準測試大拿,給AIBench打幾分?
IEEE Fellow和基準測試大拿,給AIBench打幾分?


