<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          老黃狂拼CPU!英偉達(dá)掏出800億晶體管顯卡,外加世界最快AI超算Eos

          共 4642字,需瀏覽 10分鐘

           ·

          2022-03-23 19:29

          7102d33eba8cc9658eefad7ee43749c7.webp


          ??新智元報(bào)道??

          編輯:編輯部

          【新智元導(dǎo)讀】「拼裝」CPU,4納米顯卡,世界最快AI超算,還有游戲開(kāi)發(fā)者的元宇宙。這次,老黃的百寶箱里都有啥?


          今天,老黃穿著他的皮衣又來(lái)了!?3月22日晚,英偉達(dá)GTC 2022開(kāi)幕。?4b5c12b9a6b163ae782cab3b939370df.webp?雖然沒(méi)有了那個(gè)熟悉的廚房,但這次的陣仗反而更加豪華。?英偉達(dá)用Omniverse把新總部從內(nèi)到外渲染了一遍!??

          800億個(gè)晶體管的Hopper H100

          ?隨著拔地而起的平臺(tái),英偉達(dá)推出了為超算設(shè)計(jì)的最新AI顯卡Hopper H100。?相比于「只有」540億個(gè)晶體管的前輩A100,英偉達(dá)在H100中裝入了800億個(gè)晶體管,并采用了定制的臺(tái)積電4納米工藝。?也就是說(shuō),H100將具有更好的功率/性能特性,并在密度方面有一定程度上的改進(jìn)。?9bf992453f6e3f593c22468ed08add09.webp?在算力上,H100的FP16、TF32以及FP64性能都是A100的3倍,分別為2000 TFLOPS、1000 TFLOPS和60 TFLOPS。?此外,H100還增加了對(duì)FP8支持,算力高達(dá)4000 TFLOPS,比A100快6倍。畢竟在 這方面,后者由于缺乏原生FP8支持而不得不依賴(lài)FP16。?內(nèi)存方面,H100也將默認(rèn)支持帶寬為3TB/s的HBM3,比A100的HBM2E提升1.5倍。?2ce9cef5860d60ed1590b1028bc23719.webp?H100支持的第四代NVLink接口可以提供高達(dá)128GB/s的帶寬,是A100的1.5倍;而在PCIe 5.0下也可以達(dá)到128GB/s的速度,是PCIe 4.0的2倍。?同時(shí),H100的SXM版本將TDP增加到了700W,而A100為400W。而75%的功率提升,通常來(lái)說(shuō)可以預(yù)計(jì)獲得2到3倍的性能。?為了優(yōu)化性能,Nvidia還推出了一個(gè)新的Transformer Engine,將根據(jù)工作負(fù)載在FP8和FP16格式之間自動(dòng)切換。?

          H100A100 (80GB)
          CUDA核心168966912
          張量核心528432
          超頻頻率約1.78GHz1.41GHz
          內(nèi)存4.8Gbps HBM33.2Gbps HBM2e
          內(nèi)存帶寬3TB/s2TB/s
          FP32矢量60 TFLOPS19.5 TFLOPS
          FP64矢量30 TFLOPS9.7 TFLOPS(1/2 FP32)
          INT8張量2000 TOPS624 TOPS
          FP16張量1000 TFLOPS312 TFLOPS
          TF32張量500 TFLOPS156 TFLOPS
          FP64張量60 TFLOPS19.5 TFLOPS
          總線NVLink 418條 (900GB/s)NVLink 312條 (600GB/s)
          GPUGH100(814平方毫米)GA100(826平方毫米)
          晶體管數(shù)量800億542億
          TDP700W400W
          制造工藝TSMC 4NTSMC 7N
          架構(gòu)HopperAmpere
          ?Hopper架構(gòu)全新的DPX指令,將為動(dòng)態(tài)規(guī)劃的計(jì)算速度帶來(lái)高達(dá)40倍的提升。?在AI訓(xùn)練中,H100可以提供高達(dá)9倍的吞吐量。以Megatron 530B為基準(zhǔn),則可以提供16倍至30倍的推理性能。在3D FFT(快速傅里葉變換)和基因組測(cè)序等HPC應(yīng)用中,則可提升6-7倍。?cbd86cfef62b6ce9b05cd73a80036959.webp?

          DGX服務(wù)器系統(tǒng)

          ?第四代英偉達(dá)DGX服務(wù)器系統(tǒng),將世界上第一個(gè)采用H100顯卡構(gòu)建的AI服務(wù)器平臺(tái)。?DGX H100服務(wù)器系統(tǒng)可提供滿(mǎn)足大型語(yǔ)言模型、推薦系統(tǒng)、醫(yī)療保健研究和氣候科學(xué)的海量計(jì)算需求所需的規(guī)模。?其中,每個(gè)服務(wù)器系統(tǒng)包含8個(gè)H100顯卡,通過(guò)NVLink鏈接為單個(gè)整體,晶體管總計(jì)6400億個(gè)。?在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍。?e1739d3862c010179d01899f3d876f22.webp?此外,每個(gè)DGX H100系統(tǒng)還包括兩個(gè)NVIDIA BlueField-3 DPU,用于卸載、加速和隔離網(wǎng)絡(luò)、存儲(chǔ)和安全服務(wù)。?8個(gè)NVIDIA ConnectX-7 Quantum-2 InfiniBand網(wǎng)絡(luò)適配器提供每秒400 Gb的吞吐量來(lái)連接計(jì)算和存儲(chǔ)模塊——速度是上一代系統(tǒng)的兩倍。?第四代NVLink與NVSwitch相結(jié)合,可在每個(gè)DGX H100系統(tǒng)中的每個(gè)GPU之間提供每秒900 GB的連接,是上一代的1.5倍。?而最新的DGX SuperPOD架構(gòu)則可連接多達(dá)32個(gè)節(jié)點(diǎn)、總共256個(gè)H100顯卡。?DGX SuperPOD可提供1 EFLOPS的FP8性能,同樣也是前代的6倍。?b9e2d9e2a2e30651c7822f93bbc6800f.webp?

          世界上最快的AI超算

          ?由576個(gè)DGX H100服務(wù)器系統(tǒng)和4608個(gè)DGX H100顯卡組成的「Eos」超級(jí)計(jì)算機(jī)預(yù)計(jì)將提供18.4 EFLOPS的AI計(jì)算性能,比目前世界上最快的超算——日本的「富岳」快4倍。?對(duì)于傳統(tǒng)的科學(xué)計(jì)算,Eos有望提供275 PFLOPS的性能。?d5647d0c59c2dad0fa915a76cbad7846.webp?

          Transformer Engine

          ?作為新Hopper架構(gòu)的一部分,將顯著提高AI的性能,大型模型的訓(xùn)練可以在數(shù)天甚至數(shù)小時(shí)內(nèi)完成。?傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中采用的精度是固定的,因此也難以將FP8應(yīng)用在整個(gè)模型之中。?而Transformer Engine則可以在FP16和FP8之間逐層訓(xùn)練,并利用英偉達(dá)提供的啟發(fā)式方法來(lái)選擇所需的最低精度。?此外,Transformer Engine可以用2倍于FP16的速度打包和處理FP8數(shù)據(jù),于是模型的每一層可以用FP8處理的數(shù)據(jù)都可以提升2倍的速度。?5d287349ac3538a26544571081b3d891.webp?

          Grace CPU超級(jí)芯片

          ?除了顯卡,英偉達(dá)今天還推出了其首款基于Arm Neoverse架構(gòu)的處理器——Grace CPU超級(jí)芯片。?它基于此前發(fā)布的Grace Hopper CPU+GPU設(shè)計(jì),只不過(guò)把顯卡換成了CPU。?據(jù)英偉達(dá)實(shí)驗(yàn)室估計(jì),在使用同類(lèi)編譯器時(shí),Grace CPU超級(jí)芯片性能可以提升1.5倍以上。?在技術(shù)規(guī)格上,可以概括為:?
          • 2個(gè)72核芯片,高達(dá)144個(gè)Arm v9 CPU核心
          • 采用ECC技術(shù)的新一代LPDDR5x內(nèi)存,總帶寬為1TB/s
          • SPECrate 2017_int_base得分預(yù)計(jì)超過(guò)740
          • 900GB/s 一致性接口,比PCIe 5.0快7倍
          • 封裝密度比DIMM解決方案提高了2倍
          • 每瓦性能2倍于當(dāng)今領(lǐng)先的CPU
          ?f252946be6e5790586fedbce575fd8c0.webp?超級(jí)芯片中的兩個(gè)CPU通過(guò)英偉達(dá)最新的NVLink「芯片到芯片」(C2C) 接口進(jìn)行通信。?這種「裸晶到裸晶」和「芯片到芯片」的互連支持低延遲內(nèi)存一致性,允許連接的設(shè)備同時(shí)在同一個(gè)內(nèi)存池上工作。?5f141ff6e63355a8e7870a216ae8b2df.webp?Grace CPU超級(jí)芯片擁有更先進(jìn)的能效和內(nèi)存帶寬,其創(chuàng)新的內(nèi)存子系統(tǒng)由帶有ECC的LPDDR5x內(nèi)存組成。?LPDDR5x可以提供兩倍于傳統(tǒng)DDR5的帶寬,同時(shí)還能使CPU加內(nèi)存的功耗顯著降低至500瓦。?相比之下,AMD的芯片在基準(zhǔn)測(cè)試中的結(jié)果從382到424不等,且每個(gè)芯片的功耗最高可達(dá)280W(還不包括內(nèi)存)。?此外,Grace CPU超級(jí)芯片與NVIDIA ConnectX-7 NIC一起提供了配置到服務(wù)器中的靈活性,可作為獨(dú)立的純CPU系統(tǒng)或作為具有1 個(gè)、2個(gè)、4個(gè)或8個(gè)基于Hopper顯卡的加速服務(wù)器。?23e2062e18d34a1ff1b7918bf04dff70.webp?

          安培架構(gòu)再添新品

          ?今天,英偉達(dá)為筆記本電腦和臺(tái)式機(jī)提供了七種基于Ampere架構(gòu)的顯卡——RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500和RTX A5500。?新的RTX A5500臺(tái)式機(jī)顯卡可實(shí)現(xiàn)出色的渲染、AI、圖形和計(jì)算性能。其光線追蹤渲染比上一代快2倍,其運(yùn)動(dòng)模糊渲染性能最高可提高9倍。?104e064bec8c3f1d20e8110717c96a68.webp?第二代RT核心:吞吐量高達(dá)第一代的2倍,能夠同時(shí)運(yùn)行光線追蹤、著色和去噪任務(wù)。?第三代Tensor Cores:訓(xùn)練吞吐量是前一代的12倍,支持新的TF32和Bfloat16數(shù)據(jù)格式。CUDA核心。比上一代的單精度浮點(diǎn)吞吐量高達(dá)3倍。?高達(dá)48GB的GPU內(nèi)存:RTX A5500具有24GB的GDDR6內(nèi)存,帶有ECC(糾錯(cuò)碼)。使用NVLink連接兩個(gè)GPU,RTX A5500的內(nèi)存可擴(kuò)展至48GB。?虛擬化:RTX A5500支持NVIDIA RTX虛擬工作站(vWS)軟件,用于多個(gè)高性能虛擬工作站實(shí)例,使遠(yuǎn)程用戶(hù)能夠共享資源,推動(dòng)高端設(shè)計(jì)、AI和計(jì)算工作負(fù)載。?PCIe 4.0:帶寬是上一代的2倍,加快了數(shù)據(jù)密集型任務(wù)的數(shù)據(jù)傳輸,如AI、數(shù)據(jù)科學(xué)和創(chuàng)建3D模型。?

          游戲開(kāi)發(fā)者也有元宇宙了

          ?已經(jīng)在元宇宙擁有一席之地的Omniverse再次得到了加強(qiáng)。?49ec6ae94f743140ea7b9f7e7d69a12a.webp?本次大會(huì)上,英偉達(dá)發(fā)布了NVIDIA Omniverse的全新功能,使開(kāi)發(fā)者能夠更輕松地共享資產(chǎn)、對(duì)資產(chǎn)庫(kù)進(jìn)行分類(lèi)、開(kāi)展協(xié)作,并在全新游戲開(kāi)發(fā)流程中部署AI來(lái)為角色制作面部表情的動(dòng)畫(huà)。?借助NVIDIA Omniverse實(shí)時(shí)設(shè)計(jì)協(xié)作和模擬平臺(tái),游戲開(kāi)發(fā)者可以使用支持AI和NVIDIA RTX的工具,輕松構(gòu)建自定義工具,以簡(jiǎn)化、加速和改進(jìn)其開(kāi)發(fā)工作流。其組件包括:?
          • Omniverse Audio2Face,一款由NVIDIA AI驅(qū)動(dòng)的應(yīng)用,使角色藝術(shù)家通過(guò)音頻文件生成高質(zhì)量的面部動(dòng)畫(huà)。Audio2Face支持完整的面部動(dòng)畫(huà),藝術(shù)家們還能控制表演的情感。有了Audio2Face,游戲開(kāi)發(fā)者可以快速、輕松地為其游戲角色添加逼真的表情,促進(jìn)玩家和游戲角色之間更強(qiáng)的情感連接,增強(qiáng)沉浸感。
          ?
          • Omniverse Nucleus Cloud現(xiàn)已開(kāi)放搶先體驗(yàn)版,可實(shí)現(xiàn)Omniverse場(chǎng)景的一鍵式簡(jiǎn)單共享,無(wú)需在本地或私有云中部署Nucleus。通過(guò)Nucleus Cloud,游戲開(kāi)發(fā)者可輕松地在內(nèi)、外部開(kāi)發(fā)團(tuán)隊(duì)之間實(shí)時(shí)分享和協(xié)作3D資產(chǎn)。
          ?
          • Omniverse DeepSearch是一項(xiàng)AI服務(wù),現(xiàn)在可供Omniverse企業(yè)用戶(hù)使用,它允許游戲開(kāi)發(fā)者使用自然語(yǔ)言輸入和圖像來(lái)即時(shí)搜索其整個(gè)未標(biāo)記的3D資產(chǎn)、物體對(duì)象和角色目錄。
          ?
          • Omniverse Connectors實(shí)現(xiàn)第三方設(shè)計(jì)工具和Omniverse之間的「實(shí)時(shí)同步」協(xié)作工作流的插件。全新虛幻引擎5 Omniverse Connector允許游戲藝術(shù)家在游戲引擎和Omniverse之間交換USD和材料定義語(yǔ)言數(shù)據(jù)。
          ?

          將數(shù)據(jù)中心轉(zhuǎn)變?yōu)椤窤I工廠」


          不管是Hopper顯卡架構(gòu)還是AI加速軟件,抑或是強(qiáng)大的數(shù)據(jù)中心系統(tǒng)。?所有的這些都將由Omniverse匯集起來(lái),從而更好地模擬和理解現(xiàn)實(shí)世界,并作為新型機(jī)器人的試驗(yàn)場(chǎng),即所謂「下一波AI」。?由于加速計(jì)算技術(shù)的發(fā)展,AI的進(jìn)展驚人,人工智能已經(jīng)從根本上改變了軟件可以做什么,以及如何開(kāi)發(fā)軟件。?老黃表示,Transformer擺脫了對(duì)人類(lèi)標(biāo)記數(shù)據(jù)的需求,使自監(jiān)督學(xué)習(xí)成為可能,而人工智能一躍以空前的速度發(fā)展。?用于語(yǔ)言理解的谷歌BERT,用于藥物發(fā)現(xiàn)的英偉達(dá)MegaMolBART,以及DeepMind AlphaFold2都是Transformer帶來(lái)的突破。?英偉達(dá)的AI平臺(tái)也得到了重大的更新,包括Triton推理服務(wù)器、用于訓(xùn)練大型語(yǔ)言模型的NeMo Megatron 0.9框架,以及用于音頻和視頻質(zhì)量增強(qiáng)的Maxine框架。?68a4a1e29f8db2967fbb6ec2da9ae6bd.webp?「我們將在未來(lái)十年再爭(zhēng)取實(shí)現(xiàn)百萬(wàn)倍的算力提升,」老黃在結(jié)束他的演講時(shí)說(shuō),「我迫不及待地想看看下一個(gè)百萬(wàn)倍會(huì)帶來(lái)什么了。」


          參考資料:

          https://www.nvidia.cn/gtc-global/keynote/


          e25718aa1687421b4c7ecbcd6d9752ee.webp


          瀏覽 65
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品国产a∨一区天美传媒 | 推荐中文字幕无码专区 | 黄色视频网站日本大全免费看 | 少妇综合网 | 蜜乳视频在线免费观看 |