<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          老黃狂拼CPU!英偉達(dá)掏出800億晶體管顯卡,外加世界最快AI超算Eos

          共 4690字,需瀏覽 10分鐘

           ·

          2022-03-23 11:15

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)




          ? 視學(xué)算法報(bào)道??

          編輯:編輯部

          【新智元導(dǎo)讀】「拼裝」CPU,4納米顯卡,世界最快AI超算,還有游戲開發(fā)者的元宇宙。這次,老黃的百寶箱里都有啥?


          今天,老黃穿著他的皮衣又來了!
          ?
          3月22日晚,英偉達(dá)GTC 2022開幕。
          ?
          ?
          雖然沒有了那個熟悉的廚房,但這次的陣仗反而更加豪華。
          ?
          英偉達(dá)用Omniverse把新總部從內(nèi)到外渲染了一遍!
          ?
          ?

          800億個晶體管的Hopper H100

          ?
          隨著拔地而起的平臺,英偉達(dá)推出了為超算設(shè)計(jì)的最新AI顯卡Hopper H100。
          ?
          相比于「只有」540億個晶體管的前輩A100,英偉達(dá)在H100中裝入了800億個晶體管,并采用了定制的臺積電4納米工藝。
          ?
          也就是說,H100將具有更好的功率/性能特性,并在密度方面有一定程度上的改進(jìn)。
          ?
          ?
          在算力上,H100的FP16、TF32以及FP64性能都是A100的3倍,分別為2000 TFLOPS、1000 TFLOPS和60 TFLOPS。
          ?
          此外,H100還增加了對FP8支持,算力高達(dá)4000 TFLOPS,比A100快6倍。畢竟在 這方面,后者由于缺乏原生FP8支持而不得不依賴FP16。
          ?
          內(nèi)存方面,H100也將默認(rèn)支持帶寬為3TB/s的HBM3,比A100的HBM2E提升1.5倍。
          ?
          ?
          H100支持的第四代NVLink接口可以提供高達(dá)128GB/s的帶寬,是A100的1.5倍;而在PCIe 5.0下也可以達(dá)到128GB/s的速度,是PCIe 4.0的2倍。
          ?
          同時,H100的SXM版本將TDP增加到了700W,而A100為400W。而75%的功率提升,通常來說可以預(yù)計(jì)獲得2到3倍的性能。
          ?
          為了優(yōu)化性能,Nvidia還推出了一個新的Transformer Engine,將根據(jù)工作負(fù)載在FP8和FP16格式之間自動切換。
          ?

          H100
          A100 (80GB)
          CUDA核心
          16896
          6912
          張量核心
          528
          432
          超頻頻率
          約1.78GHz
          1.41GHz
          內(nèi)存
          4.8Gbps HBM3
          3.2Gbps HBM2e
          內(nèi)存帶寬
          3TB/s
          2TB/s
          FP32矢量
          60 TFLOPS
          19.5 TFLOPS
          FP64矢量
          30 TFLOPS
          9.7 TFLOPS
          (1/2 FP32)
          INT8張量
          2000 TOPS
          624 TOPS
          FP16張量
          1000 TFLOPS
          312 TFLOPS
          TF32張量
          500 TFLOPS
          156 TFLOPS
          FP64張量
          60 TFLOPS
          19.5 TFLOPS
          總線
          NVLink 4
          18條 (900GB/s)
          NVLink 3
          12條 (600GB/s)
          GPU
          GH100
          (814平方毫米)
          GA100
          (826平方毫米)
          晶體管數(shù)量
          800億
          542億
          TDP
          700W
          400W
          制造工藝
          TSMC 4N
          TSMC 7N
          架構(gòu)
          Hopper
          Ampere
          ?
          Hopper架構(gòu)全新的DPX指令,將為動態(tài)規(guī)劃的計(jì)算速度帶來高達(dá)40倍的提升。
          ?
          在AI訓(xùn)練中,H100可以提供高達(dá)9倍的吞吐量。以Megatron 530B為基準(zhǔn),則可以提供16倍至30倍的推理性能。在3D FFT(快速傅里葉變換)和基因組測序等HPC應(yīng)用中,則可提升6-7倍。
          ?
          ?

          DGX服務(wù)器系統(tǒng)

          ?
          第四代英偉達(dá)DGX服務(wù)器系統(tǒng),將世界上第一個采用H100顯卡構(gòu)建的AI服務(wù)器平臺。
          ?
          DGX H100服務(wù)器系統(tǒng)可提供滿足大型語言模型、推薦系統(tǒng)、醫(yī)療保健研究和氣候科學(xué)的海量計(jì)算需求所需的規(guī)模。
          ?
          其中,每個服務(wù)器系統(tǒng)包含8個H100顯卡,通過NVLink鏈接為單個整體,晶體管總計(jì)6400億個。
          ?
          在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍。
          ?
          ?
          此外,每個DGX H100系統(tǒng)還包括兩個NVIDIA BlueField-3 DPU,用于卸載、加速和隔離網(wǎng)絡(luò)、存儲和安全服務(wù)。
          ?
          8個NVIDIA ConnectX-7 Quantum-2 InfiniBand網(wǎng)絡(luò)適配器提供每秒400 Gb的吞吐量來連接計(jì)算和存儲模塊——速度是上一代系統(tǒng)的兩倍。
          ?
          第四代NVLink與NVSwitch相結(jié)合,可在每個DGX H100系統(tǒng)中的每個GPU之間提供每秒900 GB的連接,是上一代的1.5倍。
          ?
          而最新的DGX SuperPOD架構(gòu)則可連接多達(dá)32個節(jié)點(diǎn)、總共256個H100顯卡。
          ?
          DGX SuperPOD可提供1 EFLOPS的FP8性能,同樣也是前代的6倍。
          ?
          ?

          世界上最快的AI超算

          ?
          由576個DGX H100服務(wù)器系統(tǒng)和4608個DGX H100顯卡組成的「Eos」超級計(jì)算機(jī)預(yù)計(jì)將提供18.4 EFLOPS的AI計(jì)算性能,比目前世界上最快的超算——日本的「富岳」快4倍。
          ?
          對于傳統(tǒng)的科學(xué)計(jì)算,Eos有望提供275 PFLOPS的性能。
          ?
          ?

          Transformer Engine

          ?
          作為新Hopper架構(gòu)的一部分,將顯著提高AI的性能,大型模型的訓(xùn)練可以在數(shù)天甚至數(shù)小時內(nèi)完成。
          ?
          傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過程中采用的精度是固定的,因此也難以將FP8應(yīng)用在整個模型之中。
          ?
          而Transformer Engine則可以在FP16和FP8之間逐層訓(xùn)練,并利用英偉達(dá)提供的啟發(fā)式方法來選擇所需的最低精度。
          ?
          此外,Transformer Engine可以用2倍于FP16的速度打包和處理FP8數(shù)據(jù),于是模型的每一層可以用FP8處理的數(shù)據(jù)都可以提升2倍的速度。
          ?
          ?

          Grace CPU超級芯片

          ?
          除了顯卡,英偉達(dá)今天還推出了其首款基于Arm Neoverse架構(gòu)的處理器——Grace CPU超級芯片。
          ?
          它基于此前發(fā)布的Grace Hopper CPU+GPU設(shè)計(jì),只不過把顯卡換成了CPU。
          ?
          據(jù)英偉達(dá)實(shí)驗(yàn)室估計(jì),在使用同類編譯器時,Grace CPU超級芯片性能可以提升1.5倍以上。
          ?
          在技術(shù)規(guī)格上,可以概括為:
          ?
          • 2個72核芯片,高達(dá)144個Arm v9 CPU核心
          • 采用ECC技術(shù)的新一代LPDDR5x內(nèi)存,總帶寬為1TB/s
          • SPECrate 2017_int_base得分預(yù)計(jì)超過740
          • 900GB/s 一致性接口,比PCIe 5.0快7倍
          • 封裝密度比DIMM解決方案提高了2倍
          • 每瓦性能2倍于當(dāng)今領(lǐng)先的CPU
          ?
          ?
          超級芯片中的兩個CPU通過英偉達(dá)最新的NVLink「芯片到芯片」(C2C) 接口進(jìn)行通信。
          ?
          這種「裸晶到裸晶」和「芯片到芯片」的互連支持低延遲內(nèi)存一致性,允許連接的設(shè)備同時在同一個內(nèi)存池上工作。
          ?
          ?
          Grace CPU超級芯片擁有更先進(jìn)的能效和內(nèi)存帶寬,其創(chuàng)新的內(nèi)存子系統(tǒng)由帶有ECC的LPDDR5x內(nèi)存組成。
          ?
          LPDDR5x可以提供兩倍于傳統(tǒng)DDR5的帶寬,同時還能使CPU加內(nèi)存的功耗顯著降低至500瓦。
          ?
          相比之下,AMD的芯片在基準(zhǔn)測試中的結(jié)果從382到424不等,且每個芯片的功耗最高可達(dá)280W(還不包括內(nèi)存)。
          ?
          此外,Grace CPU超級芯片與NVIDIA ConnectX-7 NIC一起提供了配置到服務(wù)器中的靈活性,可作為獨(dú)立的純CPU系統(tǒng)或作為具有1 個、2個、4個或8個基于Hopper顯卡的加速服務(wù)器。
          ?
          ?

          安培架構(gòu)再添新品

          ?
          今天,英偉達(dá)為筆記本電腦和臺式機(jī)提供了七種基于Ampere架構(gòu)的顯卡——RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500和RTX A5500。
          ?
          新的RTX A5500臺式機(jī)顯卡可實(shí)現(xiàn)出色的渲染、AI、圖形和計(jì)算性能。其光線追蹤渲染比上一代快2倍,其運(yùn)動模糊渲染性能最高可提高9倍。
          ?
          ?
          第二代RT核心:吞吐量高達(dá)第一代的2倍,能夠同時運(yùn)行光線追蹤、著色和去噪任務(wù)。
          ?
          第三代Tensor Cores:訓(xùn)練吞吐量是前一代的12倍,支持新的TF32和Bfloat16數(shù)據(jù)格式。
          CUDA核心。比上一代的單精度浮點(diǎn)吞吐量高達(dá)3倍。
          ?
          高達(dá)48GB的GPU內(nèi)存:RTX A5500具有24GB的GDDR6內(nèi)存,帶有ECC(糾錯碼)。使用NVLink連接兩個GPU,RTX A5500的內(nèi)存可擴(kuò)展至48GB。
          ?
          虛擬化:RTX A5500支持NVIDIA RTX虛擬工作站(vWS)軟件,用于多個高性能虛擬工作站實(shí)例,使遠(yuǎn)程用戶能夠共享資源,推動高端設(shè)計(jì)、AI和計(jì)算工作負(fù)載。
          ?
          PCIe 4.0:帶寬是上一代的2倍,加快了數(shù)據(jù)密集型任務(wù)的數(shù)據(jù)傳輸,如AI、數(shù)據(jù)科學(xué)和創(chuàng)建3D模型。
          ?

          游戲開發(fā)者也有元宇宙了

          ?
          已經(jīng)在元宇宙擁有一席之地的Omniverse再次得到了加強(qiáng)。
          ?
          ?
          本次大會上,英偉達(dá)發(fā)布了NVIDIA Omniverse的全新功能,使開發(fā)者能夠更輕松地共享資產(chǎn)、對資產(chǎn)庫進(jìn)行分類、開展協(xié)作,并在全新游戲開發(fā)流程中部署AI來為角色制作面部表情的動畫。
          ?
          借助NVIDIA Omniverse實(shí)時設(shè)計(jì)協(xié)作和模擬平臺,游戲開發(fā)者可以使用支持AI和NVIDIA RTX的工具,輕松構(gòu)建自定義工具,以簡化、加速和改進(jìn)其開發(fā)工作流。其組件包括:
          ?
          • Omniverse Audio2Face,一款由NVIDIA AI驅(qū)動的應(yīng)用,使角色藝術(shù)家通過音頻文件生成高質(zhì)量的面部動畫。Audio2Face支持完整的面部動畫,藝術(shù)家們還能控制表演的情感。有了Audio2Face,游戲開發(fā)者可以快速、輕松地為其游戲角色添加逼真的表情,促進(jìn)玩家和游戲角色之間更強(qiáng)的情感連接,增強(qiáng)沉浸感。
          ?
          • Omniverse Nucleus Cloud現(xiàn)已開放搶先體驗(yàn)版,可實(shí)現(xiàn)Omniverse場景的一鍵式簡單共享,無需在本地或私有云中部署Nucleus。通過Nucleus Cloud,游戲開發(fā)者可輕松地在內(nèi)、外部開發(fā)團(tuán)隊(duì)之間實(shí)時分享和協(xié)作3D資產(chǎn)。
          ?
          • Omniverse DeepSearch是一項(xiàng)AI服務(wù),現(xiàn)在可供Omniverse企業(yè)用戶使用,它允許游戲開發(fā)者使用自然語言輸入和圖像來即時搜索其整個未標(biāo)記的3D資產(chǎn)、物體對象和角色目錄。
          ?
          • Omniverse Connectors實(shí)現(xiàn)第三方設(shè)計(jì)工具和Omniverse之間的「實(shí)時同步」協(xié)作工作流的插件。全新虛幻引擎5 Omniverse Connector允許游戲藝術(shù)家在游戲引擎和Omniverse之間交換USD和材料定義語言數(shù)據(jù)。
          ?

          將數(shù)據(jù)中心轉(zhuǎn)變?yōu)椤窤I工廠」


          不管是Hopper顯卡架構(gòu)還是AI加速軟件,抑或是強(qiáng)大的數(shù)據(jù)中心系統(tǒng)。
          ?
          所有的這些都將由Omniverse匯集起來,從而更好地模擬和理解現(xiàn)實(shí)世界,并作為新型機(jī)器人的試驗(yàn)場,即所謂「下一波AI」。
          ?
          由于加速計(jì)算技術(shù)的發(fā)展,AI的進(jìn)展驚人,人工智能已經(jīng)從根本上改變了軟件可以做什么,以及如何開發(fā)軟件。
          ?
          老黃表示,Transformer擺脫了對人類標(biāo)記數(shù)據(jù)的需求,使自監(jiān)督學(xué)習(xí)成為可能,而人工智能一躍以空前的速度發(fā)展。
          ?
          用于語言理解的谷歌BERT,用于藥物發(fā)現(xiàn)的英偉達(dá)MegaMolBART,以及DeepMind AlphaFold2都是Transformer帶來的突破。
          ?
          英偉達(dá)的AI平臺也得到了重大的更新,包括Triton推理服務(wù)器、用于訓(xùn)練大型語言模型的NeMo Megatron 0.9框架,以及用于音頻和視頻質(zhì)量增強(qiáng)的Maxine框架。
          ?
          ?
          「我們將在未來十年再爭取實(shí)現(xiàn)百萬倍的算力提升,」老黃在結(jié)束他的演講時說,「我迫不及待地想看看下一個百萬倍會帶來什么了?!?/span>


          參考資料:

          https://www.nvidia.cn/gtc-global/keynote/


          點(diǎn)個在看 paper不斷!

          瀏覽 57
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  俺去也| 男男一区二区三区无码 | www.999国产精品乱伦 | 青青草无码成人天堂免费 | 国产精品成人免费精品自在线观看 |