<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          英偉達(dá)神秘「變形」GPU曝光!5nm工藝,兩種形態(tài)隨心變

          共 3034字,需瀏覽 7分鐘

           ·

          2022-01-01 11:36



          ??新智元報(bào)道??

          編輯:小咸魚 好困

          【新智元導(dǎo)讀】英偉達(dá)似乎把明年要發(fā)的新GPU提前自曝了!一個(gè)出現(xiàn)在論文里的神秘顯卡GPU-N有著779TFLOPs的FP16性能,是A100的2.5倍。非常接近傳聞中比A100強(qiáng)3倍的下一代Hopper GH100。


          近日,在英偉達(dá)團(tuán)隊(duì)發(fā)表的新論文中提到了一個(gè)神秘的顯卡:GPU-N。
          ?
          據(jù)網(wǎng)友推測,這很可能就是下一代Hopper GH100芯片的內(nèi)部代號(hào)。
          ?
          https://dl.acm.org/doi/10.1145/3484505
          ?
          英偉達(dá)在這篇「GPU Domain Specialization via Composable On-Package Architecture」(通過可組合式封裝架構(gòu)實(shí)現(xiàn)GPU領(lǐng)域的專業(yè)化)的論文中,談到了下一代GPU設(shè)計(jì)。
          ?
          研究人員認(rèn)為,當(dāng)前要想提升深度學(xué)習(xí)性能,最實(shí)用的解決方案應(yīng)該是最大限度地提高低精度矩陣計(jì)算的吞吐量。
          ?
          簡單來說,GPU-N有134個(gè)SM單元(A100中為104個(gè)SM);8576個(gè)CUDA核心(比A100多24%);60MB的二級(jí)緩存(比A100多50%);2.687TB/秒的DRAM帶寬(可擴(kuò)展至6.3TB/秒);高達(dá)100GB的HBM2e(通過COPA實(shí)現(xiàn)可擴(kuò)展到233GB),以及6144位內(nèi)存總線。


          全新COPA-GPU架構(gòu)


          「GPU-N」采用了一種叫COPA的設(shè)計(jì)。
          ?
          目前,當(dāng)GPU以擴(kuò)大其低精度矩陣計(jì)算吞吐量的方式來提高深度學(xué)習(xí)(DL)性能時(shí),吞吐量和存儲(chǔ)系統(tǒng)能力之間的平衡會(huì)被打破。
          ?
          英偉達(dá)團(tuán)隊(duì)最終得出一個(gè)結(jié)論,基于FP32(或更大)的HPC和基于FP16(或更小)的DL,兩者的工作負(fù)載是不一樣的。那么,運(yùn)行兩種任務(wù)的GPU架構(gòu)也不應(yīng)該完全一樣。
          ?
          ?
          而如果非得要求GPU滿足不同的架構(gòu)要求,去做一個(gè)融合設(shè)計(jì),會(huì)導(dǎo)致任何一個(gè)應(yīng)用領(lǐng)域的配置都不是最優(yōu)的。
          ?
          因此,可以給每個(gè)領(lǐng)域提供專用的GPU產(chǎn)品的可組合的(COPA-GPU)架構(gòu)是解決這些不同需求的最實(shí)用的方案。
          ?
          COPA-GPU利用多芯片模塊分解,可以做到最大限度地支持GPU模塊復(fù)用,以及每個(gè)應(yīng)用領(lǐng)域的內(nèi)存系統(tǒng)定制化。
          ?
          ?
          英偉達(dá)表示,COPA-GPU可以通過對基線GPU架構(gòu)進(jìn)行模塊化增強(qiáng),使其具有高達(dá)4倍的片外帶寬、32倍的包內(nèi)緩存和2.3倍的DRAM帶寬和容量,同時(shí)支持面向HPC的縮減設(shè)計(jì)和面向DL的專業(yè)化產(chǎn)品。
          ?
          這項(xiàng)工作探索了實(shí)現(xiàn)可組合的GPU所必需的微架構(gòu)設(shè)計(jì),并評(píng)估了可組合架構(gòu)為HPC、DL訓(xùn)練和DL推理提供的性能增益。
          ?
          實(shí)驗(yàn)表明,與一個(gè)融合的GPU設(shè)計(jì)相比,一個(gè)對DL任務(wù)進(jìn)行過優(yōu)化的COPA-GPU具有16倍大的緩存容量和1.6倍高的DRAM帶寬。
          ?
          每個(gè)GPU的訓(xùn)練和推理性能分別提高了31%和35%,并在擴(kuò)展的訓(xùn)練場景中減少了50%的GPU使用數(shù)量。
          ?
          ?
          從紙面上的性能來看,「GPU-N」的時(shí)鐘頻率為1.4GHz(與A100的理論值相同),可以達(dá)到24.2 TFLOPs的FP32(是A100的1.24倍)和779 TFLOPs的FP16(是A100的2.5倍)。
          ?
          與AMD的MI200相比,GPU-N的FP32的性能還不到一半(95.7 TFLOPs vs 24.2 TFLOPs),但GPU-N的FP16的性能卻高出2.15倍(383TFLOPs vs 779TFLOPs)。
          ?
          規(guī)格
          NVIDIA V100
          NVIDIA A100
          GPU-N
          SMs
          80
          108
          134
          GPU頻率(GHz)
          1.4
          1.4
          1.4
          FP32(TFLOPS)
          15.7
          19.5
          24.2
          FP16(TFLOPS)
          125
          312
          779
          L2緩存(MB)
          6
          40
          60
          DRAM帶寬(GB/s)
          900
          1,555
          2,687
          DRAM容量(GB)
          16
          40
          100
          ?
          根據(jù)以往的信息可以推斷,NVIDIA的H100加速器將基于MCM解決方案,并且會(huì)基于臺(tái)積電的5nm工藝。
          ?
          雖然不知道每個(gè)SM中的核心數(shù)量,但如果依然保持64個(gè)的話,那么最終就會(huì)有18,432個(gè)核心,比GA100多2.25倍。
          ?
          Hopper還可以利用更多的FP64、FP16和Tensor內(nèi)核,這將極大地提高性能。
          ?
          ?
          GH100很可能會(huì)在每個(gè)GPU模塊上啟用144個(gè)SM單元中的134個(gè)。但是,如果不使用GPU稀疏性,英偉達(dá)不太可能達(dá)到與MI200相同的FP32或FP64 Flops。
          ?
          此外,論文中還談到了兩種基于下一代架構(gòu)的領(lǐng)域?qū)S肅OPA-GPU,一種用于HPC,一種用于DL領(lǐng)域。
          ?
          HPC變體采用的是非常標(biāo)準(zhǔn)的設(shè)計(jì)方案,包括MCM GPU設(shè)計(jì)和各自的HBM/MC+HBM(IO)芯片,但DL變體真的是一個(gè)很特殊的設(shè)計(jì)。?
          ?
          DL變體在一個(gè)完全獨(dú)立的芯片上安裝了一個(gè)巨大的緩存,與GPU模塊相互連接。具有高達(dá)960/1920 MB的LLC(Last-Level-Cache),HBM2e DRAM容量也高達(dá)233GB,帶寬高達(dá)6.3TB/s。
          ?
          但是網(wǎng)友表示,英偉達(dá)似乎已經(jīng)決定將重點(diǎn)放在DL性能上,因?yàn)镕P32和FP64(HPC)性能的增長僅僅是來源于SM數(shù)量的增加。
          ?
          這很可能在最后達(dá)不到傳聞中的3倍性能。
          ?
          鑒于英偉達(dá)已經(jīng)發(fā)布了相關(guān)的信息,Hopper顯卡很可能會(huì)在2022年GTC的大會(huì)上亮相。


          規(guī)格預(yù)測

          ?


          Tesla V100 (SXM2)
          NVIDIA A100 (SXM4)
          NVIDIA H100 (SMX4?)
          GPU
          GV100 (Volta)
          GA100 (Ampere)
          GH100 (Hopper)
          制程
          12nm
          7nm
          5nm
          晶體管
          21.1億
          54.2億
          TBD
          芯片尺寸
          815平方毫米
          826平方毫米
          TBD
          SMs
          80
          108
          134
          TPCs
          40
          54
          TBD
          FP32 CUDA核心
          5120
          6912
          8576
          FP64 CUDA核心
          2560
          3456
          4288
          張量核心
          640
          432
          TBD
          紋理單元
          320
          432
          TBD
          頻率
          1530 MHz
          1410 MHz
          ~1400 MHz
          TOPs(DNN/AI)
          125 TOPs
          1248 TOPs
          TBD
          FP16計(jì)算
          30.4 TFLOPs
          312 TFLOPs
          779 TFLOPs
          FP32計(jì)算
          15.7 TFLOPs
          19.4 TFLOPs
          24.2 TFLOPs
          FP64計(jì)算
          7.80 TFLOPs
          19.5 TFLOPs
          24.2 TFLOPs
          顯存類型
          4096-bit HBM2
          6144-bit HBM2e
          6144-bit HBM2e
          顯存容量
          16 GB @ 900 GB/s
          最高 40 GB @ 1.6 TB/s
          最高 80 GB @ 1.6 TB/s
          最高 100 GB @ 2.687 TB/s
          L2緩存
          6144 KB
          40960 KB
          81920 KB
          TDP
          300W
          400W
          ~450-500W

          ?

          參考資料:

          https://wccftech.com/mysterious-nvidia-gpu-n-could-be-next-gen-hopper-gh100-in-disguise-with-134-sms-8576-cores-2-68-tb-s-bandwidth-simulated-performance-benchmarks-shown/


          瀏覽 114
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  五月丁香导航 | 能看的三级网站 | 国产性爱网址 | 欧美激精品 | 人妻喷水在线 |