国产裸体XXXX187,国产综合色婷婷精品久久,青娱乐性爱,国产美女久久久久久,国产91黄片,av在线www,亚洲精品成人AV电影,日本最黄色片特一级生活片

??新智元報(bào)道??

編輯：編輯部

【新智元導(dǎo)讀】「拼裝」CPU，4納米顯卡，世界最快AI超算，還有游戲開(kāi)發(fā)者的元宇宙。這次，老黃的百寶箱里都有啥？

今天，老黃穿著他的皮衣又來(lái)了！?3月22日晚，英偉達(dá)GTC 2022開(kāi)幕。?

?雖然沒(méi)有了那個(gè)熟悉的廚房，但這次的陣仗反而更加豪華。?英偉達(dá)用Omniverse把新總部從內(nèi)到外渲染了一遍！??

800億個(gè)晶體管的Hopper H100

?隨著拔地而起的平臺(tái)，英偉達(dá)推出了為超算設(shè)計(jì)的最新AI顯卡Hopper H100。?相比于「只有」540億個(gè)晶體管的前輩A100，英偉達(dá)在H100中裝入了800億個(gè)晶體管，并采用了定制的臺(tái)積電4納米工藝。?也就是說(shuō)，H100將具有更好的功率/性能特性，并在密度方面有一定程度上的改進(jìn)。?

?在算力上，H100的FP16、TF32以及FP64性能都是A100的3倍，分別為2000 TFLOPS、1000 TFLOPS和60 TFLOPS。?此外，H100還增加了對(duì)FP8支持，算力高達(dá)4000 TFLOPS，比A100快6倍。畢竟在這方面，后者由于缺乏原生FP8支持而不得不依賴(lài)FP16。?內(nèi)存方面，H100也將默認(rèn)支持帶寬為3TB/s的HBM3，比A100的HBM2E提升1.5倍。?

?H100支持的第四代NVLink接口可以提供高達(dá)128GB/s的帶寬，是A100的1.5倍；而在PCIe 5.0下也可以達(dá)到128GB/s的速度，是PCIe 4.0的2倍。?同時(shí)，H100的SXM版本將TDP增加到了700W，而A100為400W。而75%的功率提升，通常來(lái)說(shuō)可以預(yù)計(jì)獲得2到3倍的性能。?為了優(yōu)化性能，Nvidia還推出了一個(gè)新的Transformer Engine，將根據(jù)工作負(fù)載在FP8和FP16格式之間自動(dòng)切換。?

	H100	A100 (80GB)
CUDA核心	16896	6912
張量核心	528	432
超頻頻率	約1.78GHz	1.41GHz
內(nèi)存	4.8Gbps HBM3	3.2Gbps HBM2e
內(nèi)存帶寬	3TB/s	2TB/s
FP32矢量	60 TFLOPS	19.5 TFLOPS
FP64矢量	30 TFLOPS	9.7 TFLOPS(1/2 FP32)
INT8張量	2000 TOPS	624 TOPS
FP16張量	1000 TFLOPS	312 TFLOPS
TF32張量	500 TFLOPS	156 TFLOPS
FP64張量	60 TFLOPS	19.5 TFLOPS
總線	NVLink 418條 (900GB/s)	NVLink 312條 (600GB/s)
GPU	GH100(814平方毫米)	GA100(826平方毫米)
晶體管數(shù)量	800億	542億
TDP	700W	400W
制造工藝	TSMC 4N	TSMC 7N
架構(gòu)	Hopper	Ampere

?Hopper架構(gòu)全新的DPX指令，將為動(dòng)態(tài)規(guī)劃的計(jì)算速度帶來(lái)高達(dá)40倍的提升。?在AI訓(xùn)練中，H100可以提供高達(dá)9倍的吞吐量。以Megatron 530B為基準(zhǔn)，則可以提供16倍至30倍的推理性能。在3D FFT（快速傅里葉變換）和基因組測(cè)序等HPC應(yīng)用中，則可提升6-7倍。?

DGX服務(wù)器系統(tǒng)

?第四代英偉達(dá)DGX服務(wù)器系統(tǒng)，將世界上第一個(gè)采用H100顯卡構(gòu)建的AI服務(wù)器平臺(tái)。?DGX H100服務(wù)器系統(tǒng)可提供滿(mǎn)足大型語(yǔ)言模型、推薦系統(tǒng)、醫(yī)療保健研究和氣候科學(xué)的海量計(jì)算需求所需的規(guī)模。?其中，每個(gè)服務(wù)器系統(tǒng)包含8個(gè)H100顯卡，通過(guò)NVLink鏈接為單個(gè)整體，晶體管總計(jì)6400億個(gè)。?在FP8精度下，DGX H100可以提供32 PFLOPS的性能，比上一代高6倍。?

?此外，每個(gè)DGX H100系統(tǒng)還包括兩個(gè)NVIDIA BlueField-3 DPU，用于卸載、加速和隔離網(wǎng)絡(luò)、存儲(chǔ)和安全服務(wù)。?8個(gè)NVIDIA ConnectX-7 Quantum-2 InfiniBand網(wǎng)絡(luò)適配器提供每秒400 Gb的吞吐量來(lái)連接計(jì)算和存儲(chǔ)模塊——速度是上一代系統(tǒng)的兩倍。?第四代NVLink與NVSwitch相結(jié)合，可在每個(gè)DGX H100系統(tǒng)中的每個(gè)GPU之間提供每秒900 GB的連接，是上一代的1.5倍。?而最新的DGX SuperPOD架構(gòu)則可連接多達(dá)32個(gè)節(jié)點(diǎn)、總共256個(gè)H100顯卡。?DGX SuperPOD可提供1 EFLOPS的FP8性能，同樣也是前代的6倍。?

世界上最快的AI超算

?由576個(gè)DGX H100服務(wù)器系統(tǒng)和4608個(gè)DGX H100顯卡組成的「Eos」超級(jí)計(jì)算機(jī)預(yù)計(jì)將提供18.4 EFLOPS的AI計(jì)算性能，比目前世界上最快的超算——日本的「富岳」快4倍。?對(duì)于傳統(tǒng)的科學(xué)計(jì)算，Eos有望提供275 PFLOPS的性能。?

Transformer Engine

?作為新Hopper架構(gòu)的一部分，將顯著提高AI的性能，大型模型的訓(xùn)練可以在數(shù)天甚至數(shù)小時(shí)內(nèi)完成。?傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中采用的精度是固定的，因此也難以將FP8應(yīng)用在整個(gè)模型之中。?而Transformer Engine則可以在FP16和FP8之間逐層訓(xùn)練，并利用英偉達(dá)提供的啟發(fā)式方法來(lái)選擇所需的最低精度。?此外，Transformer Engine可以用2倍于FP16的速度打包和處理FP8數(shù)據(jù)，于是模型的每一層可以用FP8處理的數(shù)據(jù)都可以提升2倍的速度。?

Grace CPU超級(jí)芯片

?除了顯卡，英偉達(dá)今天還推出了其首款基于Arm Neoverse架構(gòu)的處理器——Grace CPU超級(jí)芯片。?它基于此前發(fā)布的Grace Hopper CPU+GPU設(shè)計(jì)，只不過(guò)把顯卡換成了CPU。?據(jù)英偉達(dá)實(shí)驗(yàn)室估計(jì)，在使用同類(lèi)編譯器時(shí)，Grace CPU超級(jí)芯片性能可以提升1.5倍以上。?在技術(shù)規(guī)格上，可以概括為：?

2個(gè)72核芯片，高達(dá)144個(gè)Arm v9 CPU核心
采用ECC技術(shù)的新一代LPDDR5x內(nèi)存，總帶寬為1TB/s
SPECrate 2017_int_base得分預(yù)計(jì)超過(guò)740
900GB/s 一致性接口，比PCIe 5.0快7倍
封裝密度比DIMM解決方案提高了2倍
每瓦性能2倍于當(dāng)今領(lǐng)先的CPU

?超級(jí)芯片中的兩個(gè)CPU通過(guò)英偉達(dá)最新的NVLink「芯片到芯片」(C2C) 接口進(jìn)行通信。?這種「裸晶到裸晶」和「芯片到芯片」的互連支持低延遲內(nèi)存一致性，允許連接的設(shè)備同時(shí)在同一個(gè)內(nèi)存池上工作。?

?Grace CPU超級(jí)芯片擁有更先進(jìn)的能效和內(nèi)存帶寬，其創(chuàng)新的內(nèi)存子系統(tǒng)由帶有ECC的LPDDR5x內(nèi)存組成。?LPDDR5x可以提供兩倍于傳統(tǒng)DDR5的帶寬，同時(shí)還能使CPU加內(nèi)存的功耗顯著降低至500瓦。?相比之下，AMD的芯片在基準(zhǔn)測(cè)試中的結(jié)果從382到424不等，且每個(gè)芯片的功耗最高可達(dá)280W（還不包括內(nèi)存）。?此外，Grace CPU超級(jí)芯片與NVIDIA ConnectX-7 NIC一起提供了配置到服務(wù)器中的靈活性，可作為獨(dú)立的純CPU系統(tǒng)或作為具有1 個(gè)、2個(gè)、4個(gè)或8個(gè)基于Hopper顯卡的加速服務(wù)器。?

安培架構(gòu)再添新品

?今天，英偉達(dá)為筆記本電腦和臺(tái)式機(jī)提供了七種基于Ampere架構(gòu)的顯卡——RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500和RTX A5500。?新的RTX A5500臺(tái)式機(jī)顯卡可實(shí)現(xiàn)出色的渲染、AI、圖形和計(jì)算性能。其光線追蹤渲染比上一代快2倍，其運(yùn)動(dòng)模糊渲染性能最高可提高9倍。?

?第二代RT核心：吞吐量高達(dá)第一代的2倍，能夠同時(shí)運(yùn)行光線追蹤、著色和去噪任務(wù)。?第三代Tensor Cores：訓(xùn)練吞吐量是前一代的12倍，支持新的TF32和Bfloat16數(shù)據(jù)格式。CUDA核心。比上一代的單精度浮點(diǎn)吞吐量高達(dá)3倍。?高達(dá)48GB的GPU內(nèi)存：RTX A5500具有24GB的GDDR6內(nèi)存，帶有ECC（糾錯(cuò)碼）。使用NVLink連接兩個(gè)GPU，RTX A5500的內(nèi)存可擴(kuò)展至48GB。?虛擬化：RTX A5500支持NVIDIA RTX虛擬工作站（vWS）軟件，用于多個(gè)高性能虛擬工作站實(shí)例，使遠(yuǎn)程用戶(hù)能夠共享資源，推動(dòng)高端設(shè)計(jì)、AI和計(jì)算工作負(fù)載。?PCIe 4.0：帶寬是上一代的2倍，加快了數(shù)據(jù)密集型任務(wù)的數(shù)據(jù)傳輸，如AI、數(shù)據(jù)科學(xué)和創(chuàng)建3D模型。?

游戲開(kāi)發(fā)者也有元宇宙了

?已經(jīng)在元宇宙擁有一席之地的Omniverse再次得到了加強(qiáng)。?

?本次大會(huì)上，英偉達(dá)發(fā)布了NVIDIA Omniverse的全新功能，使開(kāi)發(fā)者能夠更輕松地共享資產(chǎn)、對(duì)資產(chǎn)庫(kù)進(jìn)行分類(lèi)、開(kāi)展協(xié)作，并在全新游戲開(kāi)發(fā)流程中部署AI來(lái)為角色制作面部表情的動(dòng)畫(huà)。?借助NVIDIA Omniverse實(shí)時(shí)設(shè)計(jì)協(xié)作和模擬平臺(tái)，游戲開(kāi)發(fā)者可以使用支持AI和NVIDIA RTX的工具，輕松構(gòu)建自定義工具，以簡(jiǎn)化、加速和改進(jìn)其開(kāi)發(fā)工作流。其組件包括：?

Omniverse Audio2Face，一款由NVIDIA AI驅(qū)動(dòng)的應(yīng)用，使角色藝術(shù)家通過(guò)音頻文件生成高質(zhì)量的面部動(dòng)畫(huà)。Audio2Face支持完整的面部動(dòng)畫(huà)，藝術(shù)家們還能控制表演的情感。有了Audio2Face，游戲開(kāi)發(fā)者可以快速、輕松地為其游戲角色添加逼真的表情，促進(jìn)玩家和游戲角色之間更強(qiáng)的情感連接，增強(qiáng)沉浸感。

Omniverse Nucleus Cloud現(xiàn)已開(kāi)放搶先體驗(yàn)版，可實(shí)現(xiàn)Omniverse場(chǎng)景的一鍵式簡(jiǎn)單共享，無(wú)需在本地或私有云中部署Nucleus。通過(guò)Nucleus Cloud，游戲開(kāi)發(fā)者可輕松地在內(nèi)、外部開(kāi)發(fā)團(tuán)隊(duì)之間實(shí)時(shí)分享和協(xié)作3D資產(chǎn)。

Omniverse DeepSearch是一項(xiàng)AI服務(wù)，現(xiàn)在可供Omniverse企業(yè)用戶(hù)使用，它允許游戲開(kāi)發(fā)者使用自然語(yǔ)言輸入和圖像來(lái)即時(shí)搜索其整個(gè)未標(biāo)記的3D資產(chǎn)、物體對(duì)象和角色目錄。

Omniverse Connectors實(shí)現(xiàn)第三方設(shè)計(jì)工具和Omniverse之間的「實(shí)時(shí)同步」協(xié)作工作流的插件。全新虛幻引擎5 Omniverse Connector允許游戲藝術(shù)家在游戲引擎和Omniverse之間交換USD和材料定義語(yǔ)言數(shù)據(jù)。

將數(shù)據(jù)中心轉(zhuǎn)變?yōu)椤窤I工廠」

不管是Hopper顯卡架構(gòu)還是AI加速軟件，抑或是強(qiáng)大的數(shù)據(jù)中心系統(tǒng)。?所有的這些都將由Omniverse匯集起來(lái)，從而更好地模擬和理解現(xiàn)實(shí)世界，并作為新型機(jī)器人的試驗(yàn)場(chǎng)，即所謂「下一波AI」。?由于加速計(jì)算技術(shù)的發(fā)展，AI的進(jìn)展驚人，人工智能已經(jīng)從根本上改變了軟件可以做什么，以及如何開(kāi)發(fā)軟件。?老黃表示，Transformer擺脫了對(duì)人類(lèi)標(biāo)記數(shù)據(jù)的需求，使自監(jiān)督學(xué)習(xí)成為可能，而人工智能一躍以空前的速度發(fā)展。?用于語(yǔ)言理解的谷歌BERT，用于藥物發(fā)現(xiàn)的英偉達(dá)MegaMolBART，以及DeepMind AlphaFold2都是Transformer帶來(lái)的突破。?英偉達(dá)的AI平臺(tái)也得到了重大的更新，包括Triton推理服務(wù)器、用于訓(xùn)練大型語(yǔ)言模型的NeMo Megatron 0.9框架，以及用于音頻和視頻質(zhì)量增強(qiáng)的Maxine框架。?

?「我們將在未來(lái)十年再爭(zhēng)取實(shí)現(xiàn)百萬(wàn)倍的算力提升，」老黃在結(jié)束他的演講時(shí)說(shuō)，「我迫不及待地想看看下一個(gè)百萬(wàn)倍會(huì)帶來(lái)什么了。」

參考資料：

https://www.nvidia.cn/gtc-global/keynote/

老黃狂拼CPU!英偉達(dá)掏出800億晶體管顯卡,外加世界最快AI超算Eos

【新智元導(dǎo)讀】「拼裝」CPU，4納米顯卡，世界最快AI超算，還有游戲開(kāi)發(fā)者的元宇宙。這次，老黃的百寶箱里都有啥？

DGX服務(wù)器系統(tǒng)

世界上最快的AI超算

Transformer Engine