<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GPU制霸AI數(shù)據(jù)中心市場

          共 8840字,需瀏覽 18分鐘

           ·

          2021-04-13 13:05


          編者注:本文參考自東北證券“GPU制霸AI數(shù)據(jù)中心市場”,內(nèi)容覆蓋GPU架構(gòu)、性能、圖形處理技術(shù)、AI加速、市場發(fā)展和全球、國內(nèi)GPU主流廠商分析。

          下載鏈接:GPU制霸AI數(shù)據(jù)中心市場


          GPU(Graphics Processing Unit)是圖形處理單元。是個人電腦、工作站以及移動設(shè)備等用來進(jìn)行圖像處理的微處理器。顯卡是連接計算機(jī)主板和顯示器的重要元件,可以接受主板的控制信號,轉(zhuǎn)換成顯示器能夠識別的命令,控制顯示器正確顯示圖像信息。而 GPU 就是顯卡的處理器,是顯卡的“大腦”,專門用來處理圖形計算任務(wù)。

          1. GPU—擅長并行計算的處理器

          1.1. GPU 架構(gòu) 


          GPU 架構(gòu)特點(diǎn)。GPU 架構(gòu)特點(diǎn)與其需要處理的任務(wù)相關(guān),其處理和顯示的計算機(jī)圖形本質(zhì)上都是二維數(shù)據(jù)矩陣。計算機(jī)圖形顯示的基本單元是像素點(diǎn),眾多像素點(diǎn)構(gòu)成各種線段、平面和形狀,通常我們說的 320*215 的顯示屏是指像素點(diǎn)行數(shù)是 320個,列數(shù)是 215 個,構(gòu)成一個 320*215 的矩陣,布滿整個屏幕。由于圖像信息都是以這種矩陣像素點(diǎn)形式存儲和呈現(xiàn)的,因此處理圖片的 GPU 需要以矩陣形式存在的基本處理單元,來分塊處理這些矩陣數(shù)據(jù)。



          GPU 與 CPU 區(qū)別。從 GPU 與 CPU 架構(gòu)對比圖可以看出,CPU 的邏輯運(yùn)算單元(ALU)較少,控制器(control)占比較大;GPU 的邏輯運(yùn)算單元(ALU)小而多,控制器功能簡單,緩存(cache)也較少。GPU 的眾多邏輯運(yùn)算單元呈矩陣排列,可以并行處理數(shù)量眾多但較為簡單的處理任務(wù),圖像運(yùn)算處理就可以進(jìn)行這樣的拆解。GPU 單個運(yùn)算單元處理(ALU)能力弱于 CPU,但是數(shù)量眾多的運(yùn)算單元可以同時工作,當(dāng)面對高強(qiáng)度并行計算時,其性能要優(yōu)于 CPU。



          以英偉達(dá) Maxwell 架構(gòu)的 GM200 處理器說明 GPU 的內(nèi)部結(jié)構(gòu)。該處理器由 4 個圖形處理集群(GPC)和 16 個流處理集群(SMM)組成。每個流處理集群又由 4個調(diào)度器組成,每個調(diào)度器控制著 32 個邏輯計算內(nèi)核(core),這些計算內(nèi)核就是實(shí)現(xiàn)邏輯運(yùn)算的基本單元。相對于 CPU 的“多核”,GPU 算得上是“眾核”。



          GPU 處理流程。在電腦中,GPU 被集成在顯卡中進(jìn)行圖形處理。整個計算機(jī)運(yùn)行時,CPU 將圖形處理任務(wù)交給 GPU 進(jìn)行處理。GPU 從 CPU 獲得指令后,把大規(guī)模、無結(jié)構(gòu)化的圖像數(shù)據(jù)分解成許多獨(dú)立的塊,分配給各個流處理集群(SMM)。每個流處理集群再次把數(shù)據(jù)分解,分配給調(diào)度器,調(diào)度器將任務(wù)放入自身所控制的 32個計算內(nèi)核(core)中完成最終的數(shù)據(jù)處理任務(wù)。如果將一個 core 的運(yùn)算過程記為一個線程,那么該顯卡就有 32*4*16=2048 個線程同時進(jìn)行。而當(dāng)前英特爾最強(qiáng)大的酷睿 X 系列處理器頂配也只能做到 18 核、36 線程。這些任務(wù)單一、數(shù)量眾多同時進(jìn)行的線程可以大大縮短計算機(jī)運(yùn)算時間,這即是 GPU 在圖形處理方面的優(yōu)勢所在。


          1.2. GPU 性能 

          GPU“眾核”使其在并行處理占優(yōu)勢。從 GPU 與 CPU 架構(gòu)來看,GPU 處理核心數(shù)量眾多,主要用來快速處理圖像像素矩陣和顯示控制。當(dāng)前,GPU 也被用作圖形以外的數(shù)據(jù)處理,其架構(gòu)決定了其適合于數(shù)據(jù)之間關(guān)聯(lián)性不高,可分塊處理的大規(guī)模并行計算。打個比方直觀地解釋一下 GPU 和 CPU 的區(qū)別,如果將 CPU 比作一個從加減乘除到微積分樣樣精通的博士生,那么 GPU 就是數(shù)以千計的小學(xué)生。如果任務(wù)是幾千道十以內(nèi)的加減法題目,當(dāng)然還是小學(xué)生們每人一道題所耗費(fèi)的時間較短。計算機(jī)圖形處理這一領(lǐng)域需要多線程并行化處理,為了迎合這一需求,GPU 在圖形處理及通用并行化計算方面取得了快速發(fā)展。


          GPU 主要處理高度可并行的任務(wù),具有更高的運(yùn)算電路密度、更密集的處理內(nèi)核,更高的時鐘頻率。GPU 具有很高的浮點(diǎn)運(yùn)算能力。以英偉達(dá)專為游戲玩家設(shè)計的 GEFORCE GTX 1080 Ti 顯卡為例,其核心數(shù)達(dá) 3584 個,時鐘頻率達(dá) 1582MHz,顯存速率達(dá) 11Gbps。具有超強(qiáng)性能的通用 A.I 加速卡—Tesla P100,能夠?yàn)?HPC 和超大規(guī)模工作負(fù)載提供每秒超過 20 萬億次的 FP16 浮點(diǎn)運(yùn)算性能,最大功耗為 300W。



          GPU 向通用計算方向發(fā)展。GPU 在并行計算、浮點(diǎn)以及矩陣運(yùn)算方面的強(qiáng)大性能,使其獲得了需要大量并行計算的深度學(xué)習(xí)等高性能運(yùn)算市場的青睞。與傳統(tǒng)的 CPU服務(wù)器相比,采用 GPU 加速的服務(wù)器在達(dá)到相同計算精度條件下,可將訓(xùn)練速度提高 5~10 倍。


          早在2011 年,谷歌大腦項(xiàng)目(Google Brain)通過觀看 You Tube 上的電影學(xué)會了識別貓臉。識別過程(推理階段)需要用到 2000 顆服務(wù)器 CPU。隨后在英偉達(dá)與斯坦福大學(xué)的合作項(xiàng)目中,將 GPU 用于深度學(xué)習(xí),經(jīng)測試 12 顆 GPU 的性能與谷歌 2000顆服務(wù)器 CPU 的性能相當(dāng)。


          2015 年在 ImageNet 1000 挑戰(zhàn)中,微軟亞洲研究院視覺神經(jīng)組采用 GPU 為其冠軍系統(tǒng)(基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計算機(jī)視覺系統(tǒng))加速。該系統(tǒng)首次超越了人類對圖形識別和分辨的能力,識圖錯誤率 4.94%,低于人眼的 5.1%。


          GPU 耗能較大。集成在游戲 PC 中,用于圖形處理的 GEFORCE GTX 1080 Ti 顯卡功耗達(dá)到了 250W,專用于 A.I 數(shù)據(jù)中心的 Tesla 系列加速卡功率也基本都在 300W左右。用于 PC 的英特爾酷睿 i 系列 CPU 功耗一般在 50-70W 之間;用于服務(wù)器端的英特爾 Xeon E 系列 CPU 功耗也只在 90-130W 之間。配備英偉達(dá) GEFORCE GTX 1080 Ti游戲顯卡的 PC 機(jī)功率一般為 600W,顯卡占據(jù)整個系統(tǒng)能耗的 42%,而 CPU只占系統(tǒng)的 10%左右。而在數(shù)據(jù)中心中,至少支持 4 片 GPU,高性能 HPC 可以支持多達(dá) 16 片 GPU。若搭載 4 片 GPU,光是 GPU 加速器的功率就達(dá)到了 1,200W;16 片則要 4,800W,這相當(dāng)于 3.2 個家用兩匹空調(diào)同時工作,功率非常大。



          GPU 價格昂貴。從英偉達(dá)用于游戲 PC 的 GPU 顯卡價格表上可以看出,當(dāng)前國內(nèi)市場上還在出售的游戲顯卡價格從 2 千元到 1 萬元不等。這還是以京東商城上低配版的最低價格計算。新推出的顯卡基本在 5 千到 1 萬左右,價格較為昂貴。英偉達(dá)應(yīng)用于 A.I 數(shù)據(jù)中心和超級計算的特斯拉(Tesla)系列計算卡價格都在萬元以上。在數(shù)據(jù)中心中,GPU 加速卡不止一個,其在數(shù)據(jù)中心中成本所占比重較高。


          2. GPU—圖形處理界的王者

          2.1. PC 時代,GPU 在圖形處理的廣泛應(yīng)用 

          GPU 的早期發(fā)展史,即是計算圖形學(xué)的發(fā)展史。早期 GPU 的出現(xiàn)主要是為了加速圖形繪制,減輕 CPU 的工作量。這個時代被稱為“固定功能架構(gòu)((fixed function architecture)”時代,時間是 1995-2000 年。這一時期 GPU 的計算模式是流式計算,流水線上的各個功能模塊單元分別固定、硬件化各自需要實(shí)現(xiàn)的功能,各功能模塊單元實(shí)現(xiàn)對輸入數(shù)據(jù)的相同流式操作,完成批量處理任務(wù)。


          GPU 的分離渲染架構(gòu)時代。進(jìn)入 20 世紀(jì)后,GPU 著力提高圖形渲染能力,加強(qiáng)圖形處理的靈活性和表現(xiàn)力。這一時期稱為“分離渲染架構(gòu)(separated shader architecture)”時代,時間為 2001-2005 年。這一時代實(shí)現(xiàn)了渲染器的可編程化,主要變化是:用可編程頂點(diǎn)渲染器替換了變換與光照相關(guān)固定單元;用可編程像素渲染器替代了紋理采樣等相關(guān)固定單元。但是這兩個可編程渲染器不能相互通用,因此稱之為可分離渲染器架構(gòu)。


          GPU 的統(tǒng)一渲染架構(gòu)時代。為進(jìn)一步增強(qiáng) GPU 渲染的調(diào)度靈活性,從 2006 年至今,GPU 開始提供幾何渲染程序,部署統(tǒng)一調(diào)度的渲染硬件。這一時代,稱之為“統(tǒng)一渲染架構(gòu)(unified shader architecture)”時代。這一時期的 GPU 對指令、紋理、精度等方面的處理進(jìn)一步改善,圖形渲染技術(shù)達(dá)到前所未有的高度,成為許多專業(yè)媒體工作站專用的高性能圖形處理器。同時,這一階段,GPU 在整數(shù)、單/雙精度浮點(diǎn)運(yùn)算等方面的能力也進(jìn)一步提升,統(tǒng)一調(diào)度、可編程性提高,使得 GPU 向通用化方向發(fā)展。


          PC 端 GPU 芯片市場行業(yè)集中程度高,由三大巨頭公司壟斷。英偉達(dá)主要生產(chǎn)獨(dú)立顯卡,專門針對游戲 PC 和專業(yè)圖形工作站這樣具有大量圖形處理需求的客戶。英特爾和 AMD 作為 CPU 廠商,主攻集成顯卡,為 PC 提供基本的圖形處理需求。因此在總的 PC 端 GPU 市場,英特爾占據(jù)較大優(yōu)勢。在獨(dú)立顯卡市場上,英偉達(dá)具有優(yōu)勢,占據(jù)了市場絕大多數(shù)份額,剩下的小部分獨(dú)顯市場份額被 AMD 瓜分。


          3. A.I 時代 GPU 轉(zhuǎn)型

          3.1. A.I 需要 GPU 加速計算 

          當(dāng)前的 A.I 可以劃分為兩個階段:學(xué)習(xí)階段和推理階段。前者是通過對訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),形成經(jīng)驗(yàn)的過程,為 A.I 獨(dú)立解決問題做準(zhǔn)備。后者是利用學(xué)習(xí)階段學(xué)習(xí)到的經(jīng)驗(yàn)解決 A.I 遇到的實(shí)時、變化的問題的過程。學(xué)習(xí)過程比推理過程更為復(fù)雜,對處理能力要求更高。學(xué)習(xí)部分是驅(qū)動 A.I 增加處理能力需求的主要因素,訓(xùn)練類神經(jīng)網(wǎng)絡(luò)需要對海量信息進(jìn)行處理運(yùn)算,學(xué)習(xí)階段的一般做法是將訓(xùn)練負(fù)載切割成許多同時執(zhí)行的工作任務(wù),因此能夠進(jìn)行浮點(diǎn)運(yùn)算及并行運(yùn)算的處理器是學(xué)習(xí)階段的主要需求。


          學(xué)習(xí)階段主要在數(shù)據(jù)中心完成,對處理器的運(yùn)算性能要求較高。由于學(xué)習(xí)階段是在數(shù)據(jù)中心中對海量數(shù)據(jù)進(jìn)行離線處理,所以學(xué)習(xí)階段對 A.I 芯片的運(yùn)算性能要求較高,對芯片功耗、價格不敏感。


          推理階段多用于消費(fèi)前端,更看重處理器的性能功耗比及成本。在推理階段,神經(jīng)網(wǎng)絡(luò)只需將輸入數(shù)據(jù)帶入已經(jīng)訓(xùn)練好的算法中,得到與之映射的輸出結(jié)果。一般發(fā) 生在應(yīng)用前端,是對已經(jīng)訓(xùn)練好的模型進(jìn)行實(shí)時應(yīng)用。其運(yùn)算能力要求沒有學(xué)習(xí)階段強(qiáng),但是要求處理器能適用前端環(huán)境。因此推理階段更為注重的是處理器的性能功耗比和價格。


          GPU 性能高、功耗大、價格高,適用于學(xué)習(xí)階段(數(shù)據(jù)中心)。GPU 在并行計算、浮點(diǎn)以及矩陣運(yùn)算方面具有強(qiáng)大的性能,但是其功耗較大、價格較高。但這些對于數(shù)據(jù)中心來說都不是太大問題。數(shù)據(jù)中心作為 A.I 深度學(xué)習(xí)高性能計算平臺,快速完成對海量數(shù)據(jù)的多層次、多迭代模型分析處理才是關(guān)鍵。目前采用 GPU 加速的服務(wù)器已經(jīng)可將訓(xùn)練速度提高 5~10 倍,這對于 A.I 研發(fā)人員來說可以加快其成果轉(zhuǎn)化速度。從 2011 年,人工智能研究人員首次使用英偉達(dá) GPU 為深度學(xué)習(xí)加速后,GPU 在 A.I 領(lǐng)域發(fā)揮的巨大作用逐漸被人認(rèn)識。越來越多的數(shù)據(jù)中心采用 GPU 加速方案來提速深度學(xué)習(xí),GPU 也開始向通用 GPU 方向發(fā)展。


          3.2. GPU 在 A.I 數(shù)據(jù)中心廣泛應(yīng)用 

          隨著人工智能的不斷滲透,GPU 被越來越多地應(yīng)用到數(shù)據(jù)中心提供深度學(xué)習(xí)并行計算加速。從 2011 年首次被應(yīng)用到 A.I,經(jīng)過幾年發(fā)展,GPU 通用性越來越強(qiáng),并行計算能力越來越高,已經(jīng)將深度學(xué)習(xí)訓(xùn)練時間從數(shù)周縮短到幾天。幾乎所有互聯(lián)網(wǎng)巨頭都在依靠強(qiáng)大的 GPU 加速深度學(xué)習(xí)應(yīng)用,處理復(fù)雜的算法及海量的數(shù)據(jù), 提高人工智能運(yùn)行速度和執(zhí)行效果。


          微軟發(fā)布的 CNTK(Computational Network Toolkit)開源深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)工具包,就是基于英偉達(dá) GPU 開發(fā)的。CNTK(Computational Network Toolkit,即計算網(wǎng)絡(luò)工具包),是微軟研究院開發(fā)的開源深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)工具包,最多支持 8 個GPU 并行運(yùn)算。


          雖然一些其他芯片廠商也在研發(fā)基于 FPGA 或者 ASIC 的 A.I 芯片。但不得不承認(rèn)GPU 廣泛用于各種深度學(xué)習(xí)平臺,已經(jīng)成為了不可忽視的事實(shí)。GPU+CPU 異構(gòu)架構(gòu)成為面向 A.I 服務(wù)器的主流架構(gòu)。隨著計算復(fù)雜度的逐步提升,服務(wù)器采用的處理系統(tǒng)并未單純的只有 GPU 或 GPU,而是由 CPU 和 GPU 組合而成的異構(gòu)系統(tǒng),兩種處理器各取所長,密集的處理任務(wù)交給 GPU,復(fù)雜的邏輯運(yùn)算交給 CPU,兩種處理器協(xié)同工作,提升系統(tǒng)的運(yùn)算速率。在 A.I 處理需求帶動下,異構(gòu)系統(tǒng)越來越普遍,GPU 的市場需求也會進(jìn)一步的擴(kuò)大。Bernstein Research 統(tǒng)計數(shù)據(jù)表明,隨著 GPU+CPU 異構(gòu)系統(tǒng)越來越多地應(yīng)用到 A.I 領(lǐng)域,GPU 價格在數(shù)據(jù)中心成本占比越來越高。



          3.3. 龍頭廠商深耕 A.I 處理器市場 

          GPU 的廣泛使用使得傳統(tǒng) GPU 廠商受益。隨著 GPU 在數(shù)據(jù)中心的廣泛使用,GPU龍頭廠商獲益,數(shù)據(jù)顯示, 自從 2011 年 GPU 應(yīng)用于人工智能領(lǐng)域以來,英偉達(dá)作為最有競爭力的 GPU 廠商,成為芯片市場的寵兒。


          圖形處理廠商向 A.I 廠商轉(zhuǎn)型。GPU 概念的首次提出,還是在 1999 年英偉達(dá)發(fā)布其 GeForce 256 圖形處理芯片時。GPU 的出現(xiàn)減輕了 CPU 的工作負(fù)載,減少了圖形顯示任務(wù)對 CPU 的依賴,使得計算機(jī)圖形處理能力得到快速提升。公司在獨(dú)立顯卡領(lǐng)域一直占據(jù)著絕對的競爭優(yōu)勢。隨著 GPU 通用計算能力被發(fā)掘,英偉達(dá)在數(shù)據(jù)中心市場獲益。看到 A.I 廣闊的應(yīng)用前景后,公司也從之前的圖形處理公司開始轉(zhuǎn)型成 A.I 創(chuàng)業(yè)公司。


          英偉達(dá)繼續(xù)在 A.I 數(shù)據(jù)中心端、云端發(fā)力,研發(fā)各個平臺的 GPU 加速解決方案。英偉達(dá)開發(fā)的 NVIDIA DGX-1 人工智能超級計算機(jī),是世界上首臺專為深度學(xué)習(xí)和人工智能加速分析而打造的系統(tǒng),性能堪比 250 臺傳統(tǒng)服務(wù)器,將神經(jīng)網(wǎng)絡(luò)訓(xùn)練時間從原來的幾個月縮短到了幾天。Tesla V100 GPU 研發(fā)投入高達(dá) 30億美元,是當(dāng)前英偉達(dá)產(chǎn)品中性能最強(qiáng)大的加速卡,單個計算單元比上一代同架構(gòu)計算卡快了 12 倍。HGX-1 云服務(wù)器配備了 8 塊 Tesla V100 GPU,適用于公有云、深度學(xué)習(xí)、圖形渲染、CUDA 計算等。目前,國內(nèi)外已有眾多云服務(wù)商宣布將使用Tesla V100 GPU 或搭載了該產(chǎn)品的云服務(wù)器,國外有亞馬遜 AWS 云、微軟 Azure云等,國內(nèi)有阿里云、百度云、騰訊云等。另外,英偉達(dá)還推出了 Nvidia GPU Cloud,該產(chǎn)品為用戶提供云端硬件和軟件接口,用戶可通過接口快速構(gòu)建、訓(xùn)練和部署神經(jīng)網(wǎng)絡(luò)模型。


          4. GPU—A.I 數(shù)據(jù)中心加速引擎

          4.1. 后浪未起,GPU 將在數(shù)據(jù)中心長足發(fā)展 

          GPU 在 A.I 數(shù)據(jù)中心領(lǐng)域?qū)?A.I 專用芯片的技術(shù)突襲防御性較強(qiáng)。相比于由圖形處理器演進(jìn)而來的 GPU,當(dāng)前許多公司基于 FPGA、ASIC 從事 A.I 專用芯片研發(fā),以挑戰(zhàn) GPU 在 A.I 領(lǐng)域的霸主地位,我們認(rèn)為 GPU 在 A.I 數(shù)據(jù)中心領(lǐng)域?qū)?A.I 專用芯片的防御性較強(qiáng)。GPU 的性能特點(diǎn)與 A.I 數(shù)據(jù)中心對處理器的需求非常契合,并且在長時間的發(fā)展中已經(jīng)形成了完整的生態(tài),相比較而言,無論是 FPGA、還是 ASIC路線 A.I 專用芯片,都尚處于發(fā)展階段,而要成功打造一款通用芯片,時間的積淀非常重要。


          GPU 具有較為完整的技術(shù)生態(tài)。高運(yùn)算性能硬件、驅(qū)動支撐、API 接口、通用計算引擎/算法庫、較為成熟的開發(fā)環(huán)境都為應(yīng)用 GPU 的深度學(xué)習(xí)開發(fā)者提供了足夠友好、易用的工具環(huán)境。開發(fā)者可以迅速獲取到深度學(xué)習(xí)加速算力,降低了深度學(xué)習(xí)模型從研發(fā)到訓(xùn)練加速的整體開發(fā)周期。


          驅(qū)動程序,獨(dú)立顯卡廠商不僅提供高性能硬件,也一直提供配套驅(qū)動來支持其 GPU調(diào)用計算資源。早期圖形處理、游戲業(yè)務(wù)的優(yōu)勢地位使得英偉達(dá)一直在 GPU 驅(qū)動下了不少功夫,公司總部大多數(shù)員工都是從事驅(qū)動程序的研發(fā)工作。


          從圖形接口 API 來看,不同的獨(dú)立顯卡廠商提供不同的圖形標(biāo)準(zhǔn) API,而不同的API 接口適應(yīng)于不同的計算系統(tǒng),如 OpenGL標(biāo)準(zhǔn)支持 Unix系統(tǒng)的服務(wù)器計算平臺,Direct3D 支持 windows 系統(tǒng)的 PC。英偉達(dá)推出的 CUDA (Compute Unified Device Architecture)通用并行計算平臺,是為利用 GPU 并行運(yùn)算能力開發(fā)的計算平臺??梢宰岄_發(fā)人員用 C 語言編寫的程序在其處理器上高速運(yùn)行,大大提升了通用 GPU的易用性。


          算法庫,CUDA 包括了大量的 GPU 加速庫和基于 C 語言的編程工具,開發(fā)者可以在熟悉的編程環(huán)境下便捷地調(diào)用加速庫。CUDA 提供的算法庫可以讓應(yīng)用程序像調(diào)用庫函數(shù)一樣簡單實(shí)現(xiàn)一些深度學(xué)習(xí)算法。CUDA 開發(fā)人員的數(shù)量在 5 年里增長了14 倍,超過 60 萬人,CUDA SDK 的下載量達(dá)到 180 萬。眾多 CUDA 開發(fā)人員對于維持英偉達(dá) GPU 客戶黏性非常重要。



          GPU 完整的技術(shù)生態(tài),吸引了大量 AI 企業(yè)采用 GPU 進(jìn)行人工智能加速,建立了良好的行業(yè)生態(tài)。英偉達(dá)與科研機(jī)構(gòu)開展合作項(xiàng)目,深入了解科研領(lǐng)域需要的運(yùn)算問題,為其提供專業(yè)的超級計算加速解決方案。



          GPU 的高運(yùn)算性能使其迅速占領(lǐng) AI 數(shù)據(jù)中心市場,完備的生態(tài)環(huán)境可幫助其維持霸主地位。從上圖可以看出,GPU 的浮點(diǎn)運(yùn)算能力一直保持著直線上升。英偉達(dá)在 2017 年 GPU 技術(shù)大會上發(fā)布的全新一代人工智能 GPU 芯片—Tesla V100 能夠達(dá)到 15Tflops 的單精度浮點(diǎn)性能,7.5Tflops 的雙精度浮點(diǎn)性能,可以滿足當(dāng)前AI 深度學(xué)習(xí)的運(yùn)算能力。GPU 持續(xù)提升的運(yùn)算能力是其維持在 AI 數(shù)據(jù)中心這一運(yùn)算密集型應(yīng)用場景中霸主地位的根本,而面對眾多新興 AI 芯片的挑戰(zhàn),GPU已經(jīng)建立起的完備的生態(tài)環(huán)境可幫助其提高防御能力。


          GPU 的生態(tài)環(huán)境有利于其將在訓(xùn)練學(xué)習(xí)領(lǐng)域(AI 數(shù)據(jù)中心)建立的優(yōu)勢延續(xù)至推理應(yīng)用領(lǐng)域(前端電子產(chǎn)品)。當(dāng)前 GPU 已經(jīng)占據(jù)了 AI 數(shù)據(jù)中心市場,學(xué)習(xí)階段處理器需求已經(jīng)被 GPU 占領(lǐng)。未來隨著 AI 行業(yè)應(yīng)用的逐漸落地,推理階段處理器需求將持續(xù)放量。從學(xué)習(xí)到推理階段,算法部署的平滑、便捷性是需要考慮的重要問題。如果從數(shù)據(jù)中心、云端到前端應(yīng)用,整個產(chǎn)品線都采用英偉達(dá)的CUDA計算平臺,可以極大地減少算法跨平臺的難度,實(shí)現(xiàn)平滑過渡,省去了變更運(yùn)行環(huán)境所需的協(xié)同工作。


          相比較而言,無論是 FPGA、還是 ASIC,都尚處于發(fā)展階段。目前有一些公司基于 FPGA 技術(shù)路線或 ASIC 技術(shù)路線開發(fā)的 A.I 專用芯片,是為滿足自身的需求而進(jìn)行的個性化開發(fā)。典型的就是谷歌的 TPU,公司并沒有計劃將其做成一款通用芯 片推向市場。有些公司也在基于 FPGA 或 ASIC 開發(fā)通用的 AI 專用芯片,但是都未達(dá)到 GPU 的成熟程度。一款芯片要做的具有通用性,性能穩(wěn)定優(yōu)異,需要較長時間的應(yīng)用、優(yōu)化、驗(yàn)證。但是不可否認(rèn)的是,長期來看,GPU 能耗高、價格貴等問題也給 AI 專用芯片留下了機(jī)會。


          GPU 的 AI 數(shù)據(jù)中心市場將繼續(xù)保持高速增長。目前,AI 數(shù)據(jù)中心(A.I 數(shù)據(jù)中心只是 GPU 的全部數(shù)據(jù)中心市場的一部分,GPU應(yīng)用于數(shù)據(jù)中心也有可能進(jìn)行 AI 以外的超級計算)尚處于早期發(fā)展階段,主要是互聯(lián)網(wǎng)巨頭在 AI 深度學(xué)習(xí)研發(fā)階段部署的 AI 數(shù)據(jù)中心,隨著 AI 縱深發(fā)展, A.I數(shù)據(jù)中心需求會繼續(xù)保持高速增長,GPU在數(shù)據(jù)中心的市場規(guī)模會進(jìn)一步爆發(fā)。



          下載鏈接:GPU制霸AI數(shù)據(jù)中心市場
          3D NAND 國產(chǎn)替代深度報告
          深度報告:DRAM存儲芯片研究框架

          CPU和GPU研究框架合集

          1、行業(yè)深度報告:GPU研究框架

          2、信創(chuàng)產(chǎn)業(yè)研究框架

          3、ARM行業(yè)研究框架

          4、CPU研究框架

          5、國產(chǎn)CPU研究框架

          6、行業(yè)深度報告:GPU研究框架


          (合集):信創(chuàng)研究專題框架

          1、2020信創(chuàng)發(fā)展研究報告 

          2、中國信創(chuàng)產(chǎn)業(yè)發(fā)展白皮書(2021) 

          3、信創(chuàng)研究框架 

          4、云計算行業(yè):新基建和信創(chuàng)云計算進(jìn)階 

          5、深度研究:云計算與信創(chuàng)產(chǎn)業(yè)持續(xù)快速發(fā)展 

          6、深度:信創(chuàng)產(chǎn)業(yè)系列專題(總篇) 

          7、計算機(jī)行業(yè)研究:信創(chuàng)和鯤鵬計算產(chǎn)業(yè)鏈


          異構(gòu)芯片研究框架合集
          1、EDA行業(yè)研究框架
          2、半導(dǎo)體大硅片研究框架
          3、封測行業(yè)研究框架
          4、光刻機(jī)行業(yè)研究框架
          4、國產(chǎn)FPGA研究框架
          5、國產(chǎn)基帶芯片研究框架
          6、深度報告:NOR存儲芯片研究框架





          免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。


          電子書<服務(wù)器基礎(chǔ)知識全解(終極版)>更新完畢,知識點(diǎn)深度講解,提供182頁完整版下載。

          獲取方式:點(diǎn)擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。



          溫馨提示:

          請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實(shí)時掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。


          瀏覽 81
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲A级视频 | 久久机热这里只有精品 | 午夜免费黄色视频 | 人妻无码久久精品人妻成人 | 免费操屄视频 |