<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GPU、FPGA、ASIC與類腦芯片對(duì)比分析

          共 4896字,需瀏覽 10分鐘

           ·

          2021-09-02 10:35



          一、GPU性能高、功耗大、通用性好,適用于數(shù)據(jù)中心和訓(xùn)練過程


          GPU是圖形處理器的英文簡(jiǎn)稱,是用于進(jìn)行圖像運(yùn)算工作的微處理器,可以對(duì)圖形數(shù)據(jù)、顯示、可視計(jì)算等作出優(yōu)化加速,現(xiàn)在被用于通用計(jì)算的GPU也被稱作GPGPU。因?yàn)閳D形的結(jié)構(gòu)像素點(diǎn)之間是獨(dú)立的,圖像以矩陣形式存儲(chǔ)數(shù)據(jù),所以GPU的設(shè)計(jì)之初就基于大吞吐量和并行計(jì)算,有80%的晶體管用作計(jì)算單元(CPU只有20%左右),具有很強(qiáng)的浮點(diǎn)運(yùn)算能力和超長(zhǎng)的流水線處理。這一特點(diǎn)非常適合AI計(jì)算對(duì)芯片進(jìn)行大量重復(fù)運(yùn)算的速度要求,故被廣泛引入深度學(xué)習(xí)的訓(xùn)練應(yīng)用領(lǐng)域。



          GPU的主要優(yōu)點(diǎn):


          1. 具備成熟易用的編程語(yǔ)言。GPU經(jīng)過十幾年的發(fā)展,在2006年已經(jīng)實(shí)現(xiàn)了直接程序編寫。目前有CUDA統(tǒng)一架構(gòu)、OpenCL架構(gòu)等編程環(huán)境,編程性大大提升??梢詫?duì)CPU+GPU等異構(gòu)進(jìn)行統(tǒng)一編譯,通過C語(yǔ)言也可以進(jìn)行調(diào)用,為后續(xù)的發(fā)展打下基礎(chǔ)。


          2. 性能強(qiáng)悍,峰值計(jì)算能力強(qiáng)。GPU基于SMID架構(gòu),并行計(jì)算處理大規(guī)模數(shù)據(jù),其峰值計(jì)算能力是所有芯片中最強(qiáng)的,處理速度可達(dá)同期CPU的10倍以上。


          3. GPU應(yīng)用時(shí)間早,現(xiàn)有產(chǎn)品比較成熟,價(jià)格不高。GPU是最早引入人工智能領(lǐng)域的芯片,近幾年幾乎包攬了各種初步的應(yīng)用場(chǎng)景,所以成熟的產(chǎn)品和解決方案較多,價(jià)格也比較合理。


          GPU的主要缺點(diǎn):


          1. 在深度學(xué)習(xí)推測(cè)階段不具優(yōu)勢(shì),平均性能不如專門的AI芯片。由于推測(cè)階段為多指令流單數(shù)據(jù)流計(jì)算,傳統(tǒng)GPU受限于馮諾依曼結(jié)構(gòu),并行度優(yōu)勢(shì)無法完全發(fā)揮,非專門為AI計(jì)算研發(fā)的GPU平均性能較FPGA和ASIC也偏低。


          2. 總體功耗水平較高。正常情況下GPU的功耗相比定制化程度較高的芯片功耗水平較大,即便是運(yùn)行在Volta架構(gòu)下最新的英偉達(dá)Tesla系列GPU,相比完全定制的ASIC,在實(shí)現(xiàn)相同計(jì)算性能時(shí)需要的功耗也較高。


          3. 硬件結(jié)構(gòu)不具備可編輯性。GPU的硬件結(jié)構(gòu)是提前設(shè)定好的,無法臨時(shí)編輯,不夠靈活,在選擇通用性的同時(shí)放棄了定制化的優(yōu)勢(shì)。



          GPU適合應(yīng)用于深度學(xué)習(xí)訓(xùn)練和數(shù)據(jù)中心。基于強(qiáng)大的峰值計(jì)算能力和數(shù)據(jù)并行處理能力,GPU非常適合用于深度學(xué)習(xí)的訓(xùn)練階段,形成復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。同時(shí),GPU能夠作為企業(yè)大型數(shù)據(jù)中心的加速器,數(shù)據(jù)中心依賴大量互連的通用計(jì)算節(jié)點(diǎn),在性能方面難以驅(qū)動(dòng)重要的高性能計(jì)算 (HPC) 和超大規(guī)模工作負(fù)載。GPU能打造出速度極快的計(jì)算節(jié)點(diǎn),性能高于數(shù)百個(gè)速度較慢的通用計(jì)算節(jié)點(diǎn),大幅提高數(shù)據(jù)中心的計(jì)算性能和數(shù)據(jù)吞吐量。


          目前功耗是GPU發(fā)展最大的瓶頸。由于傳統(tǒng)GPU與CPU一樣使用馮諾依曼結(jié)構(gòu),需要與內(nèi)存之間實(shí)現(xiàn)信息交換,不可避免得增大了功耗,降低了通信速度,因此相比于ASIC芯片,難以作用于智能終端。


          二、FPGA效率高、靈活性好,但峰值性能較弱、成本較高,適用于虛擬化云平臺(tái)和預(yù)測(cè)過程


          FPGA更適合處理多指令流單數(shù)據(jù)流,從而適應(yīng)于預(yù)測(cè)階段。目前在深度學(xué)習(xí)模型的訓(xùn)練領(lǐng)域基本使用的是SIMD(Single Instruction Multiple Data:?jiǎn)沃噶疃鄶?shù)據(jù)流架構(gòu))計(jì)算,即只需要一條指令就可以平行處理大批量數(shù)據(jù)。但是,在平臺(tái)完成訓(xùn)練之后,它還需要進(jìn)行推理環(huán)節(jié)的計(jì)算。這部分的計(jì)算更多的是屬于MISD(Multiple Instruction Single Data:多指令流單數(shù)據(jù)流)。因此,低功耗,高性能,低延時(shí)的加速硬件成為了必需品,因此人們把目光轉(zhuǎn)向了“FPGA”與“ASIC”。


          FPGA突破了馮諾依曼結(jié)構(gòu),流水線設(shè)計(jì)減少了數(shù)據(jù)在內(nèi)存、緩存和處理單元之間的能耗。FPGA是指現(xiàn)場(chǎng)可編程門陣列,其中包含邏輯元件、DSP 數(shù)據(jù)塊、片上內(nèi)存和靈活的 I/O。芯片內(nèi)部集成了大量的數(shù)字電路基本門電路以及存儲(chǔ)器,可以直接燒入FPGA配置文件來定義電路之間的連線,所以FPGA是可定制編輯的,同一塊芯片可以隨時(shí)通過不同的配置文件燒入來更改功能,就像樂高積木,可以隨時(shí)拆分和重組,靈活性極高,在處理小計(jì)算量大批次的實(shí)際計(jì)算時(shí)FPGA性能比GPU更強(qiáng),適合深度學(xué)習(xí)的預(yù)測(cè)環(huán)節(jié)。邏輯層面上,它不依賴于馮諾依曼結(jié)構(gòu),一個(gè)計(jì)算得到的結(jié)果可以被直接饋送到下一個(gè)節(jié)點(diǎn),無需在主存儲(chǔ)器臨時(shí)保存,所以其通信速度也非???。


          FPGA與深度學(xué)習(xí)中最常用的CNN網(wǎng)絡(luò)匹配度很高。深度學(xué)習(xí)中最常用的CNN網(wǎng)絡(luò),其分層的結(jié)構(gòu)和FPGA硬件流水線結(jié)構(gòu)以及MISD的處理方式匹配度很高。利用片上DSP和存儲(chǔ)模塊,F(xiàn)PGA能夠根據(jù)CNN的網(wǎng)絡(luò)特征設(shè)計(jì)出有針對(duì)性的流水線,在實(shí)現(xiàn)MISD的同時(shí)還可以將中間結(jié)果保存在本地緩存模塊,以降低內(nèi)存讀寫的能耗,從而比GPU以更低的能耗更快完成CNN的計(jì)算。



          FPGA的優(yōu)點(diǎn):


          1. 突破馮諾依曼結(jié)構(gòu),功效能耗較低,處理效率較高。FPGA的電路可直接實(shí)現(xiàn)算法,沒有指令譯碼和解讀的過程,減少反復(fù)冗余訪問外部存儲(chǔ)器的需求,存儲(chǔ)器帶寬需求及能耗較低,功效能耗比是 CPU的10倍以上、GPU的3倍,處理速度和效率要高于GPU。


          2. FPGA可編譯,靈活性很高,開發(fā)周期短。FPGA具有可編輯性,用戶可以根據(jù)自身需求實(shí)現(xiàn)芯片功能的轉(zhuǎn)換,靈活性很強(qiáng)?;贔PGA靈活編譯的特點(diǎn),其開發(fā)周期較短,上市速度快,更好地適應(yīng)當(dāng)前人工智能領(lǐng)域技術(shù)需求的快速更迭,對(duì)制造商來說風(fēng)險(xiǎn)較小。此外,F(xiàn)PGA也比ASIC具有更長(zhǎng)的可維護(hù)周期,更小的初期成本。


          FPGA的缺點(diǎn):


          1. 價(jià)格較高,規(guī)模量產(chǎn)后的單價(jià)更是遠(yuǎn)高于ASIC。目前FPGA的造價(jià)相比GPU更為高昂,如果規(guī)模量產(chǎn)后,其不像ASIC可以分?jǐn)偣潭ǔ杀?,存在單個(gè)芯片的編譯成本,所以單價(jià)遠(yuǎn)高于ASIC。


          2. 計(jì)算能力和峰值性能不如GPU。 FPGA的可編程性用在虛擬化服務(wù)的云平臺(tái)很好,但其中的邏輯單元很多都是基于SRAM查找表,不如GPU中的標(biāo)準(zhǔn)邏輯模塊,使得其峰值性能不如GPU。同時(shí),在布線方面也有較大的現(xiàn)值,無法像在ASIC FLOW下那樣較為自由的布局。


          3. 靈活性占優(yōu)的同時(shí)犧牲了速度與能耗。FPGA在維持了靈活性的同時(shí),效率和功耗上劣于專用芯片ASIC。


          4. FPGA的語(yǔ)言技術(shù)門檻較高。目前FPGA的設(shè)置要求用戶用硬件描述語(yǔ)言對(duì)其進(jìn)行編程,需要專業(yè)的硬件知識(shí),具有較高的技術(shù)門檻,但隨著包括OpenCL在內(nèi)的軟件級(jí)編程模型在FPGA的應(yīng)用,研究時(shí)間相對(duì)有所縮短。


          FPGA應(yīng)用于硬件平臺(tái)加速、數(shù)據(jù)中心和云端深度學(xué)習(xí)預(yù)測(cè)。FPGA兼具較高的性能和靈活性,適用于硬件平臺(tái)的加速。比如微軟開發(fā)了帶有FPGA“硬件加速芯片”的主板來提升Bing數(shù)據(jù)中心的整體性能,相比于傳統(tǒng)CPU在處理Bing的自定義算法時(shí)快出40倍。另外FPGA低能耗的特點(diǎn)也得其對(duì)大型企業(yè)的線上數(shù)據(jù)處理中心具有吸引力。


          FPGA具有處理MISD的優(yōu)勢(shì),所以適用于深度學(xué)習(xí)的預(yù)測(cè)階段,同時(shí)FPGA的可編程性使其非常適合放在虛擬化的云平臺(tái)背后,給予云服務(wù)商根據(jù)市場(chǎng)需求調(diào)整FPGA加速服務(wù)供給的能力。


          沒有極致的性能特點(diǎn)與量產(chǎn)單價(jià)高是其未來發(fā)展的瓶頸。FPGA仍然具有通用類芯片的特點(diǎn),為實(shí)現(xiàn)靈活性,F(xiàn)PGA的各項(xiàng)指標(biāo)均有折扣,盡管在能耗方面相比CPU和GPU有明顯優(yōu)勢(shì),但隨著人工智能應(yīng)用領(lǐng)域的擴(kuò)大,F(xiàn)PGA的半定制性可能會(huì)使得芯片逐漸成為一種過渡和替代性質(zhì)的附注品,訓(xùn)練階段的性能不如GPU,預(yù)測(cè)環(huán)節(jié)下的計(jì)算效率與功效能耗比則不如ASIC。


          另外,F(xiàn)PGA的量產(chǎn)單價(jià)高,意味著其無法大量生產(chǎn),更適合用于細(xì)分、快速變化的垂直行業(yè),在應(yīng)用面上較為狹窄。


          三、ASIC效率高、功耗比佳,但量產(chǎn)前成本高,適用智能終端和AI平臺(tái)


          ASIC是指專用集成電路,為符合特定用戶需求而設(shè)計(jì)的專用人工智能芯片。不同于FPGA,ASIC的電路一旦設(shè)計(jì)完成后就不可更改,用樂高積木比喻FPGA的話,ASIC更像是3D打印,是完全定制化的芯片,當(dāng)然相比FPGA也更加精致,有更多的物理設(shè)計(jì),運(yùn)行速度在同等條件下也比FPGA更快。


          ASIC的優(yōu)點(diǎn):


          1. 性能上的優(yōu)勢(shì)非常明顯,具有最高的功效能耗比。ASIC是專業(yè)AI芯片,相比GPU和FPGA沒有多余的面積或架構(gòu)設(shè)計(jì),可以實(shí)現(xiàn)最快的通信效率與計(jì)算速度,實(shí)現(xiàn)最低的能耗。


          2. 下游需求促進(jìn)人工智能芯片專用化。隨著人工智能的發(fā)展和下游智能終端的普及,AI芯片需求大幅上升,而出于對(duì)信息隱私保護(hù)和云端計(jì)算需要聯(lián)網(wǎng)的考慮,完全依賴云端是不現(xiàn)實(shí)的,需要有要有本地的軟硬件基礎(chǔ)平臺(tái)支撐,所以專有化的AI芯片有很大的優(yōu)勢(shì)。


          ASIC的缺點(diǎn):


          1. 造價(jià)昂貴,需要保證量產(chǎn)才能降低成本。ASIC由于是定制化芯片,有大量附加工藝設(shè)計(jì)需要考慮,投入的成本非常高,對(duì)企業(yè)帶來資金風(fēng)險(xiǎn)。若芯片能實(shí)現(xiàn)量產(chǎn)并大規(guī)模投入使用,其單價(jià)成本才能有效降低。


          2. 不可編輯,靈活性較差。定制化芯片的算法是固定的,研發(fā)時(shí)間較長(zhǎng),靈活性不夠高,在行業(yè)發(fā)展初期面對(duì)日新月異的人工智能算法其適應(yīng)性相對(duì)較低,尤其對(duì)于技術(shù)能力和市場(chǎng)能力不足的企業(yè),風(fēng)險(xiǎn)非常大。


          ASIC芯片應(yīng)用于人工智能平臺(tái)和智能終端。ASIC芯片由于其定制化的特點(diǎn),具有功能的多樣性,應(yīng)用非常廣泛。高性能和低功效使其不再局限于深度學(xué)習(xí)的訓(xùn)練或推測(cè)階段的其中之一,而是可以作為支撐人工智能平臺(tái)全階段加速的芯片。


          ASIC雖然其一次性成本遠(yuǎn)遠(yuǎn)高于FPGA,但量產(chǎn)成本低,另外ASIC的定制功能和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)能力能夠解決FPGA在設(shè)備端的劣勢(shì),因此應(yīng)用上就偏向于消費(fèi)電子,如移動(dòng)終端等領(lǐng)域。


          四、類腦芯片能耗低、感知力強(qiáng),但缺乏訓(xùn)練方法、精度低


          類腦芯片仍屬于小眾芯片,突破性發(fā)展需要更好的深度學(xué)習(xí)訓(xùn)練方法。類腦芯片是從架構(gòu)上模仿人腦神經(jīng)結(jié)構(gòu)的芯片,與當(dāng)前AI芯片普遍作為神經(jīng)網(wǎng)絡(luò)算法加速器不同,前者模仿神經(jīng)結(jié)構(gòu)從底層構(gòu)建人工智能,后者則模仿神經(jīng)處理信息的功能流程。IBM在10年前就開始類腦芯片的研究,主要基于脈沖神經(jīng)網(wǎng)絡(luò)(Spiking Neural Network,SNN),通過脈沖的頻率或者時(shí)間在神經(jīng)元之間傳遞信息,而不是通過節(jié)點(diǎn)之間的權(quán)重。


          這種芯片把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸,跟傳統(tǒng)馮諾依曼結(jié)構(gòu)不一樣,它的內(nèi)存、CPU和通信部件是完全集成在一起。因此信息的處理完全在本地進(jìn)行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動(dòng)作電位),這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作。


          目前該類芯片主要的優(yōu)點(diǎn)是能耗非常低,且有較好的感知能力;缺點(diǎn)則是其缺乏高效的深度學(xué)習(xí)訓(xùn)練和應(yīng)用方法,脈沖神經(jīng)網(wǎng)絡(luò)精度在精度上不能和機(jī)器學(xué)習(xí)類的神經(jīng)網(wǎng)絡(luò)相比?;诟吒兄芰?,類腦芯片適用于復(fù)雜的環(huán)境。在國(guó)防、武器裝備、消費(fèi)電子等終端設(shè)備上有望實(shí)現(xiàn)應(yīng)用。

          下載鏈接:

          深度報(bào)告:GPU研究框架

          GPU技術(shù)專題下載鏈接

          《GPU高性能計(jì)算概述》 

          《GPU深度學(xué)習(xí)基礎(chǔ)介紹》 

          《OpenACC基本介紹》 

          《CUDA CC 編程介紹》 

          《CUDA Fortr基本介紹》

          ARM系列處理器應(yīng)用技術(shù)完全手冊(cè)
          CPU和GPU研究框架合集
          1、行業(yè)深度報(bào)告:GPU研究框架
          2、信創(chuàng)產(chǎn)業(yè)研究框架
          3、ARM行業(yè)研究框架
          4、CPU研究框架
          5、國(guó)產(chǎn)CPU研究框架
          6、行業(yè)深度報(bào)告:GPU研究框架
          異構(gòu)芯片研究框架合集
          1、EDA行業(yè)研究框架
          2、半導(dǎo)體大硅片研究框架
          3、封測(cè)行業(yè)研究框架
          4、光刻機(jī)行業(yè)研究框架
          5、國(guó)產(chǎn)FPGA研究框架
          6、國(guó)產(chǎn)基帶芯片研究框架
          7、深度報(bào)告:NOR存儲(chǔ)芯片研究框架

          本號(hào)資料全部上傳至知識(shí)星球,加入智能計(jì)算芯世界(知識(shí)星球)下載全部資料。


          溫馨提示:

          請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)跟蹤技術(shù)動(dòng)態(tài),點(diǎn)擊“閱讀原文”獲取更多技術(shù)精彩內(nèi)容。


          瀏覽 143
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  夜夜操免费视频 | 玖玖国产在线 | 毛片学生妹 | a 在线视频 | 精品国产欧美一区二区三区成人 |