<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          英偉達(dá)悄悄發(fā)布最新TensorRT8,性能提升200%!

          共 4807字,需瀏覽 10分鐘

           ·

          2021-08-20 13:27






          轉(zhuǎn)自:新智元  來源:Nvidia

          近日,英偉達(dá)悄悄地發(fā)布了TensorRT 8,BERT-Large推理僅需1.2毫秒!同時還加入了量化感知訓(xùn)練和對稀疏性的支持,實(shí)現(xiàn)了性能200%的提升。項(xiàng)目已開源。


          2019年黃仁勛在GTC China正式發(fā)布了TensorRT 7,并稱其是「我們實(shí)現(xiàn)的最大飛躍」。


          然而今年TensorRT 8的發(fā)布卻十分低調(diào)。

           


          相比于7.0,TensorRT 8可以說是實(shí)現(xiàn)了2倍的性能提升。


          1. 1.2毫秒內(nèi)實(shí)現(xiàn)BERT-Large的推理
           
          1. 通過量化感知訓(xùn)練讓INT8的精度達(dá)到了與FP32相當(dāng)?shù)乃?/span>
           
          1. 支持稀疏性,讓Ampere GPU擁有更快的推理速度
           
           
          TensorRT 8可應(yīng)用于各種不同的場景,例如自動送貨機(jī)器人、自動化農(nóng)場、自動光學(xué)檢測、視頻分析,還有能夠轉(zhuǎn)寫和輸入的聊天機(jī)器人。
           

          TensorRT


          TensorRT是一種高性能的深度學(xué)習(xí)推理(Inference)的優(yōu)化器和運(yùn)行引擎,以TensorFlow等框架訓(xùn)練得到的模型作為輸入,為CUDA GPU生成優(yōu)化了的模型運(yùn)行時間。
           
          TensorRT為深度學(xué)習(xí)推理應(yīng)用的生產(chǎn)部署提供了INT8和FP16優(yōu)化,通過減少推理的時間來降低應(yīng)用程序的延遲。
           
          同時,TensorRT可以通過尋找計(jì)算圖中可以融合的節(jié)點(diǎn)和邊,減少計(jì)算和內(nèi)存訪問,并利用稀疏張量核心提供額外的性能提升。
           
           
          1. 降低混合精度
          通過將模型量化到INT8,同時保留精度,最大限度地提高吞吐量
           
          2. 層和張量融合
          通過融合內(nèi)核中的節(jié)點(diǎn),優(yōu)化GPU內(nèi)存和帶寬的使用
           
          3. 內(nèi)核自動調(diào)整
          根據(jù)目標(biāo)GPU平臺選擇最佳數(shù)據(jù)層和算法
           
          4. 動態(tài)張量內(nèi)存
          最大限度地減少內(nèi)存占用,并有效地重復(fù)使用張量的內(nèi)存
           
          5. 多數(shù)據(jù)流執(zhí)行
          使用可擴(kuò)展的設(shè)計(jì)來并行處理多個輸入流
           
          6. 時間融合
          通過動態(tài)生成的內(nèi)核,在時間上優(yōu)化循環(huán)神經(jīng)網(wǎng)絡(luò)
           

          7.0


          相比于只支持30種模型的TensorRT 5,TensorRT 7支持各種類型的RNN、Transformer和CNN,并且還支持多達(dá)1000種不同的計(jì)算變換和優(yōu)化,包括BERT、RoBERTa等。
           
           
          在交互式會話AI方面,TensorRT 7可以讓推理時間縮短到0.3秒,是CPU速度的10倍。
           
           
          那問題來了,這次新推出的TensorRT 8做出了哪些改進(jìn)呢?
           

          推理速度更快


          大型語言模型(LSLM),如BERT、GPT-2和XL-Net,極大提升了許多自然語言處理(NLP)任務(wù)的準(zhǔn)確性。

          自2018年10月發(fā)布以來,BERT(Bidirectional Encoder Representations from Transformers)及其所有的許多變體,仍然是最受歡迎的語言模型之一,并且仍然可以提供SOTA的準(zhǔn)確性。

          通過最新的優(yōu)化,TensorRT 8可以加速所有大型語言模型,并將推理時間減少到TensorRT 7的50%。
           
          讓交互式會話AI更智能
           
           
          英偉達(dá)AI軟件產(chǎn)品管理總監(jiān)Kari Briski指出,TensorRT 8在BERT- Large的推理上取得了突破。
           
          TensorRT 8能夠在短短1.2毫秒內(nèi)對BERT進(jìn)行推理。
           
          這種推理速度「可以讓對話式AI更智能」,提高眾多交互式應(yīng)用程序的性能。
           
          稀疏性讓Ampere GPUs推理更快
           
          在AI推理和機(jī)器學(xué)習(xí)中,稀疏性是指包含許多不會顯著影響計(jì)算的零或值的數(shù)字矩陣。
           
           

          多年來,機(jī)器學(xué)習(xí)研究人員一直在努力使用數(shù)字來加速人工智能,目標(biāo)是減少深度學(xué)習(xí)所需的矩陣乘法堆,縮短獲得結(jié)果的時間。

           

          在TensorRT 8中使用稀疏性技術(shù),能夠提升英偉達(dá)Ampere架構(gòu)的GPU性能。

           

          在保證推理精度的同時,降低深度學(xué)習(xí)模型中的部分權(quán)重,減小模型所需要的帶寬和內(nèi)存。

           

          內(nèi)存有富余,就可以分配給那些需要計(jì)算的部分,推理速度自然也上來了。


          量化感知訓(xùn)練提高精度

           
           
          一直以來,人工智能培訓(xùn)是在數(shù)據(jù)中心完成的,用大量數(shù)據(jù)、幾十萬小時的語音數(shù)據(jù)進(jìn)行訓(xùn)練,將模型訓(xùn)練到最高級別的準(zhǔn)確度。
           
          但是,經(jīng)過大量訓(xùn)練、準(zhǔn)確度高的模型運(yùn)行起來可能會很慢,模型也會變得越來越復(fù)雜。
           
          根據(jù)O Reilly最近發(fā)布的調(diào)查結(jié)果顯示,86.7%的組織現(xiàn)在正在考慮、評估或投入生產(chǎn)AI產(chǎn)品。
           
          德勤報(bào)告稱,53%采用人工智能的企業(yè)在2019年和2020年在技術(shù)和人才上的支出超過2000萬美元。
           
          換言之,現(xiàn)在不僅是數(shù)據(jù)中心會進(jìn)行推理部分的工作,在嵌入式系統(tǒng)、汽車系統(tǒng)中也會有推理工作。
           
          這就要求在推理過程中,保持訓(xùn)練時的最高準(zhǔn)確度,并且在硬件設(shè)備上運(yùn)行,盡可能縮短響應(yīng)時間和增加客戶吞吐量。
           
          因此,TensorRT 8優(yōu)化了Transformer,增強(qiáng)了性能。
           
          同時利用量化感知訓(xùn)練提高準(zhǔn)確性,將INT8精度的準(zhǔn)確度提高了2倍,既保證精度,也減少了計(jì)算和存儲成本。
           

          TensorRT的應(yīng)用



          英偉達(dá)表示,自五年前TensorRT首次發(fā)布以,下載量已經(jīng)達(dá)到近250萬次,共27500家公司加入到該生態(tài)之中,應(yīng)用的領(lǐng)域涵蓋醫(yī)療保健、汽車、金融和零售等。
           
          應(yīng)用TensorRT的公司
           
          開源AI公司Hugging Face與英偉達(dá)合作推出了AI文本分析、神經(jīng)搜索和對話式AI服務(wù)。
           
          該公司的產(chǎn)品總監(jiān)Jeff Boudier稱,在TensorRT 8的幫助下,Hugging Face在BERT上的推理延遲僅有1.2毫秒。
           
          在臨床醫(yī)療領(lǐng)域應(yīng)用方面,GE醫(yī)療心血管超聲首席工程師Erik Steen表示,臨床醫(yī)生需要花時間來評估超聲圖像。
           
          但TensorRT實(shí)時的推理能力,極大提高了GE醫(yī)療的視圖檢測算法性能,極大加快了臨床醫(yī)生的工作效率。
           
          而微信也實(shí)現(xiàn)了基于TensorRT-and-INT8 QAT的模型推理加速,加快微信搜索的核心業(yè)務(wù)。
           
          TensorRT 8無疑還會促使客服機(jī)器人反應(yīng)更快更聰明,讓實(shí)時翻譯更迅速。

          現(xiàn)在,TensorRT 8最新版本已在GitHub中開源。


          部署TensorRT


          下載TensorRT Build

          git clone -b master https://github.com/nvidia/TensorRT TensorRT
          cd TensorRT
          git submodule update --init --recursive


          如果使用TensorRT OSS Build容器,TensorRT庫已經(jīng)預(yù)裝在/usr/lib/x86_64-linux-gnu下。否則需要下載TensorRT GA build。


          Ubuntu 18.04 x86-64 cuda-11.3

          cd ~/Downloadstar -xvzf TensorRT-8.0.1.6.Ubuntu-18.04.x86_64-gnu.cuda-11.3.cudnn8.2.tar.gzexport TRT_LIBPATH=`pwd`/TensorRT-8.0.1.6


          Windows x86-64 cuda-11.3

          cd ~Downloads
          Expand-Archive .TensorRT-8.0.1.6.Windows10.x86_64.cuda-11.3.cudnn8.2.zip
          $Env:TRT_LIBPATH =  $(Get-Location)TensorRT-8.0.1.6 
          $Env:PATH +=  C:Program Files (x86)Microsoft Visual Studio?7ProfessionalMSBuild.0Bin 


          構(gòu)建環(huán)境


          1. 生成TensorRT-OSS Build容器


          TensorRT-OSS Build容器可以使用提供的Dockerfiles和Build腳本來生成。


          Ubuntu 18.04 x86-64 cuda-11.3

          ./docker/build.sh --file docker/ubuntu-18.04.Dockerfile --tag tensorrt-ubuntu18.04-cuda11.3 --cuda 11.3.1


          2. 啟動TensorRT-OSS Build容器


          Ubuntu 18.04

          ./docker/launch.sh --tag tensorrt-ubuntu18.04-cuda11.3 --gpus all


          構(gòu)建TensorRT-OSS


          生成Makefiles或VS項(xiàng)目(Windows)并構(gòu)建。


          Linux x86-64 cuda-11.3

          cd $TRT_OSSPATH
          mkdir -p build && cd build
          cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out
          make -j$(nproc)


          Windows x86-64 Powershell

          cd $Env:TRT_OSSPATH
          mkdir -p build ; cd build
          cmake .. -DTRT_LIB_DIR=$Env:TRT_LIBPATH -DTRT_OUT_DIR= $(Get-Location)out  -DCMAKE_TOOLCHAIN_FILE=..cmake    oolchainscmake_x64_win.toolchain
          msbuild ALL_BUILD.vcxproj


          往期精彩:

           我工作第五年的學(xué)習(xí)與讀書之法

           Swin-UNet:基于純 Transformer 結(jié)構(gòu)的語義分割網(wǎng)絡(luò)

           Swin Transformer:基于Shifted Windows的層次化視覺Transformer設(shè)計(jì)

           TransUNet:基于 Transformer 和 CNN 的混合編碼網(wǎng)絡(luò)

           SETR:基于視覺 Transformer 的語義分割模型

           ViT:視覺Transformer backbone網(wǎng)絡(luò)ViT論文與代碼詳解

          【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf

          【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實(shí)戰(zhàn)指南.pdf

          瀏覽 64
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情精品| 国产大屌在线 | 一级操逼视频看看 | 粉嫩av懂色av蜜臀av分享 | 91爱爱爱 |