轉(zhuǎn)自：新智元來源：Nvidia

近日，英偉達(dá)悄悄地發(fā)布了TensorRT 8，BERT-Large推理僅需1.2毫秒！同時還加入了量化感知訓(xùn)練和對稀疏性的支持，實(shí)現(xiàn)了性能200%的提升。項(xiàng)目已開源。

2019年黃仁勛在GTC China正式發(fā)布了TensorRT 7，并稱其是「我們實(shí)現(xiàn)的最大飛躍」。

然而今年TensorRT 8的發(fā)布卻十分低調(diào)。

相比于7.0，TensorRT 8可以說是實(shí)現(xiàn)了2倍的性能提升。

在1.2毫秒內(nèi)實(shí)現(xiàn)BERT-Large的推理

通過量化感知訓(xùn)練讓INT8的精度達(dá)到了與FP32相當(dāng)?shù)乃?/span>

支持稀疏性，讓Ampere GPU擁有更快的推理速度

TensorRT 8可應(yīng)用于各種不同的場景，例如自動送貨機(jī)器人、自動化農(nóng)場、自動光學(xué)檢測、視頻分析，還有能夠轉(zhuǎn)寫和輸入的聊天機(jī)器人。

TensorRT

TensorRT是一種高性能的深度學(xué)習(xí)推理（Inference）的優(yōu)化器和運(yùn)行引擎，以TensorFlow等框架訓(xùn)練得到的模型作為輸入，為CUDA GPU生成優(yōu)化了的模型運(yùn)行時間。

TensorRT為深度學(xué)習(xí)推理應(yīng)用的生產(chǎn)部署提供了INT8和FP16優(yōu)化，通過減少推理的時間來降低應(yīng)用程序的延遲。

同時，TensorRT可以通過尋找計(jì)算圖中可以融合的節(jié)點(diǎn)和邊，減少計(jì)算和內(nèi)存訪問，并利用稀疏張量核心提供額外的性能提升。

1. 降低混合精度

通過將模型量化到INT8，同時保留精度，最大限度地提高吞吐量

2. 層和張量融合

通過融合內(nèi)核中的節(jié)點(diǎn)，優(yōu)化GPU內(nèi)存和帶寬的使用

3. 內(nèi)核自動調(diào)整

根據(jù)目標(biāo)GPU平臺選擇最佳數(shù)據(jù)層和算法

4. 動態(tài)張量內(nèi)存

最大限度地減少內(nèi)存占用，并有效地重復(fù)使用張量的內(nèi)存

5. 多數(shù)據(jù)流執(zhí)行

使用可擴(kuò)展的設(shè)計(jì)來并行處理多個輸入流

6. 時間融合

通過動態(tài)生成的內(nèi)核，在時間上優(yōu)化循環(huán)神經(jīng)網(wǎng)絡(luò)

7.0

相比于只支持30種模型的TensorRT 5，TensorRT 7支持各種類型的RNN、Transformer和CNN，并且還支持多達(dá)1000種不同的計(jì)算變換和優(yōu)化，包括BERT、RoBERTa等。

在交互式會話AI方面，TensorRT 7可以讓推理時間縮短到0.3秒，是CPU速度的10倍。

那問題來了，這次新推出的TensorRT 8做出了哪些改進(jìn)呢？

推理速度更快

大型語言模型（LSLM），如BERT、GPT-2和XL-Net，極大提升了許多自然語言處理（NLP）任務(wù)的準(zhǔn)確性。

自2018年10月發(fā)布以來，BERT（Bidirectional Encoder Representations from Transformers）及其所有的許多變體，仍然是最受歡迎的語言模型之一，并且仍然可以提供SOTA的準(zhǔn)確性。

通過最新的優(yōu)化，TensorRT 8可以加速所有大型語言模型，并將推理時間減少到TensorRT 7的50%。

讓交互式會話AI更智能

英偉達(dá)AI軟件產(chǎn)品管理總監(jiān)Kari Briski指出，TensorRT 8在BERT- Large的推理上取得了突破。

TensorRT 8能夠在短短1.2毫秒內(nèi)對BERT進(jìn)行推理。

這種推理速度「可以讓對話式AI更智能」，提高眾多交互式應(yīng)用程序的性能。

稀疏性讓Ampere GPUs推理更快

在AI推理和機(jī)器學(xué)習(xí)中，稀疏性是指包含許多不會顯著影響計(jì)算的零或值的數(shù)字矩陣。

多年來，機(jī)器學(xué)習(xí)研究人員一直在努力使用數(shù)字來加速人工智能，目標(biāo)是減少深度學(xué)習(xí)所需的矩陣乘法堆，縮短獲得結(jié)果的時間。

在TensorRT 8中使用稀疏性技術(shù)，能夠提升英偉達(dá)Ampere架構(gòu)的GPU性能。

在保證推理精度的同時，降低深度學(xué)習(xí)模型中的部分權(quán)重，減小模型所需要的帶寬和內(nèi)存。

內(nèi)存有富余，就可以分配給那些需要計(jì)算的部分，推理速度自然也上來了。

量化感知訓(xùn)練提高精度

一直以來，人工智能培訓(xùn)是在數(shù)據(jù)中心完成的，用大量數(shù)據(jù)、幾十萬小時的語音數(shù)據(jù)進(jìn)行訓(xùn)練，將模型訓(xùn)練到最高級別的準(zhǔn)確度。

但是，經(jīng)過大量訓(xùn)練、準(zhǔn)確度高的模型運(yùn)行起來可能會很慢，模型也會變得越來越復(fù)雜。

根據(jù)O Reilly最近發(fā)布的調(diào)查結(jié)果顯示，86.7%的組織現(xiàn)在正在考慮、評估或投入生產(chǎn)AI產(chǎn)品。

德勤報(bào)告稱，53%采用人工智能的企業(yè)在2019年和2020年在技術(shù)和人才上的支出超過2000萬美元。

換言之，現(xiàn)在不僅是數(shù)據(jù)中心會進(jìn)行推理部分的工作，在嵌入式系統(tǒng)、汽車系統(tǒng)中也會有推理工作。

這就要求在推理過程中，保持訓(xùn)練時的最高準(zhǔn)確度，并且在硬件設(shè)備上運(yùn)行，盡可能縮短響應(yīng)時間和增加客戶吞吐量。

因此，TensorRT 8優(yōu)化了Transformer，增強(qiáng)了性能。

同時利用量化感知訓(xùn)練提高準(zhǔn)確性，將INT8精度的準(zhǔn)確度提高了2倍，既保證精度，也減少了計(jì)算和存儲成本。

TensorRT的應(yīng)用

英偉達(dá)表示，自五年前TensorRT首次發(fā)布以，下載量已經(jīng)達(dá)到近250萬次，共27500家公司加入到該生態(tài)之中，應(yīng)用的領(lǐng)域涵蓋醫(yī)療保健、汽車、金融和零售等。

應(yīng)用TensorRT的公司

開源AI公司Hugging Face與英偉達(dá)合作推出了AI文本分析、神經(jīng)搜索和對話式AI服務(wù)。

該公司的產(chǎn)品總監(jiān)Jeff Boudier稱，在TensorRT 8的幫助下，Hugging Face在BERT上的推理延遲僅有1.2毫秒。

在臨床醫(yī)療領(lǐng)域應(yīng)用方面，GE醫(yī)療心血管超聲首席工程師Erik Steen表示，臨床醫(yī)生需要花時間來評估超聲圖像。

但TensorRT實(shí)時的推理能力，極大提高了GE醫(yī)療的視圖檢測算法性能，極大加快了臨床醫(yī)生的工作效率。

而微信也實(shí)現(xiàn)了基于TensorRT-and-INT8 QAT的模型推理加速，加快微信搜索的核心業(yè)務(wù)。

TensorRT 8無疑還會促使客服機(jī)器人反應(yīng)更快更聰明，讓實(shí)時翻譯更迅速。

現(xiàn)在，TensorRT 8最新版本已在GitHub中開源。

部署TensorRT

下載TensorRT Build

git clone -b master https://github.com/nvidia/TensorRT TensorRT
cd TensorRT
git submodule update --init --recursive

如果使用TensorRT OSS Build容器，TensorRT庫已經(jīng)預(yù)裝在/usr/lib/x86_64-linux-gnu下。否則需要下載TensorRT GA build。

Ubuntu 18.04 x86-64 cuda-11.3

cd ~/Downloadstar -xvzf TensorRT-8.0.1.6.Ubuntu-18.04.x86_64-gnu.cuda-11.3.cudnn8.2.tar.gzexport TRT_LIBPATH=`pwd`/TensorRT-8.0.1.6

Windows x86-64 cuda-11.3

cd ~Downloads
Expand-Archive .TensorRT-8.0.1.6.Windows10.x86_64.cuda-11.3.cudnn8.2.zip
$Env:TRT_LIBPATH =  $(Get-Location)TensorRT-8.0.1.6 
$Env:PATH +=  C:Program Files (x86)Microsoft Visual Studio?7ProfessionalMSBuild.0Bin

構(gòu)建環(huán)境

1. 生成TensorRT-OSS Build容器

TensorRT-OSS Build容器可以使用提供的Dockerfiles和Build腳本來生成。

Ubuntu 18.04 x86-64 cuda-11.3

./docker/build.sh --file docker/ubuntu-18.04.Dockerfile --tag tensorrt-ubuntu18.04-cuda11.3 --cuda 11.3.1

2. 啟動TensorRT-OSS Build容器

Ubuntu 18.04

./docker/launch.sh --tag tensorrt-ubuntu18.04-cuda11.3 --gpus all

構(gòu)建TensorRT-OSS

生成Makefiles或VS項(xiàng)目（Windows）并構(gòu)建。

Linux x86-64 cuda-11.3

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out
make -j$(nproc)

Windows x86-64 Powershell

cd $Env:TRT_OSSPATH
mkdir -p build ; cd build
cmake .. -DTRT_LIB_DIR=$Env:TRT_LIBPATH -DTRT_OUT_DIR= $(Get-Location)out  -DCMAKE_TOOLCHAIN_FILE=..cmake    oolchainscmake_x64_win.toolchain
msbuild ALL_BUILD.vcxproj


往期精彩：
 我工作第五年的學(xué)習(xí)與讀書之法
 Swin-UNet：基于純 Transformer 結(jié)構(gòu)的語義分割網(wǎng)絡(luò)
 Swin Transformer：基于Shifted Windows的層次化視覺Transformer設(shè)計(jì)
 TransUNet：基于 Transformer 和 CNN 的混合編碼網(wǎng)絡(luò)
 SETR：基于視覺 Transformer 的語義分割模型
 ViT：視覺Transformer backbone網(wǎng)絡(luò)ViT論文與代碼詳解
【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實(shí)戰(zhàn)指南.pdf

英偉達(dá)悄悄發(fā)布最新TensorRT8，性能提升200%！

近日，英偉達(dá)悄悄地發(fā)布了TensorRT 8，BERT-Large推理僅需1.2毫秒！同時還加入了量化感知訓(xùn)練和對稀疏性的支持，實(shí)現(xiàn)了性能200%的提升。項(xiàng)目已開源。

TensorRT

7.0

量化感知訓(xùn)練提高精度

英偉達(dá)悄悄發(fā)布最新TensorRT8，性能提升200%！

近日，英偉達(dá)悄悄地發(fā)布了TensorRT 8，BERT-Large推理僅需1.2毫秒！同時還加入了量化感知訓(xùn)練和對稀疏性的支持，實(shí)現(xiàn)了性能200%的提升。項(xiàng)目已開源。