<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)中GPU和顯存分析

          共 5309字,需瀏覽 11分鐘

           ·

          2020-12-07 17:57




          向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)???

          機(jī)器學(xué)習(xí)AI算法工程?? 公眾號(hào):datayx


          深度學(xué)習(xí)最吃機(jī)器,耗資源,在本文,我將來(lái)科普一下在深度學(xué)習(xí)中:

          • 何為“資源”

          • 不同操作都耗費(fèi)什么資源

          • 如何充分的利用有限的資源

          • 如何合理選擇顯卡

          并糾正幾個(gè)誤區(qū):

          • 顯存和GPU等價(jià),使用GPU主要看顯存的使用?

          • Batch Size 越大,程序越快,而且近似成正比?

          • 顯存占用越多,程序越快?

          • 顯存占用大小和batch size大小成正比?


          0 預(yù)備知識(shí)

          nvidia-smi是Nvidia顯卡命令行管理套件,基于NVML庫(kù),旨在管理和監(jiān)控Nvidia GPU設(shè)備。



          nvidia-smi的輸出

          這是nvidia-smi命令的輸出,其中最重要的兩個(gè)指標(biāo):

          • 顯存占用

          • GPU利用率

          顯存占用和GPU利用率是兩個(gè)不一樣的東西,顯卡是由GPU計(jì)算單元和顯存等組成的,顯存和GPU的關(guān)系有點(diǎn)類似于內(nèi)存和CPU的關(guān)系。

          這里推薦一個(gè)好用的小工具:gpustat,直接pip install gpustat即可安裝,gpustat基于nvidia-smi,可以提供更美觀簡(jiǎn)潔的展示,結(jié)合watch命令,可以動(dòng)態(tài)實(shí)時(shí)監(jiān)控GPU的使用情況。

          watch --color -n1 gpustat -cpu



          gpustat 輸出

          顯存可以看成是空間,類似于內(nèi)存。

          • 顯存用于存放模型,數(shù)據(jù)

          • 顯存越大,所能運(yùn)行的網(wǎng)絡(luò)也就越大

          GPU計(jì)算單元類似于CPU中的核,用來(lái)進(jìn)行數(shù)值計(jì)算。衡量計(jì)算量的單位是flop:?the number of floating-point multiplication-adds,浮點(diǎn)數(shù)先乘后加算一個(gè)flop。計(jì)算能力越強(qiáng)大,速度越快。衡量計(jì)算能力的單位是flops:每秒能執(zhí)行的flop數(shù)量



          1. 顯存分析

          1.1 存儲(chǔ)指標(biāo)



          KMGT是以1024為底,而KB?、MBGBTB以1000為底。不過(guò)一般來(lái)說(shuō),在估算顯存大小的時(shí)候,我們不需要嚴(yán)格的區(qū)分這二者。

          在深度學(xué)習(xí)中會(huì)用到各種各樣的數(shù)值類型,數(shù)值類型命名規(guī)范一般為TypeNum,比如Int64、Float32、Double64。

          • Type:有Int,F(xiàn)loat,Double等

          • Num: 一般是 8,16,32,64,128,表示該類型所占據(jù)的比特?cái)?shù)目

          常用的數(shù)值類型如下圖所示:



          常用的數(shù)值類型

          其中Float32 是在深度學(xué)習(xí)中最常用的數(shù)值類型,稱為單精度浮點(diǎn)數(shù),每一個(gè)單精度浮點(diǎn)數(shù)占用4Byte的顯存。

          舉例來(lái)說(shuō):有一個(gè)1000x1000的 矩陣,float32,那么占用的顯存差不多就是



          2x3x256x256的四維數(shù)組(BxCxHxW)占用顯存為:24M

          1.2 神經(jīng)網(wǎng)絡(luò)顯存占用

          神經(jīng)網(wǎng)絡(luò)模型占用的顯存包括:

          • 模型自身的參數(shù)

          • 模型的輸出

          舉例來(lái)說(shuō),對(duì)于如下圖所示的一個(gè)全連接網(wǎng)絡(luò)(不考慮偏置項(xiàng)b)



          模型的輸入輸出和參數(shù)

          模型的顯存占用包括:

          • 參數(shù):二維數(shù)組 W

          • 模型的輸出:二維數(shù)組 Y

          輸入X可以看成是上一層的輸出,因此把它的顯存占用歸于上一層。

          這么看來(lái)顯存占用就是W和Y兩個(gè)數(shù)組?

          并非如此!!!

          下面細(xì)細(xì)分析。

          1.2.1 參數(shù)的顯存占用

          只有有參數(shù)的層,才會(huì)有顯存占用。這部份的顯存占用和輸入無(wú)關(guān),模型加載完成之后就會(huì)占用。

          有參數(shù)的層主要包括:

          • 卷積

          • 全連接

          • BatchNorm

          • Embedding層

          • ... ...

          無(wú)參數(shù)的層

          • 多數(shù)的激活層(Sigmoid/ReLU)

          • 池化層

          • Dropout

          • ... ...

          更具體的來(lái)說(shuō),模型的參數(shù)數(shù)目(這里均不考慮偏置項(xiàng)b)為:

          • Linear(M->N): 參數(shù)數(shù)目:M×N

          • Conv2d(Cin, Cout, K): 參數(shù)數(shù)目:Cin × Cout × K × K

          • BatchNorm(N): 參數(shù)數(shù)目:2N

          • Embedding(N,W): 參數(shù)數(shù)目:N × W

          參數(shù)占用顯存 = 參數(shù)數(shù)目×n

          n = 4 :float32

          n = 2 : float16

          n = 8 : double64

          在PyTorch中,當(dāng)你執(zhí)行完model=MyGreatModel().cuda()之后就會(huì)占用相應(yīng)的顯存,占用的顯存大小基本與上述分析的顯存差不多(會(huì)稍大一些,因?yàn)槠渌_銷)。

          1.2.2 梯度與動(dòng)量的顯存占用

          舉例來(lái)說(shuō), 優(yōu)化器如果是SGD:



          這時(shí)候還需要保存動(dòng)量, 因此顯存x3

          如果是Adam優(yōu)化器,動(dòng)量占用的顯存更多,顯存x4

          總結(jié)一下,模型中與輸入無(wú)關(guān)的顯存占用包括:

          • 參數(shù)?W

          • 梯度?dW(一般與參數(shù)一樣)

          • 優(yōu)化器的動(dòng)量(普通SGD沒有動(dòng)量,momentum-SGD動(dòng)量與梯度一樣,Adam優(yōu)化器動(dòng)量的數(shù)量是梯度的兩倍)

          1.2.3 輸入輸出的顯存占用

          這部份的顯存主要看輸出的feature map 的形狀。


          feature map

          比如卷積的輸入輸出滿足以下關(guān)系:



          據(jù)此可以計(jì)算出每一層輸出的Tensor的形狀,然后就能計(jì)算出相應(yīng)的顯存占用。


          模型輸出的顯存占用,總結(jié)如下:

          • 需要計(jì)算每一層的feature map的形狀(多維數(shù)組的形狀)

          • 模型輸出的顯存占用與 batch size 成正比

          • 需要保存輸出對(duì)應(yīng)的梯度用以反向傳播(鏈?zhǔn)椒▌t)

          • 模型輸出不需要存儲(chǔ)相應(yīng)的動(dòng)量信息(因?yàn)椴恍枰獔?zhí)行優(yōu)化)

          深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的顯存占用,我們可以得到如下公式:

          顯存占用 = 模型顯存占用 + batch_size × 每個(gè)樣本的顯存占用

          可以看出顯存不是和batch-size簡(jiǎn)單的成正比,尤其是模型自身比較復(fù)雜的情況下:比如全連接很大,Embedding層很大

          另外需要注意:

          • 輸入(數(shù)據(jù),圖片)一般不需要計(jì)算梯度

          • 神經(jīng)網(wǎng)絡(luò)的每一層輸入輸出都需要保存下來(lái),用來(lái)反向傳播,但是在某些特殊的情況下,我們可以不要保存輸入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True)?能將激活函數(shù)ReLU的輸出直接覆蓋保存于模型的輸入之中,節(jié)省不少顯存。感興趣的讀者可以思考一下,這時(shí)候是如何反向傳播的(提示:y=relu(x) ->?dx = dy.copy();dx[y<=0]=0

          1.3 節(jié)省顯存的方法

          在深度學(xué)習(xí)中,一般占用顯存最多的是卷積等層的輸出,模型參數(shù)占用的顯存相對(duì)較少,而且不太好優(yōu)化。

          節(jié)省顯存一般有如下方法:

          • 降低batch-size

          • 下采樣(NCHW -> (1/4)*NCHW)

          • 減少全連接層(一般只留最后一層分類用的全連接層)

          2 計(jì)算量分析

          計(jì)算量的定義,之前已經(jīng)講過(guò)了,計(jì)算量越大,操作越費(fèi)時(shí),運(yùn)行神經(jīng)網(wǎng)絡(luò)花費(fèi)的時(shí)間越多。

          2.1 常用操作的計(jì)算量

          常用的操作計(jì)算量如下:

          • 全連接層:BxMxN , B是batch size,M是輸入形狀,N是輸出形狀。




          卷積的計(jì)算量分析




          • ReLU的計(jì)算量:BHWC

          2.2 AlexNet 分析

          AlexNet的分析如下圖,左邊是每一層的參數(shù)數(shù)目(不是顯存占用),右邊是消耗的計(jì)算資源


          AlexNet分析

          可以看出:

          • 全連接層占據(jù)了絕大多數(shù)的參數(shù)

          • 卷積層的計(jì)算量最大

          2.3 減少卷積層的計(jì)算量

          今年谷歌提出的MobileNet,利用了一種被稱為DepthWise Convolution的技術(shù),將神經(jīng)網(wǎng)絡(luò)運(yùn)行速度提升許多,它的核心思想就是把一個(gè)卷積操作拆分成兩個(gè)相對(duì)簡(jiǎn)單的操作的組合。如圖所示, 左邊是原始卷積操作,右邊是兩個(gè)特殊而又簡(jiǎn)單的卷積操作的組合(上面類似于池化的操作,但是有權(quán)重,下面類似于全連接操作)。





          Depthwise Convolution

          這種操作使得:

          • 顯存占用變多(每一步的輸出都要保存



          2.4 常用模型 顯存/計(jì)算復(fù)雜度/準(zhǔn)確率

          去年一篇論文(http://link.zhihu.com/?target=https%3A//arxiv.org/abs/1605.07678)總結(jié)了當(dāng)時(shí)常用模型的各項(xiàng)指標(biāo),橫座標(biāo)是計(jì)算復(fù)雜度(越往右越慢,越耗時(shí)),縱座標(biāo)是準(zhǔn)確率(越高越好),圓的面積是參數(shù)數(shù)量(不是顯存占用)。左上角我畫了一個(gè)紅色小圓,那是最理想的模型的的特點(diǎn):快,效果好,占用顯存小。



          常見模型計(jì)算量/顯存/準(zhǔn)確率

          3 總結(jié)

          3.1 建議

          • 時(shí)間更寶貴,盡可能使模型變快(減少flop)

          • 顯存占用不是和batch size簡(jiǎn)單成正比,模型自身的參數(shù)及其延伸出來(lái)的數(shù)據(jù)也要占據(jù)顯存

          • batch size越大,速度未必越快。在你充分利用計(jì)算資源的時(shí)候,加大batch size在速度上的提升很有限

          尤其是batch-size,假定GPU處理單元已經(jīng)充分利用的情況下:

          • 增大batch size能增大速度,但是很有限(主要是并行計(jì)算的優(yōu)化)

          • 增大batch size能減緩梯度震蕩,需要更少的迭代優(yōu)化次數(shù),收斂的更快,但是每次迭代耗時(shí)更長(zhǎng)。

          • 增大batch size使得一個(gè)epoch所能進(jìn)行的優(yōu)化次數(shù)變少,收斂可能變慢,從而需要更多時(shí)間才能收斂(比如batch_size 變成全部樣本數(shù)目)。

          3.2 關(guān)于顯卡選購(gòu)

          當(dāng)前市面上常用的顯卡指標(biāo)如下:



          常見顯卡指標(biāo)

          更多顯卡的更多指標(biāo)請(qǐng)參閱

          http://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units

          顯然GTX 1080TI性價(jià)比最高,速度超越新Titan X,價(jià)格卻便宜很多,顯存也只少了1個(gè)G(據(jù)說(shuō)故意閹割掉一個(gè)G,不然全面超越了Titan X怕激起買Titan X人的民憤~)。

          • K80性價(jià)比很低(速度慢,而且賊貴)

          • 注意GTX TITAN和Nvidia TITAN的區(qū)別,別被騙

          另外,針對(duì)本文,我做了一個(gè)Google 幻燈片:神經(jīng)網(wǎng)絡(luò)性能分析,國(guó)內(nèi)用戶可以點(diǎn)此下載ppt


          http://link.zhihu.com/?target=http%3A//misc-1252820389.cosbj.myqcloud.com/%25E7%25A5%259E%25E7%25BB%258F%25E7%25BD%2591%25E7%25BB%259C%25E5%2588%2586%25E6%259E%2590.pptx


          Google幻燈片格式更好,后者格式可能不太正常。


          本文都是針對(duì)單機(jī)單卡的分析,分布式的情況會(huì)和這個(gè)有所區(qū)別。在分析計(jì)算量的時(shí)候,只分析了前向傳播,反向傳播計(jì)算量一般會(huì)與前向傳播有細(xì)微的差別。



          閱讀過(guò)本文的人還看了以下文章:


          TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


          基于40萬(wàn)表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)


          《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF


          Deep Learning 中文版初版-周志華團(tuán)隊(duì)


          【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!


          《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


          《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


          2019最新《PyTorch自然語(yǔ)言處理》英、中文版PDF+源碼


          《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


          《深度學(xué)習(xí)之pytorch》pdf+附書源碼


          PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


          李沐大神開源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


          《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


          將機(jī)器學(xué)習(xí)模型部署為REST API


          FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別


          yolo3 檢測(cè)出圖像中的不規(guī)則漢字


          同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過(guò)不了?


          前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)


          【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


          VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過(guò)濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學(xué)習(xí)


          如何利用全新的決策樹集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過(guò)


          全球AI挑戰(zhàn)-場(chǎng)景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



          不斷更新資源

          深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

          ?搜索公眾號(hào)添加:?datayx??



          機(jī)大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)工程

          ?搜索公眾號(hào)添加:?datanlp

          長(zhǎng)按圖片,識(shí)別二維碼


          瀏覽 25
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产免费观看黄色电影 | 欧美一級黃色A片免費看 | 青青青青青欧美在线观视频观看 | 亚洲男人天堂一本 | 91|久久|麻豆 |