久操综合视频在线,中国A片一级片,一区二区电影网,AV大全免费看,欧美日韩在线播放,青青草青青日青青干视频,美女网站黄片,人人色人人看

點擊左上方藍(lán)字關(guān)注我們

一個專注于目標(biāo)檢測與深度學(xué)習(xí)知識分享的公眾號

編者薦語

我們知道，在一定程度上，網(wǎng)絡(luò)越深，參數(shù)越多，模型越復(fù)雜，其最終效果越好。神經(jīng)網(wǎng)絡(luò)的壓縮算法是，旨在將一個龐大而復(fù)雜的預(yù)訓(xùn)練模型（pre-trained model）轉(zhuǎn)化為一個精簡的小模型。

轉(zhuǎn)載自 | 新機(jī)器視覺

按照壓縮過程對網(wǎng)絡(luò)結(jié)構(gòu)的破壞程度，我們將模型壓縮技術(shù)分為“前端壓縮”和“后端壓縮”兩部分。

前端壓縮，是指在不改變原網(wǎng)絡(luò)結(jié)構(gòu)的壓縮技術(shù)，主要包括知識蒸餾、緊湊的模型結(jié)構(gòu)涉及以及濾波器（filter）層面的剪枝等；

后端壓縮，是指包括低秩近似、未加限制的剪枝、參數(shù)量化以及二值網(wǎng)絡(luò)等，目標(biāo)在于盡可能減少模型大小，會對原始網(wǎng)絡(luò)結(jié)構(gòu)造成極大程度的改造。

總結(jié)：前端壓縮幾乎不改變原有網(wǎng)絡(luò)結(jié)構(gòu)（僅僅只是在原模型基礎(chǔ)上減少了網(wǎng)絡(luò)的層數(shù)或者濾波器個數(shù)），后端壓縮對網(wǎng)絡(luò)結(jié)構(gòu)有不可逆的大幅度改變，造成原有深度學(xué)習(xí)庫、甚至硬件設(shè)備不兼容改變之后的網(wǎng)絡(luò)。其維護(hù)成本很高。

低秩近似

簡單理解就是，卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣往往稠密且巨大，從而計算開銷大，有一種辦法是采用低秩近似的技術(shù)將該稠密矩陣由若干個小規(guī)模矩陣近似重構(gòu)出來，這種方法歸類為低秩近似算法。

一般地，行階梯型矩陣的秩等于其“臺階數(shù)”-非零行的行數(shù)。

低秩近似算法能減小計算開銷的原理如下：

給定權(quán)重矩陣

，若能將其表示為若干個低秩矩陣的組合，即

, 其中

為低秩矩陣，其秩為

, 并滿足

，則其每一個低秩矩陣都可分解為小規(guī)模矩陣的乘積，

，其中

，

。當(dāng)

取值很小時，便能大幅降低總體的存儲和計算開銷。

基于以上想法，Sindhwani 等人提出使用結(jié)構(gòu)化矩陣來進(jìn)行低秩分解的算法，具體原理可自行參考論文。另一種比較簡便的方法是使用矩陣分解來降低權(quán)重矩陣的參數(shù)，如 Denton 等人提出使用奇異值分解（Singular Value Decomposition，簡稱 SVD）分解來重構(gòu)全連接層的權(quán)重。

1.1，總結(jié)

低秩近似算法在中小型網(wǎng)絡(luò)模型上，取得了很不錯的效果，但其超參數(shù)量與網(wǎng)絡(luò)層數(shù)呈線性變化趨勢，隨著網(wǎng)絡(luò)層數(shù)的增加與模型復(fù)雜度的提升，其搜索空間會急劇增大，目前主要是學(xué)術(shù)界在研究，工業(yè)界應(yīng)用不多。

剪枝與稀疏約束

給定一個預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型，常用的剪枝算法一般都遵從如下操作：

1. 衡量神經(jīng)元的重要程度

2. 移除掉一部分不重要的神經(jīng)元，這步比前 1 步更加簡便，靈活性更高

3. 對網(wǎng)絡(luò)進(jìn)行微調(diào)，剪枝操作不可避免地影響網(wǎng)絡(luò)的精度，為防止對分類性能造成過大的破壞，需要對剪枝后的模型進(jìn)行微調(diào)。對于大規(guī)模行圖像數(shù)據(jù)集（如ImageNet）而言，微調(diào)會占用大量的計算資源，因此對網(wǎng)絡(luò)微調(diào)到什么程度，是需要斟酌的

4. 返回第一步，循環(huán)進(jìn)行下一輪剪枝

基于以上循環(huán)剪枝框架，不同學(xué)者提出了不同的方法，Han等人提出首先將低于某個閾值的權(quán)重連接全部剪除，之后對剪枝后的網(wǎng)絡(luò)進(jìn)行微調(diào)以完成參數(shù)更新的方法，這種方法的不足之處在于，剪枝后的網(wǎng)絡(luò)是非結(jié)構(gòu)化的，即被剪除的網(wǎng)絡(luò)連接在分布上，沒有任何連續(xù)性，這種稀疏的結(jié)構(gòu)，導(dǎo)致CPU高速緩沖與內(nèi)存頻繁切換，從而限制了實際的加速效果。

基于此方法，有學(xué)者嘗試將剪枝的粒度提升到整個濾波器級別，即丟棄整個濾波器，但是如何衡量濾波器的重要程度是一個問題，其中一種策略是基于濾波器權(quán)重本身的統(tǒng)計量，如分別計算每個濾波器的 L1 或 L2 值，將相應(yīng)數(shù)值大小作為衡量重要程度標(biāo)準(zhǔn)。

利用稀疏約束來對網(wǎng)絡(luò)進(jìn)行剪枝也是一個研究方向，其思路是在網(wǎng)絡(luò)的優(yōu)化目標(biāo)中加入權(quán)重的稀疏正則項，使得訓(xùn)練時網(wǎng)絡(luò)的部分權(quán)重趨向于 0 ，而這些 0 值就是剪枝的對象。

2.1，總結(jié)

總體而言，剪枝是一項有效減小模型復(fù)雜度的通用壓縮技術(shù)，其關(guān)鍵之處在于如何衡量個別權(quán)重對于整體模型的重要程度。剪枝操作對網(wǎng)絡(luò)結(jié)構(gòu)的破壞程度極小，將剪枝與其他后端壓縮技術(shù)相結(jié)合，能夠達(dá)到網(wǎng)絡(luò)模型最大程度壓縮，目前工業(yè)界有使用剪枝方法進(jìn)行模型壓縮的案例。

參數(shù)量化

相比于剪枝操作，參數(shù)量化則是一種常用的后端壓縮技術(shù)。所謂“量化”，是指從權(quán)重中歸納出若干“代表”，由這些“代表”來表示某一類權(quán)重的具體數(shù)值。“代表”被存儲在碼本（codebook）之中，而原權(quán)重矩陣只需記錄各自“代表”的索引即可，從而極大地降低了存儲開銷。這種思想可類比于經(jīng)典的詞包模型（bag-of-words model）。常用量化算法如下：

1. 標(biāo)量量化（scalar quantization）。

2. 標(biāo)量量化會在一定程度上降低網(wǎng)絡(luò)的精度，為避免這個弊端，很多算法考慮結(jié)構(gòu)化的向量方法，其中一種是乘積向量（Product Quantization, PQ），詳情咨詢查閱論文。

3. 以PQ方法為基礎(chǔ)，Wu等人設(shè)計了一種通用的網(wǎng)絡(luò)量化算法：QCNN(quantized CNN)，主要思想在于Wu等人認(rèn)為最小化每一層網(wǎng)絡(luò)輸出的重構(gòu)誤差，比最小化量化誤差更有效。

標(biāo)量量化算法基本思路是，對于每一個權(quán)重矩陣

，首先將其轉(zhuǎn)化為向量形式：

。之后對該權(quán)重向量的元素進(jìn)行

個簇的聚類，這可借助于經(jīng)典的 k-均值（k-means）聚類算法快速完成：

這樣，只需將

個聚類中心（

，標(biāo)量）存儲在碼本中，而原權(quán)重矩陣則只負(fù)責(zé)記錄各自聚類中心在碼本中索引。如果不考慮碼本的存儲開銷，該算法能將存儲空間減少為原來的

。基于

均值算法的標(biāo)量量化在很多應(yīng)用中非常有效。參數(shù)量化與碼本微調(diào)過程圖如下：

這三類基于聚類的參數(shù)量化算法，其本質(zhì)思想在于將多個權(quán)重映射到同一個數(shù)值，從而實現(xiàn)權(quán)重共享，降低存儲開銷的目的。

3.1，總結(jié)

參數(shù)量化是一種常用的后端壓縮技術(shù)，能夠以很小的性能損失實現(xiàn)模型體積的大幅下降，不足之處在于，量化的網(wǎng)絡(luò)是“固定”的，很難對其做任何改變，同時這種方法通用性差，需要配套專門的深度學(xué)習(xí)庫來運行網(wǎng)絡(luò)。

二值化網(wǎng)絡(luò)

1. 二值化網(wǎng)絡(luò)可以視為量化方法的一種極端情況：所有的權(quán)重參數(shù)取值只能為

\pm 1

，也就是使用 1bit來存儲Weight 和 Feature。在普通神經(jīng)網(wǎng)絡(luò)中，一個參數(shù)是由單精度浮點數(shù)來表示的，參數(shù)的二值化能將存儲開銷降低為原來的 1/32。

2. 二值化神經(jīng)網(wǎng)絡(luò)以其高的模型壓縮率和在前傳中計算速度上的優(yōu)勢，近幾年格外受到重視和發(fā)展，成為神經(jīng)網(wǎng)絡(luò)模型研究中的非常熱門的一個研究方向。但是，第一篇真正意義上將神經(jīng)網(wǎng)絡(luò)中的權(quán)重值和激活函數(shù)值同時做到二值化的是 Courbariaux 等人 2016 年發(fā)表的名為《Binarynet: Training deep neural networks with weights and activations constrained to +1 or -1》的一篇論文。這篇論文第一次給出了關(guān)于如何對網(wǎng)絡(luò)進(jìn)行二值化和如何訓(xùn)練二值化神經(jīng)網(wǎng)絡(luò)的方法。

3. CNN 網(wǎng)絡(luò)一個典型的模塊是由卷積(Conv)->批標(biāo)準(zhǔn)化(BNorm)->激活(Activ)->池化(Pool)這樣的順序操作組成的。對于異或神經(jīng)網(wǎng)絡(luò)，設(shè)計出的模塊是由批標(biāo)準(zhǔn)化(BNorm)->二值化激活(BinActiv)->二值化卷積(BinConv)->池化(Pool)的順序操作完成。這樣做的原因是批標(biāo)準(zhǔn)化以后，保證了輸入均值為 0，然后進(jìn)行二值化激活，保證了數(shù)據(jù)為 -1 或者 +1，然后進(jìn)行二值化卷積，這樣能最大程度上減少特征信息的損失。二值化殘差網(wǎng)絡(luò)結(jié)構(gòu)定義實例代碼如下：


def residual_unit(data, num_filter, stride, dim_match, num_bits=1):    """殘差塊 Residual Block 定義    """    bnAct1 = bnn.BatchNorm(data=data, num_bits=num_bits)    conv1 = bnn.Convolution(data=bnAct1, num_filter=num_filter, kernel=(3, 3), stride=stride, pad=(1, 1))    convBn1 = bnn.BatchNorm(data=conv1, num_bits=num_bits)    conv2 = bnn.Convolution(data=convBn1, num_filter=num_filter, kernel=(3, 3), stride=(1, 1), pad=(1, 1))    if dim_match:        shortcut = data    else:        shortcut = bnn.Convolution(data=bnAct1, num_filter=num_filter, kernel=(3, 3), stride=stride, pad=(1, 1))    return conv2 + shortcut

4.1，二值網(wǎng)絡(luò)的梯度下降

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)幾乎都是基于梯度下降算法來訓(xùn)練的，但是二值網(wǎng)絡(luò)的權(quán)重只有

\pm 1

，無法直接計算梯度信息，也無法進(jìn)行權(quán)重更新。為解決這個問題，Courbariaux 等人提出二值連接（binary connect）算法，該算法采取單精度與二值結(jié)合的方式來訓(xùn)練二值神經(jīng)網(wǎng)絡(luò)（），這是第一次給出了關(guān)于如何對網(wǎng)絡(luò)進(jìn)行二值化和如何訓(xùn)練二值化神經(jīng)網(wǎng)絡(luò)的方法。過程如下：

1. 權(quán)重 weight 初始化為浮點

2. 前向傳播 Forward Pass:

利用決定化方式（sign(x)函數(shù)）把 Weight 量化為 +1/-1, 以0為閾值
利用量化后的 Weight (只有+1/-1)來計算前向傳播，由二值權(quán)重與輸入進(jìn)行卷積運算（實際上只涉及加法），獲得卷積層輸出。
反向傳播 Backward Pass:
把梯度更新到浮點的 Weight 上（根據(jù)放松后的符號函數(shù)，計算相應(yīng)梯度值，并根據(jù)該梯度的值對單精度的權(quán)重進(jìn)行參數(shù)更新）
訓(xùn)練結(jié)束：把 Weight 永久性轉(zhuǎn)化為 +1/-1, 以便 inference 使用

4.2，兩個問題

網(wǎng)絡(luò)二值化需要解決兩個問題：如何對權(quán)重進(jìn)行二值化和如何計算二值權(quán)重的梯度。

1，如何對權(quán)重進(jìn)行二值化？

權(quán)重二值化一般有兩種選擇：

直接根據(jù)權(quán)重的正負(fù)進(jìn)行二值化：。符號函數(shù) sign(x) 定義如下：

進(jìn)行隨機(jī)的二值化，即對每一個權(quán)重，以一定概率取。

2，如何計算二值權(quán)重的梯度？

二值權(quán)重的梯度為0，無法進(jìn)行參數(shù)更新。為解決這個問題，需要對符號函數(shù)進(jìn)行放松，即用

來代替

。當(dāng) x 在區(qū)間 [-1,1] 時，存在梯度值 1，否則梯度為 0 。

4.3，二值連接算法改進(jìn)

之前的二值連接算法只對權(quán)重進(jìn)行了二值化，但是網(wǎng)絡(luò)的中間輸出值依然是單精度的，于是 Rastegari 等人對此進(jìn)行了改進(jìn)，提出用單精度對角陣與二值矩陣之積來近似表示原矩陣的算法，以提升二值網(wǎng)絡(luò)的分類性能，彌補二值網(wǎng)絡(luò)在精度上弱勢。該算法將原卷積運算分解為如下過程：

其中

為該層的輸入張量，

為該層的一個濾波器，

為該濾波器所對應(yīng)的二值權(quán)重。

這里，Rastegari 等人認(rèn)為單靠二值運算，很難達(dá)到原單精度卷積元素的結(jié)果，于是他們使用了一個單精度放縮因子

來對二值濾波器卷積后的結(jié)果進(jìn)行放縮。而

的取值，則可根據(jù)優(yōu)化目標(biāo)：

得到

。二值連接改進(jìn)的算法訓(xùn)練過程與之前的算法大致相同，不同的地方在于梯度的計算過程還考慮了

的影響。由于

這個單精度的縮放因子的存在，有效降低了重構(gòu)誤差，并首次在 ImageNet 數(shù)據(jù)集上取得了與 Alex-Net 相當(dāng)?shù)木取Ｈ缦聢D所示：

可以看到的是權(quán)重二值化神經(jīng)網(wǎng)絡(luò)（BWN）和全精度神經(jīng)網(wǎng)絡(luò)的精確度幾乎一樣，但是與異或神經(jīng)網(wǎng)絡(luò)（XNOR-Net）相比而言，Top-1 和 Top-5 都有 10+% 的損失。

相比于權(quán)重二值化神經(jīng)網(wǎng)絡(luò)，異或神經(jīng)網(wǎng)絡(luò)將網(wǎng)絡(luò)的輸入也轉(zhuǎn)化為二進(jìn)制值，所以，異或神經(jīng)網(wǎng)絡(luò)中的乘法加法 (Multiplication and ACcumulation) 運算用按位異或 (bitwise xnor) 和數(shù) 1 的個數(shù) (popcount) 來代替。

更多內(nèi)容，可以看這兩篇文章：

https://github.com/Ewenwan/MVision/tree/master/CNN/Deep_Compression/quantization/BNN

https://blog.csdn.net/stdcoutzyx/article/details/50926174

4.4，二值網(wǎng)絡(luò)設(shè)計注意事項

不要使用 kernel = (1, 1) 的 Convolution （包括 resnet 的 bottleneck）：二值網(wǎng)絡(luò)中的 weight 都為 1bit，如果再是 1x1 大小，會極大地降低表達(dá)能力
增大 Channel 數(shù)目 + 增大 activation bit 數(shù) 要協(xié)同配合：如果一味增大 channel 數(shù)，最終 feature map 因為 bit 數(shù)過低，還是浪費了模型容量。同理反過來也是。
建議使用 4bit 及以下的 activation bit，過高帶來的精度收益變小，而會顯著提高 inference 計算量

知識蒸餾

本文只簡單介紹這個領(lǐng)域的開篇之作-Distilling the Knowledge in a Neural Network，這是蒸 "logits"方法，后面還出現(xiàn)了蒸 "features" 的論文。想要更深入理解，中文博客可參考這篇文章-知識蒸餾是什么？一份入門隨筆(https://zhuanlan.zhihu.com/p/90049906)。

知識蒸餾（knowledge distillation）(https://arxiv.org/abs/1503.02531)，是遷移學(xué)習(xí)（transfer learning）的一種，簡單來說就是訓(xùn)練一個大模型（teacher）和一個小模型（student），將龐大而復(fù)雜的大模型學(xué)習(xí)到的知識，通過一定技術(shù)手段遷移到精簡的小模型上，從而使小模型能夠獲得與大模型相近的性能。

在知識蒸餾的實驗中，我們先訓(xùn)練好一個 teacher 網(wǎng)絡(luò)，然后將 teacher 的網(wǎng)絡(luò)的輸出結(jié)果作為 student 網(wǎng)絡(luò)的目標(biāo)，訓(xùn)練 student 網(wǎng)絡(luò)，使得 student 網(wǎng)絡(luò)的結(jié)果接近，因此，student 網(wǎng)絡(luò)的損失函數(shù)為。這里 CE 是交叉熵（Cross Entropy），是真實標(biāo)簽的 onehot 編碼，是 teacher 網(wǎng)絡(luò)的輸出結(jié)果，是 student 網(wǎng)絡(luò)的輸出結(jié)果。

但是，直接使用 teacher 網(wǎng)絡(luò)的 softmax 的輸出結(jié)果 q，可能不大合適。因此，一個網(wǎng)絡(luò)訓(xùn)練好之后，對于正確的答案會有一個很高的置信度。例如，在 MNIST 數(shù)據(jù)中，對于某個 2 的輸入，對于 2 的預(yù)測概率會很高，而對于 2 類似的數(shù)字，例如 3 和 7 的預(yù)測概率為 10?6 和 10?9。這樣的話，teacher 網(wǎng)絡(luò)學(xué)到數(shù)據(jù)的相似信息（例如數(shù)字 2 和 3，7 很類似）很難傳達(dá)給 student 網(wǎng)絡(luò)，因為它們的概率值接近0。因此，論文提出了 softmax-T(軟標(biāo)簽計算公式)公式，如下所示：

這里是 student 網(wǎng)絡(luò)學(xué)習(xí)的對象（soft targets），是 teacher 網(wǎng)絡(luò) softmax 前一層的輸出 logit。如果將取 1，上述公式變成 softmax，根據(jù) logit 輸出各個類別的概率。如果接近于 0，則最大的值會越近 1，其它值會接近 0，近似于 onehot 編碼。

所以，可以知道 student 模型最終的損失函數(shù)由兩部分組成：

第一項是由小模型(student 模型)的預(yù)測結(jié)果與大模型的“軟標(biāo)簽”所構(gòu)成的交叉熵（cross entroy）;
第二項為小模型預(yù)測結(jié)果與普通類別標(biāo)簽的交叉熵。

這兩個損失函數(shù)的重要程度可通過一定的權(quán)重進(jìn)行調(diào)節(jié)，在實際應(yīng)用中， T 的取值會影響最終的結(jié)果，一般而言，較大的 T 能夠獲得較高的準(zhǔn)確度，T（蒸餾溫度參數(shù)）屬于知識蒸餾模型訓(xùn)練超參數(shù)的一種。T 是一個可調(diào)節(jié)的超參數(shù)、T 值越大、概率分布越軟（論文中的描述），曲線便越平滑，相當(dāng)于在遷移學(xué)習(xí)的過程中添加了擾動，從而使得學(xué)生網(wǎng)絡(luò)在借鑒學(xué)習(xí)的時候更有效、泛化能力更強，這其實就是一種抑制過擬合的策略。知識蒸餾的整個過程如下圖：

student 模型的實際模型結(jié)構(gòu)和小模型一樣，但是損失函數(shù)包含了兩部分，分類網(wǎng)絡(luò)的知識蒸餾 mxnet 代碼示例如下：


# -*-coding-*-  : utf-8  """本程序沒有給出具體的模型結(jié)構(gòu)代碼，主要給出了知識蒸餾 softmax 損失計算部分。"""import mxnet as mx
def get_symbol(data, class_labels, resnet_layer_num,Temperature,mimic_weight,num_classes=2):    backbone = StudentBackbone(data)  # Backbone 為分類網(wǎng)絡(luò) backbone 類    flatten = mx.symbol.Flatten(data=conv1, name="flatten")    fc_class_score_s = mx.symbol.FullyConnected(data=flatten, num_hidden=num_classes, name='fc_class_score')    softmax1 = mx.symbol.SoftmaxOutput(data=fc_class_score_s, label=class_labels, name='softmax_hard')
    import symbol_resnet  # Teacher model    fc_class_score_t = symbol_resnet.get_symbol(net_depth=resnet_layer_num, num_class=num_classes, data=data)
    s_input_for_softmax=fc_class_score_s/Temperature    t_input_for_softmax=fc_class_score_t/Temperature
    t_soft_labels=mx.symbol.softmax(t_input_for_softmax, name='teacher_soft_labels')    softmax2 = mx.symbol.SoftmaxOutput(data=s_input_for_softmax, label=t_soft_labels, name='softmax_soft',grad_scale=mimic_weight)    group=mx.symbol.Group([softmax1,softmax2])    group.save('group2-symbol.json')
    return group

tensorflow代碼示例如下：

# 將類別標(biāo)簽進(jìn)行one-hot編碼one_hot = tf.one_hot(y, n_classes,1.0,0.0) # n_classes為類別總數(shù), n為類別標(biāo)簽# one_hot = tf.cast(one_hot_int, tf.float32)teacher_tau = tf.scalar_mul(1.0/args.tau, teacher) # teacher為teacher模型直接輸出張量, tau為溫度系數(shù)Tstudent_tau = tf.scalar_mul(1.0/args.tau, student) # 將模型直接輸出logits張量student處于溫度系數(shù)Tobjective1 = tf.nn.sigmoid_cross_entropy_with_logits(student_tau, one_hot)objective2 = tf.scalar_mul(0.5, tf.square(student_tau-teacher_tau))"""student模型最終的損失函數(shù)由兩部分組成：第一項是由小模型的預(yù)測結(jié)果與大模型的“軟標(biāo)簽”所構(gòu)成的交叉熵（cross entroy）;第二項為預(yù)測結(jié)果與普通類別標(biāo)簽的交叉熵。"""tf_loss = (args.lamda*tf.reduce_sum(objective1) + (1-args.lamda)*tf.reduce_sum(objective2))/batch_size

tf.scalar_mul 函數(shù)為對 tf 張量進(jìn)行固定倍率 scalar 縮放函數(shù)。一般 T 的取值在 1 - 20 之間，這里我參考了開源代碼，取值為 3。我發(fā)現(xiàn)在開源代碼中 student 模型的訓(xùn)練，有些是和 teacher 模型一起訓(xùn)練的，有些是 teacher 模型訓(xùn)練好后直接指導(dǎo) student 模型訓(xùn)練。

淺層/輕量網(wǎng)絡(luò)

淺層網(wǎng)絡(luò)：通過設(shè)計一個更淺（層數(shù)較少）結(jié)構(gòu)更緊湊的網(wǎng)絡(luò)來實現(xiàn)對復(fù)雜模型效果的逼近, 但是淺層網(wǎng)絡(luò)的表達(dá)能力很難與深層網(wǎng)絡(luò)相匹敵。因此，這種設(shè)計方法的局限性在于只能應(yīng)用解決在較為簡單問題上。如分類問題中類別數(shù)較少的 task。

輕量網(wǎng)絡(luò)：使用如 MobilenetV2、ShuffleNetv2 等輕量網(wǎng)絡(luò)結(jié)構(gòu)作為模型的 backbone可以大幅減少模型參數(shù)數(shù)量。

參考資料

1. https://www.cnblogs.com/dyl222/p/11079489.html

2.https://github.com/chengshengchan/model_compression/blob/master/teacher-student.py

3. https://github.com/dkozlov/awesome-knowledge-distillation

4. https://arxiv.org/abs/1603.05279

5. 解析卷積神經(jīng)網(wǎng)絡(luò)-深度學(xué)習(xí)實踐手冊

6. https://zhuanlan.zhihu.com/p/81467832

END

雙一流大學(xué)研究生團(tuán)隊創(chuàng)建，專注于目標(biāo)檢測與深度學(xué)習(xí)，希望可以將分享變成一種習(xí)慣！

整理不易，點贊支持一下吧↓

（附代碼）卷積網(wǎng)絡(luò)壓縮方法總結(jié)