全網(wǎng)搜集目標檢測文章，人工篩選最優(yōu)價值內(nèi)容

編者薦語

深度學習的效果很大程度上取決于參數(shù)調(diào)節(jié)的好壞，那么怎樣才能最快最好的調(diào)到合適的參數(shù)呢？看看知乎大佬們是如何回答的。

轉(zhuǎn)載自 | 視覺算法

高質(zhì)量回答

Jarvix

https://www.zhihu.com/question/25097993/answer/153674495

著作權歸作者所有。

只想說一句：初始化

一次慘痛的教訓是用normal初始化cnn的參數(shù)，最后acc只能到70%多，僅僅改成xavier，acc可以到98%。

還有一次給word embedding初始化，最開始使用了TensorFlow中默認的initializer（即glorot_uniform_initializer，也就是大家經(jīng)常說的無腦使用xavier），訓練速度慢不說，結果也不好。改為uniform，訓練速度飆升，結果也飆升。

所以，初始化就跟黑科技一樣，用對了超參都不用調(diào)；沒用對，跑出來的結果就跟模型有bug一樣不忍直視。

BBuf

https://www.zhihu.com/question/25097993/answer/934100939

著作權歸作者所有。

大概調(diào)了快一年CNN(2019年1月到今天)，看到這個話題挺感興趣的，以下是我的總結

做工程

卷積是CNN的主流組件。平時有設計一些解決分類，回歸任務的網(wǎng)絡，里面的卷積核基本都設置為，要說原因的話應該去問問VGG16吧。兩個的卷積核堆疊能獲得卷積核的感受野并且參數(shù)比卷積核少，所以是大量推薦使用的。

可以適當使用卷積。為什么要提這一點呢，這是因為卷積可以減少計算量，并且卷積可以在某個方向強調(diào)感受野，也就是說假如如果你要對一個長方形形狀的目標進行分類，你可以使用的卷積核搭配的卷積核對長邊方向設定更大的感受野，或許可以獲得泛化性能的提升。

ACNet結構。這個研究來自于ICCV2019，可以在卷積的基礎上加上和的旁路卷積核，最后在推理階段把三個卷積核都fusion到卷積核上，在許多經(jīng)典CV任務上都可以獲得大概1個點的提升。大家可以看看這篇文章解讀：3*3卷積+1*3卷積+3*1卷積=白給的精度提升

卷積核權重初始化方式。對于weight的初始化我一般都是使用xavier初始化。當然也可以可以嘗試何凱明大神的He初始化。對于bias的初始化全置于0。

Batch Normalization。這是我一直在使用的技巧，可以很大程度的加快收斂速度。建議搭建自己網(wǎng)絡的時候盡量加上BN，如果有BN了全連接層就沒必要加Dropout了。

目標檢測不能盲目去掉fpn結構。在針對自己的數(shù)據(jù)調(diào)檢測任務如yolov3的時候不能盲目砍掉fpn結構，盡管你分析出某個分支的Anchor基本不可能會對你預測的目標起作用，但如果你直接去掉分支很可能會帶來漏檢。

優(yōu)化器的選擇。我基本都是帶動量的SGD。如果優(yōu)化不動可以試試Adam。

激活函數(shù)。可以先用ReLU做一版，如果想再提升精度可以將ReLU改成PReLU試試。我更傾向于直接使用ReLU。

batch_size：在不同類型的任務中，batch_size的影響也不同，大家可以看看這篇batch_size對模型性能影響的文章，來自公眾號AI開發(fā)者。Batch_size是怎么影響模型性能的

初始學習率。一般我是從0.01開始設置，我個人認為這個學習率和學習率衰減策略是相關的，但不宜設置的過大過小，0.01和0.1應該是比較常用的。學習率衰減策略我一般使用multistep方式，step_size的設置要看視你的的max_iter而定。

數(shù)據(jù)與處理之zero-center。第一次見到這個詞是在看cs231n的視頻上。主要有2個步驟，第一個是減均值，第二個是除以方差。這樣做下來最后的輸入是滿足均值為0方差為1的概率分布的，一般減均值是最常用的，后面的除以方差用不用可能需要自己動手試驗一下看看效果。

殘差結構和密集連接。resnet的殘差結構和dense net密集連接結構，做工程的時候考慮到速度近乎不可能說完全使用完整版本的resnet和densenet的完整結構，但我們可以自己動手將我們網(wǎng)絡的某些模塊替換為殘差結構和密集連接，替換的時候可以適當降低這倆結構的復雜度，類似于通道數(shù)減半，密集連接中只保留一半連接等等。這里需要做一些消融實驗來驗證改進后的精度。

關于loss。優(yōu)秀的loss一般是對模型的泛化性能有所改善的，但在用loss的時候往往并不是直接替換loss那么簡單，需要仔細思考loss背后的數(shù)學原理，要用對地方才可有提升。例如，如何將Focal Loss用到YOLOv3中提升map，大家可以看看這個帖子。https://www.zhihu.com/question/293369755。

找到模型調(diào)參時的可靠評價指標。在調(diào)整參數(shù)訓練模型時一定要找到正確的評價指標，沒調(diào)整一個參數(shù)就要記錄一下模型的評價指標如準確率，map值，miou值等。并且在調(diào)參時建議將調(diào)整的參數(shù)和在測試集上的精度組合成一個字符串給模型重命令，方便之后快速review。

使用了帶backbone的網(wǎng)絡，如訓練VGG16-SSD建議選擇finetune的方式，從頭訓練不僅費時費力，甚至難以收斂。

在做分割實驗的時候我發(fā)現(xiàn)用upsamling 加1*1卷積代替反卷積做上采樣得到的結果更平滑，并且miou差距不大，所以我認為這兩者都是都可以使用的。

一些Anchor-based目標檢測算法為了提高精度，都是瘋狂給框，ap值確實上去了，但也導致了fp會很多，并且這部分fp沒有回歸，在nms階段也濾不掉。相比于ap提升而言，工程上減少fp更加重要。Gaussian yolov3的fp相比于yolov3會減少40％，Anchor-free算法暫時接觸得不多，就不太了解了。

做比賽

特征提取。VGG16，VGG19，ResNet50，Xception是非常好用的幾個特征提取模型。建議使用訓練好的經(jīng)典模型對數(shù)據(jù)集提取特征向量存儲到本地，更方便使用，同時可以大幅度降低顯存消耗。

ensemble：

將不同的經(jīng)典網(wǎng)絡提取出的特征向量，假設VGG16提取出的特征向量維度是[N,c1],ResNet50提取的特征向量維度是[N，c2],Xception提取的特征向量維度是[N, c3]，那么我們可以使用三個系數(shù)a、b、c將其組合為形狀為[N, a*c1+b*c2+c*c3]，其中a、b、c三個參數(shù)的取值代表我們使用哪個模型的特征多一些，如果是分類回歸比賽，我們在后面接特征處理網(wǎng)絡就可以了。可以取不同的a、b、c得到不同的特征，然后對結果做voting，soft-voting等多種處理，一般結果不會太差啦。
可以使用不同的初始化方式訓練出模型，然后做ensemble。
可以使用用不同超參數(shù)(如學習率，batch_size，優(yōu)化器)訓練出不同模型，然后做ensemble。

因為我就做了一點點入門級比賽，上面介紹的方法取得了還不錯的結果，所以我就在這里獻丑啦，方法確實挺無腦的，大家笑一笑就好啦。繼續(xù)想了下，我好像除了這些有接觸或者使用到，暫時沒有什么其它的了，如果想起其他的了，之后補充下。

Captain Jack

https://www.zhihu.com/question/25097993/answer/127472322

著作權歸作者所有。

我和@楊軍類似, 也是半路出家. 現(xiàn)在的工作內(nèi)容主要就是使用CNN做CV任務. 干調(diào)參這種活也有兩年時間了. 我的回答可能更多的還是側重工業(yè)應用, 技術上只限制在CNN這塊.

先說下我的觀點, 調(diào)參就是trial-and-error. 沒有其他捷徑可以走. 唯一的區(qū)別是有些人盲目的嘗試, 有些人思考后再嘗試. 快速嘗試, 快速糾錯這是調(diào)參的關鍵.

看了楊軍的回答. 對于這個回答, 下面的評論里面@紀秋佳說的很對. 這個回答主要內(nèi)容更多的是側重理解網(wǎng)絡. 而非訓練網(wǎng)絡.

我要再強調(diào)下, 楊軍的回答更多的涉及是理解網(wǎng)絡而非訓練網(wǎng)絡. 是的, 沒錯. 你看完回答中的所有內(nèi)容, 對不起, 你還是不知道怎么實際訓練一個網(wǎng)絡, 尤其是復雜任務下的網(wǎng)絡(因為簡單任務根本不需要, 直接上來效果就會很好, 除非你要刷簡單任務的排行榜).

首先說下可視化:

我個人的理解, 對于可視化, 更多的還是幫助人類以自己熟悉的方式來觀察網(wǎng)絡. 因為, 你是不可能邊觀察網(wǎng)絡, 還邊調(diào)參的. 你只是訓練完成后(或者準確率到達一個階段后), 才能可視化. 在這之前, 網(wǎng)絡沒有學習到良好的參數(shù), 你可視化了也沒意義, 網(wǎng)絡達到不錯的準確率了, 你看看其實也就聽個響. 同樣, 你的網(wǎng)絡訓練的一塌糊涂, 你可視化也沒什么意義, 唯一能夠看到的就是中間結果亂七八糟, 或者全黑全白, 這時候你直接看最后準確率就可以知道這網(wǎng)絡沒救了.

關于權重的可視化[Visualize Layer Weights](現(xiàn)在是否強求smooth其實意義不大, 這個后面說.):

同樣, 你看到一個不滿足平滑結果的圖像, 你知道, 這網(wǎng)絡訓練的不好, 但是為什么呢? 是數(shù)據(jù)不好? 沒有預處理? 網(wǎng)絡結構問題? Learning Rate太大或者太小? 或者就是差了一個LRN層(之前我就遇到, 加個LRN就能出smooth的weights, 當然這其實和預處理有關)?

Smooth是需要看一下的, 心里有個數(shù). 但是具體調(diào)參怎么調(diào)是沒轍的.第一, 你不可能告訴網(wǎng)絡, 這層你得學個邊界檢測的功能出來. 第二, 不同任務下會有不同的weights(雖然底層的特征有很大的通用性), 你覺得你憑什么來指導一個看圖片比你快得多的機器?

再說現(xiàn)在是否需要強求smooth. 現(xiàn)在的趨勢是鼓勵使用小filter, 3x3大小, 多加層次(這樣, 非線性更好點). 換句話說, 3x3的圖片, 總共才9個像素, 你怎么判斷smooth與否呢? 當然如果你使用大的filter, 一般5x5往上, 運氣不差的話, 你是可以看到smooth的結果的.

咱們再說另外一個極端, 一個網(wǎng)絡,運行的完美(滿足應用要求就算完美), 打開一看, 這weights不smooth啊. 你告訴我, 你打算怎么辦? 沒錯, 具有不平滑的權重的網(wǎng)絡同樣可以獲得很好的結果(這種情況我都習以為常了).

那么可視化網(wǎng)絡就不重要了?

非常重要, 但是不在訓練這塊, 而是幫助理解網(wǎng)絡的原理這塊. 理解網(wǎng)絡原理后, 你才能在設計結構的時候心里有感覺(只是有感覺而已), 網(wǎng)絡出了問題, 或者在某些情況下不滿意, 有更好的直覺去調(diào)整.(沒錯, 只是直覺, 雖然有些情況下的調(diào)整從網(wǎng)絡原理來看邏輯上應該可以工作, 但是人家就是不工作, 你能咬機器去么?)

那么怎樣訓練一個不錯的網(wǎng)絡呢?

這是一個很好的鏈接, 說明了如何從零開始不斷的trial-and-error(其實這里面沒遇到什么error):
Using convolutional neural nets to detect facial keypoints tutorial

========================================================
我自己的經(jīng)驗, 有下面這些:

基本原則:
快速試錯

一些大的注意事項:

1. 剛開始, 先上小規(guī)模數(shù)據(jù), 模型往大了放, 只要不爆顯存, 能用256個filter你就別用128個. 直接奔著過擬合去. 沒錯, 就是訓練過擬合網(wǎng)絡, 連測試集驗證集這些都可以不用.

為什么?

+ 你要驗證自己的訓練腳本的流程對不對. 這一步小數(shù)據(jù)量, 生成速度快, 但是所有的腳本都是和未來大規(guī)模訓練一致的(除了少跑點循環(huán))
+ 如果小數(shù)據(jù)量下, 你這么粗暴的大網(wǎng)絡奔著過擬合去都沒效果. 那么, 你要開始反思自己了, 模型的輸入輸出是不是有問題? 要不要檢查自己的代碼(永遠不要懷疑工具庫, 除非你動過代碼)? 模型解決的問題定義是不是有問題? 你對應用場景的理解是不是有錯? 不要懷疑NN的能力, 不要懷疑NN的能力, 不要懷疑NN的能力. 就我們調(diào)參狗能遇到的問題, NN沒法擬合的, 這概率是有多小?
+ 你可以不這么做, 但是等你數(shù)據(jù)準備了兩天, 結果發(fā)現(xiàn)有問題要重新生成的時候, 你這周時間就醬油了.

2. Loss設計要合理.

+ 一般來說分類就是Softmax, 回歸就是L2的loss. 但是要注意loss的錯誤范圍(主要是回歸), 你預測一個label是10000的值, 模型輸出0, 你算算這loss多大, 這還是單變量的情況下. 一般結果都是nan. 所以不僅僅輸入要做normalization, 輸出也要這么弄.
+ 多任務情況下, 各loss想法限制在一個量級上, 或者最終限制在一個量級上, 初期可以著重一個任務的loss

3. 觀察loss勝于觀察準確率

準確率雖然是評測指標, 但是訓練過程中還是要注意loss的. 你會發(fā)現(xiàn)有些情況下, 準確率是突變的, 原來一直是0, 可能保持上千迭代, 然后突然變1. 要是因為這個你提前中斷訓練了, 只有老天替你惋惜了. 而loss是不會有這么詭異的情況發(fā)生的, 畢竟優(yōu)化目標是loss.

給NN一點時間, 要根據(jù)任務留給NN的學習一定空間. 不能說前面一段時間沒起色就不管了. 有些情況下就是前面一段時間看不出起色, 然后開始穩(wěn)定學習.

4. 確認分類網(wǎng)絡學習充分

分類網(wǎng)絡就是學習類別之間的界限. 你會發(fā)現(xiàn), 網(wǎng)絡就是慢慢的從類別模糊到類別清晰的. 怎么發(fā)現(xiàn)? 看Softmax輸出的概率的分布. 如果是二分類, 你會發(fā)現(xiàn), 剛開始的網(wǎng)絡預測都是在0.5上下, 很模糊. 隨著學習過程, 網(wǎng)絡預測會慢慢的移動到0,1這種極值附近. 所以, 如果你的網(wǎng)絡預測分布靠中間, 再學習學習.

5. Learning Rate設置合理

+ 太大: loss爆炸, 或者nan
+ 太小: 半天loss沒反映(但是, LR需要降低的情況也是這樣, 這里可視化網(wǎng)絡中間結果, 不是weights, 有效果, 倆者可視化結果是不一樣的, 太小的話中間結果有點水波紋或者噪點的樣子, 因為filter學習太慢的原因, 試過就會知道很明顯)
+ 需要進一步降低了: loss在當前LR下一路降了下來, 但是半天不再降了.
+ 如果有個復雜點的任務, 剛開始, 是需要人肉盯著調(diào)LR的. 后面熟悉這個任務網(wǎng)絡學習的特性后, 可以扔一邊跑去了.
+ 如果上面的Loss設計那塊你沒法合理, 初始情況下容易爆, 先上一個小LR保證不爆, 等loss降下來了, 再慢慢升LR, 之后當然還會慢慢再降LR, 雖然這很蛋疼.
+ LR在可以工作的最大值下往小收一收, 免得ReLU把神經(jīng)元弄死了. 當然, 我是個心急的人, 總愛設個大點的.

6 對比訓練集和驗證集的loss

判斷過擬合, 訓練是否足夠, 是否需要early stop的依據(jù), 這都是中規(guī)中矩的原則, 不多說了.

7 清楚receptive field的大小

CV的任務, context window是很重要的. 所以你對自己模型的receptive field的大小要心中有數(shù). 這個對效果的影響還是很顯著的. 特別是用FCN, 大目標需要很大的receptive field. 不像有fully connection的網(wǎng)絡, 好歹有個fc兜底, 全局信息都有.

簡短的注意事項:

預處理: -mean/std zero-center就夠了, PCA, 白化什么的都用不上. 我個人觀點, 反正CNN能學習encoder, PCA用不用其實關系不大, 大不了網(wǎng)絡里面自己學習出來一個.
shuffle, shuffle, shuffle.
網(wǎng)絡原理的理解最重要, CNN的conv這塊, 你得明白sobel算子的邊界檢測.
Dropout, Dropout, Dropout(不僅僅可以防止過擬合, 其實這相當于做人力成本最低的Ensemble, 當然, 訓練起來會比沒有Dropout的要慢一點, 同時網(wǎng)絡參數(shù)你最好相應加一點, 對, 這會再慢一點).
CNN更加適合訓練回答是否的問題, 如果任務比較復雜, 考慮先用分類任務訓練一個模型再finetune.
無腦用ReLU(CV領域).
無腦用3x3.
無腦用xavier.
LRN一類的, 其實可以不用. 不行可以再拿來試試看.
filter數(shù)量2^n.
多尺度的圖片輸入(或者網(wǎng)絡內(nèi)部利用多尺度下的結果)有很好的提升效果.
第一層的filter, 數(shù)量不要太少. 否則根本學不出來(底層特征很重要).
sgd adam 這些選擇上, 看你個人選擇. 一般對網(wǎng)絡不是決定性的. 反正我無腦用sgd + momentum.
batch normalization我一直沒用, 雖然我知道這個很好, 我不用僅僅是因為我懶. 所以要鼓勵使用batch normalization.
不要完全相信論文里面的東西. 結構什么的覺得可能有效果, 可以拿去試試.
你有95%概率不會使用超過40層的模型.
shortcut的聯(lián)接是有作用的.
暴力調(diào)參最可取, 畢竟, 自己的生命最重要. 你調(diào)完這個模型說不定過兩天這模型就扔掉了.
機器, 機器, 機器.
Google的inception論文, 結構要好好看看.
一些傳統(tǒng)的方法, 要稍微了解了解. 我自己的程序就用過1x14的手寫filter, 寫過之后你看看inception里面的1x7, 7x1 就會會心一笑..

隨機漫步的傻瓜

https://www.zhihu.com/question/25097993/answer/951804080

著作權歸作者所有。

1、首先，調(diào)參的時候你要整理好自己的心情。別誤會，我的意思是讓你狂躁一點。因為這玩意有時候的確是個玄學，經(jīng)常調(diào)半天毛用都沒有，然后只是換一個初始值，分分鐘給你干到95%以上。是的，你其實啥也沒做，但大部分時候這玩意兒跟人很像，“出身”很重要。

2、如上所述，好的初始點 + 合適的LR + 好的優(yōu)化方法基本可以解決大部分問題。如果還不行可以考慮換個loss。其它的花樣太多往往很虛。

3、一定要注意實時保存自己的結果，熟悉使用各種seed，養(yǎng)成好的習慣。有時候你覺得一個不太好的結果其實可能是你能調(diào)到的最好的結果了，你也不想因為沒保存的緣故然后回頭發(fā)現(xiàn)再也找不著了的對吧？所謂今天你看我不起，明天我讓你高攀不起。別問我怎么知道的。

4、新手剛上來調(diào)參的時候沒什么經(jīng)驗，所以一定要低調(diào)！啥叫低調(diào)？低調(diào)就是一開始調(diào)的時候千萬別考慮太遠，在能承受的范圍內(nèi)，盡可能先把濾波器搞得多多的，把數(shù)據(jù)搞得少少的，直奔過擬合去！所謂小步試錯，快速迭代，互聯(lián)網(wǎng)公司都是這么干的。雖然過擬合也不好搞，但總歸是有不少套路的，比起過擬合，欠擬合的問題遠遠可怕的多。畢竟結果都訓練不出來還扯什么遠方？

5、有很多無腦的配置確實可以嘗試，比如3x3的卷積核，relu激活函數(shù)，加shuffle，加數(shù)據(jù)增強，加BN，加Dropout等。dropout可以從0. 5往上加，optimizer可以用Adam或者SGD+0.8/0.9的Momentum。大部分時候這些經(jīng)驗比你自己辛苦挑出來的奇技淫巧要有價值的多，但不是絕對的。

6、一定要記得實時打印一些結果，比如訓練loss、訓練accuracy、驗證accuracy，能畫出圖的就畫個圖。一邊看圖一邊可以發(fā)現(xiàn)不少問題，尤其是關于學習率和過擬合的。另外，前面某位大神說的很對，看圖的時候loss要比accuracy有用的多，因為accuracy就像女人一樣經(jīng)常善變，可能下一個step就差很多，而loss畢竟有個相對穩(wěn)定下降的大趨勢。

7、在你夜深人靜的時候，或者不忙的時候，別忘了多想想原理。多研究研究別人的優(yōu)秀結果，尤其是那些成熟的架構、和一些state-of-the-art的結果，自己的數(shù)據(jù)集也可以多翻翻，閑來無事搞點可視化什么的，既鍛煉了技術又能幫助發(fā)現(xiàn)。除了調(diào)參，應用的時候不妨直接把別人的某些層拿過來自己用，能節(jié)省不少時間。

8、最后，什么都不是絕對的。很多原理性的文章，你看看就好。什么東西都是有條件的，離開了這個條件就啥也不是，而恰巧有時候這個條件可能僅僅就是運氣而已。所以萬一復現(xiàn)不出來，別較真，該丟則丟。調(diào)參雖苦，也一定不要忘了同時調(diào)整自己的心態(tài)：多行善事、及時記錄、少吹牛逼、多逛知乎。

京東白條

https://www.zhihu.com/question/25097993/answer/651617880

著作權歸作者所有。

相信很多剛開始接觸深度學習朋友，會感覺深度學習調(diào)參就像玄學一般，有時候參數(shù)調(diào)的好，模型會快速收斂，參數(shù)沒調(diào)好，可能迭代幾次loss值就直接變成Nan了。

記得剛開始研究深度學習時，做過兩個小例子。一個是用tensorflow構建了一個十分簡單的只有一個輸入層和一個softmax輸出層的Mnist手寫識別網(wǎng)絡，第一次我對權重矩陣W和偏置b采用的是正態(tài)分布初始化，一共迭代了20個epoch，當?shù)甑谝粋€epoch時，預測的準確度只有10%左右（和隨機猜一樣，Mnist是一個十分類問題），當?shù)甓畟€epoch，精度也僅僅達到了60%的樣子。

然后我僅僅是將權重矩陣W初始化方法改成了全為0的初始化，其他的參數(shù)均保持不變，結果在訓練完第一個epoch后預測精度就達到了85%以上，最終20個epoch后精度達到92%。另一個例子是回歸問題的預測，當時采用的SGD優(yōu)化器，一開始學習率設定的0.1，模型可以正常訓練，只是訓練速度有些慢，我試著將學習率調(diào)整到0.3，希望可以加速訓練速度，結果沒迭代幾輪loss就變成Nan了。于是從那時起我就深刻的感受到參數(shù)調(diào)節(jié)在深度學習模型訓練中的重要意義。

其實上述問題產(chǎn)生的原因也很好理解，對于參數(shù)初始化，因為我們學習的本來就是權重W與偏置b，如果初始化足夠好，直接就初始化到最優(yōu)解，那都不用進行訓練了。良好的初始化，可以讓參數(shù)更接近最優(yōu)解，這可以大大提高收斂速度，也可以防止落入局部極小。對于學習率，學習率如果取太大，會使模型訓練非常震蕩，可以想象我們最小化一個二次拋物線，選取一個很大的學習率，那么迭代點會一直在拋物線的兩邊震蕩，收斂不到最小值，甚至還有螺旋上升迭代點的可能。

下面對深度學習調(diào)參技巧談些心得，雖說不能讓你通過以下閱讀成為一個調(diào)參高手，但最起碼可以提供一些調(diào)參的思路。

1. 激活函數(shù)選擇：

常用的激活函數(shù)有relu、leaky-relu、sigmoid、tanh等。對于輸出層，多分類任務選用softmax輸出，二分類任務選用sigmoid輸出，回歸任務選用線性輸出。而對于中間隱層，則優(yōu)先選擇relu激活函數(shù)（relu激活函數(shù)可以有效的解決sigmoid和tanh出現(xiàn)的梯度彌散問題，多次實驗表明它會比其他激活函數(shù)以更快的速度收斂）。另外，構建序列神經(jīng)網(wǎng)絡（RNN）時要優(yōu)先選用tanh激活函數(shù)。

2、學習率設定：

一般學習率從0.1或0.01開始嘗試。學習率設置太大會導致訓練十分不穩(wěn)定，甚至出現(xiàn)Nan，設置太小會導致?lián)p失下降太慢。學習率一般要隨著訓練進行衰減。衰減系數(shù)設0.1，0.3，0.5均可，衰減時機，可以是驗證集準確率不再上升時，或固定訓練多少個周期以后自動進行衰減。

3、防止過擬合：

一般常用的防止過擬合方法有使用L1正則項、L2正則項、dropout、提前終止、數(shù)據(jù)集擴充等。如果模型在訓練集上表現(xiàn)比較好但在測試集上表現(xiàn)欠佳可以選擇增大L1或L2正則的懲罰力度（L2正則經(jīng)驗上首選1.0，超過10很少見），或增大dropout的隨機失活概率（經(jīng)驗首選0.5）；或者當隨著訓練的持續(xù)在測試集上不增反降時，使用提前終止訓練的方法。當然最有效的還是增大訓練集的規(guī)模，實在難以獲得新數(shù)據(jù)也可以使用數(shù)據(jù)集增強的方法，比如CV任務可以對數(shù)據(jù)集進行裁剪、翻轉(zhuǎn)、平移等方法進行數(shù)據(jù)集增強，這種方法往往都會提高最后模型的測試精度。

4、優(yōu)化器選擇：

如果數(shù)據(jù)是稀疏的，就用自適應方法，即 Adagrad, Adadelta, RMSprop, Adam。整體來講，Adam 是最好的選擇。SGD 雖然能達到極小值，但是比其它算法用的時間長，而且可能會被困在鞍點。如果需要更快的收斂，或者是訓練更深更復雜的神經(jīng)網(wǎng)絡，需要用一種自適應的算法。

5、殘差塊與BN層：

如果你希望訓練一個更深更復雜的網(wǎng)絡，那么殘差塊絕對是一個重要的組件，它可以讓你的網(wǎng)絡訓練的更深。

BN層具有加速訓練速度，有效防止梯度消失與梯度爆炸，具有防止過擬合的效果，所以構建網(wǎng)絡時最好要加上這個組件。

6.自動調(diào)參方法：

（1）Grid Search：網(wǎng)格搜索，在所有候選的參數(shù)選擇中，通過循環(huán)遍歷，嘗試每一種可能性，表現(xiàn)最好的參數(shù)就是最終的結果。其原理就像是在數(shù)組里找最大值。缺點是太費時間了，特別像神經(jīng)網(wǎng)絡，一般嘗試不了太多的參數(shù)組合。

（2）Random Search：經(jīng)驗上，Random Search比Gird Search更有效。實際操作的時候，一般也是先用Gird Search的方法，得到所有候選參數(shù)，然后每次從中隨機選擇進行訓練。另外Random Search往往會和由粗到細的調(diào)參策略結合使用，即在效果比較好的參數(shù)附近進行更加精細的搜索。

（3）Bayesian Optimization：貝葉斯優(yōu)化，考慮到了不同參數(shù)對應的實驗結果值，因此更節(jié)省時間，貝葉斯調(diào)參比Grid Search迭代次數(shù)少，速度快；而且其針對非凸問題依然穩(wěn)健。

7.參數(shù)隨機初始化與數(shù)據(jù)預處理：

參數(shù)初始化很重要，它決定了模型的訓練速度與是否可以躲開局部極小。relu激活函數(shù)初始化推薦使用He normal，tanh初始化推薦使用Glorot normal，其中Glorot normal也稱作Xavier normal初始化；數(shù)據(jù)預處理方法一般也就采用數(shù)據(jù)歸一化即可。

---END---

雙一流大學研究生團隊創(chuàng)建，一個專注于目標檢測與深度學習的組織，希望可以將分享變成一種習慣。

將「目標檢測與深度學習」設為星標★，并點擊右下角“在看“，解鎖推送限制，第一時間收到我們的分享。

整理不易，點贊三連↓

技巧 | 深度學習的參數(shù)調(diào)節(jié)

做工程

做比賽

將「目標檢測與深度學習」設為星標★，并點擊右下角“在看“，解鎖推送限制，第一時間收到我們的分享。