干貨|深度學(xué)習(xí)之過擬合和正則化
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
一、過擬合,欠擬合
過擬合(overfitting):學(xué)習(xí)能力過強(qiáng),以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了。
欠擬合(underfitting):學(xué)習(xí)能太差,訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。
下面是直觀解釋:

下面在那一個(gè)具體的例子:如果我們有6個(gè)數(shù)據(jù),我們選擇用怎么樣的回歸曲線對它擬合呢?看下圖

可以發(fā)現(xiàn)得到的直線
并不能較為準(zhǔn)確的描述訓(xùn)練數(shù)據(jù)的形態(tài),我們說這不是一個(gè)良好的擬合,這也叫做欠擬合如果我們再加入一個(gè)特征值
,得到
于是我們得到二階多項(xiàng)式,一個(gè)稍好的擬合。最后我們直接用五階多項(xiàng)式去擬合,發(fā)現(xiàn)對于訓(xùn)練樣本可以很好的擬合,但是這樣的模型對預(yù)測往往效果不是非常好,這叫做過擬合(overfitting)。
在這里我們可以發(fā)現(xiàn),原來過擬合和欠擬合和模型復(fù)雜度是相關(guān)的,具體描述如下圖

也就是說,在模型相對復(fù)雜時(shí),更容易發(fā)生過擬合,當(dāng)模型過于簡單時(shí),更容易發(fā)生欠擬合。
當(dāng)然,為了防止過擬合,也會(huì)有cross validation,正則化等等方法,以后會(huì)一一介紹。
二、正則化
正則化的主要目的是為了防止過擬合,而它的本質(zhì)是約束(限制)要優(yōu)化的參數(shù)。通常我們通過在Cost function誤差函數(shù)中添加懲罰項(xiàng)來實(shí)現(xiàn)正則化。當(dāng)然,正則化有其缺點(diǎn),那就是引入正則化可能會(huì)引起“too much regularization”而產(chǎn)生誤差。
問:對于正則化,有使模型“簡單”的優(yōu)點(diǎn),這其中”簡單”怎么理解?
答:引用李航老師書中的那段話:正則化符合奧卡姆剃刀 (Occam’s razor)原理。奧卡姆剃刀原理應(yīng)用于模型選擇時(shí)變?yōu)橐韵孪敕ǎ涸谒锌赡苓x擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型,也就是應(yīng) 該選擇的模型。從貝葉斯估計(jì)的角度來看,正則化項(xiàng)對應(yīng)于模型的先驗(yàn)概率??梢约僭O(shè)復(fù)雜的模型有較大的先驗(yàn)概率,簡單的模型有較小的先驗(yàn)概率。
需要注意的是,在正則化的時(shí)候,bais是不需要正則化的,不然可能會(huì)導(dǎo)致欠擬合!
下面介紹一些常見的正則化方式:

L1,L2的圖像化:



L2 針對于這種變動(dòng), 白點(diǎn)的移動(dòng)不會(huì)太大, 而 L1的白點(diǎn)則可能跳到許多不同的地方 , 因?yàn)檫@些地方的總誤差都是差不多的. 側(cè)面說明了 L1 解的不穩(wěn)定性。
注意記住:L1正則化會(huì)讓權(quán)重向量在最優(yōu)化的過程中變得稀疏(即非常接近0),使得L1很多時(shí)候也拿來做特征選擇;L2正則化可以直觀理解為它對于大數(shù)值的權(quán)重向量進(jìn)行嚴(yán)厲懲罰,傾向于更加分散的權(quán)重向量。
最大范式約束(Max norm constraints):另一種形式的正則化是給每個(gè)神經(jīng)元中權(quán)重向量的量級(jí)設(shè)定上限,并使用投影梯度下降來確保這一約束。在實(shí)踐中,與之對應(yīng)的是參數(shù)更新方式不變,然后要求神經(jīng)元中的權(quán)重向量
必須滿足
這一條件,一般c值為3或者4。有研究者發(fā)文稱在使用這種正則化方法時(shí)效果更好。這種正則化還有一個(gè)良好的性質(zhì),即使在學(xué)習(xí)率設(shè)置過高的時(shí)候,網(wǎng)絡(luò)中也不會(huì)出現(xiàn)數(shù)值“爆炸”,這是因?yàn)樗膮?shù)更新始終是被限制著的。
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會(huì)逐漸細(xì)分),請掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會(huì)請出群,謝謝理解~

