偏差和方差的理解
偏差和方差理解
機器學(xué)習(xí)中泛化誤差可以分解為三個部分,偏差(Variance)、方差(bias)和噪音(noise),在提升算法的性能過程中,我們主要專注偏差和方差,因為噪聲屬于不可約減的誤差。了解導(dǎo)致偏差(bias)和方差(Variance)的不同誤差源有助于我們改進數(shù)據(jù)的擬合過程,從而產(chǎn)生更準(zhǔn)確的模型。
1、公式及概念理解:
| 符號 | 定義 |
|---|---|
| x | 測試樣本 |
| D | 數(shù)據(jù)集 |
| yD | X在數(shù)據(jù)集中的標(biāo)記 |
| y | x的真實標(biāo)記 |
| f | 訓(xùn)練集D學(xué)的的模型 |
| f(x;D) | 訓(xùn)練集學(xué)得的模型對x的預(yù)測 |
模型f對x的期望預(yù)測為:
?
偏差:度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度,刻畫了學(xué)習(xí)算法本身的擬合能力,偏差越大,越偏離真實數(shù)據(jù)。
?
? ??
方差:方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動所造成的影響,簡單來講就是預(yù)測值的變化范圍,和真實值無關(guān),也就是他們的離散程度。方差越大,離散程度越大,數(shù)據(jù)的分布越分散。
?
噪聲:噪聲則表達了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問題本身的難度。
?
2、圖形理解
假設(shè)靶心分布的紅色區(qū)域是正確值,藍色點是訓(xùn)練集訓(xùn)練出來的模型對樣本的預(yù)測值:
左一圖片藍色點分布集中且均在紅色區(qū)域內(nèi),代表的是低方差、低偏差類型;
右一圖片藍色點比較分散,方差大,靠近靶心,偏差小,代表的是高方差、低偏差類型,方差大的模型,往往是從訓(xùn)練集里學(xué)了太多東西,所以導(dǎo)致在測試集的表現(xiàn)時好時壞,預(yù)測值的數(shù)據(jù)分布就離散了,方差也就大了,屬于過擬合;
左一圖片藍色點分布集中,偏離紅色靶心區(qū)域,代表的是低方差、高偏差類型,偏差大的模型,它通常不怎么從訓(xùn)練集里學(xué)習(xí)到東西,導(dǎo)致模型過于簡單,自然在預(yù)測測試集的時候,效果不好,屬于欠擬合;
右一圖片藍色點分布分散,偏離紅色靶心區(qū)域,代表的是高方差、高偏差類型。
如何解決高偏差和高方差?
高偏差:增加更多的特征,提升模型復(fù)雜度;減少正則化程度;
高方差:增加訓(xùn)練樣本數(shù)據(jù);減少特征數(shù)量;增加正則化程度。
