比較全面的L1和L2正則化的解釋
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉(zhuǎn)自|機器學習算法那些事
前言
前段時間寫了一篇文章《深入理解線性回歸算法(二):正則項的詳細分析》,文章提到L1是通過稀疏參數(shù)(減少參數(shù)的數(shù)量)來降低復雜度,L2是通過減小參數(shù)值的大小來降低復雜度。網(wǎng)上關于L1和L2正則化降低復雜度的解釋五花八門,易讓人混淆,看完各種版本的解釋后過幾天又全部忘記了。因此,文章的內(nèi)容總結(jié)了網(wǎng)上各種版本的解釋,并加上了自己的理解,希望對大家有所幫助。
目錄
1、優(yōu)化角度分析
2、梯度角度分析
3、先驗概率角度分析
4、知乎點贊最多的圖形角度分析
5、限制條件角度分析
6.、PRML的圖形角度分析
7、總結(jié)

1、L2正則化的優(yōu)化角度分析

在限定的區(qū)域,找到使
最小的值。
圖形表示為:

上圖所示,紅色實線是正則項區(qū)域的邊界,藍色實線是
的等高線,越靠里的等高圓,
越小,梯度的反方向是
減小最大的方向,用
表示,正則項邊界的法向量用實黑色箭頭表示。
正則項邊界在點P1的切向量有
負梯度方向的分量,所以該點會有往相鄰的等高虛線圓運動的趨勢;當P1點移動到P2點,正則項邊界在點P2的切向量與
梯度方向的向量垂直,即該點沒有往負梯度方向運動的趨勢;所以P2點是
最小的點。
結(jié)論:L2正則化項使
值最小時對應的參數(shù)變小。
2、L1正則化的優(yōu)化角度分析

在限定的區(qū)域,找到使
最小的值。

結(jié)論:如上圖,因為切向量始終指向w2軸,所以L1正則化容易使參數(shù)為0,即特征稀疏化。
1、L1正則化
L1正則化的損失函數(shù)為:

上式可知,當w大于0時,更新的參數(shù)w變?。划攚小于0時,更新的參數(shù)w變大;所以,L1正則化容易使參數(shù)變?yōu)?,即特征稀疏化。
2、L2正則化
L2正則化的損失函數(shù)為:

由上式可知,正則化的更新參數(shù)相比于未含正則項的更新參數(shù)多了
項,當w趨向于0時,參數(shù)減小的非常緩慢,因此L2正則化使參數(shù)減小到很小的范圍,但不為0。
文章《深入理解線性回歸算法(二):正則項的詳細分析》提到,當先驗分布是拉普拉斯分布時,正則化項為L1范數(shù);當先驗分布是高斯分布時,正則化項為L2范數(shù)。本節(jié)通過先驗分布來推斷L1正則化和L2正則化的性質(zhì)。
畫高斯分布和拉普拉斯分布圖(來自知乎某網(wǎng)友):

由上圖可知,拉普拉斯分布在參數(shù)w=0點的概率最高,因此L1正則化相比于L2正則化更容易使參數(shù)為0;高斯分布在零附近的概率較大,因此L2正則化相比于L1正則化更容易使參數(shù)分布在一個很小的范圍內(nèi)。
函數(shù)極值的判斷定理:
(1)當該點導數(shù)存在,且該導數(shù)等于零時,則該點為極值點;
(2)當該點導數(shù)不存在,左導數(shù)和右導數(shù)的符號相異時,則該點為極值點。
如下面兩圖:

左圖對應第一種情況的極值,右圖對應第二種情況的極值。本節(jié)的思想就是用了第二種極值的思想,只要證明參數(shù)w在0附近的左導數(shù)和右導數(shù)符合相異,等價于參數(shù)w在0取得了極值。
圖形角度分析
損失函數(shù)L如下:

黑色點為極值點x1,由極值定義:L'(x1)=0;
含L2正則化的損失函數(shù): 

由結(jié)論可定性的畫含L2正則化的圖:

極值點為黃色點,即正則化L2模型的參數(shù)變小了。
含L1正則化的損失函數(shù):

因此,只要C滿足推論的條件,則損失函數(shù)在0點取極值(粉紅色曲線),即L1正則化模型參數(shù)個數(shù)減少了。

這種思想還是來自知乎的,覺得很有趣,所以就記錄在這篇文章了,思想用到了凸函數(shù)的性質(zhì)。我就直接粘貼這種推導了,若有不懂的地方請微信我。

結(jié)論:含L1正則化的損失函數(shù)在0點取得極值的條件比相應的L2正則化要寬松的多,所以,L1正則化更容易得到稀疏解(w=0)。
因為L1正則化在零點附近具有很明顯的棱角,L2正則化則在零附近比較平緩。所以L1正則化更容易使參數(shù)為零,L2正則化則減小參數(shù)值,如下圖。

(1)L1正則化使參數(shù)為零 (2)L2正則化使參數(shù)減小
本文總結(jié)了自己在網(wǎng)上看到的各種角度分析L1正則化和L2正則化降低復雜度的問題,希望這篇文章能夠給大家平時在檢索相關問題時帶來一點幫助。若有更好的想法,期待您的精彩回復,文章若有不足之處,歡迎更正指出。
參考:
https://www.zhihu.com/question/37096933
林軒田老師 《機器學習基石》
好消息,小白學視覺團隊的知識星球開通啦,為了感謝大家的支持與厚愛,團隊決定將價值149元的知識星球現(xiàn)時免費加入。各位小伙伴們要抓住機會哦!

交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

