干貨|對比理解不同概率估計和模型損失函數(shù)
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達
來源:知乎,張小磊
我們這有一個任務(wù),就是根據(jù)已知的一堆數(shù)據(jù)樣本,來推測產(chǎn)生該數(shù)據(jù)的模型的參數(shù),即已知數(shù)據(jù),推測模型和參數(shù)。因此根據(jù)兩大派別的不同,對于模型的參數(shù)估計方法也有兩類:極大似然估計與最大后驗概率估計。
① 極大似然估計(MLE)
-她是頻率學(xué)派模型參數(shù)估計的常用方法。
-顧名思義:似然,可以簡單理解為概率、可能性,也就是說要最大化該事件發(fā)生的可能性
-她的含義是根據(jù)已知樣本,希望通過調(diào)整模型參數(shù)來使得模型能夠最大化樣本情況出現(xiàn)的概率。
- 在這舉個猜黑球的例子:假如一個盒子里面有紅黑共10個球,每次有放回的取出,取了10次,結(jié)果為7次黑球,3次紅球。問拿出黑球的概率
是多少?
我們假設(shè)7次黑球,3次紅球為事件
,一個理所當(dāng)然的想法就是既然事件
已經(jīng)發(fā)生了,那么事件
發(fā)生的概率應(yīng)該最大。所以既然事件
的結(jié)果已定, 我們就有理由相信這不是一個偶然發(fā)生的事件,這個已發(fā)生的事件肯定一定程度上反映了黑球在整體中的比例。所以我們要讓模型產(chǎn)生這個整體事件的概率最大,我們把這十次抽取看成一個整體事件
,很明顯事件
發(fā)生的概率是每個子事件概率之積。我們把
看成一個關(guān)于
的函數(shù),求
取最大值時的
,這就是極大似然估計的思想。具體公式化描述為
接下來就是取對數(shù)轉(zhuǎn)換為累加,然后通過求導(dǎo)令式子為0來求極值,求出p的結(jié)果。

② 最大后驗概率估計(MAP)
-她是貝葉斯派模型參數(shù)估計的常用方法。
-顧名思義:就是最大化在給定數(shù)據(jù)樣本的情況下模型參數(shù)的后驗概率
-她依然是根據(jù)已知樣本,來通過調(diào)整模型參數(shù)使得模型能夠產(chǎn)生該數(shù)據(jù)樣本的概率最大,只不過對于模型參數(shù)有了一個先驗假設(shè),即模型參數(shù)可能滿足某種分布,不再一味地依賴數(shù)據(jù)樣例(萬一數(shù)據(jù)量少或者數(shù)據(jù)不靠譜呢)。
-在這里舉個擲硬幣的例子:拋一枚硬幣10次,有10次正面朝上,0次反面朝上。問正面朝上的概率
。
在頻率學(xué)派來看,利用極大似然估計可以得到
10 / 10 = 1.0。顯然當(dāng)缺乏數(shù)據(jù)時MLE可能會產(chǎn)生嚴(yán)重的偏差。如果我們利用極大后驗概率估計來看這件事,先驗認(rèn)為大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分布),那么
,是一個分布,最大值會介于0.5~1之間,而不是武斷的給出
= 1。顯然,隨著數(shù)據(jù)量的增加,參數(shù)分布會更傾向于向數(shù)據(jù)靠攏,先驗假設(shè)的影響會越來越小
經(jīng)驗風(fēng)險最小化與結(jié)構(gòu)風(fēng)險最小化是對于損失函數(shù)而言的。可以說經(jīng)驗風(fēng)險最小化只側(cè)重訓(xùn)練數(shù)據(jù)集上的損失降到最低;而結(jié)構(gòu)風(fēng)險最小化是在經(jīng)驗風(fēng)險最小化的基礎(chǔ)上約束模型的復(fù)雜度,使其在訓(xùn)練數(shù)據(jù)集的損失降到最低的同時,模型不至于過于復(fù)雜,相當(dāng)于在損失函數(shù)上增加了正則項,防止模型出現(xiàn)過擬合狀態(tài)。這一點也符合奧卡姆剃刀原則:如無必要,勿增實體。
經(jīng)驗風(fēng)險最小化可以看作是采用了極大似然的參數(shù)評估方法,更側(cè)重從數(shù)據(jù)中學(xué)習(xí)模型的潛在參數(shù),而且是只看重數(shù)據(jù)樣本本身。這樣在數(shù)據(jù)樣本缺失的情況下,很容易管中窺豹,模型發(fā)生過擬合的狀態(tài);結(jié)構(gòu)風(fēng)險最小化采用了最大后驗概率估計的思想來推測模型參數(shù),不僅僅是依賴數(shù)據(jù),還依靠模型參數(shù)的先驗假設(shè)。這樣在數(shù)據(jù)樣本不是很充分的情況下,我們可以通過模型參數(shù)的先驗假設(shè),輔助以數(shù)據(jù)樣本,做到盡可能的還原真實模型分布。
① 經(jīng)驗風(fēng)險最小化
-MLE她是經(jīng)驗風(fēng)險最小化的例子。當(dāng)模型是條件概率分布,損失函數(shù)是對數(shù)損失函數(shù)時,經(jīng)驗風(fēng)險最小化就等價于極大似然估計。在這里舉個邏輯回歸(LR)的例子,更多跟LR有聯(lián)系的模型可參看拙作由Logistic Regression所聯(lián)想到的...。
對于二分類的邏輯回歸來說,我們試圖把所有數(shù)據(jù)正確分類,要么0,要么1。
通過累乘每個數(shù)據(jù)樣例來模擬模型產(chǎn)生數(shù)據(jù)的過程,并且最大化
。我們需要通過取對數(shù)來實現(xiàn)概率之積轉(zhuǎn)為概率之和
。我們可以根據(jù)數(shù)據(jù)標(biāo)簽的0、1特性來把上式改為

-這樣,我們通過極大似然來推導(dǎo)出了邏輯回歸的損失函數(shù),同時極大似然是經(jīng)驗風(fēng)險最小化的一個特例。
② 結(jié)構(gòu)風(fēng)險最小化
-MAP她是結(jié)構(gòu)風(fēng)險最小化的例子。當(dāng)模型是條件概率分布、損失函數(shù)是對數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗概率表示時,結(jié)構(gòu)風(fēng)險最小化就等價于最大后驗概率估計。在這里舉個推薦系統(tǒng)中的概率矩陣分解(PMF)的例子。
先說下矩陣分解的原理:推薦系統(tǒng)的評分預(yù)測場景可看做是一個矩陣補全的游戲,矩陣補全是推薦系統(tǒng)的任務(wù),矩陣分解是其達到目的的手段。因此,矩陣分解是為了更好的完成矩陣補全任務(wù)(欲其補全,先其分解之)。之所以可以利用矩陣分解來完成矩陣補全的操作,那是因為基于這樣的假設(shè)-假設(shè)UI矩陣是低秩的,即在大千世界中,總會存在相似的人或物,即物以類聚,人以群分,然后我們可以利用兩個小矩陣相乘來還原評分大矩陣。
它假設(shè)評分矩陣中的元素
是由用戶潛在偏好向量
和物品潛在屬性向量
的內(nèi)積決定的,并且服從均值為
,方差為
的正態(tài)分布:
。則觀測到的評分矩陣條件概率為:

同時,假設(shè)用戶偏好向量與物品偏好向量服從于均值都為0,方差分別為
,
的正態(tài)分布:

根據(jù)最大后驗概率估計,可以得出隱變量
的后驗概率為:

接著,等式兩邊取對數(shù)
,并且將正態(tài)分布展開后得到:

-這樣,我們通過最大后驗概率估計推導(dǎo)出了概率矩陣分解的損失函數(shù)??梢钥闯鼋Y(jié)構(gòu)風(fēng)險最小化是在經(jīng)驗風(fēng)險最小化的基礎(chǔ)上增加了模型參數(shù)的先驗。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

