最大熵模型算法總結(jié)
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
條件概率是機(jī)器學(xué)習(xí)模型的一種表現(xiàn)形式,應(yīng)用這一模型,對(duì)于給定的輸入X,得到各輸出類的概率,選擇最大概率的類為輸出類,如下圖:

本文介紹基于條件概率分類的兩種模型算法:邏輯斯蒂(logistic)回歸與最大熵模型,其中,logistic回歸模型和最大熵模型分別是基于最大似然函數(shù)和熵來估計(jì)模型P(y|x)。公眾號(hào)已有l(wèi)ogistic回歸模型的文章介紹,本文重點(diǎn)分析最大熵模型算法。
目錄
1. 最大熵模型算法
2. 最大熵模型例子
3. 最大熵模型在信號(hào)檢測(cè)的應(yīng)用
4. logsitic回歸模型算法
5. 總結(jié)
熵是衡量隨機(jī)變量不確定性的指標(biāo),熵越大,隨機(jī)變量的不確定性亦越大。假設(shè)X是一個(gè)離散型隨機(jī)變量,其概率分布為:

隨機(jī)變量X的熵定義為:

熵滿足下列不等式:

式中,|X|是x的取值個(gè)數(shù),當(dāng)且僅當(dāng)X的分布是均勻分布時(shí),右邊的等號(hào)成立,也就是說,當(dāng)X服從均勻分布時(shí),熵最大。
1.1 最大熵模型的定義
最大熵原理是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則,最大熵原理認(rèn)為,學(xué)習(xí)概率模型時(shí),在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。條件概率是機(jī)器學(xué)習(xí)模型的一種表現(xiàn)形式,學(xué)習(xí)該模型的一種方法是最大化該條件概率的熵 ,即最大化下式:

其中
表示變量X的經(jīng)驗(yàn)分布:

其中v(X=x)表示訓(xùn)練數(shù)據(jù)中輸入x出現(xiàn)的頻數(shù),N表示樣本容量。
(1)式的未知變量
就是需要學(xué)習(xí)的模型。
我們?cè)跇?gòu)建分類模型
的過程中假設(shè)訓(xùn)練數(shù)據(jù)集的聯(lián)合概率分布與真實(shí)模型的聯(lián)合概率分布相等,這一假設(shè)用特征函數(shù)f(x,y)的期望來描述,特征函數(shù)的定義:

特征函數(shù)f(x,y)關(guān)于訓(xùn)練數(shù)據(jù)集的聯(lián)合概率分布的期望值,用
表示:

其中,
,v(X=x,Y=y)表示訓(xùn)練數(shù)據(jù)中樣本(x,y)出現(xiàn)的頻數(shù)。
特征函數(shù)f(x,y)關(guān)于模型
與經(jīng)驗(yàn)分布
的期望值,用
表示:

假設(shè)兩者期望相等,即:

或

結(jié)合(1)(4)式,得到最大熵模型:

約束條件:

1.2 最大熵模型的學(xué)習(xí)
我們求解(5)式在約束條件下的最大值,其對(duì)應(yīng)的模型P(Y|X)就是所學(xué)習(xí)的最優(yōu)模型。
對(duì)于給定的訓(xùn)練數(shù)據(jù)集
以及特征函數(shù)
,i=1,2,...,n,最大熵模型的學(xué)習(xí)等價(jià)于約束最優(yōu)化問題:

將最大值問題轉(zhuǎn)化為等價(jià)的求最小值問題:


引入拉格朗日乘子
將約束的最優(yōu)化問題轉(zhuǎn)換為無約束最優(yōu)化的對(duì)偶問題,通過求解對(duì)偶問題求解原始問題。
定義拉格朗日函數(shù)L(P,w):

最優(yōu)化的原始問題:

對(duì)偶問題:

令

得:

由于
,對(duì)上式進(jìn)行歸一化得:

其中,

令

易知
是關(guān)于w的函數(shù),對(duì)偶問題外部的極大化問題:

根據(jù)上式求解的
代入(2.4)式,得到最終的學(xué)習(xí)模型P(y|x)。
假設(shè)隨機(jī)變量Y有5個(gè)取值
,假設(shè)隨機(jī)變量Y的條件概率分布滿足如下條件:

求最大熵模型對(duì)應(yīng)的概率分布P(Y)。
最大熵模型的目標(biāo)函數(shù):

引進(jìn)拉格朗日乘子
,定義拉格朗日函數(shù):

令
,得:

將上式代入函數(shù)L(P,w)得
,令
,得:

于是最大熵模型對(duì)應(yīng)的概率分布:
由第一節(jié)我們知道,熵是描述事物不確定性的指標(biāo)。我們將熵的這一性質(zhì)應(yīng)用在信號(hào)檢測(cè)領(lǐng)域,當(dāng)信號(hào)包含了較強(qiáng)的隨機(jī)噪聲時(shí)或被噪聲完全掩蓋時(shí),信號(hào)的隨機(jī)性大大的增加了,其對(duì)應(yīng)的熵也較大,根據(jù)這一原理對(duì)信號(hào)的質(zhì)量進(jìn)行檢測(cè),下圖是用熵檢測(cè)心電信號(hào)質(zhì)量的效果圖:

黑色表示較好的心電信號(hào)質(zhì)量,紅色表示較差的心電信號(hào)質(zhì)量。
logistic回歸是一種概率分類模型,對(duì)于二分類任務(wù)來說,其條件概率分布:

我們用最小化損失函數(shù)去估計(jì)上式的模型參數(shù)。對(duì)于給定的訓(xùn)練數(shù)據(jù)集
,其中,
。
設(shè):

似然函數(shù)為:

對(duì)數(shù)似然函數(shù)為:

損失函數(shù)為:

用梯度下降法求解w的估計(jì)值
:

代入(2.1)(2.2)式,得到邏輯斯蒂回歸模型P(y|x),其中向量
包含了b值 。
本文介紹基于條件概率分類的兩種模型算法:logistic回歸模型與最大熵模型,其中,logistic回歸模型是基于最大似然函數(shù)估計(jì)模型P(y|x),最大熵模型是基于熵這一指標(biāo)估計(jì)模型P(y|x)。
好消息!
小白學(xué)視覺知識(shí)星球
開始面向外開放啦??????
下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程 在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。 下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講 在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。 下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講 在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。 交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

