重要概率分布
"本文主要介紹機(jī)器學(xué)習(xí)常用的概率論知識(shí)點(diǎn):高斯分布、泊松分布、伯努利分布"

AI-CODE??|??作者?/?AI-code
這是人類(lèi)之奴公眾號(hào)的第59篇原創(chuàng)文章

在機(jī)器學(xué)習(xí)的世界中,沒(méi)有完全確定的事,所以所有機(jī)器學(xué)習(xí)算法本質(zhì)上都是在學(xué)習(xí)一種能夠最佳表達(dá)事物的概率分布。
因此我們很有必要對(duì)概率分布有一個(gè)清晰的理解。
概率分布是對(duì)隨機(jī)變量在現(xiàn)實(shí)世界中分布情況的表達(dá),這里的隨機(jī)變量概括起來(lái)可以分為兩類(lèi):離散隨機(jī)變量、連續(xù)隨機(jī)變量。
離散隨機(jī)變量類(lèi)似于拋擲硬幣時(shí)只能出現(xiàn)正面、反面,而沒(méi)有介于正面、反面之間的情況出現(xiàn);我們不能想當(dāng)然認(rèn)為離散隨機(jī)變量出現(xiàn)的情況只能是有限個(gè),"離散"強(qiáng)調(diào)的是每種情況之間的非連續(xù)性。
連續(xù)隨機(jī)變量類(lèi)似于我們用筆畫(huà)線(xiàn)所畫(huà)出的線(xiàn)的長(zhǎng)度,這個(gè)長(zhǎng)度值是可以為任意非負(fù)值的,所有連續(xù)隨機(jī)變量可能的取值是無(wú)限個(gè)的。
概率分布便是對(duì)隨機(jī)變量所有可能取值出現(xiàn)概率的一個(gè)完全列舉。
離散型隨機(jī)變量的概率分布可以用直方圖的形式表達(dá)出來(lái);連續(xù)型隨機(jī)變量的概率分布卻只能用概率密度函數(shù)來(lái)表達(dá),因?yàn)槲覀冎荒軌虮磉_(dá)連續(xù)性隨機(jī)變量的取值為某一區(qū)間時(shí)的概率,而連續(xù)型隨機(jī)變量的值取該區(qū)間范圍時(shí)的概率就對(duì)應(yīng)于概率密度函數(shù)在該區(qū)間上的積分值。
隨機(jī)變量對(duì)應(yīng)的概率分布是有無(wú)限種的,而重要的概率分布卻不多(我們應(yīng)該為此感到慶幸);它們是那些對(duì)現(xiàn)實(shí)世界具有高度概括能力的概率分布。
高斯分布
高斯分布又稱(chēng)為正態(tài)分布,它是由德國(guó)數(shù)學(xué)家高斯提出的。
高斯分布在現(xiàn)實(shí)世界中是最常見(jiàn)的概率分布之一,它描述的是那些取極端值概率小,取中庸值概率大的隨機(jī)變量,例如人類(lèi)的身高、班級(jí)數(shù)學(xué)成績(jī)、午餐用餐時(shí)間等等。
高斯分布的概率密度函數(shù)為:

泊松分布
泊松分布是統(tǒng)計(jì)與概率學(xué)中常見(jiàn)的離散分布,它描述的是某段時(shí)間范圍內(nèi),某件事情n次的概率(單位時(shí)間內(nèi),隨機(jī)事件發(fā)生的次數(shù))。
泊松分布的概率分布為:

伯努利分布
伯努利分布是概率學(xué)中非常常用的一種離散分布,它滿(mǎn)足(1)各次試驗(yàn)中的事件相互獨(dú)立,每一次n=1和n=0的概率分別為p和q。(2)每次試驗(yàn)的結(jié)果只可能是n=0或n=1。
伯努利分布的概率分布為:

目前我們所了解的有關(guān)概率論在機(jī)器學(xué)習(xí)中的應(yīng)用似乎只有樸素貝葉斯,其實(shí)概率率在機(jī)器學(xué)習(xí)算法中的應(yīng)用是非常廣泛的,之后將為大家慢慢解開(kāi)概率論在機(jī)器學(xué)習(xí)中的神秘面紗。

End


點(diǎn)個(gè)在看你最好看
