小白之通俗易懂的貝葉斯定理
加入極市專業(yè)CV交流群,與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度?等名校名企視覺開發(fā)者互動交流!
同時提供每月大咖直播分享、真實項目需求對接、干貨資訊匯總,行業(yè)技術(shù)交流。關(guān)注?極市平臺?公眾號?,回復(fù)?加群,立刻申請入群~
1、祖先是遇到具體的實際問題,然后解決問題,提取方法,整理成抽象的嚴(yán)謹(jǐn)?shù)睦碚摗?br>2、而后人是學(xué)習(xí)抽象的嚴(yán)謹(jǐn)?shù)睦碚?/strong>,并利用這些理論去解決新的具體的實際的問題。

1、貝葉斯定理的產(chǎn)生來源


2、什么是貝葉斯定理?

1)要求解的問題:女神喜歡你,記為A事件
2)已知條件:女神經(jīng)常沖你笑,記為B事件

我們把P(A)稱為"先驗概率"(Prior probability),即在不知道B事件發(fā)生的前提下,我們對A事件發(fā)生概率的一個主觀判斷。這個例子里就是在不知道女神經(jīng)常對你笑的前提下,來主觀判斷出女神喜歡一個人的概率。這里我們假設(shè)是50%,也就是有可能喜歡你,也有可能不喜歡還你的概率各是一半。
P(B|A)/P(B)稱為**"可能性函數(shù)"(Likelyhood),這是一個調(diào)整因子,即新信息事件B的發(fā)生調(diào)整,作用是,使得先驗概率更接近真實概率。**
如果"可能性函數(shù)"=1,意味著B事件無助于判斷事件A的可能性;
如果"可能性函數(shù)"<1,意味著"先驗概率"被削弱,事件A的可能性變小。
P(A|B)稱為"后驗概率"(Posterior probability),即在B事件發(fā)生之后,我們對A事件概率的重新評估。這個例子里就是在女神沖你笑后,對女神喜歡你的概率重新預(yù)測。
帶入貝葉斯公式計算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%

我們先根據(jù)以往的經(jīng)驗預(yù)估一個"先驗概率"P(A),然后加入新的信息(實驗結(jié)果B),這樣有了新的信息后,我們對事件A的預(yù)測就更加準(zhǔn)確。
后驗概率(新信息出現(xiàn)后A發(fā)生的概率)=先驗概率(A發(fā)生的概率)x可能性函數(shù)(新信息帶出現(xiàn)來的調(diào)整)
如果我能掌握一個事情的全部信息,我當(dāng)然能計算出一個客觀概率(古典概率、正向概率)。
可是生活中絕大多數(shù)決策面臨的信息都是不全的,我們手中只有有限的信息。既然無法得到全面的信息,我們就在信息有限的情況下,盡可能做出一個好的預(yù)測。也就是,在主觀判斷的基礎(chǔ)上,可以先估計一個值(先驗概率),然后根據(jù)觀察的新信息不斷修正(可能性函數(shù))。
3、貝葉斯定理的應(yīng)用案例
為了后面的案例計算,我們需要先補(bǔ)充下面這個知識。
1.全概率公式
這個公式的作用是計算貝葉斯定理中的P(B)。
假定樣本空間S,由兩個事件A與A'組成的和。例如下圖中,紅色部分是事件A,綠色部分是事件A',它們共同構(gòu)成了樣本空間S。



有兩個一模一樣的碗,1號碗里有30個巧克力和10個水果糖,2號碗里有20個巧克力和20個水果糖。

問題:這顆巧克力來自1號碗的概率是多少?
1)要求解的問題:取出的巧克力,來自1號碗的概率是多少?
來自1號碗記為事件A1,來自2號碗記為事件A2
取出的是巧克力,記為事件B,
那么要求的問題就是P(A1|B),即取出的是巧克力,來自1號碗的概率
2)已知信息:
1號碗里有30個巧克力和10個水果糖
2號碗里有20個巧克力和20個水果糖
取出的是巧克力

由于兩個碗是一樣的,所以在得到新信息(取出是巧克力之前),這兩個碗被選中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示來自1號碗,A2表示來自2號碗)
這個概率就是"先驗概率",即沒有做實驗之前,來自一號碗、二號碗的概率都是0.5。
P(B|A1)/P(B)
其中,P(B|A1)表示從一號碗中(A1)取出巧克力(B)的概率。
因為1號碗里有30個水果糖和10個巧克力,所以P(B|A1)=30/(30+10)=75%
現(xiàn)在只有求出P(B)就可以得到答案。根據(jù)全概率公式,可以求得P(B)如下圖:

同樣的,P(B|A2)是2號碗中巧克力的概率,也很容易求出(圖中已給出)。
而P(A1)=P(A2)=0.5
將這些數(shù)值帶入公式中就是小學(xué)生也可以算出來的事情了。最后P(B)=62.5%
可能性函數(shù)>1.表示新信息B對事情A1的可能性增強(qiáng)了。
將上述計算結(jié)果,帶入貝葉斯定理,即可算出P(A1|B)=60%
這個例子中我們需要關(guān)注的是約束條件:抓出的是巧克力。如果沒有這個約束條件在,來自一號碗這件事的概率就是50%了,因為巧克力的分布不均把概率從50%提升到60%。

第1步. 分解問題
簡單來說就像做應(yīng)用題的感覺,先列出解決這個問題所需要的一些條件,然后記清楚哪些是已知的,哪些是未知的。
1)要求解的問題是什么?
識別出哪個是貝葉斯中的事件A(一般是想要知道的問題),哪個是事件B(一般是新的信息,或者實驗結(jié)果)
2)已知條件是什么?
第3步,求貝葉斯公式中的2個指標(biāo)
1)求先驗概率
2)求可能性函數(shù)
3)帶入貝葉斯公式求后驗概率

每一個醫(yī)學(xué)檢測,都存在假陽性率和假陰性率。所謂假陽性,就是沒病,但是檢測結(jié)果顯示有病。假陰性正好相反,有病但是檢測結(jié)果正常。
但我們用貝葉斯分析算一下,你會發(fā)現(xiàn)你的直覺是錯誤的。
1)要求解的問題:病人的檢驗結(jié)果為陽性,他確實得病的概率有多大?
病人的檢驗結(jié)果為陽性(新的信息)為事件B,他得病記為事件A,
那么求解的就是P(A|B),即病人的檢驗結(jié)果為陽性,他確實得病的概率
2)已知信息
疾病的發(fā)病率是0.001,即P(A)=0.001
試劑可以檢驗患者是否得病,準(zhǔn)確率是0.99,即在患者確實得病的情況下(A),它有99%的可能呈現(xiàn)陽性(B),
也就是P(B|A)=0.99
試劑的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現(xiàn)陽性
得病我們記為事件A,那么沒有得病就是事件A的反面,記為A',所以這句話就是P(B|A')=5%

疾病的發(fā)病率是0.001,即P(A)=0.001
2)求可能性函數(shù)
P(B|A)/P(B)
現(xiàn)在只有求出P(B)就可以得到答案。根據(jù)全概率公式,可以求得P(B)=0.05如下圖:

3)帶入貝葉斯公式求后驗概率
我們得到了一個驚人的結(jié)果,P(A|B)等于1.98%。
也就是說,篩查的正確性都到了99%以上了,通過體檢判斷有沒有得病的概率也只有1.98%

所以解決的辦法倒也很簡單,就是先鎖定可疑的樣本,比如10000人中檢查出現(xiàn)問題的那10個人,再獨立重復(fù)檢測一次,因為正常人連續(xù)兩次體檢都出現(xiàn)誤測的概率極低,這時篩選出真正患者的準(zhǔn)確率就很高了,這也是為什么許多疾病的檢測,往往還要送交獨立機(jī)構(gòu)多次檢查的原因。
垃圾郵件是一種令人頭痛的問題,困擾著所有的互聯(lián)網(wǎng)用戶。全球垃圾郵件的高峰出現(xiàn)在2006年,那時候所有郵件中90%都是垃圾,2015年6月份全球垃圾郵件的比例數(shù)字首次降低到50%以下。
最初的垃圾郵件過濾是靠靜態(tài)關(guān)鍵詞加一些判斷條件來過濾,效果不好,漏網(wǎng)之魚多,冤枉的也不少。
2002年,Paul Graham提出使用"貝葉斯推斷"過濾垃圾郵件。他說,這樣做的效果,好得不可思議。1000封垃圾郵件可以過濾掉995封,且沒有一個誤判。
4、生活中的貝葉斯思維

簡單來說就像小學(xué)生做應(yīng)用題的感覺,先列出要解決的問題是什么?已知條件有哪些?
不是瞎猜,而是根據(jù)自己的經(jīng)歷和學(xué)識來給出一個主觀判斷。
持續(xù)關(guān)于你要解決問題相關(guān)信息的最新動態(tài),然后用獲取到的新信息來不斷調(diào)整第2步的主觀判斷。如果新信息符合這個主觀判斷,你就提高主觀判斷的可信度,如果不符合,你就降低主觀判斷的可信度。
推薦閱讀

評論
圖片
表情
