大家好,我是陳銳。
今天分享內(nèi)容來源Deephub Imba整理,僅供參考學(xué)習(xí)分享。
本文約3500字,建議閱讀9分鐘
本文對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)期間發(fā)生的 Type-I和 Type-II 錯(cuò)誤的直觀而詳細(xì)的解釋。
我們每天都在為選擇進(jìn)行自己的假設(shè),并且按照自己認(rèn)為最好的方向做出選擇,所以假設(shè)在我們的生活中是無處不在的,例如:A 路是否會(huì)比 B 路花費(fèi)更少的時(shí)間,X 的平均投資回報(bào)率是否高于 Y 的投資,以及電影 ABC 是否比電影 XYZ 好。在所有這些情況下,我們都在對(duì)我們做出的假設(shè)進(jìn)行檢驗(yàn)。建立假設(shè),使用數(shù)據(jù)證明/反駁它們,幫助企業(yè)做出決策,這是數(shù)據(jù)科學(xué)家的實(shí)際工作。人們通常依靠概率來理解偶然觀察數(shù)據(jù)的可能性,并利用它圍繞假設(shè)得出結(jié)論。概率永遠(yuǎn)(幾乎!)不會(huì) 100%,這反過來意味著我們永遠(yuǎn)無法 100% 確定我們的結(jié)論。所以在圍繞我們假設(shè)的假設(shè)得出結(jié)論時(shí),總是會(huì)出現(xiàn)錯(cuò)誤的情況。下面的本文就是對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)期間發(fā)生的 Type-I和 Type-II 錯(cuò)誤的直觀而詳細(xì)的解釋。假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)是通過觀察樣本數(shù)據(jù)來檢驗(yàn)圍繞總體參數(shù)的假設(shè)的領(lǐng)域,因?yàn)槲覀兒苌儆姓w的數(shù)據(jù),所以只能從整體中進(jìn)行抽樣觀察。這通常是通過從假設(shè)的中性狀態(tài)(稱為原假設(shè)、零假設(shè)、虛無假設(shè))開始并根據(jù)觀察到的樣本數(shù)據(jù)證明或反駁這一點(diǎn)來完成的。- 原假設(shè) (H0) 是假設(shè)總體數(shù)據(jù)中的現(xiàn)狀(無關(guān)系或無差異)的中性假設(shè)。
- H1 是 H0 的備選項(xiàng),稱為備擇假設(shè)也被稱為對(duì)立假設(shè)。
假設(shè)檢驗(yàn)的基本思想是概率性質(zhì)的反證法。根據(jù)所考察問題的要求提出原假設(shè)和備擇假設(shè),為了檢驗(yàn)原假設(shè)是否正確,先假定原假設(shè)是正確的情況下,構(gòu)造一個(gè)小概率事件,然后根據(jù)抽取的樣本去檢驗(yàn)這個(gè)小概率事件是否發(fā)生。假設(shè) H0 → 觀察樣本數(shù)據(jù) → 拒絕或不拒絕 H0我們假設(shè)中性 H0 為真,并在觀察到的數(shù)據(jù)中尋找“拒絕”或“不拒絕”H0 的證據(jù)。根據(jù)觀察到的樣本數(shù)據(jù),我們計(jì)算觀察到的統(tǒng)計(jì)量和觀察到的 P 值;例如:從我們觀察到的樣本中獲得的假設(shè) H0 為真的概率。然后將該觀察到的 P 值與預(yù)先確定的顯著性水平(或 Alpha 值)進(jìn)行比較。此 Alpha 值充當(dāng)閾值,超過該閾值會(huì)認(rèn)為觀察到的結(jié)果具有統(tǒng)計(jì)顯著性。基于觀察到的 P 值與預(yù)先選擇的閾值 alpha 值的比較,就可以就假設(shè)的 H0 得出結(jié)論:- 觀察到的 P 值 ≤ 預(yù)選 Alpha 級(jí)別 → 拒絕 H0
- 觀察到的 P 值 > 預(yù)選的 Alpha 級(jí)別 → 不拒絕 H0
由于觀察到的 P 值是一個(gè)概率,因此總是有可能對(duì)“拒絕”或“不拒絕”原假設(shè)做出錯(cuò)誤的判斷。在下圖 1 中,左側(cè)是假設(shè)的原假設(shè) (H0) 總體分布,右側(cè)是備擇假設(shè) (H1) 總體分布。(兩者都是未知的和假設(shè)的,因?yàn)闆]有整體的數(shù)據(jù),只是根據(jù)抽樣的樣本判斷)。觀察到的樣本將位于這些分布的某個(gè)位置,基于此我們將得出關(guān)于我們的零假設(shè) (H0) 的結(jié)論。圖1 :零假設(shè)(H0)分布和備選假設(shè)(H1)分布如果分布沒有重疊,我們將永遠(yuǎn)不會(huì)在結(jié)論中觀察到錯(cuò)誤。但是在實(shí)際情況中,它們幾乎總是重疊的。Type-I 和 Type-II 錯(cuò)誤發(fā)生在這兩個(gè)分布重疊的地方。需要說明的是:對(duì)于原假設(shè), 我們可以根據(jù)在數(shù)據(jù)中觀察到的證據(jù)“拒絕它”,也可以“不拒絕它”,因?yàn)橛^察到的數(shù)據(jù)沒有帶來足夠的重要證據(jù)。假設(shè)檢驗(yàn):可能性
實(shí)際上,H0 只有兩個(gè)選項(xiàng)——它可以是 True 或 False。同樣,根據(jù)觀察到的數(shù)據(jù),我們只能得出兩個(gè)可能的結(jié)論——我們可以拒絕 H0 或不拒絕 H0。其實(shí)這就變成了一個(gè)二分類的問題,H0是正確的還是錯(cuò)誤的
(2)和(3),我們正在根據(jù)觀察到的數(shù)據(jù)做出正確的結(jié)論。(1)和 (4),我們得出了錯(cuò)誤的結(jié)論,因?yàn)橛^察到的數(shù)據(jù)發(fā)現(xiàn)與現(xiàn)實(shí)背道而馳。在場(chǎng)景 (1) 和 (4) 中,就是本文要解釋的 Type-I 和 Type-II 錯(cuò)誤。如果你對(duì)統(tǒng)計(jì)學(xué)不了解,但是知道一些機(jī)器學(xué)習(xí)的理論的話,可以使用下面的類比方法:上面的1-4其實(shí)就是我們一直說的混淆矩陣,2,3是分類正確的值,即 TP 和 TN,1,4則是FP和FN。
Type-I 第一類錯(cuò)誤
Type-I錯(cuò)誤是指當(dāng)原假設(shè)實(shí)際上為真時(shí)拒絕原假設(shè)的場(chǎng)景。根據(jù)我們觀察到的數(shù)據(jù)得出結(jié)論是觀察到的結(jié)果在現(xiàn)實(shí)中具有統(tǒng)計(jì)意,但是我們認(rèn)為它是無意義的。如上所述,“拒絕”或“不拒絕”零假設(shè)取決于觀察到的 P 值和預(yù)先確定的 alpha 值。所以在某些情況下,真實(shí)的原假設(shè)將被拒絕,因?yàn)橛^察到的 P 值將小于預(yù)先選擇的 Alpha 水平。這就是Type-I錯(cuò)誤的內(nèi)容:False-Positive對(duì)于Type-I錯(cuò)誤場(chǎng)景:對(duì)于對(duì)總體正確的原假設(shè),如果我們反復(fù)采樣,可以得到原假設(shè)分布曲線,顯示所有可能觀察到的樣本結(jié)果的概率。(下圖2左側(cè)H0分布)當(dāng)我們觀察一個(gè)樣本時(shí),我們拒絕 H0,這意味著這個(gè)觀察到的樣本必須位于 H0 分布曲線的最右側(cè),與 H1 分布曲線重疊。下圖 2 表示這種情況:Type-I錯(cuò)誤的區(qū)域,稱為臨界區(qū)域,表示在零假設(shè)分布曲線的右尾端。這是由我們預(yù)先選擇的 Alpha 值決定的。如果我們觀察到的結(jié)果落在這個(gè)區(qū)域,我們將拒絕零假設(shè)(對(duì)于這些場(chǎng)景,觀察到的 p 值Type-II 第二類錯(cuò)誤
Type-II錯(cuò)誤是指當(dāng)原假設(shè)實(shí)際上是錯(cuò)誤的時(shí)不拒絕它的場(chǎng)景。根據(jù)我們觀察到的數(shù)據(jù)得出的結(jié)論是,觀察到的結(jié)果在實(shí)際上并不具有統(tǒng)計(jì)學(xué)意義,但是我們認(rèn)為它是有意義的。Type-II錯(cuò)誤:False-Negative這可能由于缺乏證據(jù)而發(fā)生,即我們的研究可能沒有足夠的統(tǒng)計(jì)能力來檢測(cè)一定的效應(yīng)大小。犯Type-II錯(cuò)誤的概率用Beta 表示。統(tǒng)計(jì)研究的功效(Power )定義為,Power ?= 1 - Beta所以可以通過確保的研究具有較高的統(tǒng)計(jì)功效來減少犯Type-II錯(cuò)誤的機(jī)會(huì)。對(duì)于對(duì)總體錯(cuò)誤的零假設(shè),如果我們反復(fù)從總體中抽取樣本,我們將得到一條備擇假設(shè)分布曲線,顯示所有可能觀察到的樣本結(jié)果的概率。(下圖3右側(cè)H1分布)由于我們正在觀察一個(gè)樣本,因此我們沒有證據(jù)拒絕 H0。這意味著這個(gè)觀察到的樣本必須位于 H1 分布曲線的最左側(cè),與 H0 分布曲線重疊(請(qǐng)參見下面的圖3 代表這種情況)Beta 是 Type-II錯(cuò)誤率,由左側(cè)的陰影區(qū)域表示。右邊的剩余區(qū)域代表統(tǒng)計(jì)功效(Power)。如果觀察到的結(jié)果落在該區(qū)域內(nèi),將無法拒絕零假設(shè),即使我們知道 H0 對(duì)于總體而言是錯(cuò)誤的。所以得出一個(gè)False-Negative結(jié)論。幾個(gè)例子
1、測(cè)試新藥以幫助治療疾病:H0新藥無效、 H1新藥有效- Type-I 錯(cuò)誤 → 斷定新藥有效,但實(shí)際上無效。
- Type-II 錯(cuò)誤 → 斷定新藥無效,而實(shí)際上它對(duì)治愈疾病有效。
- Type-I 錯(cuò)誤 → 斷定一個(gè)人是有罪的,而實(shí)際上他是無辜的。(即一個(gè)無辜的人被送進(jìn)監(jiān)獄)
- Type-II 錯(cuò)誤 → 斷定一個(gè)人是無辜的,但實(shí)際上他是有罪的。(即釋放有罪的人)
I 和 II 錯(cuò)誤之間的權(quán)衡
在假設(shè)檢驗(yàn)中通過將觀察值與預(yù)先確定的截止值 (Alpha) 進(jìn)行比較來“拒絕”或“不拒絕”假設(shè)。所以考慮以下使 Alpha 越來越低的情況:情況1:如果 Alpha變得更嚴(yán)格(即 Alpha 的值越小),在拒絕 H0 方面的限制就會(huì)更嚴(yán)格,而在不拒絕 H0 方面的限制會(huì)更小。這會(huì)導(dǎo)致不太可能拒絕 H0,更有可能不拒絕 H0。- 在真實(shí)情況中 H0 為True的情況下,拒絕 H0 的可能性較小會(huì)導(dǎo)致Type-I錯(cuò)誤比以前更少。
- 在真實(shí)情況中 H0 為 False 的情況下,更可能不拒絕 H0 將導(dǎo)致比以更多的 Type-II 錯(cuò)誤。
情況2:如果 Alpha 級(jí)別變得不那么嚴(yán)格(即更高的 Alpha 值),在拒絕 H0 方面的限制將更少,而在不拒絕 H0 方面的限制更大。這會(huì)導(dǎo)致更有可能拒絕 H0,不太可能不拒絕 H0。- 在真實(shí)情況中 H0 為True的情況下,更有可能拒絕 H0 將導(dǎo)致以更多的 Type-I錯(cuò)誤。
- 在真實(shí)情況中 ?H0 為 False 的情況下,不太可能不拒絕 H0 將導(dǎo)致Type-II錯(cuò)誤比以前更少。
因此顯然存在二者的權(quán)衡,因?yàn)?類的錯(cuò)誤是相關(guān)的,當(dāng)一個(gè)增加另一個(gè)減少時(shí),反之亦然。從下圖 4 可以看出,如果 Alpha 增加,則 Beta 減少,如果 Beta 減少,則 Alpha 將增加。圖4:發(fā)生Type-I和 Type-II 錯(cuò)誤的概率哪個(gè)類的錯(cuò)誤更糟糕呢?沒有簡單的答案,因?yàn)槎既Q于被檢驗(yàn)的假設(shè)和做出錯(cuò)誤結(jié)論的成本評(píng)估:如果Type-I 的成本較高,則應(yīng)盡量避免如果制作Type-II成本高,也應(yīng)該優(yōu)先考慮。但是通常認(rèn)為Type-I誤會(huì)產(chǎn)生更多后果,因?yàn)?Type-I錯(cuò)誤意味著違背現(xiàn)狀(H0)的假設(shè),并可能導(dǎo)致引入新的變化,現(xiàn)有的狀況產(chǎn)生更壞的影響。而 Type-II 錯(cuò)誤意味著無法拒絕對(duì)現(xiàn)狀 (H0) 的假設(shè),并且可能只會(huì)導(dǎo)致錯(cuò)失機(jī)會(huì)。總結(jié)
假設(shè)檢驗(yàn)是數(shù)據(jù)科學(xué)中一個(gè)非常重要的概念。統(tǒng)計(jì)的力量使我們能夠?qū)傮w做出假設(shè),觀察數(shù)據(jù)樣本以使我們能夠拒絕或不拒絕我們的假設(shè)并得出結(jié)論。假設(shè)檢驗(yàn)有兩種可能的錯(cuò)誤——Type-I錯(cuò)誤和Type-II錯(cuò)誤。假設(shè)檢驗(yàn)過程:假設(shè)一個(gè)中性 H0 → 觀察數(shù)據(jù)(將觀察到的 P 值與預(yù)先確定的 alpha 水平進(jìn)行比較)→ 拒絕或不拒絕 H0。Type-I 和 Type-II 錯(cuò)誤相互影響相反。減少一個(gè)總是增加另一個(gè),反之亦然。一般來說,Type-I 錯(cuò)誤被認(rèn)為Type-II 錯(cuò)誤更重要。但是,也要取決于被檢驗(yàn)的假設(shè)以及圍繞我們的假設(shè)得出這些錯(cuò)誤結(jié)論的成本。本文僅供學(xué)習(xí)參考,不作其它用途,有任何疑問及侵權(quán),掃描以下公眾號(hào)二維碼添加交流:
更多學(xué)習(xí)內(nèi)容,僅在知識(shí)星球發(fā)布: