<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          干貨 :假設(shè)檢驗(yàn)中的第一類錯(cuò)誤和第二類錯(cuò)誤

          共 2238字,需瀏覽 5分鐘

           ·

          2022-05-10 18:42

          大家好,我是陳銳。


          今天分享內(nèi)容來源Deephub Imba整理,僅供參考學(xué)習(xí)分享。


          本文約3500字,建議閱讀9分鐘

          本文對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)期間發(fā)生的 Type-I和 Type-II 錯(cuò)誤的直觀而詳細(xì)的解釋。

          我們每天都在為選擇進(jìn)行自己的假設(shè),并且按照自己認(rèn)為最好的方向做出選擇,所以假設(shè)在我們的生活中是無處不在的,例如:A 路是否會(huì)比 B 路花費(fèi)更少的時(shí)間,X 的平均投資回報(bào)率是否高于 Y 的投資,以及電影 ABC 是否比電影 XYZ 好。在所有這些情況下,我們都在對(duì)我們做出的假設(shè)進(jìn)行檢驗(yàn)。

          建立假設(shè),使用數(shù)據(jù)證明/反駁它們,幫助企業(yè)做出決策,這是數(shù)據(jù)科學(xué)家的實(shí)際工作。人們通常依靠概率來理解偶然觀察數(shù)據(jù)的可能性,并利用它圍繞假設(shè)得出結(jié)論。概率永遠(yuǎn)(幾乎!)不會(huì) 100%,這反過來意味著我們永遠(yuǎn)無法 100% 確定我們的結(jié)論。所以在圍繞我們假設(shè)的假設(shè)得出結(jié)論時(shí),總是會(huì)出現(xiàn)錯(cuò)誤的情況。

          下面的本文就是對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)期間發(fā)生的 Type-I和 Type-II 錯(cuò)誤的直觀而詳細(xì)的解釋。


          假設(shè)檢驗(yàn)


          假設(shè)檢驗(yàn)是通過觀察樣本數(shù)據(jù)來檢驗(yàn)圍繞總體參數(shù)的假設(shè)的領(lǐng)域,因?yàn)槲覀兒苌儆姓w的數(shù)據(jù),所以只能從整體中進(jìn)行抽樣觀察。

          這通常是通過從假設(shè)的中性狀態(tài)(稱為原假設(shè)、零假設(shè)、虛無假設(shè))開始并根據(jù)觀察到的樣本數(shù)據(jù)證明或反駁這一點(diǎn)來完成的。

          • 原假設(shè) (H0) 是假設(shè)總體數(shù)據(jù)中的現(xiàn)狀(無關(guān)系或無差異)的中性假設(shè)。
          • H1 是 H0 的備選項(xiàng),稱為備擇假設(shè)也被稱為對(duì)立假設(shè)。

          假設(shè)檢驗(yàn)的基本思想是概率性質(zhì)的反證法。根據(jù)所考察問題的要求提出原假設(shè)和備擇假設(shè),為了檢驗(yàn)原假設(shè)是否正確,先假定原假設(shè)是正確的情況下,構(gòu)造一個(gè)小概率事件,然后根據(jù)抽取的樣本去檢驗(yàn)這個(gè)小概率事件是否發(fā)生。

          假設(shè)檢驗(yàn)過程如下:

          假設(shè) H0 → 觀察樣本數(shù)據(jù) → 拒絕或不拒絕 H0

          我們假設(shè)中性 H0 為真,并在觀察到的數(shù)據(jù)中尋找“拒絕”或“不拒絕”H0 的證據(jù)。根據(jù)觀察到的樣本數(shù)據(jù),我們計(jì)算觀察到的統(tǒng)計(jì)量和觀察到的 P 值;例如:從我們觀察到的樣本中獲得的假設(shè) H0 為真的概率。

          然后將該觀察到的 P 值與預(yù)先確定的顯著性水平(或 Alpha 值)進(jìn)行比較。此 Alpha 值充當(dāng)閾值,超過該閾值會(huì)認(rèn)為觀察到的結(jié)果具有統(tǒng)計(jì)顯著性。基于觀察到的 P 值與預(yù)先選擇的閾值 alpha 值的比較,就可以就假設(shè)的 H0 得出結(jié)論:

          • 觀察到的 P 值 ≤ 預(yù)選 Alpha 級(jí)別 → 拒絕 H0
          • 觀察到的 P 值 > 預(yù)選的 Alpha 級(jí)別 → 不拒絕 H0

          由于觀察到的 P 值是一個(gè)概率,因此總是有可能對(duì)“拒絕”或“不拒絕”原假設(shè)做出錯(cuò)誤的判斷。

          在下圖 1 中,左側(cè)是假設(shè)的原假設(shè) (H0) 總體分布,右側(cè)是備擇假設(shè) (H1) 總體分布。(兩者都是未知的和假設(shè)的,因?yàn)闆]有整體的數(shù)據(jù),只是根據(jù)抽樣的樣本判斷)。觀察到的樣本將位于這些分布的某個(gè)位置,基于此我們將得出關(guān)于我們的零假設(shè) (H0) 的結(jié)論。

          圖1 :零假設(shè)(H0)分布和備選假設(shè)(H1)分布

          如果分布沒有重疊,我們將永遠(yuǎn)不會(huì)在結(jié)論中觀察到錯(cuò)誤。但是在實(shí)際情況中,它們幾乎總是重疊的。Type-I 和 Type-II 錯(cuò)誤發(fā)生在這兩個(gè)分布重疊的地方。

          需要說明的是:對(duì)于原假設(shè), 我們可以根據(jù)在數(shù)據(jù)中觀察到的證據(jù)“拒絕它”,也可以“不拒絕它”,因?yàn)橛^察到的數(shù)據(jù)沒有帶來足夠的重要證據(jù)。

          假設(shè)檢驗(yàn):可能性


          實(shí)際上,H0 只有兩個(gè)選項(xiàng)——它可以是 True 或 False。同樣,根據(jù)觀察到的數(shù)據(jù),我們只能得出兩個(gè)可能的結(jié)論——我們可以拒絕 H0 或不拒絕 H0。

          其實(shí)這就變成了一個(gè)二分類的問題,H0是正確的還是錯(cuò)誤的

          1. H0 是真,但是拒絕 H0
          2. H0 是真,不拒絕 H0
          3. H0 是假,拒絕 H0
          4. H0 是假,不拒絕 H0

          (2)和(3),我們正在根據(jù)觀察到的數(shù)據(jù)做出正確的結(jié)論。

          (1)和 (4),我們得出了錯(cuò)誤的結(jié)論,因?yàn)橛^察到的數(shù)據(jù)發(fā)現(xiàn)與現(xiàn)實(shí)背道而馳。在場(chǎng)景 (1) 和 (4) 中,就是本文要解釋的 Type-I 和 Type-II 錯(cuò)誤。

          如果你對(duì)統(tǒng)計(jì)學(xué)不了解,但是知道一些機(jī)器學(xué)習(xí)的理論的話,可以使用下面的類比方法:上面的1-4其實(shí)就是我們一直說的混淆矩陣,2,3是分類正確的值,即 TP 和 TN,1,4則是FP和FN。

          Type-I 第一類錯(cuò)誤


          Type-I錯(cuò)誤是指當(dāng)原假設(shè)實(shí)際上為真時(shí)拒絕原假設(shè)的場(chǎng)景。根據(jù)我們觀察到的數(shù)據(jù)得出結(jié)論是觀察到的結(jié)果在現(xiàn)實(shí)中具有統(tǒng)計(jì)意,但是我們認(rèn)為它是無意義的。

          如上所述,“拒絕”或“不拒絕”零假設(shè)取決于觀察到的 P 值和預(yù)先確定的 alpha 值。所以在某些情況下,真實(shí)的原假設(shè)將被拒絕,因?yàn)橛^察到的 P 值將小于預(yù)先選擇的 Alpha 水平。這就是Type-I錯(cuò)誤的內(nèi)容:False-Positive

          對(duì)于Type-I錯(cuò)誤場(chǎng)景:

          • 真實(shí)情況H0 對(duì)總體為真
          • 觀察結(jié)論拒絕H0

          對(duì)于對(duì)總體正確的原假設(shè),如果我們反復(fù)采樣,可以得到原假設(shè)分布曲線,顯示所有可能觀察到的樣本結(jié)果的概率。(下圖2左側(cè)H0分布)

          當(dāng)我們觀察一個(gè)樣本時(shí),我們拒絕 H0,這意味著這個(gè)觀察到的樣本必須位于 H0 分布曲線的最右側(cè),與 H1 分布曲線重疊。下圖 2 表示這種情況:

          圖2:Type-I錯(cuò)誤的概率

          Type-I錯(cuò)誤的區(qū)域,稱為臨界區(qū)域,表示在零假設(shè)分布曲線的右尾端。這是由我們預(yù)先選擇的 Alpha 值決定的。

          如果我們觀察到的結(jié)果落在這個(gè)區(qū)域,我們將拒絕零假設(shè)(對(duì)于這些場(chǎng)景,觀察到的 p 值

          Type-II 第二類錯(cuò)誤


          Type-II錯(cuò)誤是指當(dāng)原假設(shè)實(shí)際上是錯(cuò)誤的時(shí)不拒絕它的場(chǎng)景。根據(jù)我們觀察到的數(shù)據(jù)得出的結(jié)論是,觀察到的結(jié)果在實(shí)際上并不具有統(tǒng)計(jì)學(xué)意義,但是我們認(rèn)為它是有意義的。Type-II錯(cuò)誤:False-Negative

          這可能由于缺乏證據(jù)而發(fā)生,即我們的研究可能沒有足夠的統(tǒng)計(jì)能力來檢測(cè)一定的效應(yīng)大小。

          犯Type-II錯(cuò)誤的概率用Beta 表示。統(tǒng)計(jì)研究的功效(Power )定義為,Power ?= 1 - Beta

          所以可以通過確保的研究具有較高的統(tǒng)計(jì)功效來減少犯Type-II錯(cuò)誤的機(jī)會(huì)。

          對(duì)于 Type-II 錯(cuò)誤:

          • H0 對(duì)總體為假
          • 觀察結(jié)論不拒絕H0

          對(duì)于對(duì)總體錯(cuò)誤的零假設(shè),如果我們反復(fù)從總體中抽取樣本,我們將得到一條備擇假設(shè)分布曲線,顯示所有可能觀察到的樣本結(jié)果的概率。(下圖3右側(cè)H1分布)

          由于我們正在觀察一個(gè)樣本,因此我們沒有證據(jù)拒絕 H0。這意味著這個(gè)觀察到的樣本必須位于 H1 分布曲線的最左側(cè),與 H0 分布曲線重疊(請(qǐng)參見下面的圖3 代表這種情況)

          圖3:Type-II錯(cuò)誤的概率

          Beta 是 Type-II錯(cuò)誤率,由左側(cè)的陰影區(qū)域表示。右邊的剩余區(qū)域代表統(tǒng)計(jì)功效(Power)。

          如果觀察到的結(jié)果落在該區(qū)域內(nèi),將無法拒絕零假設(shè),即使我們知道 H0 對(duì)于總體而言是錯(cuò)誤的。所以得出一個(gè)False-Negative結(jié)論。

          幾個(gè)例子


          1、測(cè)試新藥以幫助治療疾病:H0新藥無效、 H1新藥有效

          • Type-I 錯(cuò)誤 → 斷定新藥有效,但實(shí)際上無效。
          • Type-II 錯(cuò)誤 → 斷定新藥無效,而實(shí)際上它對(duì)治愈疾病有效。

          2、刑事審判:H0無辜、 H1有罪

          • Type-I 錯(cuò)誤 → 斷定一個(gè)人是有罪的,而實(shí)際上他是無辜的。(即一個(gè)無辜的人被送進(jìn)監(jiān)獄)
          • Type-II 錯(cuò)誤 → 斷定一個(gè)人是無辜的,但實(shí)際上他是有罪的。(即釋放有罪的人)

          I 和 II 錯(cuò)誤之間的權(quán)衡


          在假設(shè)檢驗(yàn)中通過將觀察值與預(yù)先確定的截止值 (Alpha) 進(jìn)行比較來“拒絕”或“不拒絕”假設(shè)。所以考慮以下使 Alpha 越來越低的情況:

          情況1:如果 Alpha變得更嚴(yán)格(即 Alpha 的值越小),在拒絕 H0 方面的限制就會(huì)更嚴(yán)格,而在不拒絕 H0 方面的限制會(huì)更小。這會(huì)導(dǎo)致不太可能拒絕 H0,更有可能不拒絕 H0。

          • 在真實(shí)情況中 H0 為True的情況下,拒絕 H0 的可能性較小會(huì)導(dǎo)致Type-I錯(cuò)誤比以前更少。
          • 在真實(shí)情況中 H0 為 False 的情況下,更可能不拒絕 H0 將導(dǎo)致比以更多的 Type-II 錯(cuò)誤。

          情況2:如果 Alpha 級(jí)別變得不那么嚴(yán)格(即更高的 Alpha 值),在拒絕 H0 方面的限制將更少,而在不拒絕 H0 方面的限制更大。這會(huì)導(dǎo)致更有可能拒絕 H0,不太可能不拒絕 H0。

          • 在真實(shí)情況中 H0 為True的情況下,更有可能拒絕 H0 將導(dǎo)致以更多的 Type-I錯(cuò)誤。
          • 在真實(shí)情況中 ?H0 為 False 的情況下,不太可能不拒絕 H0 將導(dǎo)致Type-II錯(cuò)誤比以前更少。

          因此顯然存在二者的權(quán)衡,因?yàn)?類的錯(cuò)誤是相關(guān)的,當(dāng)一個(gè)增加另一個(gè)減少時(shí),反之亦然。

          從下圖 4 可以看出,如果 Alpha 增加,則 Beta 減少,如果 Beta 減少,則 Alpha 將增加。

          圖4:發(fā)生Type-I和 Type-II 錯(cuò)誤的概率

          哪個(gè)類的錯(cuò)誤更糟糕呢?沒有簡單的答案,因?yàn)槎既Q于被檢驗(yàn)的假設(shè)和做出錯(cuò)誤結(jié)論的成本評(píng)估:如果Type-I 的成本較高,則應(yīng)盡量避免如果制作Type-II成本高,也應(yīng)該優(yōu)先考慮。

          但是通常認(rèn)為Type-I誤會(huì)產(chǎn)生更多后果,因?yàn)?Type-I錯(cuò)誤意味著違背現(xiàn)狀(H0)的假設(shè),并可能導(dǎo)致引入新的變化,現(xiàn)有的狀況產(chǎn)生更壞的影響。而 Type-II 錯(cuò)誤意味著無法拒絕對(duì)現(xiàn)狀 (H0) 的假設(shè),并且可能只會(huì)導(dǎo)致錯(cuò)失機(jī)會(huì)。

          總結(jié)


          假設(shè)檢驗(yàn)是數(shù)據(jù)科學(xué)中一個(gè)非常重要的概念。統(tǒng)計(jì)的力量使我們能夠?qū)傮w做出假設(shè),觀察數(shù)據(jù)樣本以使我們能夠拒絕或不拒絕我們的假設(shè)并得出結(jié)論。假設(shè)檢驗(yàn)有兩種可能的錯(cuò)誤——Type-I錯(cuò)誤和Type-II錯(cuò)誤。

          假設(shè)檢驗(yàn)過程:假設(shè)一個(gè)中性 H0 → 觀察數(shù)據(jù)(將觀察到的 P 值與預(yù)先確定的 alpha 水平進(jìn)行比較)→ 拒絕或不拒絕 H0。

          • Type-I錯(cuò)誤:False-Positive

          • Type-II錯(cuò)誤:False-Negative


          Type-I 和 Type-II 錯(cuò)誤相互影響相反。減少一個(gè)總是增加另一個(gè),反之亦然。一般來說,Type-I 錯(cuò)誤被認(rèn)為Type-II 錯(cuò)誤更重要。但是,也要取決于被檢驗(yàn)的假設(shè)以及圍繞我們的假設(shè)得出這些錯(cuò)誤結(jié)論的成本。

          「完」

          本文僅供學(xué)習(xí)參考,不作其它用途,有任何疑問及侵權(quán),掃描以下公眾號(hào)二維碼添加交流:

          更多學(xué)習(xí)內(nèi)容,僅在知識(shí)星球發(fā)布:

          瀏覽 36
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本一区二区福利视频 | 天天综合永久 | 操逼网址进入 | 91嫩|婷婷丨入口图片 | 免费精品视频 |