假設(shè)檢驗(yàn)的基本步驟
假設(shè)檢驗(yàn)屬于推斷統(tǒng)計(jì)的一種(另一種是參數(shù)估計(jì)),就是利用樣本對總體進(jìn)行推斷。用樣本量估計(jì)總體參數(shù) μ ,先對總體參數(shù) μ 提出假設(shè),然后利用樣本信息去檢驗(yàn)假設(shè)是否成立。常見的 A/B Test,其背后原理就是假設(shè)檢驗(yàn)。
舉例:假設(shè)產(chǎn)品上要修改一個按鈕顏色,按鈕顏色設(shè)計(jì)為藍(lán)色還是紅色最優(yōu)呢,這個判斷就可以用到 A/B Test,假設(shè)有 10 W用戶,隨機(jī)均勻抽樣 10% 的用戶即 10000 人,試驗(yàn)組和控制組各分流 5000 人,試驗(yàn)組轉(zhuǎn)化率為 8%,控制組轉(zhuǎn)化率為 7%,試驗(yàn)組比控制組轉(zhuǎn)化率提高 1%,那能否說明試驗(yàn)組比控制組更優(yōu)呢,會不會是隨機(jī)波動導(dǎo)致的?
假設(shè)檢驗(yàn)根據(jù)樣本情況、結(jié)論目的,還有很多延伸內(nèi)容。本篇先來簡單介紹下假設(shè)判斷的基本步驟。
1. 確定原假設(shè)和備擇假設(shè)
原假設(shè)也叫零假設(shè),用 H0 表示,除非有充足證據(jù)進(jìn)行反駁,否則接受這個斷言。備擇假設(shè)用 H1 表示,如果足夠證據(jù)拒絕 H0,就接受備擇假設(shè)。根據(jù)上述例子,原假設(shè)和備擇假設(shè)分別為:

也就是說,如果沒有顯著差異,試驗(yàn)組轉(zhuǎn)化率為 8% 并不比 控制組轉(zhuǎn)化率為 7% 轉(zhuǎn)化要好,可能是其他誤差導(dǎo)致。
2. 構(gòu)造檢驗(yàn)統(tǒng)計(jì)量
如果檢驗(yàn)統(tǒng)計(jì)量服從標(biāo)準(zhǔn)正態(tài)分布,總體方差已知或樣本量較大(n >= 30),檢驗(yàn)統(tǒng)計(jì)量一般用 Z 表示,也稱為 Z檢驗(yàn);如果檢驗(yàn)統(tǒng)計(jì)量總體方差未知且樣本容量小(n < 30),檢驗(yàn)統(tǒng)計(jì)量一般用 t 表示,也稱為 t 檢驗(yàn)。

3. 確定用于做決策的顯著性水平和拒絕域
顯著性水平是一個概率值,希望樣本結(jié)果不可信程度達(dá)到多大時就拒絕原假設(shè) H0,通常用希臘字母 α 表示,常取值為 0.01,0.05,0.10。
根據(jù)假設(shè)的形式不同分為單尾檢驗(yàn)和雙尾檢驗(yàn):
單尾檢驗(yàn)?zāi)康氖潜容^檢驗(yàn)統(tǒng)計(jì)量是否大于或者小于某個常數(shù),因此其檢驗(yàn)的拒絕域就放置于單側(cè)。右側(cè)檢驗(yàn)拒絕域在右側(cè),左側(cè)檢驗(yàn)拒絕域在左側(cè)。例如:中學(xué)生中男生的身高是否比女生要高;
雙尾檢驗(yàn)?zāi)康氖菣z驗(yàn)統(tǒng)計(jì)量的均值是否有差異,拒絕域在左右兩側(cè),例如中學(xué)生中男女身高是否有差異。
4. 計(jì)算統(tǒng)計(jì)檢驗(yàn)量的P值
P 值就是當(dāng)原假設(shè)為真時,P 值為某個小于或大于拒絕域方向上的一個樣本結(jié)果概率。如果 P 值很小,意味著在原假設(shè)情況下,這種情況幾乎不可能發(fā)生,應(yīng)該拒絕原假設(shè)。
5. 作出結(jié)論
如果是左側(cè)檢驗(yàn),P 值 < α,則拒絕 H0;
如果是右側(cè)檢驗(yàn),P 值 > α,則拒絕 H0;
如果是雙尾檢驗(yàn),P 值 < 1/2α,則拒絕 H0。
假設(shè)檢驗(yàn)兩類錯誤
第一類錯誤是棄真錯誤,原假設(shè)為真卻錯誤的拒絕原假設(shè),這種棄真錯誤稱為Ⅰ型錯誤。其概率大小用 α 表示。
第二類錯誤為取偽錯誤,原假設(shè)為假卻錯誤的接受了原假設(shè),這種取偽錯誤稱為ⅠI 型錯誤,其概率大小用 β 表示,β 的大小很難確切估計(jì),α 越小,β 越大,因而可通過選定 α 控制 β 大小。
檢驗(yàn)功效為 1-β,表示在一定檢驗(yàn)水準(zhǔn)下,當(dāng)備擇假設(shè)為真時,假設(shè)檢驗(yàn)?zāi)軌蚓芙^原假設(shè)的概率。
| 假設(shè)檢驗(yàn)決策 | |||
|---|---|---|---|
| 接受H0 | 拒絕H0 | ||
| 實(shí)際情況 | H0為真 | 正確 | 第一類錯誤 |
| H0為假 | 第二類錯誤 | 正確 |
