青青在线视频,亚洲A级毛片,色影音先锋色资源网站,亚洲欧美日韩动漫,国产一级精品黄色录像,亚洲天堂小说,色综合激情视频,五月丁香婷婷综合激情

導(dǎo)讀：p值（P value）就是當(dāng)原假設(shè)為真時(shí)，比所得到的樣本觀察結(jié)果更極端的結(jié)果出現(xiàn)的概率，是用來判定假設(shè)檢驗(yàn)結(jié)果的一個(gè)參數(shù)。p值是根據(jù)實(shí)際統(tǒng)計(jì)量計(jì)算出的顯著性水平。本文帶你了解p值和對p值的常見誤解。

作者：羅恩·科哈維（Ron Kohavi）、黛安·唐（Diane Tang）、許亞（Ya Xu）

來源：大數(shù)據(jù)DT（ID：hzdashuju）

01 假設(shè)檢驗(yàn)：確立統(tǒng)計(jì)顯著性

在對照實(shí)驗(yàn)中，實(shí)驗(yàn)組有一組樣本，每個(gè)對照組各有一組樣本。如果零假設(shè)是來自實(shí)驗(yàn)組的樣本和來自對照組的均值相同，我們會定量測試兩組樣本的差異的可能性大小。

如果可能性非常小，則我們拒絕零假設(shè)，并宣稱差異是統(tǒng)計(jì)顯著的。確切地說，有了實(shí)驗(yàn)組樣本和對照組樣本的人均營收的估計(jì)值，我們可以計(jì)算估計(jì)值的差異的p值，即在零假設(shè)為真的情況下觀測到這種差值或更極端的差值的概率。

如果p值足夠小，則我們拒絕零假設(shè)，并得出實(shí)驗(yàn)有效應(yīng)（或者說結(jié)果統(tǒng)計(jì)上顯著）的結(jié)論。但是多小是足夠小呢？

科學(xué)的標(biāo)準(zhǔn)是使用小于0.05的p值，也就是說，如果事實(shí)上是沒有效應(yīng)的，那么100次里我們有95次能正確地推斷出沒有效應(yīng)。另一種檢驗(yàn)樣本差異是否統(tǒng)計(jì)顯著的方法是看置信區(qū)間有沒有包含零值。95%置信區(qū)間是一個(gè)可以在95%的時(shí)間里覆蓋真實(shí)差異值的區(qū)間。

對于較大的樣本量，這個(gè)區(qū)間通常以觀測到的實(shí)驗(yàn)組和對照組差值為中心點(diǎn)，向兩邊各擴(kuò)展1.96倍于標(biāo)準(zhǔn)差的寬度。圖2.3展示了p值和置信區(qū)間這兩種方法的等價(jià)性。

▲圖2.3 上圖：用p值評定觀測到的差值是否統(tǒng)計(jì)顯著。如果p值小于0.05，則認(rèn)為是統(tǒng)計(jì)顯著的。下圖：用95%置信區(qū)間Δ-1.96σ，Δ+1.96σ評定統(tǒng)計(jì)顯著性的等價(jià)方法。如果零值落在置信區(qū)間之外，則認(rèn)為是統(tǒng)計(jì)顯著的

統(tǒng)計(jì)功效（statistical power）是如果變體之間有真實(shí)差異，檢測出有意義的差值的概率（統(tǒng)計(jì)上指當(dāng)真實(shí)有差異時(shí)拒絕零假設(shè)的概率）。

從實(shí)踐的角度來說，你想要實(shí)驗(yàn)有足夠大的功效，從而能夠以高概率得出實(shí)驗(yàn)是否導(dǎo)致了比你所在意的變化更大的變化的結(jié)論。通常情況下，樣本量越大，統(tǒng)計(jì)功效就越大。實(shí)驗(yàn)設(shè)計(jì)的慣常做法是選擇80%～90%的統(tǒng)計(jì)功效。

雖然“統(tǒng)計(jì)顯著性”衡量了當(dāng)零假設(shè)為真時(shí)，基于偶然性得到你的觀察值或更極端觀察值的可能性有多大，但不是所有統(tǒng)計(jì)顯著的結(jié)果都有實(shí)際意義。

以人均營收為例，多大的差異從業(yè)務(wù)角度來說是緊要的？換句話說，什么樣的變化是實(shí)際顯著的（practically significant）？構(gòu)建這一實(shí)質(zhì)性的邊界很重要，它可以幫助理解一個(gè)差異是否值得花費(fèi)相應(yīng)改動所需的成本。

如果你的網(wǎng)站像谷歌和必應(yīng)那樣有數(shù)十億美金的營收，那么0.2%的變化是實(shí)際顯著的。作為對比，一個(gè)初創(chuàng)公司可能認(rèn)為2%的增長都太小了，因?yàn)樗麄冏非蟮氖?0%或更大的增長。對于我們的例子，從業(yè)務(wù)角度來看，人均營收提高1%及以上是重要的或者說是實(shí)際顯著的。

02 曲解統(tǒng)計(jì)結(jié)果

我們現(xiàn)在來介紹一些解讀對照實(shí)驗(yàn)的數(shù)據(jù)時(shí)常見的錯誤。

1. 統(tǒng)計(jì)功效不足

零假設(shè)顯著性檢驗(yàn)（Null Hypothesis Significance Testing, NHST）框架通常假定對照組和實(shí)驗(yàn)組之間的指標(biāo)沒有差異（零假設(shè)），如果數(shù)據(jù)能提供有力的反對證據(jù)，則拒絕該假設(shè)。

一個(gè)常見的錯誤是，僅僅由于指標(biāo)不是統(tǒng)計(jì)顯著的，就假設(shè)沒有實(shí)驗(yàn)效應(yīng)。而真實(shí)的情況很可能是因?yàn)閷?shí)驗(yàn)的統(tǒng)計(jì)功效不足以檢測到我們看到的效應(yīng)量，也就是實(shí)驗(yàn)沒有足夠的用戶。

例如，對GoodUI.org的115個(gè)A/B測試進(jìn)行的評估表明，大多數(shù)實(shí)驗(yàn)的統(tǒng)計(jì)功效不足。這就是為什么說重要的是要定義多大的變化是實(shí)際顯著的，并確保有足夠的功效來檢測該大小或更小的變化。

如果實(shí)驗(yàn)僅影響總體的一小部分，那么僅分析受影響的子集就很重要。即使對一小部分用戶而言是巨大的影響，也可能在分析總體時(shí)被稀釋并且無法被檢測到。

2. 曲解p值

p值經(jīng)常被曲解。最常見的錯誤解釋是基于單個(gè)實(shí)驗(yàn)中的數(shù)據(jù)，認(rèn)為p值代表對照組和實(shí)驗(yàn)組的指標(biāo)平均值相同的概率。

p值是當(dāng)假定零假設(shè)為真時(shí)，得到的結(jié)果與觀測到的結(jié)果相同或更極端的概率。零假設(shè)的條件至關(guān)重要。

以下是“A Dirty Dozen: Twelve P-Value Misconceptions”中的一些不正確的陳述和解釋：

1）如果p值=0.05，則零假設(shè)只有5%的機(jī)會為真。

p值是基于零假設(shè)為真的前提來計(jì)算的。

2）不顯著的差異（例如，p值>0.05）意味著實(shí)驗(yàn)組和對照組之間沒有差異。

此時(shí)觀察到的結(jié)果與零假設(shè)的實(shí)驗(yàn)效應(yīng)為零相符，但同時(shí)也和其他數(shù)值的實(shí)驗(yàn)效應(yīng)相符。當(dāng)展示一個(gè)典型的對照實(shí)驗(yàn)的置信區(qū)間時(shí)，我們發(fā)現(xiàn)該區(qū)間包含零。但這并不意味著置信區(qū)間中的零比其他值更有可能出現(xiàn)。實(shí)驗(yàn)很可能沒有足夠的統(tǒng)計(jì)功效。

3）p值=0.05表示在零假設(shè)下，我們觀察到的數(shù)據(jù)僅有5%的時(shí)間出現(xiàn)。

通過上面的p值的定義，我們知道這是不正確的。該p值（=0.05）包括了出現(xiàn)跟觀察到的值一樣以及更極端的情況。

4）p值=0.05表示如果拒絕零假設(shè)，則假陽性的可能性僅為5%。

這和第一個(gè)例子很像，但是更不容易看到其錯誤性。下面這個(gè)例子可能會有所幫助：假設(shè)你正在嘗試通過在鉛上施加熱和壓力并澆注藥劑來將鉛轉(zhuǎn)化為金。

你測量所得混合物的“黃金”量，這是一個(gè)有很多干擾的測量。由于我們知道化學(xué)處理無法將鉛的原子序數(shù)從82變?yōu)?9，任何對零假設(shè)（也就是不變）的否定都是錯誤的，因此任何情況下拒絕零假設(shè)都是假陽性，而與p值無關(guān)。

要計(jì)算假陽率，即在p值<0.05且零假設(shè)為真的情況（請注意，這兩個(gè)條件是同時(shí)發(fā)生的，而不是以零假設(shè)是真的為前提）下，我們可以使用貝葉斯定理并需要知道先驗(yàn)概率。

即使是前面常見的假定零假設(shè)為真的p值的定義，也沒有明確地闡述其他的假設(shè)，比如如何收集數(shù)據(jù)（例如隨機(jī)采樣）以及統(tǒng)計(jì)檢驗(yàn)做出什么假設(shè)。如果進(jìn)行了中間層次的分析而影響了選擇哪種分析來呈現(xiàn)，或者由于p值較小而選擇呈現(xiàn)p值，那么顯然會違反這些假設(shè)。

3. 窺探p值

運(yùn)行線上對照實(shí)驗(yàn)時(shí)，你可以連續(xù)監(jiān)控p值。事實(shí)上，商業(yè)產(chǎn)品Optimizely的早期版本曾鼓勵這樣做。這樣的多重假設(shè)檢驗(yàn)會導(dǎo)致宣稱的統(tǒng)計(jì)顯著的結(jié)果有重大的偏差（5到10倍）。這里有兩種選擇：

1）按照J(rèn)ohari et al. （2017）的建議，使用始終有效的p值的序貫檢驗(yàn)，或貝葉斯檢驗(yàn)框架。

2）使用預(yù)設(shè)的實(shí)驗(yàn)時(shí)長（例如一周）來確定統(tǒng)計(jì)顯著性。

Optimizely根據(jù)第一種方法實(shí)施了一個(gè)解決方案，而谷歌、領(lǐng)英和微軟的實(shí)驗(yàn)平臺則選擇使用第二種方法。

4. 多重假設(shè)檢驗(yàn)

以下故事來自有趣的書What is a p-value anyway?：

統(tǒng)計(jì)專家：噢，你已經(jīng)計(jì)算好了p值？
外科醫(yī)生：是的，我用了多類別邏輯回歸。
統(tǒng)計(jì)專家：真的？你怎么想到的？
外科醫(yī)生：我在統(tǒng)計(jì)軟件的下拉菜單中嘗試了每種分析，而該分析給出的p值最小。

多重比較問題是上述窺探問題的一個(gè)概括。當(dāng)存在多個(gè)假設(shè)檢驗(yàn)且選擇了最低的p值時(shí)，我們對p值和效應(yīng)大小的估算可能會出現(xiàn)偏差。這體現(xiàn)在以下幾個(gè)方面：

查看多個(gè)指標(biāo)。
查看跨時(shí)間的p值（如上所述的窺探）。
查看受眾細(xì)分群（例如，國家/地區(qū)，瀏覽器類型，重度/輕度使用，新/老用戶）。
查看實(shí)驗(yàn)的多次迭代。例如，如果實(shí)驗(yàn)確實(shí)沒有任何影響（A/A實(shí)驗(yàn)），則運(yùn)行20次可能會出現(xiàn)一個(gè)小于0.05的p值。

錯誤發(fā)現(xiàn)率是處理多重檢驗(yàn)的關(guān)鍵概念。

03 置信區(qū)間

寬泛地說，置信區(qū)間可以量化實(shí)驗(yàn)效應(yīng)的不確定程度。置信水平表示置信區(qū)間應(yīng)包含真正的實(shí)驗(yàn)效應(yīng)的頻率。p值和置信區(qū)間之間存在對偶性。對于對照實(shí)驗(yàn)中常用的零差異零假設(shè)，實(shí)驗(yàn)效應(yīng)的95%置信區(qū)間不包含零意味著p值<0.05。

一個(gè)常見的錯誤是單獨(dú)查看對照組和實(shí)驗(yàn)組的置信區(qū)間，并假設(shè)如果它們重疊，則實(shí)驗(yàn)效應(yīng)在統(tǒng)計(jì)學(xué)上沒有差異。這是不正確的，如Statistical Rules of Thumb中所示，它們的置信區(qū)間可以重疊多達(dá)29%，但差異是統(tǒng)計(jì)顯著的。然而，反過來卻是對的：如果95%的置信區(qū)間不重疊，則實(shí)驗(yàn)效應(yīng)是統(tǒng)計(jì)顯著的，此時(shí)的p值<0.05。

關(guān)于置信區(qū)間的另一個(gè)常見曲解是認(rèn)為所呈現(xiàn)的95%置信區(qū)間有95%的機(jī)會包含真正的實(shí)驗(yàn)效應(yīng)。對于特定的置信區(qū)間，真正的實(shí)驗(yàn)效應(yīng)要么100%在里面，要么0%在里面。95%是指由許多研究計(jì)算出的95%置信區(qū)間有多高頻率包含一次真正的實(shí)驗(yàn)效應(yīng)。

以上。

點(diǎn)擊下方卡片進(jìn)行關(guān)注，獲取更多內(nèi)容

點(diǎn)分享

點(diǎn)收藏

點(diǎn)點(diǎn)贊

點(diǎn)在看

一次性把 p 值是什么講清楚！