Bootstrap方法在AB TEST中的應用
???前言
實驗樣本量太小,即便可能存在效應也無法有效的檢驗出顯著的效果 檢驗指標構(gòu)造復雜,如兩隨機變量的商構(gòu)造的指標,例如CTR=CLICK/PV,此處PV、CLICK均為隨機變量,在計算CTR的方差時,需要采用不同的計算方法來近似計算方差。 樣本數(shù)據(jù)傾斜嚴重,頭部效應明顯,個別樣本會嚴重影響整體效果的差異。
???基本思想
Where there is sample, there is uncertainty。

???簡單的推導過程
用 Bootstrap 來計算估計量的 SE, BIAS
前面講過,Bootstrap 就是多次抽樣,這樣就得到了 Empirical dist. ,而我們的估計量則是 。我們先來看SE,考慮
我們使用 "Plug-in" Priniciple,則
其中的 為 B 個 Bootstrap 估計量的均值;分母用了B-1是為了無偏。于是我們得到了SE的 Bootstrap 估計公式
對于BIAS
用 Bootstrap 來計算估計量的 CI
我們主要介紹3種常用的 Bootstrap 計算 CI 的方法。
標準 Bootstrap(SB)
百分位數(shù) Bootstrap(PB)
百分位數(shù)的 Bootstrap 直接用的分布來估計,我們通過 Bootstrap 構(gòu)造了一個的分布,則實際的區(qū)間估計可以用的分位數(shù)直接進行估計,的置信區(qū)間為:
t百分位數(shù)Bootstrap(PTB)
結(jié)果比較
| 常規(guī)方法 | SB | PB | PTB | |
|---|---|---|---|---|
| 置信區(qū)間 | [1477,1503] | [1479,1502] | [1479,1502] | [1480,1502] |
| 寬度 | 26 | 23 | 23 | 22 |
???應用實例?

則
???Bootstrap&Jackknife
抽樣方法不同。Bootstrap 采用的是「有放回抽樣」,jackknife采用的是「無放回抽樣」。 Jackknife 在解決不光滑 (Smooth) 參數(shù)估計時會失效,而 Bootstrap 可以解決這個問題,例如中位數(shù),分位數(shù)等估計量。 若統(tǒng)計量是線性的,二者的結(jié)果會非常接近。雖然從表面上看,Jackknife 似乎只利用了非常有限的樣本信息。對于非線性統(tǒng)計量而言,Jackknife 會有信息損失,此時 Bootstrap 較好。這是因為,Jackknife 可以視為 Bootstrap 的線性近似。換言之,Jackknife 的準確程度取決于統(tǒng)計量與其線性展開的接近程度。
???總結(jié)
【阿里媽媽數(shù)據(jù)科學系列】持續(xù)更新,歡迎關(guān)注!
【阿里媽媽數(shù)據(jù)科學系列】第二篇:在線分流框架下的AB Test
【阿里媽媽數(shù)據(jù)科學系列】第三篇:離線抽樣框架下的AB Test


評論
圖片
表情
