<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Bootstrap方法在AB TEST中的應用

          共 3878字,需瀏覽 8分鐘

           ·

          2021-10-20 23:19

          ???前言

          【阿里媽媽數(shù)據(jù)科學系列】前三期內(nèi)容中,我們粗略的介紹了AB TEST 基礎(chǔ)知識與框架,本期開始將著重細化介紹 AB TEST 每一個部分具體的方法論與技術(shù),包括實驗設計、實驗數(shù)據(jù)分析、實驗中常見的誤區(qū)等。本期我們將介紹 Bootstrap 方法在實驗統(tǒng)計推斷中的應用。在實際的場景下,統(tǒng)計推斷是 AB TEST 不可或缺的一部分,一次實驗的結(jié)論是否真的顯著,均需要通過統(tǒng)計推斷的方法進行證明,否則我們無法判斷實驗效果是否來自實驗因素或者隨機擾動。如我們前幾期里提到過的,常見的實驗統(tǒng)計推斷方法來自假設檢驗理論,我們通過大數(shù)定律以及假設檢驗理論結(jié)合,以實驗組和對照組的數(shù)據(jù)構(gòu)造一個假設檢驗流程,具體細節(jié)可以參照此前的文章。但是在實際的應用中,我們可能會遇到如下的問題:
          • 實驗樣本量太小,即便可能存在效應也無法有效的檢驗出顯著的效果
          • 檢驗指標構(gòu)造復雜,如兩隨機變量的商構(gòu)造的指標,例如CTR=CLICK/PV,此處PV、CLICK均為隨機變量,在計算CTR的方差時,需要采用不同的計算方法來近似計算方差。
          • 樣本數(shù)據(jù)傾斜嚴重,頭部效應明顯,個別樣本會嚴重影響整體效果的差異。
          面臨上述問題是,常規(guī)的統(tǒng)計推斷方法也有一定的解決方案,但是會更復雜,而且需要 case by case 的分析,此時 Bootstarp 的方法能夠很好的解決上述的問題。

          ???基本思想

          Where there is sample, there is uncertainty。
          英語 Bootstrap 的意思是靴帶,來自短語:“pull oneself up by one′s bootstrap”,18世紀德國文學家拉斯伯(Rudolf Erich Raspe)的小說《巴龍歷險記(或譯為終極天將)》(Adventures of Baron Munchausen) 記述道:“巴龍掉到湖里沉到湖底,在他絕望的時候,他用自己靴子上的帶子把自己拉了上來?!爆F(xiàn)意指不借助別人的力量,憑自己的努力,終于獲得成功。在這里“bootstrap”法是指用原樣本自身的數(shù)據(jù)抽樣得出新的樣本及統(tǒng)計量,根據(jù)其意現(xiàn)在普遍將其譯為“自助法”。
          簡單的說,Boostrap 的底層邏輯是 Resample(重抽樣),既然我們只知道這些數(shù)據(jù),那么我們就把這些數(shù)據(jù)看做整體(Empirical dist.),基于這些數(shù)據(jù)再進行多次抽樣并計算得我們想要的內(nèi)容(更加充分運用了這些數(shù)據(jù))。此外:我們也把 MC in Statistic Inference 中的方法叫做參數(shù) Bootstrap(因為它也涉及到了重新的多次抽樣,不過是從 population 中抽取的),而這里的方法則叫做非參數(shù) Bootstrap,我們一般講的 Bootstrap 就是這里的。
          在實驗中我們采用非參數(shù)的 Bootstrap 方法,其核心思想和基本步驟如下:
          (1)假設原始樣本數(shù)量為 N,通過 resample 從原始樣本中抽取N個樣本,此過程允許重復抽樣;
          (2)根據(jù)抽出的樣本計算給定的統(tǒng)計量T;
          (3)重復上述B次(一般大于1000),得到B個統(tǒng)計量T;
          (4)計算上述B個統(tǒng)計量T的估計量,如均值、方差等,得到原樣本的均值與方差等統(tǒng)計量。
          應該說 Bootstrap 是現(xiàn)代統(tǒng)計學較為流行的一種統(tǒng)計方法。通過對給定數(shù)據(jù)集進行有放回的重抽樣以創(chuàng)建多個數(shù)據(jù)子集,生成統(tǒng)計量的經(jīng)驗分布,可以計算標準誤差、構(gòu)建置信區(qū)間并對多種類型的樣本統(tǒng)計信息進行假設檢驗,其應用范圍逐步擴大,是目前業(yè)界對工業(yè)化 ABTEST 實驗效果常見的處理方法。

          ???簡單的推導過程

          用 Bootstrap 來計算估計量的 SE, BIAS

          前面講過,Bootstrap 就是多次抽樣,這樣就得到了 Empirical dist. ,而我們的估計量則是 。我們先來看SE,考慮

          我們使用 "Plug-in" Priniciple,則

          其中的 為 B 個 Bootstrap 估計量的均值;分母用了B-1是為了無偏。于是我們得到了SE的 Bootstrap 估計公式

          對于BIAS

          用 Bootstrap 來計算估計量的 CI

          我們主要介紹3種常用的 Bootstrap 計算 CI 的方法。

          標準 Bootstrap(SB)

          標準 Bootstrap 方法計算CI是以bootstrap計算的出的樣本均值、樣本方差構(gòu)造的標準 CI 的計算方法,我們可以通過 Bootstrap 計算樣本均值與方差
          在標準化之后,n 很大的情況下由 Central Limit Theorem 可知近似標準正態(tài)分布,在統(tǒng)計量無偏以 se 代替 std 的條件下,我們就可以得到一個θ的置信區(qū)間

          百分位數(shù) Bootstrap(PB)

          百分位數(shù)的 Bootstrap 直接用的分布來估計,我們通過 Bootstrap 構(gòu)造了一個的分布,則實際的區(qū)間估計可以用的分位數(shù)直接進行估計,的置信區(qū)間為:

          t百分位數(shù)Bootstrap(PTB)

          t 百分位數(shù) Bootstrap 是對 SB、PB 的一種融合,后者對分布要求過高,(1 無偏;2 近似正態(tài)),通??梢缘玫奖劝俜治粩?shù) Bootstrap 更加精確的 CI,類似標準標準 Bootstrap 我們構(gòu)造一個統(tǒng)計量,不過此處構(gòu)造的是 t-type 統(tǒng)計量
          此時,我們對于每一個 Bootstrap 樣本估計,相當于對t統(tǒng)計量進行修正,采用百分位的計算方式計算對應的t分布分位點,則通過該方式構(gòu)造的的置信區(qū)間為
          顯然 PTB 是更好的計算 CI 的方法,其收斂性也更好,在實際應用中,可以根據(jù)實際計算的復雜度,選取合適的計算方法。

          結(jié)果比較

          此處,取實際生產(chǎn)中小樣本某實驗結(jié)果,可見以上三種方法置信區(qū)間的收斂性均好于常規(guī)的統(tǒng)計方法。

          常規(guī)方法SBPBPTB
          置信區(qū)間[1477,1503][1479,1502][1479,1502][1480,1502]
          寬度26232322

          ???應用實例?

          因為 Bootstrap 在小樣本場景下效果顯著,在大流量場景效果和基于常規(guī)方法的推導無明顯差異,因此Bootstrap 更多的應用在阿里媽媽BP側(cè)的類實驗場景下,我們以一個簡單的例子梳理一下 Bootstrap 方法的應用流程,考慮如下場景,我們需要對某個BP側(cè)新增產(chǎn)品功能進行驗證,證明該功能是否對 CTR 有促進作用,因此我們基于類實驗的策略,抽取了實驗組VS對照組各1萬客戶進行實驗,收集實驗數(shù)據(jù)格式如下(數(shù)據(jù)隨機生成,并非實際生產(chǎn)數(shù)據(jù))。
          依照上述的計算邏輯,我們來估計, 對該數(shù)據(jù)進行 resample 過程,每次抽取20000個樣本,共抽取1000次(1000次后數(shù)據(jù)相對較為穩(wěn)定),則對于1000個 Bootstrap 樣本集合我們可以計算1000個,其中

          采用PB算法估計的置信區(qū)間,將1000個升序排列,取2.5%,97.5%分位數(shù),可得95%置信區(qū)間為
          通過置信區(qū)間與0的比較,我們能夠看到該指標并沒有顯著提升。基于以上的流程我們可以對任意指標通過 Bootstrap 方式構(gòu)造置信區(qū)間,證明該指標是否有顯著變化。

          ???Bootstrap&Jackknife

          通常在提到 Bootstrap 時,也會提到 Jackknife 作為比較,Jackknife 方法由 Quenouille(1949) 提出,并由 Tukey(1958) 創(chuàng)造了 Jackknife 這一術(shù)語。Jackknife 采用的 leave-one-out 的思想,對于樣本容量為n的集合,采樣 n 次,每次無放回采樣 n-1 次,以此來估計樣本的估計量。具體推到方式此處不作贅述。
          Jackknife 通常可以看做 Bootstrap 的一種特例,同樣是 resample 的過程,主要的區(qū)別在于:
          • 抽樣方法不同。Bootstrap 采用的是「有放回抽樣」,jackknife采用的是「無放回抽樣」。
          • Jackknife 在解決不光滑 (Smooth) 參數(shù)估計時會失效,而 Bootstrap 可以解決這個問題,例如中位數(shù),分位數(shù)等估計量。
          • 若統(tǒng)計量是線性的,二者的結(jié)果會非常接近。雖然從表面上看,Jackknife 似乎只利用了非常有限的樣本信息。對于非線性統(tǒng)計量而言,Jackknife 會有信息損失,此時 Bootstrap 較好。這是因為,Jackknife 可以視為 Bootstrap 的線性近似。換言之,Jackknife 的準確程度取決于統(tǒng)計量與其線性展開的接近程度。

          ???總結(jié)

          雖然 Bootstrap 很早就被提出,但是受限于計算能力的約束,并沒有被大幅應用,伴隨著計算機算力的提升 Bootstrap 重新崛起,成為當前非參數(shù)估計中最實用的方法之一,在 AB TEST 中更是解決小樣本、縮減方差、簡化計算的利器,同時結(jié)合不同的算法 DID、bayes 估計等,Bootstrap 仍然有很大的發(fā)揮空間。

          【阿里媽媽數(shù)據(jù)科學系列】持續(xù)更新,歡迎關(guān)注!

          【阿里媽媽數(shù)據(jù)科學系列】第一篇:認識在線實驗

          【阿里媽媽數(shù)據(jù)科學系列】第二篇:在線分流框架下的AB Test

          【阿里媽媽數(shù)據(jù)科學系列】第三篇:離線抽樣框架下的AB Test


          END

          瘋狂暗示↓↓↓↓↓↓↓
          瀏覽 198
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  看美女操逼视频 | 国产一级婬片A片AA片 | 最新无码国产精品色在线看 | 青青草91久久久久久久久 | 亚州成人片 |