你想知道的A/B實驗知識全在這里了
作者介紹
A/B實驗中的基礎(chǔ)知識
01
正交試驗與互斥實驗

域1和域2流量進行了拆分,此時域1和域2是互斥的。一般是有相互干擾的實驗需要進行流量互斥,比如同樣是發(fā)促銷券類活動,只是不同的業(yè)務(wù)團隊發(fā)放的,那么域1和域2的流量就要拆分開,避免互相進行干擾,影響實驗最終結(jié)果。
流量流過域2中的B1層、B2層、B3層時,流量都是與域2的流量相等,此時B1層、B2層、B3層的流量是正交的,比較典型的B1層、B2層、B3層是UI層、搜索結(jié)果層、廣告結(jié)果層,這幾層基本上是沒有任何的業(yè)務(wù)關(guān)聯(lián)度的,即使共用相同的流量(流量正交)也不會對實際的業(yè)務(wù)造成結(jié)果。
值得注意的是,流量流過域2中的B1層時,又把B1層分為了B1-1,B1-2,B1-3,此時B1-1,B1-2,B1-3之間又是互斥的。
02
實驗分組
一般來說,至少有1個實驗組A和1個對照組B,但是隨著A/B測試的應(yīng)用越來越廣泛,并不局限于只有1個實驗組A和1個對照組B,可能會有實驗組A1、實驗組A2和對照組B,甚至更多的實驗組同時驗證不同策略的效果。比如在實際的運營工作中,需要評估某個券的效果,這時候設(shè)置了3個組:
實驗組1:用規(guī)則發(fā)券,所有目標(biāo)用戶群發(fā)放滿200-20的品類券
實驗組2:走模型策略,基于用戶的標(biāo)簽屬性發(fā)放不同門檻-面額的券,比如有人發(fā)放滿150-10,有人發(fā)放滿300-30
對照組:不進行任何發(fā)券動作
這樣,根據(jù)實驗組1和對照組進行比較能得出規(guī)則發(fā)券的效果,實驗組2和對照組進行比較能得出模型策略發(fā)券效果,從而得出走模型策略相較于規(guī)則發(fā)券效果提升了多少。
03
假設(shè)檢驗
假設(shè)檢驗是先對總體參數(shù)提出一個假設(shè)值,然后利用樣本信息判斷這一假設(shè)是否成立。需要了解假設(shè)檢驗中的兩個假設(shè)、兩類錯誤。
兩個假設(shè)
原假設(shè)H0:實驗中想反對的假設(shè)
備擇假設(shè)H1:實驗中想予以支持的假設(shè)
兩類錯誤
第一類錯誤:棄真錯誤,當(dāng)原假設(shè)為真時拒絕原假設(shè)
第二類錯誤:取偽錯誤,當(dāng)原假設(shè)為假時未拒絕原假設(shè)
04
A/B測試統(tǒng)計量
2.4.1 假設(shè)檢驗中的P值
P值即概率,反映某一事件發(fā)生的可能性大小。統(tǒng)計學(xué)根據(jù)顯著性檢驗方法所得到的P值,一般以P<0.05 為有統(tǒng)計學(xué)差異。
2.4.2 假設(shè)檢驗中的顯著性水平α
顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率,用α表示。小概率標(biāo)準(zhǔn)α和P值的關(guān)系如下:
如果P≤α,那么拒絕原假設(shè)
如果P>α,那么不能拒絕原假設(shè)
2.4.3 Z檢驗
檢驗方法有t檢驗、Z檢驗、χ2檢驗和F檢驗。在A/B實驗中,主要是對樣本均值進行檢驗,所以用t檢驗和Z檢驗。在樣本數(shù)量比較大情況下,采用Z檢驗,A/B實驗中雙樣本Z檢驗公式如下:

t檢驗:t檢驗常用于總體正態(tài)分布、總體方差未知或獨立小樣本平均數(shù)的顯著性檢驗、平均數(shù)差異顯著性檢驗。
Z檢驗:Z檢驗常用于總體正態(tài)分布、方差已知或獨立大樣本的平均數(shù)的顯著性和差異的顯著性檢驗。
2.4.4 置信區(qū)間
置信區(qū)間是用來對一個概率樣本的總體參數(shù)進行區(qū)間估計的樣本均值范圍,它展現(xiàn)了這個均值范圍包含總體參數(shù)的概率,這個概率稱為置信水平。置信水平代表了估計的可靠度,一般來說使用95%的置信水平進行區(qū)間估計。置信區(qū)間可以輔助確定版本間是否有存在顯著差異的可能性:如果置信區(qū)間上下限的值同為正或負,認(rèn)為存在有顯著差異的可能性;如果同時有負值和正值,那么則認(rèn)為不存在有顯著差異的可能性。

根據(jù)統(tǒng)計學(xué)的中心極限定理,樣本均值的抽樣分布呈整體分布,因此通過下面的公式可以計算出兩個總體均值差的95%置信區(qū)間:
2.4.5 統(tǒng)計功效
當(dāng)兩個不同版本之間存在顯著差異時,實驗?zāi)苷_做出存在差異判斷的概率。可以理解為有多少的把握認(rèn)為版本之間有差別。該值越大則表示概率越大、功效越充分。一般來說,設(shè)定最低的統(tǒng)計功效值為80%,統(tǒng)計功效的計算如下:

σ 是標(biāo)準(zhǔn)差
Φ是標(biāo)準(zhǔn)正態(tài)分布下某個X值對應(yīng)的概率面積
α是一類錯誤概率
A/B實驗步驟及案例分享
01
確認(rèn)實驗?zāi)繕?biāo)
業(yè)務(wù)團隊目前正在做沉默用戶召回,想驗證不同的召回發(fā)券策略的效率,并在接下來的召回運營中推廣使用效率最高的策略。此時的實驗?zāi)繕?biāo):找到召回沉默用戶效率最高的策略。
02
設(shè)計實驗
設(shè)計實驗時需要明確目標(biāo)用戶、實驗周期、最小樣本量、用戶分組、分流比例、分組策略等信息。
目標(biāo)用戶:過去30天-180天未下單老客
實驗周期:測試1周,周期內(nèi)不進行打散
最小樣本量確定:輸入原始的召回率、策略優(yōu)化后的召回率以及顯著性水平,網(wǎng)上有很多類似的工具,下面是來自https://www.eyeofcloud.com/124.html計算的結(jié)果,最少需要5300的樣本量

實驗分組及策略:
分組 | 分流比例 | 沉默召回策略 |
實驗組1 | 30% | 發(fā)放滿20-5的優(yōu)惠券,并通過精準(zhǔn)營銷短信觸達 |
實驗組2 | 30% | 發(fā)放滿30-6的優(yōu)惠券,并通過精準(zhǔn)營銷短信觸達 |
實驗組3 | 30% | 發(fā)放滿40-10的優(yōu)惠券,并通過精準(zhǔn)營銷短信觸達 |
對照組 | 10% | 不進行任何策略 |
03
上線實驗與過程監(jiān)控
實驗上線后,需要檢測實驗是否按照預(yù)期設(shè)定正常運行,在A/B實驗中常出現(xiàn)的需要檢查的問題有如下:
空白組是否真的空白的,有無空白組用戶領(lǐng)取到實驗組1、實驗組2、實驗組3發(fā)的券,如果發(fā)現(xiàn)有領(lǐng)券的,那需要排查分流系統(tǒng)問題(一般需要產(chǎn)研根據(jù)log信息找到當(dāng)時為什么判定給該用戶發(fā)券)
1個用戶是否僅屬于某一個組,有無存在多個組的情況
分流是否和預(yù)先設(shè)定的分流比例一致,誤差1%也要尋找原因
實驗樣本是否是預(yù)先設(shè)定的目標(biāo)實驗樣本,判斷實驗是否進行了用戶篩選過濾,比如本實驗是對沉默用戶進行召回,有無近30天有交易的活躍用戶也被發(fā)券,如果有那說明目標(biāo)用戶的圈選出問題,需要排查上下游看看是哪個環(huán)節(jié)出現(xiàn)問題
04
結(jié)果復(fù)盤之ROI評估
通過試驗組1、實驗組2、實驗組3分別和對照進行對比,能得出3組策略的效率。ROI的分子是投入的總資源成本,產(chǎn)出可以是用戶的原價交易額、單量、利潤等信息,此處用原價交易額作為產(chǎn)出,來評估不同策略的召回效率,最終結(jié)果如下所示??梢钥吹剑?/p>
3種召回策略ROI均置信,且ROI由高到底是實驗組2(滿30-6)>實驗組3(滿40-10)>實驗組1(滿20-5)
雖然單量最高的實驗組1,但是由于實驗組1發(fā)券的門檻低只有20元,導(dǎo)致最后的交易額增量不如實驗組2和實驗組3
雖然實驗組2的交易額增量不如實驗組3,但是實驗組的2的成本低于實驗組3,因此最后ROI比實驗組3高

所以,通過該實驗可以看出,在發(fā)放針對沉默用戶發(fā)券的時候,需要同時考慮到門檻和面額,一方面低門檻會讓用券的用戶增加,但低門檻下客單較低,總原價交易額也就越低;另一方面面額影響用戶轉(zhuǎn)化的同時也影響投入成本。具體設(shè)置多少的門檻和面額最佳,還需要通過更多的A/B實驗來判定。
后記
在A/B實驗中,有以下3點需要注意的。
注意保證單一變量
A/B實驗需要保證實驗組樣本和對照組樣本是同樣屬性的,通過控制單一變量判斷最終效果。但是在實際的過程中,有團隊會在不同應(yīng)用市場、不同渠道進行測試,比如測試2個投放策略,一個在快手測試,一個在抖音策略,這兩個渠道的用戶群里天然的就有差異,得出的數(shù)據(jù)是不可信的。正確的做法是在快手和抖音都用同一個策略,驗證統(tǒng)一策略在不同渠道的效果,或者只在快手渠道進行不同策略的測試。
注意效率和規(guī)模
很多時候做A/B實驗是對用戶進行了篩選的,這個時候得出的ROI較高。但是這個策略一旦擴量到全部用戶,ROI有可能就會降低。因此在說某個策略的ROI時,需要注意是否是小規(guī)模用戶的效率,而不是整體用戶的ROI。
注意新奇效應(yīng)
在出某個新功能、新策略的時候,用戶可能會比較感興趣,這個時候效果較好,但是過一段時間用戶新奇感覺消失。為了避免這種情況,需要在單一變量下,重復(fù)、長時地進行實驗,得到長期穩(wěn)定的結(jié)果。


