ABtest,來(lái)了!
先點(diǎn)贊收藏一波!AB測(cè)試來(lái)源
AB測(cè)試適用場(chǎng)景
AB測(cè)試原理簡(jiǎn)介
AB測(cè)試詳細(xì)流程





AB測(cè)試案例串講

AB測(cè)試注意事項(xiàng)
下面,我們就來(lái)講講AB實(shí)驗(yàn)的注意事項(xiàng)。
1、網(wǎng)絡(luò)效應(yīng):
這種情況通常出現(xiàn)在社交網(wǎng)絡(luò),以及共享經(jīng)濟(jì)場(chǎng)景(如滴滴)。舉個(gè)例子:如果微信改動(dòng)了某一個(gè)功能,這個(gè)功能讓實(shí)驗(yàn)組用戶(hù)更加活躍。但是相應(yīng)的,實(shí)驗(yàn)組的用戶(hù)的好友沒(méi)有分配到實(shí)驗(yàn)組,而是對(duì)照組。但是,實(shí)驗(yàn)組用戶(hù)更活躍(比如更頻繁的發(fā)朋友圈),作為對(duì)照組的我們也就會(huì)經(jīng)常去刷朋友圈,那相應(yīng)的,對(duì)照組用戶(hù)也受到了實(shí)驗(yàn)組用戶(hù)的影響。本質(zhì)上,對(duì)照組用戶(hù)也就收到了新的功能的影響,那么AB實(shí)驗(yàn)就不再能很好的檢測(cè)出相應(yīng)的效果。
解決辦法:從地理上區(qū)隔用戶(hù),這種情況適合滴滴這種能夠從地理上區(qū)隔的產(chǎn)品,比如北京是實(shí)驗(yàn)組,上海是對(duì)照組,只要兩個(gè)城市樣本量相近即可?;蛘邚挠脩?hù)上直接區(qū)隔,比如我們剛剛舉的例子,我們按照用戶(hù)的親密關(guān)系區(qū)分為不同的分層,按照用戶(hù)分層來(lái)做實(shí)驗(yàn)即可。但是這種方案比較復(fù)雜,建議能夠從地理上區(qū)隔,就從地理上區(qū)隔。
2、學(xué)習(xí)效應(yīng):
這種情況就類(lèi)似,產(chǎn)品做了一個(gè)醒目的改版,比如將某個(gè)按鈕顏色從暗色調(diào)成亮色。那相應(yīng)的,很多用戶(hù)剛剛看到,會(huì)有個(gè)新奇心里,去點(diǎn)擊該按鈕,導(dǎo)致按鈕點(diǎn)擊率在一段時(shí)間內(nèi)上漲,但是長(zhǎng)時(shí)間來(lái)看,點(diǎn)擊率可能又會(huì)恢復(fù)到原有水平。反之,如果我們將亮色調(diào)成暗色,也有可能短時(shí)間內(nèi)點(diǎn)擊率下降,長(zhǎng)時(shí)間內(nèi)又恢復(fù)到原有水平。這就是學(xué)習(xí)效應(yīng)。
解決辦法:一個(gè)是拉長(zhǎng)周期來(lái)看,我們不要一開(kāi)始就去觀察該指標(biāo),而是在一段時(shí)間后再去觀察指標(biāo)。通過(guò)剛剛的描述大家也知道,新奇效應(yīng)會(huì)隨著時(shí)間推移而消失。另一種辦法是只看新用戶(hù),因?yàn)樾掠脩?hù)不會(huì)有學(xué)習(xí)效應(yīng)這個(gè)問(wèn)題,畢竟新用戶(hù)并不知道老版本是什么樣子的。
3、多重檢驗(yàn)問(wèn)題:
這個(gè)很好理解,就是如果我們?cè)趯?shí)驗(yàn)中,不斷的檢驗(yàn)指標(biāo)是否有差異,會(huì)造成我們的結(jié)果不可信。也就是說(shuō),多次檢驗(yàn)同一實(shí)驗(yàn)導(dǎo)致第一類(lèi)錯(cuò)誤概率上漲;同時(shí)檢驗(yàn)多個(gè)分組導(dǎo)致第一類(lèi)錯(cuò)誤概率上漲。
舉個(gè)例子:
出現(xiàn)第一類(lèi)錯(cuò)誤概率:P(A)=5%
檢驗(yàn)了20遍:P(至少出現(xiàn)一次第一類(lèi)錯(cuò)誤)
=1-P(20次完全沒(méi)有第一類(lèi)錯(cuò)誤)
=1- (1?5%) ^20
=64%
也就是說(shuō),當(dāng)我們不斷的去檢驗(yàn)實(shí)驗(yàn)效果時(shí),第一類(lèi)錯(cuò)誤的概率會(huì)直線(xiàn)上漲。所以我們?cè)趯?shí)驗(yàn)結(jié)束前,不要多次去觀察指標(biāo),更不要觀察指標(biāo)有差異后,直接停止實(shí)驗(yàn)并下結(jié)論說(shuō)該實(shí)驗(yàn)有效。
AB測(cè)試面試踩坑
針對(duì)這些問(wèn)題,有很多時(shí)候,面試官在問(wèn)問(wèn)題時(shí),會(huì)設(shè)下一些坑,我們來(lái)舉兩個(gè)例子。
例1:滴滴準(zhǔn)備升級(jí)司機(jī)端的一個(gè)功能,該如何校驗(yàn)功能效果?
考點(diǎn)1:常見(jiàn)的AB測(cè)試流程設(shè)計(jì)
考點(diǎn)2:網(wǎng)絡(luò)效應(yīng)
解法:
針對(duì)考點(diǎn)1:AB測(cè)試的流程是 確定目標(biāo) --> 確定實(shí)驗(yàn)單位 --> 確定最小樣本量 --> 確認(rèn)流量分割方案 --> 實(shí)驗(yàn)上線(xiàn) --> 規(guī)則校驗(yàn) --> 數(shù)據(jù)收集 --> 效果檢驗(yàn)
針對(duì)考點(diǎn)2:實(shí)驗(yàn)分桶,以?xún)蓚€(gè)量級(jí)相近城市分割,避免網(wǎng)絡(luò)效應(yīng)的相互影響
例2:某app,用戶(hù)活躍周期是14天,這時(shí),上線(xiàn)了一個(gè)實(shí)驗(yàn),計(jì)劃跑20天在看效果,結(jié)果有位新同學(xué),在10天時(shí)做了統(tǒng)計(jì)推斷,發(fā)現(xiàn)數(shù)據(jù)已經(jīng)有了顯著差異,認(rèn)為可以停止實(shí)驗(yàn),這樣做對(duì)嗎?
考點(diǎn)1:實(shí)驗(yàn)周期應(yīng)該跨越一個(gè)活躍周期
考點(diǎn)2:多重檢驗(yàn)問(wèn)題
解法:
由于AB測(cè)試的實(shí)驗(yàn)周期盡量跨越一個(gè)用戶(hù)活躍周期,且在實(shí)驗(yàn)結(jié)束時(shí)再做統(tǒng)計(jì)推斷,所以該做法不對(duì),建議跑慢20天再看數(shù)據(jù)效果
AB測(cè)試小Tips

推薦閱讀
歡迎長(zhǎng)按掃碼關(guān)注「數(shù)據(jù)管道」
