運(yùn)營(yíng)實(shí)戰(zhàn),我做AB Test遇到的坑

專業(yè)成就職業(yè)
大家好,我是策略產(chǎn)品經(jīng)理夏唬人。
AB測(cè)試,是產(chǎn)品經(jīng)理經(jīng)常用于對(duì)新老方案上線后的效果進(jìn)行對(duì)比的方法,核心目的在于通過(guò)AB測(cè)試能夠增加需求上線后能夠給平臺(tái)帶來(lái)正向收益的確定性,
頁(yè)面功能的改動(dòng),需要進(jìn)行AB測(cè)試,來(lái)觀測(cè)用戶對(duì)新老功能的使用情況;
策略邏輯的改動(dòng),需要進(jìn)行AB測(cè)試,來(lái)觀測(cè)流量在不同邏輯下的轉(zhuǎn)化和收益。
總之,AB測(cè)試目前已經(jīng)成為了一種大家公認(rèn)的通過(guò)數(shù)據(jù)對(duì)比,來(lái)決策新方案是否上線的一個(gè)標(biāo)準(zhǔn)。
但是,我看到一種現(xiàn)象就是,大多數(shù)產(chǎn)品經(jīng)理都是為了做AB ,而做AB。其中涉及到幾個(gè)非常重要的環(huán)節(jié),稍有不慎就會(huì)入坑。
01 隨意進(jìn)行流量設(shè)置
AB實(shí)驗(yàn)流量的控制是很多產(chǎn)品經(jīng)理會(huì)忽視的一個(gè)環(huán)節(jié)。先看一個(gè)我經(jīng)歷過(guò)的案例。
我記得剛?cè)ニ阉鲌F(tuán)隊(duì)的時(shí)候,有個(gè)產(chǎn)品經(jīng)理在線上跑了一個(gè)搜索策略優(yōu)化的AB實(shí)驗(yàn),按照預(yù)期,新策略肯定要比老策略好。
但是她面臨的問(wèn)題是,一個(gè)AB實(shí)驗(yàn)做了半年了,因?yàn)锳B結(jié)果數(shù)據(jù)經(jīng)常波動(dòng),導(dǎo)致實(shí)驗(yàn)結(jié)果很難敲定下來(lái)。
也就是有的時(shí)候是實(shí)驗(yàn)組比對(duì)照組好,有的時(shí)候是實(shí)驗(yàn)組比對(duì)照組差,很難體現(xiàn)出趨勢(shì)性。
后來(lái),我看了看他們做的AB方案,發(fā)現(xiàn)了問(wèn)題所在。
他們給這個(gè)AB Test分了兩個(gè)組,實(shí)驗(yàn)組和對(duì)照組。因?yàn)閾?dān)心新策略的影響面太大,因此給新策略,也就是實(shí)驗(yàn)組分了10%的流量,然后直接用這10%的流量,與剩下90%的流量來(lái)進(jìn)行AB實(shí)驗(yàn)。
此時(shí),問(wèn)題在哪,我估計(jì)大家也看出來(lái)了。
AB Test,為了盡量保證結(jié)果的可信,最基本的給到每個(gè)BUCKET(桶,組的概念)的流量是一樣大小的。
就拿這個(gè)實(shí)驗(yàn)來(lái)說(shuō),考慮降低新策略的影響范圍沒(méi)錯(cuò),但是拿一個(gè)10%流量的實(shí)驗(yàn)數(shù)據(jù)和一個(gè)90%流量的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比,很明顯難以得出可信的結(jié)論。
所以我后來(lái)把AB Test的方案進(jìn)行了調(diào)整,整個(gè)AB Test分了三個(gè)組:實(shí)驗(yàn)、對(duì)照和空白。其中實(shí)驗(yàn)和對(duì)照分別設(shè)置了20%的流量,用于進(jìn)行實(shí)驗(yàn)數(shù)據(jù)對(duì)比,空白組60%的流量。
最終收集了4周的數(shù)據(jù)之后,成功把新策略全量上線。
這就是AB Test中大家首先要避免的一個(gè)坑,就是要保證外界變量的一致性,最基礎(chǔ)的就是實(shí)驗(yàn)組和對(duì)照組流量是對(duì)等的,然后才有可能得到可信的結(jié)論。
02 持續(xù)時(shí)間越長(zhǎng)越好
AB測(cè)試的時(shí)間越長(zhǎng)越好么?
理論上來(lái)說(shuō)確實(shí)是這樣。
但是大家需要考慮一個(gè)情況是,對(duì)于AB實(shí)驗(yàn)來(lái)說(shuō),每增加一個(gè)實(shí)驗(yàn)組實(shí)際相當(dāng)于線上新開(kāi)發(fā)一套方案,所以持續(xù)時(shí)間比較長(zhǎng)的AB實(shí)驗(yàn)會(huì)給開(kāi)發(fā),測(cè)試,運(yùn)維等相關(guān)方帶來(lái)不少的資源消耗。
所以AB實(shí)驗(yàn)并不是持續(xù)時(shí)間越長(zhǎng)越好,實(shí)際操作過(guò)程中還是要結(jié)合我們的需求類型和影響范圍來(lái)決定。
按照目前我們實(shí)施的方式:
對(duì)于策略邏輯類的改動(dòng),通常AB Test的持續(xù)時(shí)間在2周左右,即可進(jìn)行決策;
但是,對(duì)于涉及到用戶交互習(xí)慣改動(dòng)的需求,AB Test的時(shí)間會(huì)拉長(zhǎng),比如持續(xù)1~2個(gè)月。
以上大家可以參考。
03 所有需求都做AB測(cè)試
常說(shuō),酒雖好,可不要貪杯。
AB Test一個(gè)道理。
雖說(shuō)AB Test是一種科學(xué)的檢驗(yàn)不同方案效果的手段,但是,大家不要忘了大前提,也就是當(dāng)你對(duì)當(dāng)前需求收益不確定,所以才需要做AB Test。
如果一個(gè)需求從收益的角度來(lái)說(shuō)是十分確定的,那么很明顯此時(shí)是無(wú)需進(jìn)行AB Test的。我們上面已經(jīng)聊過(guò)了AB Test的成本投入還是很大的。
通常對(duì)于如下幾類需求是不需要進(jìn)行AB Test的。比如:
1. 業(yè)務(wù)基礎(chǔ)能力搭建需求。也就是你當(dāng)前做的事情是業(yè)務(wù)基礎(chǔ)能力范疇,用戶沒(méi)有這個(gè)能力就無(wú)法完成一個(gè)完整的業(yè)務(wù)流程。
比如在電商中的黃金流程:首頁(yè)-列表-商品詳情頁(yè)-購(gòu)物車-提交訂單-支付完成,在你剛開(kāi)始搭這些流程功能的時(shí)候,是完全無(wú)需進(jìn)行ABTest的。
2. 業(yè)務(wù)戰(zhàn)略類需求。這類需求通常都是公司從長(zhǎng)期戰(zhàn)略方向需要支持的產(chǎn)品迭代,因此無(wú)論它是否能夠給當(dāng)前業(yè)務(wù)帶來(lái)收益,都需要進(jìn)行支持和上線。
所以,并不是所有需求都需要進(jìn)行AB Test,更不要以為只有做AB Test的需求才是科學(xué)的。
總之一句話,不要為了做AB,而做AB。
04 有數(shù)據(jù)即做決策
當(dāng)你拿到AB數(shù)據(jù)的時(shí)候,是不是就覺(jué)得萬(wàn)事大吉了呢?
很多產(chǎn)品經(jīng)理在拿到AB Test數(shù)據(jù)之后,接下來(lái)就是對(duì)比實(shí)驗(yàn)組和對(duì)照組的相關(guān)指標(biāo)數(shù)據(jù)。如果實(shí)驗(yàn)組在核心指標(biāo)上優(yōu)于對(duì)照組,那么就認(rèn)為可以全量實(shí)驗(yàn)組,否則,就不可全量。
但是這種做法實(shí)際上是忽視了AB Test背后的實(shí)際含義。
AB Test的本質(zhì)上是一個(gè)標(biāo)準(zhǔn)的獨(dú)立雙樣本檢驗(yàn)(具體概念百度一下),最終基于大量用戶的行為數(shù)據(jù)上的統(tǒng)計(jì)指標(biāo),得出對(duì)原假設(shè)的判斷。
因此,A/B測(cè)試實(shí)際上對(duì)一個(gè)假設(shè)進(jìn)行檢驗(yàn)的過(guò)程。具體大家可以網(wǎng)上搜尋一下AB測(cè)試與數(shù)理統(tǒng)計(jì)的一些介紹文章。
所以,當(dāng)我們拿到AB Test的數(shù)據(jù)時(shí),首先應(yīng)該做的事情就是看一下這些數(shù)據(jù)是否能夠支持我們得出可信的結(jié)論。
這里給大家一個(gè)常用的方法:P值。
具體概念我也不解釋了,總之P值是檢驗(yàn)不同結(jié)果之間是否具有顯著性差異的一個(gè)統(tǒng)計(jì)學(xué)指標(biāo)。因此我們可以用它來(lái)檢測(cè)實(shí)驗(yàn)組和對(duì)照組之間的指標(biāo)差異是否具有顯著性。
常用的判斷標(biāo)準(zhǔn):
1. P<0.01 極具顯著性差異
2. 0.01<P<0.05 有顯著性差異
3. P>0.05 無(wú)顯著性差異
前兩種表明當(dāng)前ABTest實(shí)驗(yàn)組和對(duì)照組的之間的差異是顯著的,也就是我們可以用當(dāng)前實(shí)驗(yàn)結(jié)果來(lái)進(jìn)行決策;否則就需要重新進(jìn)行AB Test。
關(guān)于P值這個(gè)指標(biāo)如何計(jì)算,這里就不講了,我給大家做了一個(gè)AB Test的數(shù)據(jù)分析模板,公眾號(hào)回復(fù)【AB模板】就能拿到。
那么大家知道,如果一次AB Test中,所有指標(biāo)的P值均大于0.05,那么如何解決這個(gè)問(wèn)題,我下篇文章公布。
以上幾個(gè)就是我做AB測(cè)試遇到的坑,希望能幫到你。
往期推薦
張沐的新書(shū)《運(yùn)營(yíng)思維:全方位構(gòu)建運(yùn)營(yíng)人員能力體系》已經(jīng)在京東、當(dāng)當(dāng)平臺(tái)可以購(gòu)買,可以私聊我獲取簽名版。
積累了7年的產(chǎn)品運(yùn)營(yíng)實(shí)操經(jīng)驗(yàn),期間經(jīng)歷過(guò)從小公司到中型公司、從To C到To B的產(chǎn)品運(yùn)營(yíng)工作,主導(dǎo)過(guò)從0到1的產(chǎn)品,深知不同類型產(chǎn)品在不同階段的運(yùn)營(yíng)要點(diǎn)。
