嘻哈范大神dududown空姐,人人看人人看,免费看毛片的网站,人人干AV人人操,欧美成人一区二区三区片免费 ,丁香五月网站,中文日逼,大香蕉7777

作者介紹

@花花

曾任職于美團、騰訊、今日頭條擔(dān)任數(shù)據(jù)分析師。

操盤過上百億的資源評估，與大家一起成長學(xué)習(xí)。

前言

A/B實驗的目的在于通過科學(xué)的實驗設(shè)計、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的結(jié)論，并確信該結(jié)論可推廣到全部流量。目前已廣泛用于推薦算法、產(chǎn)品交互設(shè)計、廣告投放、產(chǎn)品功能迭代、運營策略等方方面面，在評估資源使用ROI最常用且最為準(zhǔn)確的方法也是A/B實驗。

A/B實驗中的基礎(chǔ)知識

在開始進行A/B實驗之前需要了解一些關(guān)于A/B測試的基礎(chǔ)知識，包含流量的正交與互斥、實驗分組、假設(shè)檢驗、P值、顯著性水平α、置信區(qū)間、統(tǒng)計功效等。

正交試驗與互斥實驗

一個產(chǎn)品的流量是有限的，但是A/B實驗的需求是大量的，因此在進行實驗前需要確認(rèn)流量必須互斥還是可以進行正交。正交實驗指每個獨立實驗為一層，層與層之間流量是正交的，一份流量經(jīng)過每層實驗時，都會再次隨機打散，且隨機效果離散。互斥實驗指實驗在同一層拆分流量，且不論如何拆分，不同組的流量是不重疊的，如下圖所示：

域1和域2流量進行了拆分，此時域1和域2是互斥的。一般是有相互干擾的實驗需要進行流量互斥，比如同樣是發(fā)促銷券類活動，只是不同的業(yè)務(wù)團隊發(fā)放的，那么域1和域2的流量就要拆分開，避免互相進行干擾，影響實驗最終結(jié)果。
流量流過域2中的B1層、B2層、B3層時，流量都是與域2的流量相等，此時B1層、B2層、B3層的流量是正交的，比較典型的B1層、B2層、B3層是UI層、搜索結(jié)果層、廣告結(jié)果層，這幾層基本上是沒有任何的業(yè)務(wù)關(guān)聯(lián)度的，即使共用相同的流量（流量正交）也不會對實際的業(yè)務(wù)造成結(jié)果。
值得注意的是，流量流過域2中的B1層時，又把B1層分為了B1-1，B1-2，B1-3，此時B1-1，B1-2，B1-3之間又是互斥的。

實驗分組

一般來說，至少有1個實驗組A和1個對照組B，但是隨著A/B測試的應(yīng)用越來越廣泛，并不局限于只有1個實驗組A和1個對照組B，可能會有實驗組A1、實驗組A2和對照組B，甚至更多的實驗組同時驗證不同策略的效果。比如在實際的運營工作中，需要評估某個券的效果，這時候設(shè)置了3個組：

實驗組1：用規(guī)則發(fā)券，所有目標(biāo)用戶群發(fā)放滿200-20的品類券
實驗組2：走模型策略，基于用戶的標(biāo)簽屬性發(fā)放不同門檻-面額的券，比如有人發(fā)放滿150-10，有人發(fā)放滿300-30
對照組：不進行任何發(fā)券動作

這樣，根據(jù)實驗組1和對照組進行比較能得出規(guī)則發(fā)券的效果，實驗組2和對照組進行比較能得出模型策略發(fā)券效果，從而得出走模型策略相較于規(guī)則發(fā)券效果提升了多少。

假設(shè)檢驗

假設(shè)檢驗是先對總體參數(shù)提出一個假設(shè)值，然后利用樣本信息判斷這一假設(shè)是否成立。需要了解假設(shè)檢驗中的兩個假設(shè)、兩類錯誤。

兩個假設(shè)

原假設(shè)H_0：實驗中想反對的假設(shè)
備擇假設(shè)H₁：實驗中想予以支持的假設(shè)

兩類錯誤

第一類錯誤：棄真錯誤，當(dāng)原假設(shè)為真時拒絕原假設(shè)
第二類錯誤：取偽錯誤，當(dāng)原假設(shè)為假時未拒絕原假設(shè)

A/B測試統(tǒng)計量

2.4.1 假設(shè)檢驗中的P值

P值即概率，反映某一事件發(fā)生的可能性大小。統(tǒng)計學(xué)根據(jù)顯著性檢驗方法所得到的P值，一般以P<0.05 為有統(tǒng)計學(xué)差異。

2.4.2 假設(shè)檢驗中的顯著性水平α

顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi)，可能犯錯誤的概率，用α表示。小概率標(biāo)準(zhǔn)α和P值的關(guān)系如下：

如果P≤α，那么拒絕原假設(shè)
如果P>α，那么不能拒絕原假設(shè)

2.4.3 Z檢驗

檢驗方法有t檢驗、Z檢驗、χ²檢驗和F檢驗。在A/B實驗中，主要是對樣本均值進行檢驗，所以用t檢驗和Z檢驗。在樣本數(shù)量比較大情況下，采用Z檢驗，A/B實驗中雙樣本Z檢驗公式如下：

t檢驗：t檢驗常用于總體正態(tài)分布、總體方差未知或獨立小樣本平均數(shù)的顯著性檢驗、平均數(shù)差異顯著性檢驗。
Z檢驗：Z檢驗常用于總體正態(tài)分布、方差已知或獨立大樣本的平均數(shù)的顯著性和差異的顯著性檢驗。

2.4.4 置信區(qū)間

置信區(qū)間是用來對一個概率樣本的總體參數(shù)進行區(qū)間估計的樣本均值范圍，它展現(xiàn)了這個均值范圍包含總體參數(shù)的概率，這個概率稱為置信水平。置信水平代表了估計的可靠度，一般來說使用95%的置信水平進行區(qū)間估計。置信區(qū)間可以輔助確定版本間是否有存在顯著差異的可能性：如果置信區(qū)間上下限的值同為正或負，認(rèn)為存在有顯著差異的可能性；如果同時有負值和正值，那么則認(rèn)為不存在有顯著差異的可能性。

根據(jù)統(tǒng)計學(xué)的中心極限定理，樣本均值的抽樣分布呈整體分布，因此通過下面的公式可以計算出兩個總體均值差的95%置信區(qū)間：

2.4.5 統(tǒng)計功效

當(dāng)兩個不同版本之間存在顯著差異時，實驗?zāi)苷_做出存在差異判斷的概率。可以理解為有多少的把握認(rèn)為版本之間有差別。該值越大則表示概率越大、功效越充分。一般來說，設(shè)定最低的統(tǒng)計功效值為80%，統(tǒng)計功效的計算如下：

σ 是標(biāo)準(zhǔn)差
Φ是標(biāo)準(zhǔn)正態(tài)分布下某個X值對應(yīng)的概率面積
α是一類錯誤概率

A/B實驗步驟及案例分享

典型A/B實驗的步驟包含確認(rèn)實驗?zāi)繕?biāo)、設(shè)計A/B實驗方案、上線實驗與過程監(jiān)控、結(jié)果復(fù)盤。接下來就以運營團隊常做的沉默召回作為案例，串聯(lián)整個A/B實驗的全流程。

確認(rèn)實驗?zāi)繕?biāo)

業(yè)務(wù)團隊目前正在做沉默用戶召回，想驗證不同的召回發(fā)券策略的效率，并在接下來的召回運營中推廣使用效率最高的策略。此時的實驗?zāi)繕?biāo)：找到召回沉默用戶效率最高的策略。

設(shè)計實驗

設(shè)計實驗時需要明確目標(biāo)用戶、實驗周期、最小樣本量、用戶分組、分流比例、分組策略等信息。

目標(biāo)用戶：過去30天-180天未下單老客
實驗周期：測試1周，周期內(nèi)不進行打散
最小樣本量確定：輸入原始的召回率、策略優(yōu)化后的召回率以及顯著性水平，網(wǎng)上有很多類似的工具，下面是來自https://www.eyeofcloud.com/124.html計算的結(jié)果，最少需要5300的樣本量

實驗分組及策略：

分組	分流比例	沉默召回策略
實驗組1	30%	發(fā)放滿20-5的優(yōu)惠券，并通過精準(zhǔn)營銷短信觸達
實驗組2	30%	發(fā)放滿30-6的優(yōu)惠券，并通過精準(zhǔn)營銷短信觸達
實驗組3	30%	發(fā)放滿40-10的優(yōu)惠券，并通過精準(zhǔn)營銷短信觸達
對照組	10%	不進行任何策略

上線實驗與過程監(jiān)控

實驗上線后，需要檢測實驗是否按照預(yù)期設(shè)定正常運行，在A/B實驗中常出現(xiàn)的需要檢查的問題有如下：

空白組是否真的空白的，有無空白組用戶領(lǐng)取到實驗組1、實驗組2、實驗組3發(fā)的券，如果發(fā)現(xiàn)有領(lǐng)券的，那需要排查分流系統(tǒng)問題（一般需要產(chǎn)研根據(jù)log信息找到當(dāng)時為什么判定給該用戶發(fā)券）
1個用戶是否僅屬于某一個組，有無存在多個組的情況
分流是否和預(yù)先設(shè)定的分流比例一致，誤差1%也要尋找原因
實驗樣本是否是預(yù)先設(shè)定的目標(biāo)實驗樣本，判斷實驗是否進行了用戶篩選過濾，比如本實驗是對沉默用戶進行召回，有無近30天有交易的活躍用戶也被發(fā)券，如果有那說明目標(biāo)用戶的圈選出問題，需要排查上下游看看是哪個環(huán)節(jié)出現(xiàn)問題

結(jié)果復(fù)盤之ROI評估

通過試驗組1、實驗組2、實驗組3分別和對照進行對比，能得出3組策略的效率。ROI的分子是投入的總資源成本，產(chǎn)出可以是用戶的原價交易額、單量、利潤等信息，此處用原價交易額作為產(chǎn)出，來評估不同策略的召回效率，最終結(jié)果如下所示?？梢钥吹剑?/p>

3種召回策略ROI均置信，且ROI由高到底是實驗組2（滿30-6）>實驗組3（滿40-10）>實驗組1（滿20-5）
雖然單量最高的實驗組1，但是由于實驗組1發(fā)券的門檻低只有20元，導(dǎo)致最后的交易額增量不如實驗組2和實驗組3
雖然實驗組2的交易額增量不如實驗組3，但是實驗組的2的成本低于實驗組3，因此最后ROI比實驗組3高

所以，通過該實驗可以看出，在發(fā)放針對沉默用戶發(fā)券的時候，需要同時考慮到門檻和面額，一方面低門檻會讓用券的用戶增加，但低門檻下客單較低，總原價交易額也就越低；另一方面面額影響用戶轉(zhuǎn)化的同時也影響投入成本。具體設(shè)置多少的門檻和面額最佳，還需要通過更多的A/B實驗來判定。

后記

在A/B實驗中，有以下3點需要注意的。

注意保證單一變量

A/B實驗需要保證實驗組樣本和對照組樣本是同樣屬性的，通過控制單一變量判斷最終效果。但是在實際的過程中，有團隊會在不同應(yīng)用市場、不同渠道進行測試，比如測試2個投放策略，一個在快手測試，一個在抖音策略，這兩個渠道的用戶群里天然的就有差異，得出的數(shù)據(jù)是不可信的。正確的做法是在快手和抖音都用同一個策略，驗證統(tǒng)一策略在不同渠道的效果，或者只在快手渠道進行不同策略的測試。

注意效率和規(guī)模

很多時候做A/B實驗是對用戶進行了篩選的，這個時候得出的ROI較高。但是這個策略一旦擴量到全部用戶，ROI有可能就會降低。因此在說某個策略的ROI時，需要注意是否是小規(guī)模用戶的效率，而不是整體用戶的ROI。

注意新奇效應(yīng)

在出某個新功能、新策略的時候，用戶可能會比較感興趣，這個時候效果較好，但是過一段時間用戶新奇感覺消失。為了避免這種情況，需要在單一變量下，重復(fù)、長時地進行實驗，得到長期穩(wěn)定的結(jié)果。

·················END·················

你想知道的A/B實驗知識全在這里了