
本文將介紹校準算法在阿里媽媽展示廣告中的應用和演進,將從背景介紹、校準算法演進、工程實踐以及總結展望四個方面展開介紹。
[ 導讀 ]校準技術是可信機器學習領域的一個研究分支,它能夠改善機器學習模型在預估準確度和置信度方面的不確定性,在醫(yī)療診斷、氣象預測、自動駕駛以及計算廣告領域具有重要的應用。本文將介紹校準算法在阿里媽媽展示廣告中的應用和演進,將從背景介紹、校準算法演進、工程實踐以及總結展望四個方面展開介紹。01 背景介紹
首先介紹校準的概念,并舉例說明在計算廣告中為什么需要對預估值進行校準。用戶行為概率預估技術(點擊率、轉化率、短視頻3s曝光率等)是搜索、推薦以及計算廣告領域的核心技術能力。隨著深度學習技術的發(fā)展,預估模型在過去幾年中也經歷了快速的迭代,不斷向更龐大、更精細、更準確的方向演進。但是預估模型真的變得更準確了嗎?不失一般性,我們以計算廣告中的點擊率預估模型為例,思考以下幾個問題:
① 用戶的真實點擊概率是可以被準確觀測的嗎?
點擊率是指“用戶在某個時刻對曝光廣告進行點擊的概率”。理論上每條流量都存在一個潛在的點擊概率,從統(tǒng)計意義上來講,如果存在平行空間將廣告曝光給某個用戶的事件重復多次,則可以根據大數定律將用戶的點擊概率估算出來。但是在真實世界中,我們能且僅能觀察到事件的單次發(fā)生(點擊與否),所以是無法準確觀測到任意樣本的真實點擊概率的。
② 點擊率預估模型的準確性偏差原因是什么?
因為真實點擊概率是不可以被準確觀測到的,所以點擊率預估模型也不能直接對點擊率進行回歸預測?,F有點擊率預估模型通常從統(tǒng)計視角對問題進行抽象和簡化,假設特征和點擊事件的聯(lián)合分布服從某種函數形式(不同模型的假設分布不同),然后以Data-Driven的方式訓練模型,實現對點擊率的預測。但是該預測值是對真實點擊概率的猜測,其預估偏差根本取決于分布假設與實際情況的差異程度,并受限于模型的真實學習效率。
③ 預估模型的準確性如何度量,AUC指標是足夠的嗎?
我們無法對預測結果從單樣本粒度來度量其準確性(真實點擊概率的不可預測性)。AUC是一種退而求其次從宏觀層面對樣本的比較關系進行度量的指標,反映了預測序關系對真實序關系的逼近程度。但是它無法表征預估值的“大小準確性”。大小準確性是指,如果廣告點擊率是1%,則意味著廣告曝光10000次后將有100次被真實點擊。如果低于100次,則意味著模型高估,反之則意味著模型低估。所以僅僅考慮序關系是不全面的,校準技術在本質上是一種在現有模型基礎上進一步優(yōu)化預估值大小準確性,使其盡可能逼近(近似)真實值的技術。
在計算廣告中,模型預估值大小準確性的優(yōu)化(預估校準)在出價準確性、穩(wěn)定性(包括算法出價oCPX/Auto-Bidding等)、竟價公平性,計劃冷啟動等方面發(fā)揮重要作用。以下舉兩個簡單的例子進行簡要說明:如上圖所示,廣告競價排名由平臺期望收益eCPM決定,ad3的pCTR為1.0%,排序為3。如果ad3的pCTR被高估30%,則eCPM將從10變?yōu)?3從而獲得展示機會,從而導致ad3的拿量能力變大,但平臺的期望收入降低。如上圖所示,如果AD2的pCTR從1.1%被高估到1.2%,那么在GSP拍賣機制下,仍然是AD1贏得曝光機會,但是其扣費卻從11變?yōu)?2,導致AD1被多扣費,平臺收入增加;反之,AD1如果從1.1%被低估為1.0%,則AD1會被少扣費,平臺收入產生折損。以上兩個例子說明在模型預估值大小發(fā)生偏差的情況下會明顯導致廣告主或平臺的收益受損。除此之外,隨著廣告業(yè)務形態(tài)的發(fā)展,更多的場景對模型預估值大小準確性提出了挑戰(zhàn),包括:① 多種Bid類型混競:CPC、CPM、算法智能出價(Auto-Bid)、智能調價(OCPX)等Bidding方式繁榮發(fā)展,混合競價,預估大小準確性和穩(wěn)定性直接影響出價;② 多物料混合:圖文、直播、短視頻等各類內容形態(tài)廣告混合,不同物料上的預估水平參差不齊;③ 廣告與推薦流量混排:廣告和推薦(自然)內容有各自獨立的打分邏輯,預估大小的量綱和分布統(tǒng)一是能夠保證混排公平性和高效性的基礎。所以,預估值大小的準確性在廣告領域至關重要。校準技術的目標是:使用戶行為的預估值盡可能逼近真實概率值。具體形式化表示如下,其中X為基礎預估模型的輸出空間(如預估點擊率),Y為實際用戶行為(如點擊與否),f(x)為校準函數,f*為最優(yōu)校準函數。在實際應用中,優(yōu)化預估值大小準確性的同時,也會保證整體排序水平不會下降。
現有預估模型在預估值上的不確定性,導致在實際應用中缺乏可信度(trustworthiness)和可解釋性(interpretability),會導致次優(yōu)結果甚至錯誤決策的風險,校準技術最早在氣象預報和醫(yī)療診斷領域被提出和應用,近幾年進一步延伸到自動駕駛和計算廣告領域。具體校準方法總的來講可以分為兩大類:第一類是嘗試將導致模型預估偏差的因素(如假設分布偏差等各類先驗信息)反向引入特征處理或損失函數中,端到端優(yōu)化預估值大小。第二類是后處理方法(Post-processing),即在基礎預估模型的基礎上串接一個校準模塊,以后處理的方式得到校準結果。這種方式更具靈活性,是目前研究和應用最為廣泛的形式。常見的后處理校準方法包括:Histogram Binning(將樣本分為多個桶,每個桶內的樣本Label均值作為該桶每個樣本的校準結果)、Isotonic Regression(學習一個保序函數作為校準函數,它能夠保證校準后的結果和基礎模型預估值的排序能力是一致的)以及Scaling方法(基于某種參數化分布函數學習預估值到校準值的映射)等。近幾年,也發(fā)展出上述方法的結合算法,并對校準技術進行了理論驗證,本文不做過多展開,詳細可參考:https://github.com/huangsg1/uncertainty-calibration阿里媽媽的校準技術采用的是后處理方式,主要考慮以下兩點原因:1.我們希望在不改變已有基礎預估模型的前提下,將校準技術解耦,做成靈活可插拔的形式;2.端到端的方法難以快速響應線上分布的劇烈變化,在阿里大促活動中線上環(huán)境的頻繁變化是常態(tài),更需要具備輕便靈敏的模型校準能力。
前面提到在實際環(huán)境中是無法觀測到樣本的真實點擊概率的。但是我們可以采用近似的方法去逼近:針對觀測樣本,將各類特征相似的PV作為一個類簇,統(tǒng)計該類簇的整體點擊率作為其中所有PV的真實點擊概率(當類簇的數據量高于閾值時才認為是置信的);然后采用線性或非線性函數進行預估值和真實值的映射,該映射函數就構成了一種輕量級的校準函數。在這個過程中如何選擇合理的類簇劃分方式進行PV聚類就成為了問題的關鍵。經典的Isotonic Regression和Binning校準算法本質上是按預估值的大小進行樣本劃分,這種劃分方式基于的假設是類簇劃分精度的好壞與模型預估值的大小有關(或模型對于相近預估值大小的廣告會具有相似的預估誤差)。在實踐中我們發(fā)現校準維度越精細,越有利于產出準確的校準函數,但同時樣本量也變的稀疏,當數據量不具有統(tǒng)計意義時,反而會降低校準函數的準確度。所以算法設計中需要進一步權衡校準維度選擇和數據稀疏的問題,我們的算法演進之路也是不斷解決這兩個問題的進化之路。在介紹校準算法之前,先介紹一下校準效果的度量指標。PCOC指標是校準之后的點擊率與后驗點擊率(近似真實概率)的比值,越接近于1,意味著在絕對值上越準確,大于1為高估,小于1為低估,是一種常用的高低估評價指標。但是PCOC存在一定局限性,舉個例子:2萬個樣本,其中1萬個樣本的預估概率是0.2,后驗概率是0.4,計算出PCOC是0.2/0.4=0.5,是顯著低估的,另1萬個樣本PCOC是0.8/0.6= 1.3,明顯是高估的。所以校準效果并不好,但是樣本放一起看,校準后概率是(0.2+0.8)/2=0.5,后驗概率是(0.4+0.6)/2=0.5,整體PCOC是1.0,表現完全正常。所以單一PCOC指標不能表征樣本各維度下的校準水平。針對PCOC問題,我們設計了一個新的指標Cal-N,將樣本集合按照自定義規(guī)則劃分出多個簇分別計算PCOC,并計算與標準1的偏差作為校準誤差。相比PCOC,Cal-N顯然能夠更好的表征細粒度的校準水平。在廣告領域中,通常會重點關注某一維度下的校準效果(如廣告計劃維度)。我們進一步提出了GC-N指標,能夠在Cal-N基礎上自定義各維度權重。以上是對校準背景、概念、相關工作以及評價方法的簡單介紹。
從18年以來我們開始在校準算法上不斷創(chuàng)新,實現了對點擊率、轉化率、收藏加購率、關注率等各類預估指標的校準能力。整個迭代路線以實際業(yè)務需求為導向,以輕量級、通用性和靈活性為設計目標。接下來詳細介紹我們提出的各類校準方法。1. 保序回歸平滑校準算法(Smoothed Isotonic Regression,SIR)
SIR算法是18年提出的,如上圖所示,我們結合了Binning、Isotonic Regression和線性Scaling方法。具體思想為:模型原始打分相近的PV具有近似的真實點擊率,PCTR大小區(qū)間可作為一個合理的校準維度(分桶);分桶數據量稀疏時,進一步利用模型本身的排序能力,對各分桶后驗點擊率與模型預估點擊率做保序處理(保序回歸);最后使用單調平滑函數擬合模型原始打分和后驗點擊率的映射關系(線性Scaling)就得到了校準函數。該算法的優(yōu)勢在于充分利用了保序和平滑思想緩解了數據稀疏的問題,而且具備輕量級和可解釋性特點。對比各類校準算法效果如下(AB是兩個數據集),在實際應用中RPM、CTR以及廣告主ROI均有顯著提升(詳細可見論文:?Calibrating user response predictions in online advertising)。
2. 貝葉斯平滑SIR校準算法(Bayes-SIR)
在SIR算法應用中,我們發(fā)現廣告計劃投放初期校準效果明顯差于平均水平,并在實際業(yè)務中造成以下問題:1)影響新建計劃初始階段的投放表現;2)影響強時效性廣告的全生命周期效果;3)小客戶在整個投放周期里數據一直稀疏,得不到準確的校準,影響競價公平性。這是SIR校準算法的冷啟動問題,我們采用了Bayes平滑的思想進行優(yōu)化(貝葉斯平滑方法最早在雅虎的一篇論文里面中提出,用于解決數據稀疏問題下的點擊率預估優(yōu)化)。
Bayes-SIR的算法思想:如上圖所示,首先從豐富的先驗數據中估計出每個廣告計劃的點擊率先驗分布,然后依據該先驗知識和新觀測到的少量數據,根據貝葉斯定理計算得到更準確的后驗點擊率。這種估計方法能充分利用先驗知識,具備置信程度過渡平滑的特點。將貝葉斯平滑CTR估計過程替換掉SIR算法的樸素CTR統(tǒng)計邏輯即構成了具有冷啟動問題優(yōu)化效果的校準方法。實際上線后,新廣告的投放效果得到明顯的提升。3. Bayes-SIR實時波動問題優(yōu)化(RTW-BSIR)實際應用中,我們進一步發(fā)現Bayes-SIR校準算法整體表現穩(wěn)定,但是不同時間段內效果卻是不斷波動的,這會加劇廣告競價環(huán)境的波動,并影響廣告計劃拿量的均勻性和算法出價的穩(wěn)定性(如上圖所示)。
經分析,這是校準訓練數據和應用時數據分布之間存在差異導致的,是一種典型的數據漂移問題。直接思路是將該差異進行消除,實現無偏的校準能力??紤]到時效性影響,數據分布一直在發(fā)生變化,如果直接對訓練數據進行修正則無法避免后續(xù)模型訓練鏈路延遲導致的偏差因素。所以我們借鑒了反事實學習的思想,通過實時計算應用數據和Bayes-SIR模型的分布偏差,直接修正Bayes-SIR校準函數,這樣就實現了對現有校準效果時序波動性的優(yōu)化算法(如下圖所示)。上線應用后,能夠有效保證校準效果的穩(wěn)定性,尤其在大促活動等環(huán)境劇烈波動時,對流量分配效率極其穩(wěn)定性起到明顯的優(yōu)化作用。上述內容介紹了SIR算法極其在冷啟動和時序波動性方面的優(yōu)化,該系列算法具備輕量級、可解釋的特點,在阿里媽媽展示廣告業(yè)務上得到了大范圍的應用,并取得了非常顯著的業(yè)務收益。
但是這些方法仍舊存在一些缺陷,比如?Binning方式單一缺乏靈活性、排序能力上具備天花板而且無法自定義校準目標。針對這些問題我們也提出了新的算法方案,本文不再展開。下文進一步介紹校準算法在后鏈路指標校準方面的應用擴展。后鏈路指標指的是曝光/點擊之后的加購、收藏、轉化、關注等指標(特點如上圖所示)。面向轉化或加購等優(yōu)化目標的算法出價能力不斷成為主流的廣告投放方式,但是轉化和加購的模型預估能力遠不如點擊率,這使得后鏈路預估值的校準存在極大的必要性和可優(yōu)化空間。相比點擊率校準,后鏈路預估值的校準存在新的挑戰(zhàn):數據稀疏性和延遲反饋,以轉化為例,用戶點擊廣告后不一定立即產生購買行為,這導致我們無法實時計算準確的后驗轉化率以指導校準函數的訓練,而等待多天后再產出校準函數,預估模型的分布也可能發(fā)生了新的變化。
我們提出了一種算法叫Post-Click Conversion Estimation Model,簡稱PCCEM。上圖左側的折線圖反映了轉化的延遲性以及短期中間指標與轉化行為的相關性。所以,針對延遲反饋問題,我們可以構建用戶點擊后的短期行為(如瀏覽、停留時長等)與后鏈路指標之間的關系來預測用戶長期的轉化行為,該模型被稱為PCEEM模型。在該模型基礎上,結合前述點擊率的校準算法即可實現對后鏈路指標的校準能力(算法如上圖右側偽碼所示,具體可參考論文:?Calibrating user response predictions in online advertising)。在線上應用后廣告轉化率以及廣告主ROI均有顯著提升。
如上圖所示,我們在實際應用中,Calibration模塊在預估和策略排序模塊之間,和其他模塊是獨立和解耦的,有利于校準的靈活性。2. SIR/PCCEM-Based算法數據流程圖如上圖所示,其中綠色部分是廣告的召回排序預估鏈路,校準模塊部分如果是淺層預估指標校準,直接基于Tracked Data,應用SIR系列校準算法即可完成校準;后鏈路指標則需要先進行點擊質量預估(如藍色區(qū)域),再進行算法校準。我們對校準技術做了詳細的調研,上圖中簡要列了目前被廣泛應用的校準算法,其中Platt Scaling方法早在1999年就被提了出來,后續(xù)也不斷有別的方法被提出,但是一直到近幾年才有計算機相關的論文從理論層面對校準技術進行證明和探討(ICML/NIPS會議有相關文章)。阿里媽媽展示廣告從18年開始在預估中引入校準方法,對廣告系統(tǒng)的穩(wěn)定性、效果的保障性以及算法出價能力等方面起到了顯著的優(yōu)化作用。但是過去幾年中我們一直走輕量級的迭代方式,缺少一些向更復雜更精細化方法的探索,而且在發(fā)展過程中一直以業(yè)務需求為導向,在理論層面缺乏深入的探索,這些問題將是我們未來重點優(yōu)化的方向。
校準技術在氣象預報、醫(yī)療診斷、自動駕駛、計算廣告以及工業(yè)應用等領域都有實際的落地應用。也有學者將校準技術歸納可信機器學習的一個研究分支,它可以為機器學習模型的確定性、可信度以及可解釋性起到優(yōu)化作用,輔助提升機器學習模型在各領域的實際應用價值。問:請問Bayes-SIR里面先驗數據和觀測數據的區(qū)別是什么?
答:先驗數據是過去歷史上所有能獲取到的用戶行為數據,也可能是專家經驗。先驗數據的粒度可以比較粗,范圍可以比較大,時間也可以比較長,是對待校準數據表現的一個預判。觀測數據是指待校準廣告的即時表現,是短期的小部分可觀測數據。答:有很多影響因素,特別是在廣告系統(tǒng)中,除鏈路延遲外,廣告主的行為以及用戶習慣和興趣都在不斷發(fā)生變化,這些都會直接影響系統(tǒng)內數據分布的穩(wěn)定性。問:校準模型是小時級更新的嗎,還是天級更新就可以?答:因為基礎預估模型的高低估程度在一天之內也在發(fā)生不斷的波動,而且是不可預測的。所以校準模型理論上更新響應速度越快越好。答:窗口越短,模型反應越靈敏,但是數據量越稀疏,影響校準的準確性。在實際應用中會根據實際數據量級進行折中來確定窗口時長。答:可以。如果推薦系統(tǒng)的優(yōu)化目標是絕對值效果(如絕對點擊量,GMV等),排序策略中需要系統(tǒng)保證預估值大小的準確性,此時校準技術能夠起到優(yōu)化作用。問:SIR方法的分桶數量應該如何確定,有經驗取值嗎?答:這還是一個精細度和置信度權衡的問題。分桶數越多絕對值誤差問題越能夠被充分的暴露,校準效果也能做的越精細。但是桶內的樣本量也就越少,統(tǒng)計上更不置信,影響校準結果的準確度。理論層面有一些對不同分桶數下的誤差Bound的證明,在實際應用中是結合實驗對比來確定的。編輯:王菁
校對:林亦霖