干貨 | 基于開放基準下的點擊率預估模型研究
回復“100題”領取『名企AI面試100題』PDF
回復“干貨資料”領取『NLP、CV、ML等AI方向』干貨資料
回復“往期招聘”查看『往期內(nèi)推招聘』
關注公號回復 "0701" 觀看公開課視頻 + 領取完整課件PDF
摘要
基于開放基準下的點擊率預估模型
2、作者的目標是對CTR預測進行開放基準測試,并以可復制的方式對不同模型進行嚴格比較。
3、實驗結(jié)果表明,通過充分的超參數(shù)搜索和模型調(diào)整,許多dnn模型的差異比預期的要小。作者已經(jīng)公開發(fā)布了基準測試代碼
介紹
點擊率預估模型復現(xiàn)的痛點
2、一些主流模型的官方或第三方源代碼(例如,DeepCTR)通常缺少關于超參數(shù)設置、數(shù)據(jù)加載和提前停止的培訓細節(jié)
3、由于發(fā)表的文獻中缺乏可重用和可比較的基準測試結(jié)果,研究人員在發(fā)表新論文時需要重新實現(xiàn)所有基線模型,并在自己的數(shù)據(jù)分區(qū)上重新評估它們。這是一項繁瑣而重復的工作,極大地增加了研究人員開發(fā)新模型的負擔

核心
文章的三個核心貢獻
2、作者在網(wǎng)站上發(fā)布了所有基準代碼、評估協(xié)議和實驗結(jié)果,以促進CTR預測的可復制研究。
3、作者的工作揭示了現(xiàn)有研究中的不可再現(xiàn)性和不一致性問題,并呼吁在未來的CTR預測研究中進行開放和嚴格的評估。
優(yōu)化
點擊率預估模型的三個重點優(yōu)化方向
▋特征工程:
1、CTR預測的目標是預測用戶單擊給定項目的概率。與圖像和文本等其他數(shù)據(jù)類型相比,CTR預測問題中的數(shù)據(jù)通常采用表格格式,包括多個不同字段的數(shù)字、類別或多值(或序列)特征。樣本量通常很大,但特征空間非常稀疏。例如,Google Play[8]中的應用程序推薦涉及數(shù)十億個樣本和數(shù)百萬個特征。
2、特征embedding。CTR預測的輸入實例通常包含三組特征,即用戶特征集合、item特征集合和上下文特征集合
▋特征交叉學習:
1、在因子分解機(FM)中,內(nèi)積顯示為捕獲成對特征交互的簡單而有效的方法。自FM成功以來,大量研究致力于以不同方式捕捉特征之間的交互。
典型示例包括PNN中的特征內(nèi)積和外積層、NFM中的雙向特征交互、DCN中的特征交叉網(wǎng)絡、xDeepFM中的特征壓縮交互、FGCNN中的特征卷積、HFM中的循環(huán)卷積、FiBiNET中的雙線性交互、AutoInt中的自注意機制、FiGNN中的圖形神經(jīng)網(wǎng)絡、InterHAt中的層次注意,目前大多數(shù)工作都研究了如何將顯式和隱式特征交互與普通全連接網(wǎng)絡(即MLP)結(jié)合起來。
▋模型表征:
1、淺層模型:工業(yè)CTR預測任務通常具有大規(guī)模數(shù)據(jù)。因此,淺層模型因其簡單高效而得到廣泛應用。即使在今天,LR和FM仍然是業(yè)界部署的兩個強大的基線模型,包括LR,F(xiàn)M,F(xiàn)FM,HOFM,F(xiàn)wFM,LorentzFM
2、深層模型: 目前,深度神經(jīng)網(wǎng)絡已被廣泛研究并應用于CTR預測。與淺層模型相比,deep模型在捕捉復雜的具有非線性激活函數(shù)的高階特征交互方面更強大,通常會產(chǎn)生更好的性能。然而,效率已成為實際應用中深層模型的主要瓶頸,具體包括:DNN,CCPM,wide & deep,IPNN,DeepCross,NFM,AFM,DeepFM,DCN,xDeepFM,HFM+,F(xiàn)GCNN,AutoInt+,F(xiàn)iGNN,ONN,F(xiàn)iBiNET,AFN+,InterHAt。
重要
復現(xiàn)論文中點擊率預估模型的幾點要求
1、數(shù)據(jù)預處理的參數(shù)
2、模型源代碼
3、模型超參數(shù)
4、基線模型原代碼
5、基線模型超參數(shù)

重要
模型評估協(xié)議
1、數(shù)據(jù)集:主要使用兩個真實世界的數(shù)據(jù)集進行評估:Criteo和Avazu。它們都是由兩家領先的廣告公司發(fā)布的開放數(shù)據(jù)集,在之前的工作中得到了廣泛應用,是從生產(chǎn)過程中的真實點擊日志中收集或采樣的,而且兩者都有數(shù)千萬個樣本,這使得基準測試結(jié)果對行業(yè)從業(yè)者來說很有意義。
2、Data split:作者將Criteo和Avazu隨機分成8:1:1,分別作為訓練集、驗證集和測試集。為了使其完全可復制并易于與現(xiàn)有工作進行比較,作者重用了AutoInt提供的代碼,并控制隨機種子(即種子=2018)進行分割。
3、數(shù)據(jù)預處理:Criteo數(shù)據(jù)集由一周內(nèi)的廣告點擊數(shù)據(jù)組成。它包括26個分類特征字段和13個數(shù)字特征字段。作者創(chuàng)建兩個不同的評估設置,分別表示為Criteox4001和Criteox4002。分別過濾稀疏特征的閾值設置為mincount=10和mincount=2。特征embedding的維度分別為16和40;Avazu包含10天的點擊日志。它總共有23個字段,包括應用程序id、應用程序類別、設備id等,與第一個數(shù)據(jù)集一樣,也是兩個不同的特征過濾參數(shù)和特征embedding的維度。
4、評估指標:作者使用兩個最常用的指標AUC和logloss進行基準測試。
5、基準測試工具包:作者提供了包括數(shù)據(jù)預處理、批量加載、模型訓練、早期停止、學習率衰減、超參數(shù)搜索在內(nèi)的全流程基準測試工具包。
6、模型訓練細節(jié)和超參數(shù)調(diào)節(jié):默認學習速率為1??? ? 3、batchsize最初設置為10000,如果GPU中出現(xiàn)OOM錯誤,則使用[5000、2000、1000]逐漸減小。作者對每個模型進行73次實驗,以獲得最佳結(jié)果。所有實驗都是在一個共享GPU集群上運行的,該集群有P100個GPU,每個GPU都有16GB的內(nèi)存。
7、再現(xiàn)性:作者保留了每個數(shù)據(jù)分割的md5sum值。并為每個實驗明確設置隨機種子,并將數(shù)據(jù)設置和模型超參數(shù)記錄到配置文件中。在Pytorch中實現(xiàn)模型,作者向社區(qū)開放了基準代碼以及所有評估設置和結(jié)果,以促進未來更具可復制性的研究。
重要
結(jié)果分析
1、InterHAt在兩個數(shù)據(jù)集上的性能都比LR差;DeepCross在Avazu的表現(xiàn)也比LR差
2、在數(shù)據(jù)集參數(shù)設置上進行重新調(diào)整模型后,作者通常會獲得比最佳報告結(jié)果更好的性能
3、IPNN、DeepFM、DCN、xDeepFM和ONN都可以達到相同的精度級別(~0.814 AUC),而DNN、DeepFM、DCN和xDeepFM在Avazu上的性能相當,InterHAt、AFN+和LorentzFM,獲得的結(jié)果比以前的一些最新模型更差
4、內(nèi)存消耗和模型效率是工業(yè)CTR預測任務的兩個重要方面。由于使用卷積網(wǎng)絡(如CCPM、FGCNN、HFM+)、field交互(如FFM、ONN)、圖形神經(jīng)網(wǎng)絡(如FiGNN)等運行速度非常慢,阻礙了模型在工業(yè)中的實際應用
5、模型和數(shù)據(jù)參數(shù)經(jīng)過重新調(diào)整后,作者在原始超參數(shù)的基礎上實現(xiàn)了相當大的改進(高達5%)。在新的數(shù)據(jù)拆分上測試模型時(即使對于相同的數(shù)據(jù)集),有必要重新調(diào)整超參數(shù)。
重要
模型優(yōu)化的關鍵因素
1、數(shù)據(jù)預處理:數(shù)據(jù)通常決定模型的上限。然而,現(xiàn)有工作很少在數(shù)據(jù)預處理期間調(diào)整類別特征的最小計數(shù)閾值。作者為不頻繁的特征過濾設置了一個合適的閾值,產(chǎn)生了更好的性能。
2、Batchsize :大的batchsize通常會導致更快的培訓和更好的性能。例如,如果GPU沒有引發(fā)OOM錯誤,作者將其設置為10000
3、Embedding size:雖然現(xiàn)有的工作通常在實驗中將其設置為10或16,但作者也通過在GPU內(nèi)存限制內(nèi)使用更大的嵌入大小(例如40)來實驗
4、調(diào)整權(quán)重和dropout值。正則化和dropout是減少模型過擬合的兩個關鍵參數(shù)。它們對CTR預測模型的性能有很大影響。作者在一個范圍內(nèi)進行了窮盡地搜索最優(yōu)值
5、Batch normalization:在某些情況下,在DNN模型的隱藏層之間添加Batch normalization可以進一步提高預測性能

探索
點擊率預估模型在開放基準下進行進一步探索的潛在方向
1、使用更多的數(shù)據(jù)集
2、數(shù)據(jù)切分方式的優(yōu)化
3、模型的在線預估時效性
4、自動調(diào)整超參數(shù)
方向
發(fā)展的幾個方向
1、特征交互學習
2、行為序列建模
3、多任務學習
4、多模態(tài)學習
總結(jié)
論文總結(jié)


進大廠是大部分程序員的夢想,而進大廠的門檻也是比較高的。刷題,也成為面試前的必備環(huán)節(jié)。
七妹給大家準備了“武功秘籍”,七月在線干貨組繼19年出的兩本書《名企AI面試100題》和《名企AI面試100篇》后,又整理出《機器學習十大算法系列》、《2021年最新大廠AI面試題 Q3版》兩本圖書,不少同學通過學習拿到拿到dream offer。
為了讓更多AI人受益,七仔現(xiàn)把電子版免費送給大家,希望對你的求職有所幫助。如果點贊和點在看的人數(shù)較多,我會后續(xù)整理資料并分享答案給大家。
↓ ↓ ↓以下4本書,電子版,直接送 ↓ ↓ ↓ 私我回復“088”領取!
或七月在線任意一個老師領取!

