多交互注意力網(wǎng)絡(luò)用于CTR預(yù)估中細(xì)粒度特征學(xué)習(xí)
| 作者:YEN
本文分享一篇發(fā)表在WSDM’21的點(diǎn)擊率預(yù)估方面的文章:交互注意力網(wǎng)絡(luò)用于CTR預(yù)估中細(xì)粒度特征學(xué)習(xí)[1]
論文核心內(nèi)容:構(gòu)建更細(xì)粒度的特征交互提升CTR預(yù)估效果

接下來(lái)將從以下角度分享本篇論文:?jiǎn)栴}背景、相關(guān)的解決方案、已有方案存在的不足、提出的模型框架、提出的模型細(xì)節(jié)、實(shí)驗(yàn)設(shè)置及分析、總結(jié)。
CTR背景
點(diǎn)擊率預(yù)估在推薦系統(tǒng)和在線廣告場(chǎng)景中扮演著重要的作用。典型的點(diǎn)擊率預(yù)估場(chǎng)景包括:淘寶/京東商品點(diǎn)擊率預(yù)估,騰訊廣告點(diǎn)擊率預(yù)估...

CTR預(yù)估任務(wù)的數(shù)據(jù)一般包含用戶屬性、物品屬性、交互上下文等多個(gè)域(Field)。
CTR預(yù)估模型可粗略的分為以下幾類:
考慮特征交叉淺層模型:LR、FM、FFM、FwFM、FmFM... 考慮特征交叉深層模型:DeepFM、xDeepFM... 考慮歷史行為的模型:DIN、DIEN (今天分享的論文屬于本方向)
現(xiàn)存的考慮歷史行為的方法
DNN 模型
在 2016 年,阿里媽媽團(tuán)隊(duì)開(kāi)始嘗試引入深度學(xué)習(xí)來(lái)解決 ctr 問(wèn) 題,并考慮了用戶的交互歷史物品。第一代 Deep CTR 模型:

DNN模型對(duì)歷史行為特征的應(yīng)用僅僅是得到嵌入后直接相加。
DIN模型
然而,用戶的歷史行為數(shù)據(jù),并不是每個(gè)都與當(dāng)前的候選物品有關(guān)系,而是僅僅有一部分在起作用。比如一個(gè)愛(ài)好購(gòu)物的人,購(gòu)買過(guò)"羽絨服",也購(gòu)買過(guò)"電腦",那么這次的預(yù)估是否會(huì)點(diǎn)擊一個(gè)"裙子"時(shí),"裙子"就更容易受到"羽絨服"這個(gè)購(gòu)買歷史的影響。所以阿里在 2017 年提出了Deep Interest Net (DIN)模型:

DIN通過(guò)對(duì)候選物品使用反向激活的方式,按照候選物品與歷史點(diǎn)擊商品的相關(guān)性的高低,來(lái)賦予歷史行為不同的權(quán)重。
相關(guān)論文發(fā)表在:Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, et al. Deep interest network for click-through rate prediction. KDD, 2018.
DIEN
然而,DIN 模型忽略了興趣隨著時(shí)間之間演化這樣一個(gè)重要的性質(zhì)。所以 2018 年, 阿里進(jìn)一步提出 DIEN,重點(diǎn)就是針對(duì)這樣一個(gè)興趣隨時(shí)間演化的特點(diǎn)來(lái)進(jìn)行建模以及模型的改造。

相關(guān)論文發(fā)表在:Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, et al. Deep interest evolution network for click-through rate prediction. AAAI, 2019.
現(xiàn)存方法的不足
盡管DIN、DIEN等方法取得了較大的成功,但他們依舊存在一些不足。如下圖所示,即他們僅考慮了候選 item 與歷史行為的關(guān)系,而忽略了候選 item 與用戶屬性、交互上下文信息的關(guān)系。

這可能導(dǎo)致以下問(wèn)題:
之前的方法考慮歷史交互行為,然而用戶可能會(huì)有與歷史交互無(wú)關(guān)的需求(如下圖a所示,在amazon數(shù)據(jù)集上僅有少量物品是出現(xiàn)在之前的歷史行為中的)。傳統(tǒng)的給用戶行為加注意機(jī)制的 CTR 預(yù)測(cè)方法不適用; 很多物品的交互可能發(fā)生在很長(zhǎng)時(shí)間之前,而近期沒(méi)有活躍行為(如下圖b所示,在amazon數(shù)據(jù)集上有超過(guò)50%的用戶最近的活躍記錄都在30天前)。因此很難通過(guò)近期的行為獲得用戶當(dāng)前的喜好。 不同的場(chǎng)景中激活的歷史行為應(yīng)該是不同的。例如“T-shirt”這 個(gè) item 應(yīng)該激活的是“summer”這個(gè)上下文場(chǎng)景而不是“winter”?!癿echanical keyboard”這個(gè)候選 item 更應(yīng)該與用戶屬 性中的“programmer”這個(gè)特征相關(guān)。

提出的模型框架
這篇文章提出了 Multi-Interactive Attention Network (MIAN) 模型,它集成了多種細(xì)粒度交互信息。

多交互網(wǎng)絡(luò)包含三個(gè)局部交互模塊(候選物品-行為交互模塊;候選物品-用戶屬性交互模塊;候選物品-上下文交互模塊)和一 個(gè)全局交互模塊。
模型細(xì)節(jié)
問(wèn)題定義
CTR 預(yù)估的輸入輸入分為四個(gè)模塊,候選物品、歷史行為、上下文、用戶屬性。對(duì)每個(gè)類型的特征進(jìn)行嵌入。
Item-Behaviors Interaction Module (IBIM)模塊
此模塊的目的是學(xué)習(xí)候選物品-歷史行為之間的交互關(guān)系

具體的,此模塊包括以下五個(gè)計(jì)算步驟:
對(duì)輸入數(shù)據(jù)進(jìn)行Layer Normalization
使用Transfomer中的Multi-Head Self-Attention
得到的結(jié)果記為
Position-wise Feed-Forward Network (FFN)
目的:引入非線性變化,得到的結(jié)果記為
聚合行為狀態(tài)與候選物品的embedding, 然后計(jì)算行為之間的重要性
加權(quán)融合歷史行為
Item-User Interaction Module (IUIM)模塊
此模塊目的是計(jì)算候選物品與用戶屬性的交互

具體的,此模塊包括以下三個(gè)計(jì)算步驟:
連接用戶每個(gè) field 的屬性與候選item
計(jì)算attention
加權(quán)融合用戶屬性
Item-Context Interaction Module (ICIM)模塊
此模塊計(jì)算候選物品和上下文的交互

操作類似 IUIM 模塊
Global Interaction Module (GIM)模塊
此模塊顯式的捕獲原始低階特征和生成的高階交互特征

最終得到的表示為:
預(yù)測(cè)層
把上面的輸入喂入MLP
然后通過(guò)softmax得到點(diǎn)擊與不點(diǎn)擊的概率:
模型訓(xùn)練
使用Cross-entropy Loss(損失函數(shù))訓(xùn)練模型參數(shù):
實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)集:兩個(gè)公開(kāi)數(shù)據(jù)集一個(gè)私有數(shù)據(jù)集

實(shí)驗(yàn)結(jié)果
性能對(duì)比

對(duì)于 Amazon 數(shù)據(jù)集,DIN、DIEN 等考慮序列關(guān)系的模型優(yōu)于 DeepFM 等交互模型 對(duì)于商業(yè)數(shù)據(jù)集由于歷史行為比較少,所以 DIN、DIEN 并未由于其他模型 MIAN 持續(xù)優(yōu)于其他模型
消融實(shí)驗(yàn)

在所有環(huán)境中,移除 IBIM 都會(huì)傷害性能,表明 MIAN 可以有效的通過(guò)歷史行為捕獲用戶偏好. 移除 IUIM、ICIM 也會(huì)傷害性能,但有趣的是它還是由于 DIEN,這表明 IBIM 模塊與以往的順序方法相比,能夠充分有效地利用用戶的歷史行為特征。 此外,我們可以觀察到,刪除 GIM 確實(shí)在一定程度上損害了 MIAN 的性能。結(jié)果表明,CTR 的最終預(yù)測(cè)需要整個(gè)模型的高階交互作用和多個(gè)模塊的平衡。
特征重要性可視化
數(shù)據(jù):隨機(jī)從 Amazon 數(shù)據(jù)集中選擇了 14 個(gè)例子來(lái)可視化權(quán)重
可以觀察到", , "這幾個(gè)特征的重要性高于原始特征表示,即""
總結(jié)
為了進(jìn)一步提高CTR預(yù)測(cè)的性能,這篇提出了一種新的MIAN模型來(lái)模擬物品、用戶順序行為、用戶特定信息和上下文信息之間的細(xì)粒度交互。
參考資料
Kai Zhang, Hao Qian, Qing Cui, Qi Liu, Longfei Li, Jun Zhou, Jianhui Ma, Enhong Chen.Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction.WSDM, 2021.: https://dl.acm.org/doi/pdf/10.1145/3437963.3441761
