阿里媽媽搜索廣告CTR模型的“瘦身”之路
? 前言
? 1. 超大規(guī)模模型演進之路的辯證思考

2)列維度:即Embedding向量維度壓縮
3)值精度:即FP16/Int8量化等
我們在這3個方向都有充分實踐,本文主要介紹在行維度的特征壓縮,也是在直通車場景可以做到訓練過程中自壓縮,模型壓縮比有量級(其他兩個優(yōu)化方向只有倍數(shù)壓縮比)上的顯著收益且模型預估精度保持不變,下圖舉例說明。

? 2. 小而美模型的蛻變之路
復合特征的隱式類型的id類特征,例如<user_age, item_id>交叉特征對應的 Embedding,這一類特征提供了更加微觀的id類特征的表征方式,在樣本規(guī)模較為充分的情況下能夠提供更加細膩的特征空間區(qū)分能力,實踐中效果較為顯著。
復合特征的顯式類型的統(tǒng)計值特征,例如<user_age, item_id>交叉特征的歷史14天統(tǒng)計 CTR,這一類特征可以注入先驗的數(shù)據(jù)分布,提供一定的泛化能力,在實踐中效果較為明顯。
單特征的核心id類特征,例如query_id,item_id,user_id等,這一類特征是模型預估的基石,隨著模型的演進我們也由有沖突 hash 升級到無沖突 hash 模式。雖然效果有提升,但為了控制住模型規(guī)模,系統(tǒng)需要配置相應的特征準入準出策略,當遇到數(shù)據(jù)分布變化劇烈的時期,例如季節(jié)變換或者大促時節(jié),策略需要頻繁調整,魯棒性較低。

設計關系網(wǎng)絡,取代復合特征的隱式類型的id類特征; 設計基于 Graph 的預訓練網(wǎng)絡,取代復合特征的顯式類型的統(tǒng)計值特征; 設計 Multi-Hash 通用的壓縮方案,升級單特征的核心id類特征; 設計隨模型可學習的特征選擇方案,確保整體特征結構的精簡性,特征均有正向邊際收益;
交叉特征的隱式 Embedding 表征是業(yè)界關注最多的話題,我們借鑒業(yè)界較為常用的特征交叉建模方案(例如 FM 系列,DCN[1],AutoInt[2]等),設計適配直通車場景的交叉網(wǎng)絡。該網(wǎng)絡的特點是參考 self-attention 結構,基于共享的交互強度矩陣,對稱性地雙視角建模兩兩特征的交叉關系。且根據(jù)實際情況,對交叉特征域做先驗設定(只保留流量需求側與供給側交互關系),整體交叉網(wǎng)絡作為 Deep 的一部分(實驗表明 Wide 設計效果不佳),大塊的矩陣線性計算也有利于 GPU 加速,整體很好地刻畫了交叉特征的 Embedding 表征。


2.2. 基于 Graph 的預訓練網(wǎng)絡
復合特征除了上述提到的隱式類型以外,另一類就是顯式的統(tǒng)計值,這類特征業(yè)務提效也非常明顯,是業(yè)界提效公開的秘密手段,存儲規(guī)模占比也不小,但是想做精簡卻無法像上述關系網(wǎng)絡擬合一樣來處理。舉例來說,<user_age, item_id>交叉特征的 Embedding,可以通過單特征各自 user_age 的 Embedding 和 item_id 的 Embedding 計算得到,但是<user_age, item_id>交叉特征的 CTR,無法拆解成 user_age 的 CTR 和 item_id 的 CTR 交互計算。

2.4. Droprank 特征選擇
? 3. 總結與展望
