推薦系統(tǒng)通用用戶表征預(yù)訓(xùn)練研究進(jìn)展
隨著NLP和CV領(lǐng)域的發(fā)展,涌現(xiàn)出了以BERT,GPT為代表的大規(guī)模語言模型和以ImageNet為代表的各種經(jīng)典視覺模型,如resnet和visual transformer,在各自領(lǐng)域都產(chǎn)生了很大的成功,而且實(shí)現(xiàn)了通用語言/視覺表征能力,例如BERT學(xué)好的語言表征可以被應(yīng)用到各種各樣的下游任務(wù)。受到相關(guān)技術(shù)的啟發(fā),推薦系統(tǒng)最近兩年也出現(xiàn)了一些學(xué)習(xí)用戶通用表征的算法和深度模型,也就是,通過對用戶行為進(jìn)行某種程度預(yù)訓(xùn)練,然后adapt到一些下游任務(wù)中,這些下游任務(wù)包括,跨域推薦和用戶畫像預(yù)測,本文簡要介紹幾種代表性工作, 優(yōu)先并重點(diǎn)介紹了有代碼和數(shù)據(jù)集的論文,以便大家更好的follow。本帖子參考了一些相關(guān)技術(shù)帖。
Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation. SIGIR2020
作者來自騰訊和谷歌
代碼+數(shù)據(jù)集:https://github.com/fajieyuan/SIGIR2020_peterrec



One Person, One Model, One World: Learning Continual User Representation without Forgetting. SIGIR2021.
作者來自騰訊和谷歌
代碼+數(shù)據(jù)集:https://github.com/fajieyuan/SIGIR2021_Conure



Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks. KDD2018.
作者來自Alibaba團(tuán)隊(duì)。
Github上暫未找到代碼和數(shù)據(jù)集。



One4all User Representation for Recommender Systems in E-commerce. 2021年arxiv
論文動機(jī)也是認(rèn)為學(xué)習(xí)general-purpose的表征能力在機(jī)器學(xué)習(xí)社區(qū)已經(jīng)取得了很大的成功,同時(shí)指出在電商場景下,學(xué)習(xí)one4all的表征,可以用來做很多下游任務(wù),例如用戶畫像預(yù)測、推送和推薦系統(tǒng)。為此,作者們系統(tǒng)的比較了電商場景下通用用戶表征的建模方式和遷移效果,提出ShopperBERT模型,論文數(shù)據(jù)規(guī)模相當(dāng)龐大,達(dá)到8億點(diǎn)擊行為(PeterRec數(shù)據(jù)接近1億的行為),論文結(jié)果展示出預(yù)訓(xùn)練在多個(gè)下游任務(wù)上可以取得SOTA效果,該論文比較精彩的地方是做了非常廣泛的分析實(shí)驗(yàn),很有參考價(jià)值。



TUM: Pre-training User Model from Unlabeled User Behaviors via Self-supervision. 2020.findings EMNLP
作者來自清華和微軟
用戶專注用戶建模任務(wù),指出傳統(tǒng)的用戶建模需要label數(shù)據(jù),然而,推薦系統(tǒng)大量的用戶行為可以用來建立自監(jiān)督學(xué)習(xí)機(jī)制,論文提出mask行為預(yù)測和next K行為預(yù)測學(xué)習(xí)用戶表征模型,類似的,作者也是在下游任務(wù)(包括CTR預(yù)測和畫像預(yù)測)中檢測了表征的遷移能力,論文來自一個(gè)搜索引擎,具體不詳。



UPRec: User-Aware Pre-training for Recommender Systems. TKDE2021投稿



User-specific Adaptive Fine-tuning for Cross-domain Recommendations. TKDE2021,
作者來自中科院
本文作者動機(jī)與以上幾篇論文類似,也是想嘗試通過遷移學(xué)習(xí)解決用戶冷啟動問題,但是不同以上文章,論文提出了一種personalized微調(diào)方式,針對不同的用戶采用不同的policy微調(diào)機(jī)制,作者強(qiáng)調(diào)pre-training的殘差塊不一定需要微調(diào),有些用戶的興趣偏好(尤其是行為比較少的用戶)可能會跟pre-training場景更加相似,那么這種情況大可不需要微調(diào),直接使用pretraining自帶的殘差塊即可。論文通過強(qiáng)化學(xué)習(xí)手段實(shí)現(xiàn)user-specific微調(diào)技術(shù)。效果展示出這種自適應(yīng)微調(diào)效果好于常規(guī)的各種finetune技術(shù)。



Scaling Law for Recommendation Models: Towards General-purpose User Representations.
動機(jī)就不多說了,還是general-purpose用戶表征的遷移學(xué)習(xí),不過個(gè)人感覺這篇論文寫的非常漂亮,閱讀起來感覺也是非常舒服,論文主要關(guān)注scale效果,大有效仿GPT的感覺,論文提出CLUE算法,基于最新的比較學(xué)習(xí)(contrastive learning),多目標(biāo)學(xué)習(xí)用戶表征,然后探索表征的遷移能力,論文用到的用戶行為達(dá)到驚人的500億(七個(gè)下游任務(wù)),是PeterRec訓(xùn)練樣本的大概500倍,ShopperBERT的60倍以上,有望成為推薦系統(tǒng)領(lǐng)域大模型預(yù)訓(xùn)練的里程碑工作。


Learning Transferable User Representations with Sequential Behaviors via Contrastive Pre-training.ICDM2021
動機(jī)不多提了,很有意思的一點(diǎn),這篇論文的名字也叫CLUE,與(8)相同,好像NLP里面也有這個(gè)名字,論文也是探索性質(zhì),指出PeterRec這種基于item level的訓(xùn)練方式容易破壞用戶表征,或者是一種次優(yōu)的表征,既然是用戶表征就應(yīng)該基于user level,對用戶行為直接做比較學(xué)習(xí),論文嘗試了常見的顯式數(shù)據(jù)提升方式和隱式的dropout方式,證實(shí)方法的有效性。



Learning Universal User Representations via Self-Supervised Lifelong Behaviors Modeling. 投稿ICLR2022,
作者來自阿里巴巴,暫未找到代碼和數(shù)據(jù)。
該論文也是提出了一種通用的用戶表征終生學(xué)習(xí)機(jī)制,起名LURM,LURM包含了幾個(gè)重要的組件(BoI和SMEN),通過比較學(xué)習(xí)學(xué)習(xí)用戶通用表征能力,論文提出了首個(gè)具有建模lifelong行為序列的通用表征算法,論文還沒讀完,看起來比較干,論文呈現(xiàn)比較濃厚的阿里風(fēng)格。不過看openreview審稿意見,論文本次被ICLR2022接受概率可能不太大,被指出實(shí)驗(yàn)部分缺少一些近期相關(guān)baselines的比較(如PTUM和PeterRec),其他評論意見不在此羅列,感興趣的也可以參考o(jì)penreview官網(wǎng)學(xué)習(xí)。整體上講,論文水平感覺還是挺不錯(cuò)的,做了一些有意義的探索,值得學(xué)習(xí)。


