【推薦系統(tǒng)】基于圖嵌入技術(shù)的推薦系統(tǒng)長(zhǎng)文綜述
|作者:鄧月
近幾年,基于圖嵌入技術(shù)的推薦系統(tǒng)已成為一個(gè)熱門的研究焦點(diǎn),并將隨著圖嵌入技術(shù)的不斷發(fā)展而持續(xù)。近日發(fā)布的《基于圖嵌入技術(shù)的推薦系統(tǒng)》長(zhǎng)文綜述,系統(tǒng)地闡述了二部圖、廣義圖和知識(shí)圖譜上的圖嵌入技術(shù),以及將它們應(yīng)用到對(duì)應(yīng)推薦場(chǎng)景中的推薦模型。同時(shí)還在傳統(tǒng)推薦(例如UBCF、IBCF這類直接作用在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)上進(jìn)行分析的、非機(jī)器學(xué)習(xí)的推薦模型)和基于圖嵌入的推薦之間通過(guò)實(shí)驗(yàn)進(jìn)行了比較,提出了在兩者間進(jìn)行權(quán)衡的策略和在兩者間進(jìn)行融合的新觀點(diǎn)。

論文地址:https://arxiv.org/pdf/2109.09587
大數(shù)據(jù)對(duì)用戶的生活有益嗎?大多數(shù)人或許會(huì)異口同聲道:always! 確實(shí),從這次疫情期間的國(guó)家防控工作中就能切身感受到,交通大數(shù)據(jù)能夠極大地幫助我們挖掘出可能存在的潛在感染者。對(duì)于科研工作,學(xué)術(shù)大數(shù)據(jù)也能促進(jìn)研究人員之間的合作。此外,在日常生活中,平時(shí)為我們帶來(lái)娛樂(lè)和便利的百度和淘寶等等,無(wú)一不是背后的多媒體大數(shù)據(jù)在支撐其高效的運(yùn)作。然而,讓我們更加辯證地來(lái)看待這個(gè)問(wèn)題:大數(shù)據(jù)難道就不會(huì)對(duì)用戶的生活帶來(lái)不利影響嗎?回想一下,我們沒(méi)有過(guò)在百度視頻上半天也刷不到自己感興趣的短視頻而消耗無(wú)效時(shí)間的捉急嗎?我們沒(méi)有過(guò)在淘寶上半天也找不到自己喜歡的商品而不得不翻來(lái)翻去的不甘嗎?大數(shù)據(jù)在數(shù)量上的大規(guī)模、種類上的多樣化以及質(zhì)量上的層次不齊也會(huì)降低用戶對(duì)有效信息的檢索效率,增加用戶的時(shí)間開(kāi)銷。這就是大數(shù)據(jù)時(shí)代背景下的“信息過(guò)載”難題。
為了解決這一難題,推薦系統(tǒng)是一個(gè)有力的工具。它的目標(biāo)是為用戶從大數(shù)據(jù)中自動(dòng)篩選出感興趣的內(nèi)容。說(shuō)到這里,我們或許能夠突然意識(shí)到:推薦系統(tǒng)早已融入了我們的生活中,比如能夠?yàn)槲覀冏詣?dòng)推薦感興趣的短視頻的抖音,或者是出現(xiàn)在淘寶首頁(yè)的“您可能感興趣的物品”等。更進(jìn)一步地,推薦系統(tǒng)的原理就是通過(guò)分析用戶和物品(比如短視頻、商品等)已有的交互記錄(如:點(diǎn)擊、觀看和評(píng)分等),推斷出用戶對(duì)物品的偏好,從而利用用戶偏好來(lái)匹配到用戶感興趣的物品,最終實(shí)現(xiàn)推薦。
(1)用戶不可能與上億級(jí)的每個(gè)物品都發(fā)生過(guò)交互,現(xiàn)實(shí)是用戶和物品間的交互數(shù)往往會(huì)特別稀疏,導(dǎo)致推薦系統(tǒng)在基于不充足的用戶-物品交互記錄進(jìn)行分析而推斷出的用戶偏好沒(méi)那么準(zhǔn)確。這就是推薦系統(tǒng)面臨的第一個(gè)典型的難題——“稀疏性”難題。
(2)更壞的情況是,對(duì)于剛進(jìn)入到推薦系統(tǒng)中的新用戶或新物品,它們還沒(méi)來(lái)得及與其他任何的物品或用戶有過(guò)交互,使得連最基本的用于推薦系統(tǒng)分析的原料都缺失了。這就是推薦系統(tǒng)面臨的第二個(gè)典型的難題——“冷啟動(dòng)”難題。
為了解決上述兩類難題,利用邊信息和知識(shí)作為用戶-物品交互記錄的補(bǔ)充,來(lái)挖掘出更多的潛在的用戶-物品關(guān)聯(lián),從而豐富用于推薦系統(tǒng)分析的原料,已成為近年來(lái)的一個(gè)趨勢(shì),并被證明是有效的。邊信息和知識(shí)往往具有超大的數(shù)據(jù)規(guī)模和超高的語(yǔ)義復(fù)雜度,因此對(duì)推薦模型的可擴(kuò)展性,即在大規(guī)模高復(fù)雜度數(shù)據(jù)上運(yùn)行的效率和表現(xiàn)效果,有著極高的要求。
縱觀推薦系統(tǒng)這十幾年的發(fā)展,可謂是“從網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析到機(jī)器學(xué)習(xí)、從傳統(tǒng)推薦到基于圖嵌入的推薦、從僅利用用戶-物品交互記錄到融入邊信息和知識(shí)、從模型準(zhǔn)確性延伸出對(duì)模型可擴(kuò)展性等的要求”。在此趨勢(shì)下,基于圖嵌入的推薦系統(tǒng)是否就可以取代傳統(tǒng)推薦呢?本文從理論上比較了這兩者間的優(yōu)劣勢(shì),總結(jié)為如下圖所示。

此外,本文還在這兩類推薦中挑選出最具代表性的推薦模型用于仿真對(duì)照實(shí)驗(yàn),得出它們?cè)?個(gè)不同任務(wù)下(由3組數(shù)據(jù)分別導(dǎo)出的顯示/隱式用戶-物品交互預(yù)測(cè)任務(wù))的推薦準(zhǔn)確性表現(xiàn)。實(shí)驗(yàn)得出的結(jié)論是:在隱式用戶-物品交互預(yù)測(cè)任務(wù)中,傳統(tǒng)推薦整體上仍優(yōu)于圖嵌入的推薦。
綜上,本文得出的結(jié)論為:傳統(tǒng)推薦側(cè)重于直接分析圖拓?fù)浣Y(jié)構(gòu),而基于圖嵌入技術(shù)的推薦則更側(cè)重于復(fù)用學(xué)習(xí)到的表示向量。相比于僅關(guān)注其一,將二者的思想進(jìn)行結(jié)合,或?qū)⒏軌虼龠M(jìn)推薦系統(tǒng)的發(fā)展。 幾年來(lái),也有不少研究將網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的模體、社團(tuán)等子圖用于指導(dǎo)基于圖嵌入技術(shù)的推薦,如隨機(jī)游走和圖神經(jīng)網(wǎng)絡(luò)的信息傳遞規(guī)則等。
為了推動(dòng)這一趨勢(shì),本文號(hào)召來(lái)自不同學(xué)科領(lǐng)域的研究人員開(kāi)展交叉研究合作。對(duì)此,關(guān)于傳統(tǒng)推薦和基于圖嵌入技術(shù)的推薦的詳盡的綜述是實(shí)現(xiàn)如此溝通的橋梁。雖然前者已具備,但縱觀近幾年發(fā)表的綜述后,發(fā)現(xiàn)后者仍缺失。本文旨在對(duì)其進(jìn)行彌補(bǔ),分別從二部圖、廣義圖和知識(shí)圖譜的視角系統(tǒng)地綜述了圖嵌入技術(shù)及相應(yīng)的推薦模型,總結(jié)為下面三張圖所示。


基于常規(guī)圖嵌入推薦系統(tǒng)發(fā)展歷程

以及對(duì)它們各自的優(yōu)勢(shì)和劣勢(shì)進(jìn)行了總結(jié)比較,如下圖所示:

同時(shí),為了更有效地對(duì)這些框架下的推薦模型進(jìn)行全新的建模,推動(dòng)領(lǐng)域的發(fā)展,本文還提出了一個(gè)用于基于圖嵌入技術(shù)的推薦系統(tǒng)的建模方案。其結(jié)合了計(jì)算機(jī)科學(xué)家偏向的“從數(shù)據(jù)(任務(wù))出發(fā)”的角度和物理學(xué)家偏向的“從通用性出發(fā)”的角度,如下圖所示。該建模方案中也涵蓋了推薦系統(tǒng),包括傳統(tǒng)推薦和基于圖嵌入技術(shù)的推薦,的連貫運(yùn)行流程:輸入信息、構(gòu)造圖表示、設(shè)置相似性度量、選定推薦方法和構(gòu)造推薦模型。本文認(rèn)為,推薦模型的建模過(guò)程應(yīng)是上述整套流程的體現(xiàn)。

本文系統(tǒng)性的分析與總結(jié)了基于圖嵌入技術(shù)的推薦系統(tǒng)相關(guān)文獻(xiàn),并基于既有實(shí)驗(yàn)提出了自己的結(jié)論與觀點(diǎn)。文中若有不妥之處以及需要改進(jìn)的地方,歡迎同行提出寶貴意見(jiàn)與建議。
往期精彩回顧 本站qq群851320808,加入微信群請(qǐng)掃碼:
