TKDE 2020 | 綜述:基于知識圖譜的推薦系統(tǒng)
TKDE 2020
綜述:基于知識圖譜的推薦系統(tǒng)
A Survey on Knowledge Graph-Based Recommender Systems
中科院計算所、百度、港科大、中科大、微軟
原文
Qingyu Guo, Fuzhen Zhuang, Chuan Qin,?Hengshu Zhu, Xing Xie, Hui Xiong, Qing He,?
A Survey on Knowledge Graph based Recommender Systems,?
In IEEE Transactions on Knowledge and Data Engineering?(IEEE TKDE), 2020
doi: 10.1109/TKDE.2020.3028705.
本文是中科院計算所、百度、港科大、中科大、微軟學(xué)者發(fā)表于TKDE-2020的工作[1]。這篇工作基于該團隊發(fā)表于《中國科學(xué):信息科學(xué)》的中文綜述論文[2],進一步全面地歸納了近年來基于知識圖譜的推薦系統(tǒng)方面的相關(guān)工作,對里面的核心關(guān)鍵算法進行了展開的介紹和對比分析,匯總了所涉及到的知識圖譜數(shù)據(jù);我們還總結(jié)了現(xiàn)有不同基于知識圖譜的推薦系統(tǒng)應(yīng)用場景和相應(yīng)可選擇的benchmark數(shù)據(jù)集;最后我們對該領(lǐng)域的未來發(fā)展進行了一定的展望討論,對該領(lǐng)域今后的研究具備一定的指導(dǎo)意義。

1. 引言?
隨著互聯(lián)網(wǎng)的快速發(fā)展,我們正處在信息爆炸的時代。當我們在享受互聯(lián)網(wǎng)帶來的便利的同時,也面臨著信息過載的問題,難以迅速地從海量數(shù)據(jù)中汲取所需信息。為了解決這一問題,推薦系統(tǒng)應(yīng)運而生,并在包括音樂、電影、購物等眾多場景落地實踐,提高了用戶的體驗。
近段時間,基于知識圖譜的推薦系統(tǒng)引起了研究者的廣泛關(guān)注,其基本思想是將知識圖譜作為一種輔助信息引入到推薦系統(tǒng)中。這種方法既可以提高推薦系統(tǒng)的準確性,又能夠為推薦結(jié)果提供解釋。一方面,知識圖譜是一種有向信息異構(gòu)網(wǎng)絡(luò),其中節(jié)點代表實體,有向邊可表示實體間的關(guān)系。知識圖譜蘊含了推薦系統(tǒng)中物品的大量背景信息,可表示物品間的多種關(guān)系。與此同時,還可以結(jié)合推薦系統(tǒng)中用戶與物品的交互數(shù)據(jù),擴展用戶和物品間的隱藏連通關(guān)系,從而更精準地建模用戶偏好,提高推薦效果。下圖是一個基于知識圖譜的推薦實例,其中既包括了用戶、電影、演員、導(dǎo)演、題材這幾種實體,又包含了實體間的復(fù)雜關(guān)系。電影“阿凡達”、“血鉆”和用戶Bob借助知識圖譜中的隱藏關(guān)系連接在一起,從而輔助系統(tǒng)做出精準的推薦。另一方面,知識圖譜也使得推薦結(jié)果有跡可循。例如通過該圖中的關(guān)系序列,我們可以得知向Bob推薦“阿凡達”的一個原因是,“阿凡達”與Bob曾經(jīng)看過的星際穿越同屬科幻片。

? 圖1 一個基于知識圖譜的推薦實例??
本綜述的目的是總結(jié)與闡述利用知識圖譜做推薦的研究現(xiàn)狀,這一工作與前人的工作有所重疊,例如基于圖的推薦系統(tǒng)綜述、關(guān)于知識圖譜應(yīng)用的綜述。和前人的工作相比,我們對于方法的介紹更為深入,并提供了更細致的層次化技術(shù)分類。我們首先將該領(lǐng)域的文章分為三大類,分別是基于嵌入的方法(embedding-based methods),基于連接的方法(connection-based methods),和基于傳播的方法(propagation-based methods)。同時又按照每一類方法的特點,提供更細致的劃分。本文的第二點貢獻是我們詳細闡述了知識圖譜如何給推薦結(jié)果提供可解釋性,并總結(jié)了不同技術(shù)手段。同時,我們以推薦系統(tǒng)的應(yīng)用場景作為劃分依據(jù),總結(jié)了不同應(yīng)用下可使用的數(shù)據(jù)集。最后,我們根據(jù)對這一領(lǐng)域的理解,提出了一些未來發(fā)展方向的展望。
2. 方法總結(jié)?
我們按照知識圖譜的利用方式將現(xiàn)有工作分為三大類:基于嵌入的方法,基于連接的方法和基于傳播的方法。對于每類方法,我們又做了更進一步的劃分,并列舉了代表性工作加以介紹。我們將所調(diào)研的文章匯總在如下的表格中,將每種方法按照我們總結(jié)的分類依據(jù)歸類,并整理了各工作構(gòu)建知識圖譜的方式,圖嵌入方法,以及解決的主要問題,以方便讀者查閱。

? 表一、 方法總結(jié)? ?
基于嵌入的方法主要利用知識圖譜中豐富的語義關(guān)系,來豐富物品、用戶的表征。這類方法主要包含兩部分:圖嵌入模塊,主要利用圖嵌入的方法學(xué)習(xí)知識圖譜中實體和關(guān)系的表征;和推薦模塊,以建模用戶對物品的偏好。按照這兩個模塊的結(jié)合方式,可將這一方向的工作劃分為三類。第一類是依次學(xué)習(xí),首先利用圖嵌入算法單獨訓(xùn)練圖嵌入模塊,隨后將預(yù)先訓(xùn)練好的知識圖譜表征向量引入到推薦系統(tǒng)中,擴充用戶、物品的語言表征,隨后訓(xùn)練推薦模塊,一些代表性的工作包括DKN、KSR、KTGAN等;第二種思路是聯(lián)合學(xué)習(xí),將圖嵌入模塊和推薦模塊的目標函數(shù)相結(jié)合,從而實現(xiàn)端到端的訓(xùn)練,代表性工作包括CKE、CFKG等;第三種思路是引入多任務(wù)學(xué)習(xí)框架,通過將圖嵌入模塊設(shè)計成與推薦模塊相關(guān)而又分離的任務(wù),例如知識圖譜補全,邊預(yù)測任務(wù),從而利用圖嵌入模塊監(jiān)督推薦模塊的訓(xùn)練過程,相關(guān)工作包括MKR、KTUP、RCF。
基于連接的方法主要利用圖譜中實體間的連接方式做推薦,這類方法大多是將包含物品屬性的知識圖譜與用戶-物品的交互矩陣相結(jié)合,構(gòu)建用戶-屬性-物品圖,挖掘用戶和物品間的多種連接關(guān)系。這一方向有兩種基本思路,第一種是利用實體間的連接相似性做推薦,通過定義圖譜中的基本結(jié)構(gòu)特征,例如元路徑,計算不同路徑下實體間的相關(guān)性,作為用戶及物品表征的約束條件,代表性工作包括Hete-CF、FMG等;第二種思路是挖掘用戶與物品之間存在的語義路徑,學(xué)習(xí)實體間連接路徑的顯式表征,將其引入到推薦框架中,以直接建模用戶與物品間的連接關(guān)系,代表性工作包括MCRec、RKGE等。
盡管上述兩類方法都提升了推薦的精準性,但都沒有利用圖中所包含的全部信息,比如基于嵌入的方法側(cè)重于學(xué)習(xí)知識圖譜中的語義表示,而基于連接的方法關(guān)注知識圖譜中實體的連接信息。基于傳播的方法結(jié)合了上述兩大思路,其基本思想是借助知識圖譜中實體間的連接路徑,將實體語義表征在圖中傳播,直接建模實體間的高階關(guān)系,從而更合理地挖掘了知識圖譜所包含的信息。基于傳播的方法包含三種實現(xiàn)途徑,具體而言,第一種方式基于用戶的歷史行為,通過聚合用戶歷史交互物品的多跳鄰居來豐富用戶表征,從而將用戶的歷史興趣在知識圖譜中沿著向外傳播,這方向的代表性工作包括RippleNet,AKUPM等。第二類方式是將目標物品與其多跳鄰居聚合,更新物品的表征。在聚合過程中,實體表征的聚合權(quán)重由用戶和目標實體共同決定,從而將用戶的偏好引入到實體表征的更新過程中,代表工作包括KGCN等。第三種思路是將用戶物品交互矩陣與包含屬性信息的知識圖譜相結(jié)合,從而將用戶和物品統(tǒng)一表示在一張圖,并與圖中各自的多跳鄰居表征聚合,豐富用戶與物品的表征,代表工作包括KGAT等。
基于嵌入的方法使用圖嵌入算法學(xué)習(xí)知識圖譜中實體和關(guān)系的表征,將其整合到推薦系統(tǒng)框架中。其優(yōu)勢是較為靈活,易于實踐,但這種方法忽略了實體間的高階關(guān)系,且往往不具有可解釋性。基于連接的方法側(cè)重于挖掘用戶與物品在知識圖譜中的多種連接關(guān)系,其優(yōu)勢是連接模式往往可以帶來可解釋性,但往往不適用于用戶與物品交互數(shù)據(jù)稀疏的場景,且將用戶與物品間復(fù)雜的關(guān)系分解為若干連接單元會損失部分信息。基于傳播的方法基于圖上傳播機制,結(jié)合了基于嵌入的方法和基于連接的方法的特點,充分挖掘知識圖譜中的信息。但一個顯著的缺點是訓(xùn)練過程需要消耗較多計算資源,在大規(guī)模數(shù)據(jù)的業(yè)務(wù)場景下需要考慮可擴展性。
我們也簡要總結(jié)了利用知識圖譜為推薦結(jié)果帶來可解釋性的主要技術(shù)手段,包括:1)對知識圖譜的關(guān)系嵌入運用注意力機制2)定義元路徑等基本結(jié)構(gòu)單元3)對連接路徑表征運用注意力機制4)在結(jié)合了用戶與物品交互信息的知識圖譜中運用強化學(xué)習(xí)5)提取基于傳播的方法中實體聚合的權(quán)重。
3. 數(shù)據(jù)集
基于知識圖譜的推薦系統(tǒng)不僅可以提高推薦效果,帶來可解釋性,還易于與多種推薦框架相結(jié)合,運用于眾多實際場景。我們將所調(diào)研的工作按照應(yīng)用場景分為七類,包括電影推薦、圖書推薦、音樂推薦、新聞推薦、商品推薦、POI推薦以及社交推薦,總結(jié)了每種場景下所使用的的數(shù)據(jù)集與采用的外部知識圖譜,并按照構(gòu)建知識圖譜的方法總結(jié)各個工作。同時,我們也闡述了每種應(yīng)用場景的特點,并介紹了每種場景下對應(yīng)數(shù)據(jù)集的基本信息。為方便讀者查閱本節(jié)內(nèi)容,我們將其總結(jié)于下表。

? 表二、數(shù)據(jù)集總結(jié)??
4. 未來展望
除此之外我們也對這一方向的工作做了展望,包括:
1)動態(tài)推薦:當前基于知識圖譜的推薦算法往往訓(xùn)練時間較長,成本過高,適用于靜態(tài)的推薦場景,用戶的興趣在很長一段時間內(nèi)保持穩(wěn)定。然而在實際的業(yè)務(wù)場景中,用戶的興趣往往變化迅速。如何基于實時的反饋數(shù)據(jù),動態(tài)迭代推薦策略,保證推薦的時效性,是未來的研究趨勢之一
2)多任務(wù)學(xué)習(xí):知識圖譜本身存在的一些問題也會成為推薦系統(tǒng)的瓶頸,例如知識圖譜中事實信息并不完整,導(dǎo)致實體間部分關(guān)系缺失,從而可能忽略了用戶的部分偏好。因此可以設(shè)計與知識圖譜相關(guān)的任務(wù),例如知識圖譜補全,將其與推薦系統(tǒng)聯(lián)合訓(xùn)練,以便提高推薦效果。
3)跨領(lǐng)域推薦:在實際業(yè)務(wù)場景中,用戶往往會選購不同領(lǐng)域的商品,例如圖書和電影。不同領(lǐng)域的交互數(shù)據(jù)可以與知識圖譜自然地結(jié)合在一起,且推薦系統(tǒng)在多種場景下往往具有相似的規(guī)律。因此可以通過遷移學(xué)習(xí)等技術(shù),通過共享交互數(shù)據(jù)相對豐富的源領(lǐng)域的交互特征,緩解目標領(lǐng)域數(shù)據(jù)稀疏的問題,從而在多個領(lǐng)域都做出更好的推薦結(jié)果。
4)結(jié)合知識的文本表示:在以新聞推薦為代表的推薦場景下,理解文本信息至關(guān)重要。通過將外部知識圖譜中的豐富信息引入語言模型訓(xùn)練中,可以獲得更好的文本表示,比如結(jié)合知識的文本表示方法ERNIE和STCKA,可以用在新聞推薦這樣的文本為主的應(yīng)用里,從而做出更準確的推薦。
5. 總結(jié)
本文調(diào)研了基于知識圖譜的推薦系統(tǒng)的相關(guān)工作,系統(tǒng)總結(jié)了這一領(lǐng)域的最新進展。我們著重闡述了不同研究方法的技術(shù)特點并提出了分類方式,同時闡述了如何運用知識圖譜為推薦結(jié)果帶來可解釋性。與此同時,我們也介紹了不同應(yīng)用場景下可供選擇的數(shù)據(jù)集,為入門這一方向提供了可行的建議。最后,我們提出了這個研究方向存在的發(fā)展趨勢,希望能促進這一領(lǐng)域的進步與發(fā)展。基于知識圖譜的推薦系統(tǒng)方興未艾,知識圖譜中蘊含的豐富信息,可以有效提升推薦系統(tǒng)的效果,并帶來可解釋性。我們希望本文能夠幫助讀者理解這一領(lǐng)域的工作。

論文下載鏈接
[1] https://ieeexplore.ieee.org/document/9216015
[2] http://scis.scichina.com/cn/2020/SSI-2019-0274.pdf

