<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【論文解讀】使用文本相似性模型擴(kuò)充 user-item 圖

          共 6170字,需瀏覽 13分鐘

           ·

          2023-01-07 10:04

          【Augmenting the User-Item Graph with Textual Similarity Models】


          這也是 Google Pair 團(tuán)隊(duì)的研究,另外一篇推薦系統(tǒng)相關(guān)的~

          這篇主要是講的推薦系統(tǒng)數(shù)據(jù)增強(qiáng)相關(guān)的研究。


          0. 摘要

          本文介紹了一種通過將釋義相似性模型應(yīng)用于廣泛可用的文本數(shù)據(jù)(例如評論和產(chǎn)品描述)來增強(qiáng)推薦系統(tǒng)中的數(shù)據(jù)的方法。由此產(chǎn)生的新語義關(guān)系被添加到用戶-項(xiàng)目圖中,這增加了圖的密度而不需要額外的標(biāo)記數(shù)據(jù)。數(shù)據(jù)增強(qiáng)技術(shù)在使用不同類型空間的各種推薦算法和三類亞馬遜產(chǎn)品評論上進(jìn)行了評估。結(jié)果表明,數(shù)據(jù)增強(qiáng)技術(shù)可以顯著改進(jìn)所有類型的模型,在冷啟動設(shè)置中基于知識圖譜的推薦系統(tǒng)的收益尤其顯著,從而獲得最先進(jìn)的性能。

          1. 介紹

          本文介紹了一種改進(jìn)推薦系統(tǒng)的方法,該方法通過使用從產(chǎn)品描述和評論等文本數(shù)據(jù)中派生的語義關(guān)系來擴(kuò)充數(shù)據(jù)。

          這些關(guān)系是使用預(yù)訓(xùn)練的語義相似性模型創(chuàng)建的,并被添加到 user - item 圖中,以補(bǔ)充從交互中學(xué)習(xí)到的隱式 user-user 和 item-item 相似性。數(shù)據(jù)增強(qiáng)技術(shù)在各種推薦模型(包括知識圖譜推薦系統(tǒng))上進(jìn)行了評估,并被證明在冷啟動設(shè)置中特別有效。

          使用不同的幾何空間(包括歐幾里德空間、復(fù)數(shù)空間和雙曲空間)比較增強(qiáng)模型的性能,發(fā)現(xiàn)在雙曲空間中效果最好。

          該論文還表明,與從原始文本中提取潛在特征的基線方法相比,所提出的技術(shù)在減少泛化誤差方面更有效。

          最后,本文討論了使用數(shù)據(jù)依賴偏差(使用從文本派生的關(guān)系來增強(qiáng)圖形)和幾何偏差(選擇幾何空間來嵌入關(guān)系)來提高推薦性能。

          2.挖掘語義關(guān)系

          motivation

          文本評論和項(xiàng)目描述可用于推薦系統(tǒng),以改進(jìn)潛在特征學(xué)習(xí)并做出更好的推薦。傳統(tǒng)的方法是在矩陣分解中使用這些特征,但這可能會給模型帶來負(fù)擔(dān),并且可能并不總能帶來顯著的性能提升。

          另一種方法是利用文本相似性模型的進(jìn)步,為推薦系統(tǒng)提供基于內(nèi)容的明確相似性,而無需監(jiān)督或增加計(jì)算復(fù)雜性。這可以通過基于計(jì)算的文本相似性向交互圖添加新邊來完成,這可以作為有效的正則化器并增加圖的密度,特別是在冷啟動場景中。

          method

          作者的目標(biāo)是通過基于文本描述和項(xiàng)目評論之間的語義相似性,使用 item-item 關(guān)系來擴(kuò)充 user-item 交互圖,從而改進(jìn)推薦系統(tǒng)的推薦。為此,我們收集了每個項(xiàng)目的所有可用文本,使用各種啟發(fā)式方法對其進(jìn)行過濾,然后使用通用句子編碼器 (USE) 計(jì)算 text embedding。每個 item 的最終 embedding 是其各個評論或描述符的 embedding 的平均值。然后,該方法使用余弦相似度計(jì)算項(xiàng)目對之間的相似度,并將前 k 個最高相似度分?jǐn)?shù)作為交互圖中的關(guān)系添加。此過程旨在通過合并來自項(xiàng)目描述和評論的附加信息來改進(jìn)系統(tǒng)的推薦。

          3. REPRESENTING THE GRAPH

          知識圖譜

          知識圖譜是一種多關(guān)系圖,其中節(jié)點(diǎn)表示實(shí)體,類型化的邊表示這些實(shí)體之間的關(guān)系。這些圖通常用于表示和查詢異構(gòu)知識,通常表示為一組(頭、關(guān)系、尾)三元組。要使用知識圖譜,通常要學(xué)習(xí)圖中實(shí)體和關(guān)系的向量表示,以便保留圖的結(jié)構(gòu)。這些表示通常采用實(shí)體的 h,t 向量和關(guān)系的 r 向量的形式,并且使用評分函數(shù) ?? 評估三元組正確的可能性。然后可以在下游應(yīng)用程序中使用這些矢量表示。

          推薦系統(tǒng)的知識圖譜

          知識圖譜嵌入方法已廣泛用于推薦系統(tǒng),作為一種合并輔助信息和提高性能的方法。這些方法允許用戶、項(xiàng)目和其他實(shí)體之間的多種關(guān)系在知識圖中表示并合并到推薦系統(tǒng)中。這可以降低過度擬合的風(fēng)險(xiǎn)并提高模型的泛化能力,并允許系統(tǒng)學(xué)習(xí)可用于推薦的不同類型的實(shí)體交互。然而,以前的工作大多只應(yīng)用了比較有限的方法,例如翻譯方法,并沒有利用更新的和表達(dá)性更強(qiáng)的方法,這些方法已經(jīng)在知識圖譜完成任務(wù)上取得了最先進(jìn)的性能。這些較新的方法包括將圖形嵌入非歐幾里德幾何中的方法,例如雙曲空間,或使用復(fù)數(shù)或四元數(shù)代數(shù)。

          在下表中,我們展示了 KG embedding 方法及其 operator ,以及他們已應(yīng)用的推薦系統(tǒng)的工作。

          方法比較

          RotatE 是一種表示復(fù)雜向量空間中的實(shí)體和關(guān)系的方法,并將關(guān)系定義為源實(shí)體和目標(biāo)實(shí)體之間的復(fù)雜平面中的旋轉(zhuǎn)。MuRP 是一種基于頭部實(shí)體上的特定關(guān)系 M?bius 乘法和尾部實(shí)體上的 M?bius 加法對三元組 (h, r, t) 的可能性進(jìn)行評分的方法。RotRef 是 MuRP 的擴(kuò)展,包括雙曲空間中的旋轉(zhuǎn)和反射,并將這些操作的結(jié)果與切線空間中的注意力機(jī)制相結(jié)合。

          圖增強(qiáng)

          這里使用 item 之間的語義關(guān)系來擴(kuò)充 user-item 圖的方法,例如產(chǎn)品和品牌之間的關(guān)系,或者電影導(dǎo)演和演員之間的關(guān)系。添加這些語義關(guān)系可以修改圖的大小和結(jié)構(gòu),從而影響對圖進(jìn)行操作的最佳 embedding 空間。

          4. 交互圖分析

          本文討論了使用 embedding 來表示歐幾里德空間中的圖形。作者指出,許多現(xiàn)實(shí)世界的圖形都表現(xiàn)出非歐幾里得特征,例如冪律度數(shù)分布和無標(biāo)度網(wǎng)絡(luò)的屬性,這表明存在潛在的雙曲幾何。作者旨在了解哪種類型的黎曼流形作為這些類型的圖的嵌入空間是更好的選擇。他們分析了圖的結(jié)構(gòu)和幾何屬性,發(fā)現(xiàn)當(dāng)他們用額外的關(guān)系擴(kuò)充圖時,添加的邊會修改它的連通性和結(jié)構(gòu),使其更像雙曲線。

          Data

          亞馬遜數(shù)據(jù)集(Amazon dataset), 亞馬遜數(shù)據(jù)集是推薦系統(tǒng)的標(biāo)準(zhǔn)基準(zhǔn),并以文本描述的形式提供項(xiàng)目評論和元數(shù)據(jù)。作者重點(diǎn)關(guān)注“樂器”、“視頻游戲”和“藝術(shù)、手工藝和縫紉”類別,這些類別在規(guī)模和領(lǐng)域上形成了多樣化的數(shù)據(jù)集。除了向圖中添加語義關(guān)系外,作者還包括在之前的工作中探索過的關(guān)系,例如“also_bought”、“also_view”、“category”和“brand”。下表指出了添加到最終增強(qiáng)圖中的每種關(guān)系類型的數(shù)量。

          Hyperbolic Geometry(雙曲線幾何)

          雙曲幾何是具有常負(fù)曲率的非歐幾何。它非常適合嵌入具有層次結(jié)構(gòu)的數(shù)據(jù),因?yàn)殡S著點(diǎn)遠(yuǎn)離原點(diǎn),空間量呈指數(shù)增長,這反映了樹中節(jié)點(diǎn)隨著與根的距離增加而呈指數(shù)增長。在這項(xiàng)工作中,作者分析了在 n 維龐加萊球中運(yùn)行的模型,這是一個由方程 定義的雙曲空間區(qū)域 < 1. 該空間中兩點(diǎn) x 和 y 之間的距離由以下方程定義:

          曲率分析

          曲率是描述物體局部形狀的屬性。正曲率對應(yīng)于像球體這樣的表面,其中平行路徑彼此靠近,而負(fù)曲率對應(yīng)于像 spheres 這樣的表面,其中平行路徑往往相距更遠(yuǎn)。在這項(xiàng)工作中,作者應(yīng)用 Ollivier-Ricci 曲率對圖進(jìn)行分析,發(fā)現(xiàn) user-item 圖中的節(jié)點(diǎn)和邊表現(xiàn)出非常負(fù)的曲率。隨著更多的關(guān)系被添加到圖中,它變得更加 connected,但整體曲率仍然是負(fù)的。作者認(rèn)為,這種負(fù)曲率對應(yīng)于雙曲空間的負(fù)曲率,這種幾何對 user-item 圖和擴(kuò)充圖都更好。

          ??-雙曲性

          -雙曲性,也稱為 Gromov 雙曲性,是給定度量空間的雙曲性的度量。它被計(jì)算為一個單一的數(shù)字,較小的值表示一個更雙曲線或負(fù)彎曲的空間。該度量也適用于圖形,下表顯示了 均值和 最大值。

          他們發(fā)現(xiàn),將 user-item 圖與擴(kuò)充圖進(jìn)行比較時,這兩種度量都會降低,這表明擴(kuò)充圖更像雙曲線。

          5. 實(shí)驗(yàn)

          實(shí)驗(yàn)部分主要是比較在推薦系統(tǒng)中生成推薦的各種知識圖譜 (KG) 技術(shù),重點(diǎn)是那些在雙曲線空間中操作的技術(shù)。作者在 Amazon 數(shù)據(jù)集上評估了幾種 KG 方法以及幾種基線推薦系統(tǒng)的性能。他們比較了兩種設(shè)置的結(jié)果:一種僅使用 user-item 交互,另一種使用添加了關(guān)系的圖表。他們使用歸一化的折扣累積增益和命中率作為評估指標(biāo)。

          作者旨在回答幾個研究問題,包括 KG 方法與其他推薦系統(tǒng)相比的表現(xiàn)如何、數(shù)據(jù)擴(kuò)充的影響以及不同關(guān)系在改進(jìn)推薦中的重要性。他們發(fā)現(xiàn) KG 方法通常優(yōu)于基線推薦系統(tǒng),并且數(shù)據(jù)增強(qiáng)可以顯著提高性能。他們還發(fā)現(xiàn)某些關(guān)系對于改進(jìn)推薦比其他關(guān)系更重要。

          6. 實(shí)驗(yàn)結(jié)果和討論

          Performance over user-item graph

          與 user-item 結(jié)果中的其他推薦系統(tǒng)和知識圖譜方法相比,NeuMF 模型似乎表現(xiàn)得非常好。RotRef 和 MuR 也表現(xiàn)良好,盡管它們被設(shè)計(jì)為處理多關(guān)系圖并且在這種情況下只被提供單一類型的關(guān)系。僅應(yīng)用于 user-item 圖的 KG 方法也表現(xiàn)出高性能。建議將這些 KG 方法用作未來推薦系統(tǒng)研究的 strong 基線。

          利用增強(qiáng)數(shù)據(jù)

          詳細(xì)見上表,所有模型,包括推薦系統(tǒng)和知識圖譜方法,在增強(qiáng)圖上訓(xùn)練時都顯示出改進(jìn)的性能,一些模型的性能提升高達(dá) 32.6%。用于創(chuàng)建增強(qiáng)圖的致密化過程通過在實(shí)體之間添加有意義的關(guān)系來減少稀疏性。RS 模型不是為合并多關(guān)系信息而設(shè)計(jì)的,它仍然受益于擴(kuò)展的訓(xùn)練集,并且能夠以改進(jìn)推薦的方式對用戶和項(xiàng)目進(jìn)行聚類。TransE 和 TransH 在添加關(guān)系后表現(xiàn)出特別大的相對性能提升,而 HyperML 和 CML++ 并沒有表現(xiàn)出那么大的提升。MuR 和 RotRef 是此設(shè)置中性能最好的模型。雙曲線和歐幾里德模型也顯示出有競爭力的結(jié)果,在某些情況下,MuRP 優(yōu)于其歐幾里德模型。Advanced KG 方法表現(xiàn)出比舊方法更好的性能,并且優(yōu)于為兩種設(shè)置中的任務(wù)設(shè)計(jì)的 RS 模型。

          關(guān)系消融(Relation Ablation)

          研究了個體關(guān)系對 MuRP 模型性能的貢獻(xiàn),結(jié)果表明每個關(guān)系都帶來了 user-item 圖的改進(jìn)。發(fā)現(xiàn)語義關(guān)系在“Musical Instruments”分支中表現(xiàn)最好,而 also_bought 關(guān)系在其他兩個分支中更有幫助。對于測試集中數(shù)據(jù)集的所有分支,所有關(guān)系的組合都優(yōu)于單獨(dú)的設(shè)置。在“冷啟動”設(shè)置中,重點(diǎn)是交互次數(shù)最少的 2% 的用戶,語義關(guān)系帶來了最顯著的性能提升,尤其是對于稀疏用戶和項(xiàng)目。在某些情況下,“Cold Test” 的性能也被發(fā)現(xiàn)優(yōu)于 “Test”,這可能是由于當(dāng)用戶與不同 item 進(jìn)行大量交互時,很難將用戶 embeddings 放置在接近他們所有偏好的位置。

          評論的作用

          • Relations vs Features

            將語義關(guān)系從文本描述中合并輔助信息的有效性與之前工作中合并潛在特征的不同方法進(jìn)行了比較。結(jié)果表明,對于某些模型,語義關(guān)系比潛在特征帶來了更大的改進(jìn),并且它們可以與潛在特征有效結(jié)合,為推薦提供補(bǔ)充信息。通常,語義關(guān)系被發(fā)現(xiàn)是對從文本數(shù)據(jù)中提取的信息進(jìn)行建模的有效方法。詳見下表。

          • 語義關(guān)系的文本類型

            這里分析了不同類型的文本在提取特征和捕獲項(xiàng)目相似性方面的有用性。結(jié)果發(fā)現(xiàn),在關(guān)系之上添加特征會降低 CML++ 的性能,而 NeuMF 在移除特征后性能會急劇下降。不使用任何特征的 MuRP 在將元數(shù)據(jù)與最長評論相結(jié)合的文本用于學(xué)習(xí)項(xiàng)目相似性時表現(xiàn)最佳。僅使用元數(shù)據(jù)也顯示出具有競爭力的性能。沒有發(fā)現(xiàn)具有高情緒極性的評論對于捕獲項(xiàng)目相似性有用。結(jié)果表明,將最長的評論與元數(shù)據(jù)相結(jié)合是了解項(xiàng)目相似性的最有用方法,但也可以單獨(dú)利用元數(shù)據(jù)來獲得有競爭力的結(jié)果。

          • Encoder 分析

            本研究比較了三種不同的預(yù)訓(xùn)練編碼器以無監(jiān)督方式捕獲文本相似性的性能:USE、BERT 和 Sentence-BERT。MuRP 模型用于分析這些編碼器在過濾可用文本的四種不同標(biāo)準(zhǔn)下的有用性。結(jié)果發(fā)現(xiàn),BERT 在用于擴(kuò)展具有語義關(guān)系的 user-item 圖時表現(xiàn)不佳,而 Sentence-BERT 比 BERT 有一些改進(jìn)。USE 被發(fā)現(xiàn)是找評論和元數(shù)據(jù)相似性的最有效編碼器,因?yàn)樗軌蜃R別 item 之間更廣泛的相似性。

          度量空間分析

          實(shí)驗(yàn)表明,雙曲線方法可以改進(jìn)在歐幾里德空間或復(fù)數(shù)中運(yùn)行的系統(tǒng),并且特別擅長嵌入層次結(jié)構(gòu)。另外,發(fā)現(xiàn)雙曲線模型中嵌入的范數(shù)與相應(yīng)類別的交互次數(shù)相關(guān),而歐幾里德模型則沒有相關(guān)性。在重建由雙曲線和歐幾里得模型學(xué)習(xí)的層次結(jié)構(gòu)時,發(fā)現(xiàn)雙曲線模型更簡潔和精確,而歐幾里得模型噪聲更大。這表明雙曲線模型能夠自動推斷由標(biāo)簽分布產(chǎn)生的層次結(jié)構(gòu),并因此提供更具可解釋性的空間。

          7. RELATED WORK

          • 數(shù)據(jù)增強(qiáng)

            這里提出了一種新的無監(jiān)督方法,用于基于應(yīng)用于文本屬性的語義文本模型來學(xué)習(xí)項(xiàng)目或用戶之間的相似關(guān)系。該方法擴(kuò)展了之前將評論信息作為正則化技術(shù)的研究,并顯著提高了推薦系統(tǒng)中冷啟動問題的性能。數(shù)據(jù)增強(qiáng)在機(jī)器學(xué)習(xí)中很重要,因?yàn)樗梢栽诓挥绊懩P腿萘康那闆r下減少泛化誤差,并且已以各種方式應(yīng)用于推薦系統(tǒng),例如擴(kuò)展共同購買的產(chǎn)品、生成偽 user-item 交互以及利用項(xiàng)目端信息。

          • 使用文本的推薦

            在之前的研究中,從評論中挖掘的文本已被用于改進(jìn)推薦系統(tǒng),作為正則化器或?qū)W習(xí)更好的用戶和 item 表示。然而,一些研究人員認(rèn)為,評論在推薦系統(tǒng)中的作用被夸大了,它們的好處僅限于某些條件。這里提出了一種使用文本通過數(shù)據(jù)增強(qiáng)來改進(jìn)推薦系統(tǒng)的方法,它可以在不增加用戶和項(xiàng)目表示的情況下改進(jìn)它們的大小,也不會像正則化方法那樣直接限制模型的表達(dá)能力。

          • 知識圖譜推薦

            這里比較了 RS 中各種 KG embedding 方法的性能。結(jié)果表明,當(dāng)使用數(shù)據(jù)增強(qiáng)時,較新的 KG embedding 方法的性能明顯更好,并且優(yōu)于以前的 KG 推薦系統(tǒng)和其他最先進(jìn)的 RS。這表明數(shù)據(jù)增強(qiáng)可能是提高基于 KG 的 RS 性能的有用方法,并且更新的 KG embedding 方法在這種情況下特別有效。

          • 雙曲線空間

            雙曲空間被發(fā)現(xiàn)在各種應(yīng)用中都很有用,包括問答、機(jī)器翻譯、語言建模、層次分類和分類細(xì)化。在推薦系統(tǒng) (RS) 中,雙曲幾何已被觀察到在某些數(shù)據(jù)集中自然出現(xiàn),并且雙曲空間已與度量學(xué)習(xí)方法結(jié)合使用。這里檢查了雙曲線方法的使用,通過數(shù)據(jù)擴(kuò)充擴(kuò)展用戶項(xiàng)目圖并分析由此產(chǎn)生的雙曲線空間的屬性,從而提高 RS 中推薦的可解釋性和性能。

          8. 總結(jié)

          在這項(xiàng)工作中,基于將預(yù)訓(xùn)練語言模型應(yīng)用于廣泛可用的文本屬性,提出了一種無監(jiān)督數(shù)據(jù)增強(qiáng)技術(shù),通過向用戶項(xiàng)目圖添加語義關(guān)系來改進(jìn)推薦系統(tǒng) (RS)。

          這里提出了一種簡單的無監(jiān)督數(shù)據(jù)增強(qiáng)技術(shù),可以將語義關(guān)系添加到 user-item 圖中,基于將預(yù)訓(xùn)練的語言模型應(yīng)用到廣泛可用的文本屬性。這可以被認(rèn)為是一個數(shù)據(jù)依賴的先驗(yàn)引入有效的歸納偏置,而不會增加推理時模型的計(jì)算成本。

          這種技術(shù)被證明可以提高各種現(xiàn)代知識圖譜 (KG) 方法的性能,包括那些不是為處理多關(guān)系信息而設(shè)計(jì)的方法,并且在冷啟動設(shè)置中特別有效。發(fā)現(xiàn)使用評論或簡短的產(chǎn)品描述作為文本輸入是有效的。該技術(shù)還被發(fā)現(xiàn)受益于在雙曲空間中的操作,這提高了推薦的可解釋性。建議進(jìn)一步研究以探索這些結(jié)果對 denser domains 的普遍性。

          Reference: 

            論文原文: https://arxiv.org/abs/2109.09358

            Google Pair: https://pair.withgoogle.com/tools/

            知乎: https://zhuanlan.zhihu.com/p/596123817


          瀏覽 46
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人精品视频99在线观看免费 | 伊人在线免费视频 | 欧美一区二区三区成人片在线 | 欧美a片在线看 | 99精品视频在线观看免费 |