【關(guān)于 知識(shí)表示學(xué)習(xí)】那些你不知道的事
作者:JimmyDU
項(xiàng)目地址:https://github.com/km1994/NLP-Interview-Notes
個(gè)人論文讀書(shū)筆記:https://github.com/km1994/nlp_paper_study
個(gè)人介紹:大佬們好,我叫楊夕,該項(xiàng)目主要是本人在研讀頂會(huì)論文和復(fù)現(xiàn)經(jīng)典論文過(guò)程中,所見(jiàn)、所思、所想、所聞,可能存在一些理解錯(cuò)誤,希望大佬們多多指正。

一. 理論及研究現(xiàn)狀
1.1 理論
1.1.1 知識(shí)表示學(xué)習(xí)的基本概念
知識(shí)表示學(xué)習(xí)的目標(biāo)是通過(guò)機(jī)器學(xué)習(xí)將研究對(duì)象的語(yǔ)義信息表示為稠密低維實(shí)值向量。以知識(shí)庫(kù)中的實(shí)體和關(guān)系為例,我們將學(xué)校得到的模型表示為%l_e%和l_r。在該向量空間中,我們可以通過(guò)歐氏距離或余弦距離等方式,計(jì)算任意兩個(gè)對(duì)象之間的語(yǔ)義相似度。像我們常說(shuō)的詞向量就屬于知識(shí)表示學(xué)習(xí)。
1.1.2 知識(shí)表示的理論基礎(chǔ)
知識(shí)表示學(xué)習(xí)得到的低維向量表示是一種分布式表示(distributed representation),之所以這么命名,是因?yàn)楣铝⒌乜聪蛄恐械拿恳痪S,都沒(méi)有明確對(duì)應(yīng)的含義;而綜合各維形成一個(gè)向量,則能夠表示對(duì)象的語(yǔ)義信息。這種表示方案并非憑空而來(lái),而是受到人腦的工作機(jī)制啟發(fā)而來(lái)(具體詳見(jiàn)參考文獻(xiàn)【1】)。
1.1.3 知識(shí)表示學(xué)習(xí)的典型應(yīng)用
知識(shí)表示學(xué)習(xí)是面向知識(shí)庫(kù)中實(shí)體和關(guān)系的表示學(xué)習(xí),通過(guò)將實(shí)體或關(guān)系投影到低維向量空間,我們能夠?qū)崿F(xiàn)對(duì)實(shí)體和關(guān)系的語(yǔ)義信息的表示,可以高效地計(jì)算實(shí)體、關(guān)系及其之間的復(fù)雜語(yǔ)義關(guān)聯(lián)。這對(duì)知識(shí)庫(kù)的構(gòu)建、推理和應(yīng)用均有重要意義。
知識(shí)表示學(xué)習(xí)得到的分布式表示有以下典型應(yīng)用:
語(yǔ)義相似度計(jì)算:利用實(shí)體的分布式表示,我們可以快速計(jì)算實(shí)體間的語(yǔ)義相似度,這對(duì)于自然語(yǔ)言和信息檢索的很多任務(wù)具有重要意義。
知識(shí)圖譜補(bǔ)全:構(gòu)建大規(guī)模知識(shí)圖譜,需要不斷補(bǔ)充實(shí)體間的關(guān)系。利用知識(shí)表示學(xué)習(xí)模型,可以預(yù)測(cè)2個(gè)實(shí)體的關(guān)系,這一般稱為知識(shí)庫(kù)的鏈接預(yù)測(cè)(link prediction),又稱為知識(shí)圖譜補(bǔ)全(knowledge graph completion)。
其他應(yīng)用,知識(shí)表示學(xué)習(xí)已被廣泛應(yīng)用于關(guān)系抽取、自動(dòng)問(wèn)答、實(shí)體鏈指等任務(wù),展現(xiàn)出巨大的應(yīng)用潛力。隨著深度學(xué)習(xí)在自然語(yǔ)言處理各項(xiàng)任務(wù)中得到廣泛應(yīng)用,這將為知識(shí)表示學(xué)習(xí)帶來(lái)更廣闊的應(yīng)用空間。
1.1.4 知識(shí)表示學(xué)習(xí)的主要優(yōu)點(diǎn)
知識(shí)表示學(xué)習(xí)實(shí)現(xiàn)了對(duì)實(shí)體和關(guān)系的分布式表示,它具有以下主要優(yōu)點(diǎn):
顯著提升計(jì)算效率:知識(shí)庫(kù)的三元組表示實(shí)際就是基于獨(dú)熱表示(one-hot representation)的,獨(dú)熱表示的問(wèn)題在于,需要設(shè)計(jì)專門(mén)的圖算法計(jì)算實(shí)體鍵的語(yǔ)義和推理關(guān)系,計(jì)算復(fù)雜度高、可擴(kuò)展性差。而表示學(xué)習(xí)得到的分布式表示,則能夠高效地實(shí)現(xiàn)語(yǔ)義相似度計(jì)算等操作,顯著提升計(jì)算效率。
有效緩解數(shù)據(jù)稀疏:由于表示學(xué)習(xí)將對(duì)象投影到統(tǒng)一的低維空間中,使每個(gè)對(duì)象均對(duì)應(yīng)一個(gè)稠密向量,從而有效緩解數(shù)據(jù)稀疏問(wèn)題,這主要體現(xiàn)在2個(gè)方面。一方面,每個(gè)對(duì)象的向量均為稠密有值的,因此可以度量任意對(duì)象之間的語(yǔ)義相似程度。**而基于獨(dú)熱表示的圖算法,由于受到大規(guī)模知識(shí)圖譜稀疏特性的影響,往往無(wú)法有效計(jì)算很多對(duì)象之間的語(yǔ)義相似度。**另一方面,將大量對(duì)象投影到統(tǒng)一空間的過(guò)程,也能夠?qū)⒏哳l對(duì)象的語(yǔ)義信息用于幫助低頻對(duì)象的語(yǔ)義表示,提高低頻對(duì)象的語(yǔ)義表示準(zhǔn)確性。
實(shí)現(xiàn)異質(zhì)信息融合:不同來(lái)源的異質(zhì)信息需要融合為整體,才能夠得到有效應(yīng)用。大量實(shí)體和關(guān)系在不同知識(shí)庫(kù)中的名稱不同,如何實(shí)現(xiàn)多知識(shí)庫(kù)的有機(jī)融合,對(duì)知識(shí)庫(kù)應(yīng)用具有重要意義。如果基于獨(dú)熱表示和網(wǎng)絡(luò)表示,該任務(wù)只能通過(guò)設(shè)計(jì)合理的表示學(xué)習(xí)模型,將不同來(lái)源的對(duì)象投影到同一個(gè)語(yǔ)義空間中,就能夠建立統(tǒng)一的表示空間,實(shí)現(xiàn)多知識(shí)庫(kù)的信息融合。此外,當(dāng)我們?cè)谛畔z索或自然語(yǔ)言處理中應(yīng)用知識(shí)庫(kù)時(shí),往往需要計(jì)算查詢?cè)~、句子、文檔和知識(shí)庫(kù)實(shí)體之間的復(fù)雜語(yǔ)義關(guān)聯(lián)。由于這些對(duì)象的異質(zhì)性,計(jì)算它們的語(yǔ)義關(guān)聯(lián)往往是棘手問(wèn)題。而表示學(xué)習(xí)亦能為異質(zhì)對(duì)象提供統(tǒng)一表示空間,輕而易舉實(shí)現(xiàn)異質(zhì) 對(duì)象之間的語(yǔ)義關(guān)聯(lián)計(jì)算。
1.2 研究現(xiàn)狀
知識(shí)表示學(xué)習(xí)的代表模型:
距離模型
單層神經(jīng)網(wǎng)絡(luò)模型
能量模型
雙線性模型
張量神經(jīng)網(wǎng)絡(luò)模型
矩陣分解模型
翻譯模型
圖表示學(xué)習(xí)模型
以上【1-7】模型的具體說(shuō)明,可以去看參考文獻(xiàn)【1】,圖表示學(xué)習(xí)模型請(qǐng)閱讀文獻(xiàn)【2】【3】。
二. 常見(jiàn)面試題
2.1 Q:知識(shí)表示相對(duì)于one-hot表示的優(yōu)勢(shì)是什么?
A:獨(dú)熱表示的問(wèn)題在于,需要設(shè)計(jì)專門(mén)的圖算法計(jì)算實(shí)體鍵的語(yǔ)義和推理關(guān)系,計(jì)算復(fù)雜度高、可擴(kuò)展性差,同時(shí)在大規(guī)模語(yǔ)料的建模中,會(huì)出現(xiàn)數(shù)據(jù)稀疏的問(wèn)題。而知識(shí)表示學(xué)習(xí)實(shí)現(xiàn)了對(duì)實(shí)體和關(guān)系的分布式表示,它具有以下主要優(yōu)點(diǎn):
顯著提升計(jì)算效率:知識(shí)表示學(xué)習(xí)得到的分布式表示,則能夠高效地實(shí)現(xiàn)語(yǔ)義相似度計(jì)算等操作,顯著提升計(jì)算效率。
有效緩解數(shù)據(jù)稀疏:由于表示學(xué)習(xí)將對(duì)象投影到統(tǒng)一的低維空間中,使每個(gè)對(duì)象均對(duì)應(yīng)一個(gè)稠密向量,從而有效緩解數(shù)據(jù)稀疏問(wèn)題,這主要體現(xiàn)在2個(gè)方面。一方面,每個(gè)對(duì)象的向量均為稠密有值的,因此可以度量任意對(duì)象之間的語(yǔ)義相似程度。**而基于獨(dú)熱表示的圖算法,由于受到大規(guī)模知識(shí)圖譜稀疏特性的影響,往往無(wú)法有效計(jì)算很多對(duì)象之間的語(yǔ)義相似度。**另一方面,將大量對(duì)象投影到統(tǒng)一空間的過(guò)程,也能夠?qū)⒏哳l對(duì)象的語(yǔ)義信息用于幫助低頻對(duì)象的語(yǔ)義表示,提高低頻對(duì)象的語(yǔ)義表示準(zhǔn)確性。
實(shí)現(xiàn)異質(zhì)信息融合:不同來(lái)源的異質(zhì)信息需要融合為整體,才能夠得到有效應(yīng)用。大量實(shí)體和關(guān)系在不同知識(shí)庫(kù)中的名稱不同,如何實(shí)現(xiàn)多知識(shí)庫(kù)的有機(jī)融合,對(duì)知識(shí)庫(kù)應(yīng)用具有重要意義。如果基于獨(dú)熱表示和網(wǎng)絡(luò)表示,該任務(wù)只能通過(guò)設(shè)計(jì)合理的表示學(xué)習(xí)模型,將不同來(lái)源的對(duì)象投影到同一個(gè)語(yǔ)義空間中,就能夠建立統(tǒng)一的表示空間,實(shí)現(xiàn)多知識(shí)庫(kù)的信息融合。此外,當(dāng)我們?cè)谛畔z索或自然語(yǔ)言處理中應(yīng)用知識(shí)庫(kù)時(shí),往往需要計(jì)算查詢?cè)~、句子、文檔和知識(shí)庫(kù)實(shí)體之間的復(fù)雜語(yǔ)義關(guān)聯(lián)。由于這些對(duì)象的異質(zhì)性,計(jì)算它們的語(yǔ)義關(guān)聯(lián)往往是棘手問(wèn)題。而表示學(xué)習(xí)亦能為異質(zhì)對(duì)象提供統(tǒng)一表示空間,輕而易舉實(shí)現(xiàn)異質(zhì) 對(duì)象之間的語(yǔ)義關(guān)聯(lián)計(jì)算。
2.2 Q:有哪些文本表示模型?它們各有什么優(yōu)缺點(diǎn)?
A:
(1)詞袋模型和N-gram模型
最基礎(chǔ)的文本表示模型是詞袋模型。顧名思義,就是將每篇文章看成一袋子詞,并忽略每個(gè)詞出現(xiàn)的順序。具體地說(shuō),就是將整段文本以詞為單位切分開(kāi), 然后每篇文章可以表示成一個(gè)長(zhǎng)向量,向量中的每一維代表一個(gè)單詞,而該維對(duì)應(yīng)的權(quán)重則反映了這個(gè)詞在原文章中的重要程度。常用TF-IDF來(lái)計(jì)算權(quán)重,公式為

其中TF(t,d)為單詞t在文檔d中出現(xiàn)的頻率,IDF(t)是逆文檔頻率,用來(lái)衡量單詞t對(duì)表達(dá)語(yǔ)義所起的重要性,表示為

直觀的解釋是,如果一個(gè)單詞在非常多的文章里面都出現(xiàn),那么它可能是一個(gè)比較通用的詞匯,對(duì)于區(qū)分某篇文章特殊語(yǔ)義的貢獻(xiàn)較小,因此對(duì)權(quán)重做一定懲罰。
將文章進(jìn)行單詞級(jí)別的劃分有時(shí)候并不是一種好的做法,比如英文中的natural language processing(自然語(yǔ)言處理)一詞,如果將natural,language,processing這 3個(gè)詞拆分開(kāi)來(lái),所表達(dá)的含義與三個(gè)詞連續(xù)出現(xiàn)時(shí)大相徑庭。通常,可以將連續(xù) 出現(xiàn)的n個(gè)詞(n≤N)組成的詞組(N-gram)也作為一個(gè)單獨(dú)的特征放到向量表示 中去,構(gòu)成N-gram模型。另外,同一個(gè)詞可能有多種詞性變化,卻具有相似的含義。在實(shí)際應(yīng)用中,一般會(huì)對(duì)單詞進(jìn)行詞干抽取(Word Stemming)處理,即將不 同詞性的單詞統(tǒng)一成為同一詞干的形式。
(2)主題模型
基于詞袋模型或N-gram模型的文本表示模型有一個(gè)明顯的缺陷,就是無(wú)法識(shí) 別出兩個(gè)不同的詞或詞組具有相同的主題。因此,需要一種技術(shù)能夠?qū)⒕哂邢嗤?主題的詞或詞組映射到同一維度上去,于是產(chǎn)生了主題模型。主題模型是一種特 殊的概率圖模型。想象一下我們?nèi)绾闻卸▋蓚€(gè)不同的詞具有相同的主題呢?這兩 個(gè)詞可能有更高的概率同時(shí)出現(xiàn)在同一篇文檔中;換句話說(shuō),給定某一主題,這 兩個(gè)詞的產(chǎn)生概率都是比較高的,而另一些不太相關(guān)的詞匯產(chǎn)生的概率則是較低 的。假設(shè)有K個(gè)主題,我們就把任意文章表示成一個(gè)K維的主題向量,其中向量的 每一維代表一個(gè)主題,權(quán)重代表這篇文章屬于這個(gè)特定主題的概率。主題模型所 解決的事情,就是從文本庫(kù)中發(fā)現(xiàn)有代表性的主題(得到每個(gè)主題上面詞的分 布),并且計(jì)算出每篇文章對(duì)應(yīng)著哪些主題。常見(jiàn)的主題模型有:pLSA(Probabilistic Latent Semantic Analysis),LDA(Latent Dirichlet Allocation)。
(3)詞嵌入與深度學(xué)習(xí)模型
詞嵌入是一類將詞向量化的模型的統(tǒng)稱,核心思想是將每個(gè)詞都映射成低維 空間(通常K=50~300維)上的一個(gè)稠密向量(Dense Vector)。K維空間的每一維也可以看作一個(gè)隱含的主題,只不過(guò)不像主題模型中的主題那樣直觀。
由于詞嵌入將每個(gè)詞映射成一個(gè)K維的向量,如果一篇文檔有N個(gè)詞,就可以用一個(gè)N×K維的矩陣來(lái)表示這篇文檔,但是這樣的表示過(guò)于底層。在實(shí)際應(yīng)用中,如果僅僅把這個(gè)矩陣作為原文本的表示特征輸入到機(jī)器學(xué)習(xí)模型中,通常很 難得到令人滿意的結(jié)果。因此,還需要在此基礎(chǔ)之上加工出更高層的特征。在傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型中,一個(gè)好的特征工程往往可以帶來(lái)算法效果的顯著提升。而深度學(xué)習(xí)模型正好為我們提供了一種自動(dòng)地進(jìn)行特征工程的方式,模型中的每個(gè)隱層都可以認(rèn)為對(duì)應(yīng)著不同抽象層次的特征。從這個(gè)角度來(lái)講,深度學(xué)習(xí)模型能夠打敗淺層模型也就順理成章了。卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)在文本表示中取得了很好的效果,主要是由于它們能夠更好地對(duì)文本進(jìn)行建模,抽取出一些高層的語(yǔ)義特征。與全連接的網(wǎng)絡(luò)結(jié)構(gòu)相比,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)一方面很好地抓住了文本的特性,另一方面又減少了網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù), 提高了訓(xùn)練速度,并且降低了過(guò)擬合的風(fēng)險(xiǎn)。
2.3 Q:word2vec與LDA模型之間的區(qū)別和聯(lián)系?
A:首先,LDA是利用文檔中單詞的共現(xiàn)關(guān)系來(lái)對(duì)單詞按主題聚類,也可以理解為對(duì)“文檔-單詞”矩陣進(jìn)行分解,得到“文檔- 主題”和“主題-單詞”兩個(gè)概率分布。而Word2Vec其實(shí)是對(duì)“上下文-單詞”矩陣進(jìn)行 學(xué)習(xí),其中上下文由周圍的幾個(gè)單詞組成,由此得到的詞向量表示更多地融入了 上下文共現(xiàn)的特征。也就是說(shuō),如果兩個(gè)單詞所對(duì)應(yīng)的Word2Vec向量相似度較高,那么它們很可能經(jīng)常在同樣的上下文中出現(xiàn)。需要說(shuō)明的是,上述分析的是 LDA與Word2Vec的不同,不應(yīng)該作為主題模型和詞嵌入兩類方法的主要差異。主題模型通過(guò)一定的結(jié)構(gòu)調(diào)整可以基于“上下文-單詞”矩陣進(jìn)行主題推理。同樣地,詞嵌入方法也可以根據(jù)“文檔-單詞”矩陣學(xué)習(xí)出詞的隱含向量表示。主題模型和詞嵌入兩類方法最大的不同其實(shí)在于模型本身,主題模型是一種基于概率圖模型的生成式模型,其似然函數(shù)可以寫(xiě)成若干條件概率連乘的形式,其中包括需要推測(cè)的隱含變量(即主題);而詞嵌入模型一般表達(dá)為神經(jīng)網(wǎng)絡(luò)的形式,似然函數(shù)定義在網(wǎng)絡(luò)的輸出之上,需要通過(guò)學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重以得到單詞的稠密向量表示。
2.4 Q:介紹下詞向量空間中的平移不變現(xiàn)象?
表示學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域受到廣泛關(guān)注起源于Mikolov等人與2013年提出的word2vec詞表示學(xué)習(xí)模型和工具包,利用該模型,Mikolov等人發(fā)現(xiàn)詞向量空間中的平移不變現(xiàn)象,例如:

2.5 Q:簡(jiǎn)要介紹下TransE模型的思想及優(yōu)點(diǎn)?

2.6 Q:解釋一下為什么TransE模型用于復(fù)雜關(guān)系建模時(shí)的性能較差?

2.7 Q:簡(jiǎn)述TransH、TransR和TransD模型的思想

雖然TransH模型使每個(gè)實(shí)體在不同關(guān)系下?lián)碛辛瞬煌谋硎?,但它仍然建設(shè)實(shí)體和關(guān)系處于相同的語(yǔ)義空間中,這在一定程度上限制了TransH的表示能力。TransR模型【9】則認(rèn)為,一個(gè)實(shí)體是多種屬性的綜合體,不同關(guān)系關(guān)注實(shí)體的不同屬性,而不同的關(guān)系擁有不同的語(yǔ)義空間。TransR模型在兩個(gè)不同的空間,即實(shí)體空間和多個(gè)關(guān)系空間(關(guān)系特定的實(shí)體空間)中建模實(shí)體和關(guān)系,并在對(duì)應(yīng)的關(guān)系空間中進(jìn)行轉(zhuǎn)換,因此命名為T(mén)randR。
雖然TransR模型交TransE和TransH有了顯著的改進(jìn),它仍然擁有很多缺點(diǎn):
(1)在同一個(gè)關(guān)系r下,頭、尾實(shí)體共享相同的投影矩陣,然而,一個(gè)關(guān)系的頭、尾實(shí)體的類型或?qū)傩钥赡懿町惥薮蟆?/p>
(2)從實(shí)體空間到關(guān)系空間的投影是實(shí)體和關(guān)系之間的交互過(guò)程,因此TransR讓投影矩陣僅與關(guān)系有關(guān)是不合理的。
(3)與TransE和TransH相比,TransR由于引入了空間投影,是的TransR模型參數(shù)急劇增加,計(jì)算復(fù)雜度大大提高。
為了解決這些問(wèn)題,Ji等人提出了TransD模型【10】。TransD模型設(shè)置了兩個(gè)投影矩陣,分別將頭實(shí)體和尾實(shí)體投影到關(guān)系空間,顯然這兩個(gè)投影矩陣與關(guān)系和實(shí)體都有關(guān),這樣就解決了上述問(wèn)題(1)(2)。而且,只利用兩個(gè)投影向量構(gòu)建投影矩陣,這也解決了上述問(wèn)題(3)中的參數(shù)過(guò)多的現(xiàn)象。
2.8 Q:簡(jiǎn)述deepwalk和node2vec模型的思想及其優(yōu)點(diǎn)
A:DeepWalk算法【2】借鑒了word2vec算法的思想,word2vec是NLP中一種常用的word embedding方法,word2vec通過(guò)語(yǔ)料庫(kù)中的句子序列來(lái)描述詞與詞的共現(xiàn)關(guān)系,進(jìn)而學(xué)習(xí)到詞語(yǔ)的向量表示。DeepWalk算法與word2vec類似,使用圖中節(jié)點(diǎn)與節(jié)點(diǎn)的共現(xiàn)關(guān)系來(lái)學(xué)習(xí)節(jié)點(diǎn)的向量表示。在DeepWalk中通過(guò)使用隨機(jī)游走(RandomWalk)的方式在圖中進(jìn)行節(jié)點(diǎn)采樣來(lái)模擬語(yǔ)料庫(kù)中的預(yù)料,進(jìn)而使用word2vec的方式學(xué)習(xí)出節(jié)點(diǎn)的共現(xiàn)關(guān)系。
具體來(lái)說(shuō),DeepWalk 通過(guò)將節(jié)點(diǎn)視為單詞并生成短隨機(jī)游走作為句子來(lái)彌補(bǔ)網(wǎng)絡(luò)嵌入和單詞嵌入之間的差距。然后,可以將諸如 Skip-gram 之類的神經(jīng)語(yǔ)言模型應(yīng)用于這些隨機(jī)游走以獲得網(wǎng)絡(luò)嵌入。其優(yōu)點(diǎn)是首先其可以按需生成隨機(jī)游走。由于 Skip-gram 模型也針對(duì)每個(gè)樣本進(jìn)行了優(yōu)化,因此隨機(jī)游走和 Skip-gram 的組合使 DeepWalk 成為在線算法。其次,DeepWalk 是可擴(kuò)展的,生成隨機(jī)游走和優(yōu)化 Skip-gram 模型的過(guò)程都是高效且平凡的并行化。最重要的是,DeepWalk 引入了深度學(xué)習(xí)圖形的范例。
node2vec模型【3】是在DeepWalk的架構(gòu)上,優(yōu)化了隨機(jī)游走的序列抽取策略。node2vec采用有偏隨機(jī)游走,在廣度優(yōu)先(bfs)和深度優(yōu)先(dfs)圖搜索之間進(jìn)行權(quán)衡,從而產(chǎn)生比DeepWalk更高質(zhì)量和更多信息量的嵌入。
2.9 Q:簡(jiǎn)述Line模型的思想
A:LINE【7】也是一種基于鄰域相似假設(shè)的方法,只不過(guò)與DeepWalk使用DFS構(gòu)造鄰域不同的是,LINE可以看作是一種使用BFS構(gòu)造鄰域的算法。此外,LINE還可以應(yīng)用在帶權(quán)圖中(DeepWalk僅能用于無(wú)權(quán)圖)。
LINE適用于任意類型的信息網(wǎng)絡(luò):無(wú)向、有向和無(wú)權(quán)、有權(quán)。該方法優(yōu)化了精心設(shè)計(jì)的目標(biāo)函數(shù),能夠保留局部和全局網(wǎng)絡(luò)結(jié)構(gòu)。此外,LINE中還提出了邊緣采樣算法,解決了經(jīng)典隨機(jī)梯度下降的局限性,提高了算法的有效性和效率。具體來(lái)說(shuō),LINE明確定義了兩個(gè)函數(shù),分別用于一階和二階近似,并最小化了這兩個(gè)函數(shù)的組合。一階鄰近函數(shù)與圖分解(GF)相似,都是為了保持嵌入的鄰接矩陣和點(diǎn)積接近。區(qū)別在于GF通過(guò)直接最小化兩者的差異來(lái)實(shí)現(xiàn)這一點(diǎn)。相反,LINE為每對(duì)頂點(diǎn)定義了兩個(gè)聯(lián)合概率分布,一個(gè)使用鄰接矩陣,另一個(gè)使用嵌入。然后,LINE最小化了這兩個(gè)分布的Kullback–Leibler(KL)散度。
參考文獻(xiàn)
【1】劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 247.
【2】Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.
【3】Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864
【4】Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. arXiv preprint arXiv:1310.4546, 2013.
【5】Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
【6】Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C]//Neural Information Processing Systems (NIPS). 2013: 1-9.
【7】Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web. 2015: 1067-1077
【8】Wang Z, Zhang J, Feng J, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2014, 28(1).
【9】Lin Y, Liu Z, Sun M, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2015, 29(1).
【10】Ji G, He S, Xu L, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing (volume 1: Long papers). 2015: 687-696.
【11】《百面機(jī)器學(xué)習(xí)

