關(guān)于知識圖譜上下級概念建設(shè)的一點想法
??對知識圖譜有所了解的人,都知道知識圖譜是對知識的整理,以點和邊的形式呈現(xiàn),屬于人工智能中的“符號主義”流派。雖然知識圖譜可以清晰地告訴我們各個知識點之間的關(guān)聯(lián)和區(qū)別,但我們還是無從知曉圖譜中哪些節(jié)點相似性高,因此建立知識圖譜并不是終極目標,還有許多后續(xù)工作需要開展。其中,對知識圖譜進行同義關(guān)系建設(shè)和上下級關(guān)系建設(shè)也是比較重要的工作。
??同義關(guān)系,即同義詞,也就是對知識圖譜中的節(jié)點建立同義關(guān)系,這些同義關(guān)系的節(jié)點實際上就是同一個事物。本文將會介紹筆者對知識圖譜上下級概念建設(shè)的一點想法。
什么是上下級概念建設(shè)
??在日常生活中,我們提到“蘋果”,往往會認為它是一種水果,而水果屬于植物;提到《霸王別姬》,往往會認為它是一部電影,而電影又屬于文藝作品。其實,這就是一種上下級關(guān)系,從知識圖譜角度來說,蘋果和《霸王別姬》都是知識,它們分別屬于某個概念:水果和電影,而這些概念又分別從屬于更高級、更抽象的概念:植物和文藝作品,這就是上下級概念。

值得注意的是,知識圖譜的上下級概念建設(shè)并不是對知識點打標簽,而是對知識點做梳理、歸納、總結(jié),它應(yīng)該是細粒度的層級建設(shè)??梢韵胍?,一個設(shè)計良好、層級豐富、層次分明的上下級概念體系,能夠幫助我們更好地理解知識圖譜中的知識點。
為什么要做上下級概念建設(shè)
??那么,為什么要做上下級概念建設(shè)呢?個人覺得主要是兩方面的原因,一方面是對知識點做歸納整理,另一方面是對知識點有更好的理解。
??知識圖譜的概念從語義網(wǎng)絡(luò)發(fā)展而來,自然也有與語義網(wǎng)絡(luò)相似的地方。在語義網(wǎng)絡(luò)中,我們的基本單元是詞匯(word),而詞匯之間會存在同位詞(或者同義詞)和上下位詞。這樣的體系已經(jīng)有相關(guān)的例子,比如英文的WordNet以及中文的哈工大大詞林。類似地,知識圖譜的知識點也需要對知識點進行歸納、整理、總結(jié),將它們都納入到一個統(tǒng)一的同義關(guān)系和上下級層級體系中,做到設(shè)計良好、層級豐富、層次分明,這是對知識圖譜的更細顆粒度的概念建設(shè),能幫助我們對圖譜有更好的理解。

??此外,做好上下級概念建設(shè),也可以幫助我們更好地理解圖譜中的知識點。一方面,是對知識點本身更好的理解。參考上圖中的東方明珠,如果我們按上述的上下級概念層級去理解該節(jié)點,則東方明珠既是電視塔(建筑物),又是公司(機構(gòu)),那么東方明珠應(yīng)該同時具備電視塔和公司這兩種概念的基本特性。


另一方面,它也可以幫助我們更好地理解文本中的實體,對NLP任務(wù)有更好的提升。比如以下文本:
今年7月,市場研究公司Canalys Research發(fā)布了第二季度全球智能手機市場占有率排名,小米手機銷量超越了蘋果,首次晉升全球第二位;三星排名依然是第一位;OPPO和vivo分別為第四位、第五位,市場占比都是10%。而小米的全球智能手機市場占有率達到17%,同比增長83%。
文本中共出現(xiàn)了多個實體:小米、蘋果、三星、OPPO、vivo,其中蘋果既可能是手機品牌,也可能是水果,但借助下面的上下級概念圖譜,我們就不難理解該文本中的蘋果應(yīng)當指的是手機,而不是水果。

上下級概念建設(shè)的價值
??做好上下級概念建設(shè),對搜索、推薦、知識補充等也有很大價值。
??在搜索場景中,如果用戶搜索“杭州植物園”,那么可以通過知識圖譜中的上下級概念層級知道其上級概念為“動植物園”,可理解用戶是在搜索動植物園。這可以幫助系統(tǒng)更好地理解用戶意圖,與打標簽有類似的作用,可進一步幫助改進搜索效果,提升用戶搜索體驗。
??在推薦場景中,可通過知識圖譜中的上級概念推薦相似實體,比如用戶在搜索了“復(fù)旦大學(xué)”、“上海交通大學(xué)”、“上海理工大學(xué)”,借助這三個實體的上級概念“大學(xué)”及定位信息為上海,可以推薦上海的大學(xué),比如同濟大學(xué)等同一層級實體。這可以幫助系統(tǒng)更好地去推薦產(chǎn)品或服務(wù),同時對推薦結(jié)果有一定的可解釋性。

??在知識補充場景中,可借助上下級概念及同層級其它知識點,發(fā)現(xiàn)某些節(jié)點所缺失的屬性或關(guān)系,通過外部數(shù)據(jù)或其他手段進行補充。
總結(jié)
??本文是對筆者在實際工作(知識圖譜的上下級概念建設(shè))的一點思考,現(xiàn)在網(wǎng)絡(luò)上關(guān)于這塊的文章比較少,大多都是零星的想法,希望能對上下級概念建設(shè)方面的資料有所補充,能拋磚引玉吸引更多人對此的討論~
??現(xiàn)階段關(guān)于知識圖譜上下級概念建設(shè)的文章和研究工作不是很多,但也有不少學(xué)者、機構(gòu)、公司對此作出了辛勤勞動和創(chuàng)新想法,文章最后將這些參考文獻列在下方,希望后續(xù)這方面的文章和研究工作會越來越多~
參考文獻
哈工大大詞林:http://101.200.120.155/
常識性概念圖譜建設(shè)以及在美團場景中的應(yīng)用:https://tech.meituan.com/2021/06/24/nature-language-process-nlp-knowledge-graph.html
通用概念知識圖譜介紹:https://www.cnblogs.com/haodingkui/p/11353807.html
中文通用概念知識圖譜(CN-Probase):http://www.openkg.cn/dataset/95c9040c-f3e1-417a-860a-c419cb80d1a7
