美團商品知識圖譜的構(gòu)建及應(yīng)用
導(dǎo)讀:在互聯(lián)網(wǎng)新零售的大背景下,商品知識圖譜作為新零售行業(yè)數(shù)字化的基石,提供了對于商品相關(guān)內(nèi)容的立體化、智能化、常識化的理解,對上層業(yè)務(wù)的落地起到了至關(guān)重要的作用。相比于美團大腦中圍繞商戶的知識圖譜而言,在新零售背景下的商品知識圖譜需要應(yīng)對更加分散、復(fù)雜的數(shù)據(jù)和業(yè)務(wù)場景,而這些不同的業(yè)務(wù)對于底層知識圖譜都提出了各自不同的需求和挑戰(zhàn)。美團作為互聯(lián)網(wǎng)行業(yè)中新零售的新勢力,業(yè)務(wù)上已覆蓋了包括外賣、商超、生鮮、藥品等在內(nèi)的多個新零售領(lǐng)域,技術(shù)上在相關(guān)的知識圖譜方面進行了深入探索。本文將對美團新零售背景下零售商品知識圖譜的構(gòu)建和應(yīng)用進行介紹。
1. 美團大腦


圖2: 美團大腦
2. 美團在新零售的探索
美團逐步突破原有邊界,在生活服務(wù)領(lǐng)域探索新的業(yè)務(wù),不僅局限于通過外賣、餐飲幫助大家“吃得更好”,近年來也逐步拓展到零售、出行等其他領(lǐng)域,幫助大家“生活更好”。在零售領(lǐng)域中,美團先后落地了美團閃購、美團買菜、美團優(yōu)選、團好貨等一系列相應(yīng)的業(yè)務(wù),逐步實現(xiàn)“萬物到家”的愿景。為了更好地支持美團的新零售業(yè)務(wù),我們需要對背后的零售商品建立知識圖譜,積累結(jié)構(gòu)化數(shù)據(jù),深入對零售領(lǐng)域內(nèi)商品、用戶、屬性、場景等的理解,以便能更好地為用戶提供零售商品領(lǐng)域內(nèi)的服務(wù)。
相比于圍繞商戶的餐飲、外賣、酒店的等領(lǐng)域,零售商品領(lǐng)域?qū)τ诮Y(jié)構(gòu)化知識的需求和依賴會更強。一方面,商品數(shù)量更加龐大,覆蓋的領(lǐng)域范圍也更加寬廣。另一方面,商品本身所具有的顯示信息往往比較稀疏,很大程度上需要結(jié)合生活中的常識知識來進行推理,方可將隱藏在背后的數(shù)十維的屬性進行補齊,完成對商品完整的理解。在下圖的例子中,“樂事黃瓜味”這樣簡單的商品描述其實就對應(yīng)著豐富的隱含信息,只有對這些知識進行了結(jié)構(gòu)化提取和相應(yīng)的知識推理后,才能夠更好的支持下游搜索、推薦等模塊的優(yōu)化。

圖3: 商品結(jié)構(gòu)化信息的應(yīng)用
3. 商品圖譜建設(shè)的目標(biāo)
我們針對美團零售業(yè)務(wù)的特點,制定了多層級、多維度、跨業(yè)務(wù)的零售商品知識圖譜體系。

圖4: 商品知識圖譜體系
① 多層級
在不同業(yè)務(wù)的不同應(yīng)用場景下,對于“商品”的定義會有所差別,需要對各個不同顆粒度的商品進行理解。因此,在我們的零售商品知識圖譜中,建立了五層的層級體系,具體包括:
L1 - 商品SKU/SPU:對應(yīng)業(yè)務(wù)中所售賣的商品顆粒度,是用戶交易的對象,往往為商戶下掛的商品,例如“望京家樂福所售賣的蒙牛低脂高鈣牛奶250ml盒裝”。這一層級也是作為商品圖譜的最底層的基石,將業(yè)務(wù)商品庫和圖譜知識進行打通關(guān)聯(lián)。
L2 - 標(biāo)準(zhǔn)商品:描述商品本身客觀事實的顆粒度,例如“蒙牛低脂高鈣牛奶250ml盒裝”,無論通過什么渠道在什么商戶購買,商品本身并沒有任何區(qū)別。商品條形碼則是在標(biāo)準(zhǔn)商品這層的客觀依據(jù)。在這一層級上,我們可以建模圍繞標(biāo)準(zhǔn)商品的客觀知識,例如同一個標(biāo)準(zhǔn)商品都會具有同樣的品牌、口味、包裝等屬性。
L3 - 抽象商品:進一步我們將標(biāo)準(zhǔn)商品向上抽象的商品系列,例如“蒙牛低脂高鈣牛奶”。在這一層級中,我們不再關(guān)注商品具體的包裝、規(guī)格等,將同系列的商品聚合為抽象商品,承載了用戶對于商品的主觀認(rèn)知,包括用戶對商品系列的別名俗稱、品牌認(rèn)知、主觀評價等。
L4 - 主體品類:描述商品主體的本質(zhì)品類,列如“雞蛋”、“奶油草莓”、“臺式烤腸”等。這一層作為商品圖譜的后臺類目體系,以客觀的方式對商品領(lǐng)域的品類進行建模,承載了用戶對于商品的需求,例如各品牌各產(chǎn)地的雞蛋都能夠滿足用戶對于雞蛋這個品類的需求。
L5 - 業(yè)務(wù)類目:相比于主體品類的后臺類目體系,業(yè)務(wù)類目作為前臺類目體系會依據(jù)業(yè)務(wù)當(dāng)前的發(fā)展階段進行人工定義和調(diào)整,各個業(yè)務(wù)會根據(jù)當(dāng)前業(yè)務(wù)階段的特點和需求建立對應(yīng)的前臺類目體系。
② 多維度
商品屬性視角:圍繞商品本身,我們需要有海量的屬性維度來對商品進行描述。商品屬性維度主要分為兩類:一類是通用的屬性維度,包括品牌、規(guī)格、包裝、產(chǎn)地等;另一類是品類特有的屬性維度,例如對于牛奶品類我們會關(guān)注脂肪含量(全脂/低脂/脫脂牛奶)、存儲方式(常溫奶、冷藏奶)等。商品屬性主要是刻畫了商品的客觀知識,往往會建立在標(biāo)準(zhǔn)商品這一層級上。
用戶認(rèn)知視角:除了客觀的商品屬性維度以外,用戶往往對于商品會有一系列的主觀認(rèn)知,例如商品的別名俗稱(“小黑瓶”、“快樂水”)、對于商品的評價(“香甜可口”、“入口即化”、“性價比高”)、商品的清單/榜單(“進口食品榜單”、“夏季消暑常備”)等維度。這些主觀認(rèn)知往往會建立在抽象商品這一層級上。
品類/類目視角:從品類/類目的視角來看,不同品類/類目也會有各自不同的關(guān)注點。在這一層級上,我們會建模各個品類/類目下有哪些典型的品牌、用戶關(guān)注哪些典型屬性、不同品類的復(fù)購周期是多長時間等等。
③ 跨業(yè)務(wù)
美團大腦商品知識圖譜的目標(biāo)是希望能夠?qū)陀^世界中的商品知識進行建模,而非局限于單個業(yè)務(wù)之中。在商品圖譜的五層體系中,標(biāo)準(zhǔn)商品、抽象商品、品類體系都是與業(yè)務(wù)解耦的,圍繞著客觀商品所建立的,包括圍繞這些層級建立的各維度數(shù)據(jù)也均是刻畫了商品領(lǐng)域的客觀知識。在應(yīng)用于各個業(yè)務(wù)當(dāng)中時,我們將客觀的圖譜知識向上關(guān)聯(lián)至業(yè)務(wù)前臺類目,向下關(guān)聯(lián)至業(yè)務(wù)商品SPU/SKU,則可以完成各個業(yè)務(wù)數(shù)據(jù)的接入,實現(xiàn)各個業(yè)務(wù)數(shù)據(jù)和客觀知識之間的聯(lián)通,提供更加全面的跨業(yè)務(wù)的全景數(shù)據(jù)視角。利用這樣的數(shù)據(jù),在用戶方面我們可以更加全面的建模、分析用戶對于業(yè)務(wù)、品類的偏好,對于價格、品質(zhì)等的敏感程度,在商品方面我們可以更準(zhǔn)確的建模各品類的復(fù)購周期、地域/季節(jié)/節(jié)日偏好等。
4. 商品圖譜建設(shè)的挑戰(zhàn)
商品知識圖譜的構(gòu)建的挑戰(zhàn)主要來源于以下三個方面:
信息來源質(zhì)量低:商品本身所具有的信息比較匱乏,往往以標(biāo)題和圖片為主。尤其在美團閃購這樣LBS的電商場景下,商戶需要上傳大量的商品數(shù)據(jù),對于商品信息的錄入存在很多信息不完整的情況。在標(biāo)題和圖片之外,商品詳情雖然也蘊含著大量的知識信息,但是其質(zhì)量往往參差不齊,并且結(jié)構(gòu)各異,從中進行知識挖掘難度極高。
數(shù)據(jù)維度多:在商品領(lǐng)域有眾多的數(shù)據(jù)維度需要進行建設(shè)。以商品屬性部分為例,我們不僅需要建設(shè)通用的諸如品牌、規(guī)格、包裝、口味等屬性維度,同時還要覆蓋各個品類/類目下特定關(guān)注的屬性維度諸如脂肪含量、是否含糖、電池容量等,整體會涉及到數(shù)百維的屬性維度。因此,數(shù)據(jù)建設(shè)的效率問題也是一大挑戰(zhàn)。
依賴常識/專業(yè)知識:人們在日常生活中因為有很豐富的常識知識積累,可以通過很簡短的描述獲取其背后隱藏的商品信息,例如在看到“樂事黃瓜”這樣一個商品的時候知道其實是樂事黃瓜味的薯片、看到“唐僧肉”的時候知道其實這不是一種肉類而是一種零食。因此,我們也需要探索結(jié)合常識知識的語義理解方法。同時,在醫(yī)藥、個護等領(lǐng)域中,圖譜的建設(shè)需要依賴較強的專業(yè)知識,例如疾病和藥品之間的關(guān)系,并且此類關(guān)系對于準(zhǔn)確度的要求極高,需要做到所有知識都準(zhǔn)確無誤,因此也需要較好的專家和算法相結(jié)合的方式來進行高效的圖譜構(gòu)建。
02
商品圖譜建設(shè)
在了解了圖譜建設(shè)的目標(biāo)和挑戰(zhàn)后,接下來我們將介紹商品圖譜數(shù)據(jù)建設(shè)的具體方案。
1. 層級體系建設(shè)
① 品類體系建設(shè)
品類描述了商品本質(zhì)所屬的最細(xì)類別,它聚合了一類商品,承載了用戶最終的消費需求,如“高鈣牛奶”、“牛肉干”等。與品類不同,類目是若干品類的集合,它是抽象后的品類概念,不能夠明確到具體的某類商品品類上,如“乳制品”、“水果”等。
品類打標(biāo):對商品圖譜的構(gòu)建來說,關(guān)鍵的一步便是建立起商品和品類之間的關(guān)聯(lián),即對商品打上品類標(biāo)簽。通過商品和品類之間的關(guān)聯(lián),我們可以建立起商品庫中商品與用戶需求之間的關(guān)聯(lián),進而將具體的商品展示到用戶面前。下面簡單介紹下品類打標(biāo)方法:
品類詞表構(gòu)建:品類打標(biāo)首先需要構(gòu)建一個初步的商品品類詞表。首先,我們通過對美團的各個電商業(yè)務(wù)的商品庫、搜索日志、商戶標(biāo)簽等數(shù)據(jù)源進行分詞、NER、新詞發(fā)現(xiàn)等操作,獲得初步的商品候選詞。然后,通過標(biāo)注少量的樣本進行二分類模型的訓(xùn)練(判斷一個詞是否是品類)。此外,我們通過結(jié)合主動學(xué)習(xí)的方法,從預(yù)測的結(jié)果中挑選出難分樣本,進行再次標(biāo)注,繼續(xù)迭代模型,直到模型收斂。
品類打標(biāo):首先,我們通過對商品標(biāo)題進行命名實體識別,并結(jié)合上一步中的品類詞表來獲取商品中的候選品類,如識別“蒙牛脫脂牛奶 500ml”中的“脫脂牛奶”、“牛奶”等。然后,在獲得了商品以及對應(yīng)的品類之后,我們利用監(jiān)督數(shù)據(jù)訓(xùn)練品類打標(biāo)的二分類模型,輸入商品的SPU_ID和候選品類TAG構(gòu)成的pair,即
,對它進行是否匹配的預(yù)測。具體的,我們一方面利用結(jié)合業(yè)務(wù)中豐富的半結(jié)構(gòu)化語料構(gòu)建圍繞標(biāo)簽詞的統(tǒng)計特征,另一方面利用命名實體識別、基于BERT的語義匹配等模型產(chǎn)出高階相關(guān)性特征,在此基礎(chǔ)上,我們將上述特征輸入到終判模型中進行模型訓(xùn)練。 品類標(biāo)簽后處理:在這一步中,我們對模型打上的品類進行后處理的一些策略,如基于圖片相關(guān)性、結(jié)合商品標(biāo)題命名實體識別結(jié)果等的品類清洗策略。
通過上述的三個步驟,我們便可以建立起商品與品類之間的聯(lián)系。
品類體系:品類體系由品類和品類間關(guān)系構(gòu)成。常見的品類關(guān)系包括同義詞和上下位等。在構(gòu)建品類體系的過程中,常用的以下幾種方法來進行關(guān)系的補全。我們主要使用下面的一些方法:
基于規(guī)則的品類關(guān)系挖掘。在百科等通用語料數(shù)據(jù)中,有些品類具有固定模式的描述,如“玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、“榴蓮是著名熱帶水果之一”,因此,可以使用規(guī)則從中提取同義詞和上下位。
基于分類的品類關(guān)系挖掘。類似于上文中提到的品類打標(biāo)方法,我們將同義詞和上下位構(gòu)建為
的樣本,通過在商品庫、搜索日志、百科數(shù)據(jù)、UGC中挖掘的統(tǒng)計特征以及基于sentence-bert得到的語義特征,使用二分類模型進行品類關(guān)系是否成立的判斷。對于訓(xùn)練得到的分類模型,我們同樣通過主動學(xué)習(xí)的方式,選出結(jié)果中的難分樣本,進行二次標(biāo)注,進而不斷迭代數(shù)據(jù),提高模型性能。 基于圖的品類關(guān)系推理。在獲得了初步的同義詞、上下位關(guān)系之后,我們使用已有的這些關(guān)系構(gòu)建網(wǎng)絡(luò),使用GAE、VGAE等方法對網(wǎng)絡(luò)進行鏈路預(yù)測,從而進行圖譜邊關(guān)系的補全。

圖5: 商品圖譜品類體系的構(gòu)建
② 標(biāo)準(zhǔn)/抽象商品
標(biāo)準(zhǔn)商品是描述商品本身客觀事實的顆粒度,和銷售渠道和商戶無關(guān),而商品條形碼是標(biāo)準(zhǔn)商品這層的客觀依據(jù)。標(biāo)品關(guān)聯(lián)即將同屬于某個商品條形碼的業(yè)務(wù)SKU/SPU,都正確關(guān)聯(lián)到該商品條形碼上,從而在標(biāo)準(zhǔn)商品層級上建模相應(yīng)的客觀知識,例如標(biāo)準(zhǔn)商品對應(yīng)的品牌、口味和包裝等屬性。 下面通過一個案例來說明標(biāo)品關(guān)聯(lián)的具體任務(wù)和方案。
案例:下圖是一個公牛三米插線板的標(biāo)準(zhǔn)商品。商家錄入信息的時候,會把商品直接關(guān)聯(lián)到商品條碼上。通過商戶錄入數(shù)據(jù)完成了一部分的標(biāo)品關(guān)聯(lián),但這部分比例比較少,且存在大量的鏈接缺失,鏈接錯誤的問題。另外,不同的商家對于同樣的標(biāo)品,商品的標(biāo)題的描述是千奇百怪的。我們的目標(biāo)是補充缺失的鏈接,將商品關(guān)聯(lián)到正確的標(biāo)品上。

圖6: 商品圖譜標(biāo)品關(guān)聯(lián)任務(wù)
針對標(biāo)品關(guān)聯(lián)任務(wù),我們構(gòu)建了商品領(lǐng)域的同義詞判別模型:通過遠(yuǎn)監(jiān)督的方式利用商戶已經(jīng)提供的少量有關(guān)聯(lián)的數(shù)據(jù),作為已有的知識圖譜構(gòu)造遠(yuǎn)監(jiān)督的訓(xùn)練樣本。在模型中,正例是置信度比較高的標(biāo)品碼;負(fù)例是原始數(shù)據(jù)中商品名或者圖像類似但不屬于同一標(biāo)品的SPU。構(gòu)造準(zhǔn)確率比較高的訓(xùn)練樣本之后,通過Bert模型進行同義詞模型訓(xùn)練。最后,通過模型自主去噪的方式,使得最終的準(zhǔn)確率能夠達(dá)到99%以上??傮w能做到品牌,規(guī)格,包裝等維度敏感。

圖7: 商品圖譜標(biāo)品關(guān)聯(lián)方法
抽象商品是用戶認(rèn)知的層面,作為用戶所評論的對象,這一層對用戶偏好建模更加有效。同時,在決策信息的展示上,抽象商品粒度也更符合用戶認(rèn)知。例如下圖所示冰淇淋的排行榜中,羅列了用戶認(rèn)知中抽象商品對應(yīng)的SKU,然后對應(yīng)展示不同抽象商品的特點,推薦理由等。抽象商品層整體的構(gòu)建方式,和標(biāo)準(zhǔn)商品層比較類似,采用標(biāo)品關(guān)聯(lián)的模型流程,并在數(shù)據(jù)構(gòu)造部分進行規(guī)則上的調(diào)整。

圖8: 商品圖譜抽象商品聚合
2. 屬性維度建設(shè)
對一個商品的全面理解,需要涵蓋各個屬性維度。例如“樂事黃瓜味薯片”,需要挖掘它對應(yīng)的品牌、品類、口味、包裝規(guī)格、標(biāo)簽、產(chǎn)地以及用戶評論特色等屬性,才能在商品搜索、推薦等場景中精準(zhǔn)觸達(dá)用戶。商品屬性挖掘的源數(shù)據(jù)主要包含商品標(biāo)題,商品圖片和半結(jié)構(gòu)化數(shù)據(jù)三個維度。

圖9: 商品圖譜屬性建設(shè)
商品標(biāo)題包含了對于商品最重要的信息維度,同時,商品標(biāo)題解析模型可以應(yīng)用在查詢理解中,對用戶快速深入理解拆分,為下游的召回排序也能提供高階特征。因此,這里我們著重介紹一下利用商品標(biāo)題進行屬性抽取的方法。
商品標(biāo)題解析整體可以建模成文本序列標(biāo)注的任務(wù)。例如,對于商品標(biāo)題“樂事黃瓜薯片”,目標(biāo)是理解標(biāo)題文本序列中各個成分,如樂事對應(yīng)品牌,黃瓜對應(yīng)口味,薯片是品類,因此我們使用命名實體識別(NER)模型進行商品標(biāo)題解析。然而商品標(biāo)題解析存在著三大挑戰(zhàn):(1)上下文信息少;(2)依賴常識知識;(3)標(biāo)注數(shù)據(jù)通常有較多的噪音。為了解決上述挑戰(zhàn),我們嘗試在模型中引入了圖譜信息,主要包含以下三個維度:
節(jié)點信息:將圖譜實體作為詞典,以Soft-Lexicon方式接入,以此來緩解NER的邊界切分錯誤問題。
關(guān)聯(lián)信息:商品標(biāo)題解析依賴常識知識,例如在缺乏常識的情況下,僅從標(biāo)題“樂事黃瓜薯片”中,我們無法確認(rèn)“黃瓜”是商品品類還是口味屬性。因此,我們引入知識圖譜的關(guān)聯(lián)數(shù)據(jù)緩解了常識知識缺失的問題:在知識圖譜中,樂事和薯片之間存在著較強的relation,但是樂事跟黃瓜之間的relation比較弱,因此可以利用圖結(jié)構(gòu)來緩解NER模型常識知識缺少的問題。具體來說,我們通過圖譜Graph Embedding的方式,利用圖譜的圖結(jié)構(gòu)信息對圖譜中的單字,詞進行embedding表示,然后將embedding表示和文本語義的表征進行拼接融合,再接入NER模型,使得模型能夠既考慮到語義,也考慮到常識知識的信息。
節(jié)點類型信息:同一個詞可以代表不同的屬性,比如“黃瓜”既可以作為品類又可以作為屬性。因此,對圖譜進行embedding建模的時候,根據(jù)不同的類型對實體節(jié)點進行拆分。在將圖譜節(jié)點表征喂入NER模型中時,利用注意力機制根據(jù)上下文來選擇更符合語義的實體類型對應(yīng)的表征 ,緩解不同類型下詞語含義不同的問題,實現(xiàn)不同類型實體的融合。

圖10: 商品圖譜標(biāo)題解析
在標(biāo)注過程中,少標(biāo)漏標(biāo)或錯標(biāo)的問題無法避免,尤其像在商品標(biāo)題NER這種標(biāo)注比較復(fù)雜的問題上,尤為顯著。對于標(biāo)注數(shù)據(jù)中的噪音問題,采用以下方式對噪音標(biāo)注優(yōu)化:不再采取原先非0即1的hard的訓(xùn)練方式,而是采用基于置信度數(shù)據(jù)的soft訓(xùn)練方式,然后再通過Bootstrapping的方式迭代交叉驗證,然后根據(jù)當(dāng)前的訓(xùn)練集的置信度進行調(diào)整。我們通過實驗驗證,使用soft訓(xùn)練+ Bootstrapping 多輪迭代的方式,在噪聲比例比較大的數(shù)據(jù)集上,模型效果得到了明顯提升。具體的方法可參見我們在NLPCC 2020 比賽中的論文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。

圖11: 基于噪音標(biāo)注的NER優(yōu)化
3. 效率提升
知識圖譜的構(gòu)建往往是針對于各個領(lǐng)域維度的數(shù)據(jù)單獨制定的挖掘方式。這種挖掘方式相對來說重人工,比較低效,針對每個不同的領(lǐng)域、每個不同的數(shù)據(jù)維度,我們都需要定制化的去建設(shè)任務(wù)相關(guān)的特征及標(biāo)注數(shù)據(jù)。在商品場景下,挖掘的維度眾多,因此效率方面的提高也是至關(guān)重要的。我們首先將知識挖掘任務(wù)建模為三類分類任務(wù),包括節(jié)點建模、關(guān)系建模以及節(jié)點關(guān)聯(lián)。在整個模型的訓(xùn)練過程中,最需要進行效率優(yōu)化的其實就是上述提到的兩個步驟:i)針對任務(wù)的特征提取,ii)針對任務(wù)的數(shù)據(jù)標(biāo)注;

圖12: 知識挖掘任務(wù)建模
針對特征提取部分,我們摒棄了針對不同挖掘任務(wù)做定制化特征挖掘的方式,而是嘗試將特征和任務(wù)解耦,構(gòu)建跨任務(wù)通用的圖譜挖掘特征體系,利用海量的特征庫來對目標(biāo)的節(jié)點/關(guān)系/關(guān)聯(lián)進行表征,并利用監(jiān)督訓(xùn)練數(shù)據(jù)來進行特征的組合和選擇。具體的,我們構(gòu)建的圖譜特征體系主要由四個類型的特征組構(gòu)成:i) 規(guī)則模板型特征主要是利用人工先驗知識,融合規(guī)則模型能力;ii) 統(tǒng)計分布型特征,可以充分利用各類語料,基于不同語料不同層級維度進行統(tǒng)計;iii) 句法分析型特征則是利用NLP領(lǐng)域的模型能力,引入分詞、詞性、句法等維度特征;iv) 嵌入表示型特征,則是利用高階模型能力,引入BERT等語義理解模型的能力。

圖13: 知識挖掘特征體系
針對數(shù)據(jù)標(biāo)注部分,我們主要從三個角度來提升效率。i) 通過半監(jiān)督學(xué)習(xí),充分的利用未標(biāo)注的數(shù)據(jù)進行預(yù)訓(xùn)練;ii)通過主動學(xué)習(xí)技術(shù),選擇對于模型來說能夠提供最多信息增益的樣本進行標(biāo)注;iii)利用遠(yuǎn)程監(jiān)督方法,通過已有的知識構(gòu)造遠(yuǎn)監(jiān)督樣本進行模型訓(xùn)練,盡可能的發(fā)揮出已有知識的價值。
4. 人機結(jié)合 - 專業(yè)圖譜建設(shè)
當(dāng)前醫(yī)藥健康行業(yè)結(jié)構(gòu)性正在發(fā)生變化,消費者更加傾向于使用在線醫(yī)療解決方案和藥品配送服務(wù),因此醫(yī)藥業(yè)務(wù)也逐漸成為了美團的重要業(yè)務(wù)之一。相比于普通商品知識圖譜的建設(shè),藥品領(lǐng)域知識具有以下兩個特點:(1)具有極強的專業(yè)性,需要有相關(guān)背景知識才能判斷相應(yīng)的屬性維度,例如藥品的適用癥狀等;(2)相對敏感,對于強專業(yè)性知識不允許出錯,否則更容易導(dǎo)致嚴(yán)重后果。因此我們采用將智能模型和專家知識結(jié)合的方式來構(gòu)建藥品知識圖譜。
藥品圖譜中的知識可以分為弱專業(yè)知識和強專業(yè)知識兩類,弱專業(yè)知識即一般人能夠較容易獲取和理解的知識,例如藥品的使用方法、適用人群等;而強專業(yè)知識則是需要具有專業(yè)背景的人才能夠判斷的知識,例如藥品的主治疾病、適應(yīng)癥狀等。由于這兩類數(shù)據(jù)對專家的依賴程度不同,因此我們分別采取不同的挖掘鏈路:
弱專業(yè)知識:對于藥品圖譜的弱專業(yè)知識挖掘,我們從說明書、百科知識等數(shù)據(jù)源中提取出相應(yīng)的信息,并結(jié)合通過專家知識沉淀出來的規(guī)則策略,借助通用語義模型從中提取相應(yīng)的知識,并通過專家的批量抽檢,完成數(shù)據(jù)的建設(shè)。
強專業(yè)知識:對于藥品圖譜的強專業(yè)知識挖掘,為了確保相關(guān)知識百分百準(zhǔn)確,我們通過模型提取出藥品相關(guān)屬性維度的候選后,將這些候選知識給到專家進行全量質(zhì)檢。在這里,我們主要是通過算法的能力,盡可能減少專業(yè)藥師在基礎(chǔ)數(shù)據(jù)層面上的精力花費,提高專家從半結(jié)構(gòu)化語料中提取專業(yè)知識的效率。
在藥品這類專業(yè)性強的領(lǐng)域,專業(yè)知識的表述和用戶習(xí)慣往往存在差異。因此我們除了挖掘強弱專業(yè)知識外,還需要填補專業(yè)知識和用戶之間的差異,才能將藥品圖譜更好的與下游應(yīng)用結(jié)合。為此,我們從用戶行為日志以及領(lǐng)域日常對話等數(shù)據(jù)源中,挖掘了疾病、癥狀和功效的別名數(shù)據(jù),以及藥品通用名的俗稱數(shù)據(jù),來打通用戶習(xí)慣和專業(yè)表述之間的通路。

圖14: 人機結(jié)合的專業(yè)知識挖掘
03
商品圖譜的落地應(yīng)用
近年來,隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的搜索、推薦算法不斷迭代,取得了豐富的業(yè)務(wù)成果。然而大量ID化的特征與深度模型結(jié)構(gòu)的可解釋性不強,缺乏系統(tǒng)描述能力,與用戶引導(dǎo)能力。
自從谷歌將知識圖譜應(yīng)用于搜索引擎,并顯著提升了搜索質(zhì)量與用戶體驗,知識圖譜在各垂直領(lǐng)域場景都扮演起了重要的角色。以美團場景為例,下面重點介紹商品圖譜在搜索、推薦和C端、B端的落地點。
知識圖譜最大的應(yīng)用是在搜索和推薦場景中。在搜索和推薦的各層模塊當(dāng)中,知識圖譜可以提供包括:基于知識的結(jié)構(gòu)化召回、基于圖嵌入表示的向量化召回、基于商品理解的高階排序特征、基于知識推理的展示層優(yōu)化等。
1. 結(jié)構(gòu)化召回
商品圖譜的數(shù)據(jù),對于商品的理解很有幫助。例如,在商品搜索中, 如用戶在搜索頭疼腰疼時,通過結(jié)構(gòu)化的知識圖譜,才能知道什么藥品是有止疼功效的;用戶在搜索可愛多草莓、黃瓜薯片時,需要依賴圖譜的常識知識來理解用戶真正需求是冰淇淋和薯片,而不是草莓和黃瓜。

圖15: 基于圖譜的結(jié)構(gòu)化召回
2. 排序模型泛化性
圖譜的類目信息、品類信息、屬性信息,一方面可以作為比較強有力的相關(guān)性的判斷方法和干預(yù)手段,另一方面可以提供不同粗細(xì)粒度的商品聚合能力,作為泛化性特征提供到排序模型,能有效地提升排序模型的泛化能力,對于用戶行為尤為稀疏的商品領(lǐng)域來說則具有著更高的價值。具體的特征使用方式則包括:i) 通過各顆粒度進行商品聚合,以ID化特征接入排序模型;ii)在各顆粒度聚合后進行統(tǒng)計特征的建設(shè);iii)通過圖嵌入表示的方式,將商品的高維向量表示和排序模型結(jié)合。

圖16: 基于圖譜的排序優(yōu)化
3. 多模態(tài)圖譜嵌入
現(xiàn)有的研究工作已經(jīng)在多個領(lǐng)域中證明了,將知識圖譜的數(shù)據(jù)進行嵌入表示,以高維向量表示的方式和排序模型結(jié)合,可以有效地通過引入外部知識達(dá)到緩解排序/推薦場景中數(shù)據(jù)稀疏以及冷啟動問題的效果。然而,傳統(tǒng)的圖譜嵌入的工作往往忽視了知識圖譜中的多模態(tài)信息,例如商品領(lǐng)域中我們有商品的圖片、商品的標(biāo)題、商家的介紹等非簡單的圖譜節(jié)點型的知識,這些信息的引入也可以進一步提升圖譜嵌入對推薦/排序的信息增益。

圖17: 基于多模態(tài)圖譜的推薦 - 背景
現(xiàn)有的圖譜嵌入方法在應(yīng)用到多模態(tài)圖譜表征的時候會存在一些問題,因為在多模態(tài)場景下,圖譜中邊的含義不再是單純的語義推理關(guān)系,而是存在多模態(tài)的信息補充的關(guān)系,因此我們也針對多模態(tài)圖譜的特點,提出了MKG Entity Encoder和MKG Attention Layer來更好的建模多模態(tài)知識圖譜,并將其表征有效的接入至推薦/排序模型中,具體方法可以參考我們在CIKM 2020發(fā)表了的論文《Multi-Modal Knowledge Graphs for Recommender Systems》。

圖18: 基于圖譜的排序優(yōu)化 - 模型
4. C端/B端優(yōu)化
商品圖譜在C端提供顯式化的可解釋性信息,輔助用戶進行決策。具體的呈現(xiàn)形式包括篩選項、特色標(biāo)簽、榜單、推薦理由等。篩選項的維度受當(dāng)前查詢詞對應(yīng)品類下用戶關(guān)注的屬性類別決定,例如,當(dāng)用戶搜索查詢詞為薯片時,用戶通常關(guān)注的是它的口味、包裝、凈含量等,我們將會根據(jù)供給數(shù)據(jù)在這些維度下的枚舉值展示篩選項。商品的亮點標(biāo)簽來源于標(biāo)題、商品詳情頁信息與評論數(shù)據(jù)的提取,以簡潔明了的結(jié)構(gòu)化數(shù)據(jù)展示商品特色。商品的推薦理由通過評論抽取與文本生成兩種渠道獲得,與查詢詞聯(lián)動,以用戶視角給出商品值得買的原因,而榜單數(shù)據(jù)則更為客觀,以銷量等真實數(shù)據(jù),反應(yīng)商品品質(zhì)。
在B端,即商家發(fā)布側(cè),商品圖譜則提供了基于商品標(biāo)題的實時預(yù)測能力,幫助商家進行類目的掛載、屬性信息的完善。例如,商家填寫標(biāo)題“德國進口德亞脫脂純牛奶12盒”后,商品圖譜提供的在線類目預(yù)測服務(wù)可將其掛載到“食品飲料-乳制品-純牛奶”類目,并通過實體識別服務(wù),得到商品的“產(chǎn)地-德國”,“是否進口-進口”,“品牌-德亞”,“脂肪含量-脫脂”,“規(guī)格-12盒”的屬性信息,預(yù)測完成后,由商家確認(rèn)發(fā)布,降低商家對商品信息的維護成本,并提升發(fā)布商品的信息質(zhì)量。
