他山之石 | 美團知識圖譜與商品理解

本文約8000字,建議閱讀15+分鐘
本次分享將著重介紹如何利用美團大腦中已建設的商品圖譜,發(fā)揮知識數(shù)據(jù)的價值,提供更加精準的商品理解能力。
在模型探索方面,我們將介紹基于知識增強的商品理解模型,通過多階段知識增強,提升模型準確性和泛化性。 在模型訓練方面,我們將分享一些樣本治理方面的經驗和心得,以更加高效、低成本的方式提升模型能力。
美團大腦簡介 知識增強的商品理解 樣本治理 商品圖譜的應用






商品中品類、品牌垂域特有的詞匯較多。如“伊利”“安慕希”“酸奶”這一例子,若模型沒有見過“伊利”、“安慕?!边@一類詞匯,它很難對標題做出正確的切分; 消歧需要依賴常識知識。比如“樂事”“黃瓜”“薯片”這一例子,“黃瓜”可以是一個品類或者是一個口味,這需要知識來輔助模型進行正確地消歧; 標注數(shù)據(jù)少且含有較多噪音。這是因為實體識別任務標注難度較大,所以樣本中難免包含錯誤信息。這就意味著我們的模型不能僅僅依賴標注的數(shù)據(jù)來進行實體識別任務,還應適當?shù)匾胪獠康闹R作為輔助。



通過衡量在當前的商品下詞匯的相關度,顯式地對詞匯進行消岐,使這個過程變得可解釋; 通過融入容易獲得的知識z作為錨點,計算商品到知識z的分布和詞匯到知識z的分布,間接地得到商品與詞匯的關聯(lián); 通過融合統(tǒng)計特征作為先驗知識,達到在線可控的目的。例如對于一個新詞或者發(fā)現(xiàn)一類有錯誤的詞匯,我們可以通過改變其對應的統(tǒng)計特征來在線干預一類問題。












知識增強:介紹了如何充分利用圖譜知識豐富信息,并借助容易獲取的知識來解決較難的任務。進一步地,我們將知識融合分為三個階段,并進行相應使用的介紹。從結果來看,知識增強能有效提升模型效果,并使模型解釋性更強,并且在線可控,適合工業(yè)界需求,其潛力仍待挖掘。 樣本治理:介紹了標注數(shù)據(jù)采樣和錯誤樣本檢測的經驗和方法。模型與數(shù)據(jù)是缺一不可的,樣本治理的工作應當受到重視并得到積累。



評論
圖片
表情
