微信搜一搜中的智能問(wèn)答技術(shù)

本文約7600字,建議閱讀15分鐘
本文給大家介紹微信搜一搜中的智能問(wèn)答技術(shù)。

背景介紹 基于圖譜的問(wèn)答 基于文檔的問(wèn)答 未來(lái)展望


基于圖譜的問(wèn)答事實(shí)型query,答案形式是實(shí)體短語(yǔ)類的短答案。例如“劉德華的妻子”,或者實(shí)體集合“中國(guó)四大名著”,還有時(shí)間/數(shù)字等。 第二類是觀點(diǎn)型query,答案形式是“是或否”,例如像“高鐵可以逃票嗎”等。 第三類是摘要型query,不同于前兩類短答案,答案可能需要用長(zhǎng)句的摘要來(lái)回答,通常是“為什么”、“怎么辦”、“怎么做”等問(wèn)題。 最后一類是列表型query,通常是流程、步驟相關(guān)的問(wèn)題,答案需要用列表做精確的回答。

結(jié)構(gòu)化數(shù)據(jù),來(lái)源于百科、豆瓣等垂類網(wǎng)站的infobox。優(yōu)點(diǎn)是質(zhì)量高,便于獲取和加工;缺點(diǎn)是只覆蓋頭部知識(shí),覆蓋率不夠。例如“易建聯(lián)的身高”、“無(wú)間道1的導(dǎo)演是誰(shuí)”。 非結(jié)構(gòu)化的通用文本,來(lái)源于百科、公眾號(hào)等互聯(lián)網(wǎng)網(wǎng)頁(yè)文本庫(kù)。優(yōu)點(diǎn)是覆蓋面廣,但缺點(diǎn)在于文本質(zhì)量參差不齊,對(duì)醫(yī)療、法律等專業(yè)領(lǐng)域知識(shí)的覆蓋度和權(quán)威度不夠。 非結(jié)構(gòu)化的專業(yè)垂類網(wǎng)站問(wèn)答庫(kù),來(lái)源于專業(yè)領(lǐng)域垂類站點(diǎn)的問(wèn)答數(shù)據(jù),通常以問(wèn)答對(duì)的形式存在。優(yōu)點(diǎn)是在專業(yè)領(lǐng)域知識(shí)覆蓋廣、權(quán)威度高。

KBQA的優(yōu)點(diǎn)是擴(kuò)展性強(qiáng),能查詢實(shí)體的各種屬性,同時(shí)支持推理,可以解析復(fù)雜查詢。例如圖中右邊的一個(gè)例子,“姚明的老婆有多高”可以解析得到中間的語(yǔ)義表達(dá)式,從而轉(zhuǎn)換成知識(shí)圖譜的查詢,得到問(wèn)題的答案。涉及的關(guān)鍵技術(shù)是圖譜構(gòu)建(包括schema構(gòu)建、實(shí)體挖掘、關(guān)系抽取、開(kāi)放信息抽取技術(shù))和問(wèn)題解析(包括實(shí)體鏈接、基于semantic parsing的問(wèn)題解析方法、基于檢索的問(wèn)題解析方法等技術(shù))。 DocQA相較于KBQA的優(yōu)點(diǎn)是覆蓋面更廣,能覆蓋更多中長(zhǎng)尾的問(wèn)題,同時(shí)能解決一些KBQA難以解析的問(wèn)題。例如,“中國(guó)歷史上第一個(gè)不平等條約”這個(gè)query,很難解析成結(jié)構(gòu)化的表達(dá),涉及到的技術(shù)主要包括閱讀理解(MRC)、開(kāi)放域問(wèn)答(OpenQA)。

開(kāi)放領(lǐng)域知識(shí)庫(kù)中存在大量的歧義實(shí)體,例如“長(zhǎng)城”、“蘋果”,可能在知識(shí)庫(kù)中存在多種類型的同名實(shí)體。從query中識(shí)別出正確的實(shí)體是整個(gè)KBQA中一個(gè)比較關(guān)鍵的模塊。 開(kāi)放域的知識(shí)圖譜屬性眾多,需要從4000+屬性中識(shí)別出正確的屬性。 自然語(yǔ)言的問(wèn)法多樣,同一個(gè)屬性有不同問(wèn)法,例如詢問(wèn)李白的出生地,可以有“李白是哪里人”、“李白老家是哪里的”等多種不同的表達(dá)。同一個(gè)問(wèn)法也可能針對(duì)不同的屬性,例如“姚明有多高”、“珠穆朗瑪峰有多高”,同樣是“有多高”,但詢問(wèn)屬性分別是身高和海拔。

方案一:檢索式的方法。把query和候選答案(知識(shí)圖譜中的候選節(jié)點(diǎn))表征為向量計(jì)算相似度。優(yōu)點(diǎn)是可以進(jìn)行端到端的訓(xùn)練,但可解釋性和可擴(kuò)展性差,難以處理限定、聚合等復(fù)雜類型的query。 方案二:基于解析的方法。把query解析成可查詢的結(jié)構(gòu)化表示,然后去知識(shí)圖譜中查詢。這種方法的優(yōu)點(diǎn)是可解釋性強(qiáng),符合人能理解的圖譜顯示推理過(guò)程,但依賴高質(zhì)量的解析算法。綜合考慮優(yōu)缺點(diǎn),我們?cè)趯?shí)際工作中主要采用的是這種方法。

實(shí)體鏈接,識(shí)別出query中的實(shí)體,并關(guān)聯(lián)到圖譜中的節(jié)點(diǎn); 關(guān)系識(shí)別,query詢問(wèn)的具體屬性; Topic實(shí)體識(shí)別,當(dāng)query涉及到多個(gè)實(shí)體時(shí),判斷哪個(gè)實(shí)體是問(wèn)題的主實(shí)體; 條件/約束識(shí)別,解析query中涉及到的一些約束條件; 查詢推理,將前幾步的結(jié)果組合成查詢推理的語(yǔ)句,通過(guò)知識(shí)圖譜獲得答案。










二分類判別:簡(jiǎn)單問(wèn)題還是復(fù)雜問(wèn)題 一跳關(guān)系剪枝:減少中間節(jié)點(diǎn)數(shù)量 基于啟發(fā)式規(guī)則剪枝











編輯:王菁
校對(duì):林亦霖
評(píng)論
圖片
表情
