<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NLP系列之句子向量、語義匹配(一):業(yè)務(wù)場景思考

          共 4893字,需瀏覽 10分鐘

           ·

          2021-09-05 12:15


           作者簡介




          作者:ZHOU-JC (廣州云迪科技有限公司 NLP算法工程師)

          原文:https://zhuanlan.zhihu.com/p/387271169

          轉(zhuǎn)載者:楊夕

          面筋地址:https://github.com/km1994/NLP-Interview-Notes

          個(gè)人筆記:https://github.com/km1994/nlp_paper_study


          前言

          大家好,這篇博客想跟大家討論一下語義匹配的應(yīng)用場景。實(shí)際上無論是NLP的哪個(gè)技術(shù),我認(rèn)為接觸場景,思考這個(gè)技術(shù)跟具體場景是怎么結(jié)合的?這技術(shù)有哪些場景能應(yīng)用?是非常重要的。一個(gè)資深的算法工程師應(yīng)該能結(jié)合場景和技術(shù),給出最佳的解決方案。

          回歸正題,語義匹配作為一項(xiàng)基礎(chǔ)的NLP任務(wù)應(yīng)用廣泛,曾經(jīng)我天真以為語義匹配相比文本分類更簡單,但實(shí)際接觸到業(yè)務(wù)時(shí),卻發(fā)現(xiàn)不是一回事

          首先,這里所說的語義匹配其實(shí)是【廣義】語義匹配。

          • 大家最常遇到的句子相似度任務(wù),輸入兩個(gè)句子,如“韭菜多吃什么好處”和“多吃韭菜有什么好處”,輸出兩個(gè)句子是否相似,做成分類或回歸都可以;

          • 但這里,我更想討論的是廣義語義匹配,例如長文本的相似度(如兩個(gè)法律裁判書之間的相似程度),長文本和短文本的匹配度(如新聞標(biāo)題和新聞內(nèi)容的匹配程度)。

          下面說一下過去一年,我在實(shí)際業(yè)務(wù)中遇到過的用語義匹配來處理實(shí)際業(yè)務(wù)的場景。

          場景

          場景1:語義匹配最廣泛的應(yīng)用,檢索式聊天機(jī)器人

          聊天機(jī)器人是語義匹配中最廣泛應(yīng)用的場景。目前的聊天機(jī)器人主要分成五種:

          • 基于問答對。輸入用戶的問題,在由(問題:答案)組成的知識庫中檢索相似問題,最后將用戶相似問題的答案作為結(jié)果返回;

          • 基于機(jī)器閱讀理解:輸入用戶問題,從知識庫中檢索相關(guān)文檔,然后通過機(jī)器閱讀理解的形式返回答案,這種也涉及檢索,不過最關(guān)鍵一步是通過指針網(wǎng)絡(luò)的形式從文檔中抽取出Span作為回答,容易不穩(wěn)定;

          • 基于知識圖譜:輸入用戶問題,通過語義解析轉(zhuǎn)化成對應(yīng)的Cypher語法,從建立好的知識圖譜中檢索問題,困難主要在于知識圖譜的建立需要耗費(fèi)大量人力;

          • 基于任務(wù)型對話:針對有限的實(shí)際業(yè)務(wù)場景,例如攜程的聊天機(jī)器人,輸入用戶問題,通過意圖識別、提取詞槽,轉(zhuǎn)換為對應(yīng)的“訂機(jī)票”、“查酒店”等服務(wù);

          • 閑聊:類似微軟小冰這種,實(shí)際應(yīng)用場景較少。

          其中,基于問答對是最為簡單的方案,能讓我們快速建立一個(gè)可用的聊天機(jī)器人,其中里面最關(guān)鍵的技術(shù)就是語義匹配。我們要首先根據(jù)業(yè)務(wù)場景定義一批【標(biāo)準(zhǔn)問】以及它們對應(yīng)的答案,當(dāng)有新的問題來時(shí),計(jì)算新問題與標(biāo)準(zhǔn)問的相似度則可。

          下面是一些我對一些常見問題的思考:

          Q1:知識庫的標(biāo)準(zhǔn)問怎么整理?

          A:雖然說基于問答對是較為簡單的聊天機(jī)器人解決方案,但實(shí)際應(yīng)用中,我們要首先考慮這個(gè)場景究竟有多泛,是解決一個(gè)醫(yī)藥問答、還是一個(gè)金融問答、還是一個(gè)百科式的問答。一定要先梳理你的場景,假如場景過大,還需要分級管理,如趕著上線,則應(yīng)該先做高頻問答,俗話說二八定律,20%的問題涵蓋了80%的常見問題。

          Q2:怎么處理冷啟動(dòng)?

          A:有時(shí)候是一個(gè)新的需求,之前沒有任何的數(shù)據(jù)積累,這時(shí)候可以通過搜索引擎,如百度知道等搜索一些網(wǎng)民提出的一些相關(guān)問題作為知識庫,起碼這些問題是真實(shí)的,假如面對的場景十分窄,搜索不出來,只能讓客戶提供一些常見問題再進(jìn)行發(fā)散。

          Q3:怎么制作訓(xùn)練集?

          A:同樣容易遇到冷啟動(dòng),假如現(xiàn)在已經(jīng)梳理完知識庫,怎么生成我們的訓(xùn)練集?

          可以通過,如同一個(gè)含義的標(biāo)準(zhǔn)問作為一對正樣本,不同含義的標(biāo)準(zhǔn)問為一對負(fù)樣本,但這樣容易訓(xùn)練集不夠豐富。這里推薦一種做法,把標(biāo)注問拿去百度知道搜索,通常第1頁搜出來的都是語義相同的問題可以作為正樣本,10多頁的都是些相似度高但語義不同的問題則可以作為負(fù)樣本,當(dāng)然還需要人工過審,這做法的好處是極大地豐富了訓(xùn)練集。

          Q4:語義匹配要做多細(xì)?

          A:首先思考,什么叫語義相同的句子?如“怎么成為網(wǎng)絡(luò)紅人”、“怎么樣可以成為網(wǎng)絡(luò)紅人”,毫無疑問是屬于同一語義的句子對,

          但假如是"怎么成為網(wǎng)絡(luò)紅人"、“女的怎么容易成為網(wǎng)絡(luò)紅人”。大家覺得這兩個(gè)句子屬于語義相同嗎?

          實(shí)質(zhì)上是不嚴(yán)格相同的,但假如在你的業(yè)務(wù)場景中,這兩個(gè)問題都對應(yīng)的是同一個(gè)答案,是否能把這兩個(gè)句子作為相似度為1的正樣本讓模型去訓(xùn)練?答案在于,你想做得有多粗多細(xì),假如很細(xì)粒度,那這兩個(gè)句子就不是語義相同的句子,或者說它們的相似度不是1,是0.6或0.8,但假如做得很細(xì)的話,你需要定義很多標(biāo)準(zhǔn)問。假如做得很廣,如把同一個(gè)回答的問題都定義為相似度為1的句子,這時(shí)候,你必須把這些你認(rèn)為相似的樣本拿去給模型訓(xùn)練,讓模型學(xué)得,因?yàn)檫@其實(shí)不是嚴(yán)格意義上的語義相同,做廣的好處是不用定義太多問題,但十分容易不穩(wěn)定。

          Q5:怎么做檢索?

          A:常見做法是先檢索出一批相似問題再精排。其中檢索可以用bm25、SBERT等模型,精排可以用Cross-Encoders等結(jié)構(gòu)。這兩步都可以定義為語義匹配,只不過一個(gè)粗粒度一個(gè)細(xì)粒度。

          Q6:用戶的問題在知識庫中沒有相似問題?

          A:可以設(shè)定,

          • 假如有標(biāo)準(zhǔn)問與用戶問題相似度0.8以上的,則直接返回相似度最高的標(biāo)準(zhǔn)問對應(yīng)的答案;

          • 假如相似度最高在0.4~0.8之間,我們可以返回用戶“你是否想問...”;

          • 假如相似度在0.4以下,我們可以返回與用戶問題相似度最高的三個(gè)問題,輸出“你是否想問這些問題。。。”;

          這其實(shí)就是涉及到一個(gè)用戶體驗(yàn)的問題,不是說一定要返回一個(gè)答案,也不是說找不到相似的就讓客戶重新問。即使沒有很相似的問題,大部分場景下我們也可以返回“接近相似”作為引導(dǎo)讓客戶重新提問。如何給用戶一個(gè)最舒服的體驗(yàn),這需要有產(chǎn)品思維。

          場景2:廣義的語義匹配,相似工單檢索

          場景是這樣的:有一些工單信息,主要是群眾咨詢、投訴等,當(dāng)出現(xiàn)疑難工單的時(shí)候,希望能從已辦理的工單庫中,檢索出最相似的工單用戶,返回給處理工單的工單人員做參考。

          這里的輸入就不是一個(gè)句子對,而是兩個(gè)工單信息,更準(zhǔn)確的說,這就是一個(gè)廣義語義匹配的問題,用語義匹配的方法來做檢索。

          相關(guān)競賽/公開數(shù)據(jù)集

          除了分享以上兩個(gè)我遇到過的實(shí)際業(yè)務(wù)場景,我們也可以通過一些競賽的比賽背景,去了解語義匹配的應(yīng)用。

          天池:“公益AI之星”挑戰(zhàn)賽-新冠疫情相似句對判定大賽

          “公益AI之星”挑戰(zhàn)賽-新冠疫情相似句對判定大賽-天池大賽-阿里云天池tianchi.aliyun.com/competition/entrance/231776/introduction?spm=5176.12281957.1004.29.38b02448l6Ejps


          天池:“公益AI之星”挑戰(zhàn)賽-新冠疫情相似句對判定大賽

          https://tianchi.aliyun.com/competition/entrance/231776/introduction?spm=5176.12281957.1004.29.38b02448l6Ejps

          這個(gè)比賽就是上面說的場景1,而且是一個(gè)十分細(xì)分的聊天場景,主打疫情相關(guān)的呼吸領(lǐng)域問題。越是細(xì)分的領(lǐng)域,相對來說更好做,準(zhǔn)確率更高。

          天池:小布助手對話短文本語義匹配

          全球人工智能技術(shù)創(chuàng)新大賽【賽道三】-天池大賽-阿里云天池tianchi.aliyun.com/competition/entrance/531851/introduction?spm=5176.12281957.1004.12.38b02448l6Ejps

          天池:小布助手對話短文本語義匹配

          https://tianchi.aliyun.com/competition/entrance/531851/introduction?spm=5176.12281957.1004.12.38b02448l6Ejps

          用語義匹配的來做意圖識別,而非直接檢索問題。這給我們開擴(kuò)了思路,上面說到的聊天機(jī)器人中的任務(wù)型機(jī)器人,第一步是意圖識別,傳統(tǒng)做法是當(dāng)成一個(gè)分類任務(wù)來做,但用分類方法做的缺點(diǎn)是難以拓展(如一開始限定好10個(gè)意圖類比,以后像擴(kuò)展的話,要重新訓(xùn)練模型),但用語義匹配做則不用,增加意圖只需要在對應(yīng)的庫里增加相關(guān)問題。

          搜狐:2021搜狐校園文本匹配算法大賽

          2021 Sohu Campus Document Matching AIgorithm Competitionwww.biendata.xyz/competition/sohu_2021/

          搜狐:2021搜狐校園文本匹配算法大賽

          https://www.biendata.xyz/competition/sohu_2021/

          每對文本在兩個(gè)顆粒度上判斷文本對中的兩段文字是否匹配。其中,一個(gè)顆粒度較為寬泛,兩段文字屬于一個(gè)話題即可視為匹配;另一個(gè)顆粒度較為嚴(yán)格,兩段文字必須是同一事件才視為匹配。如下面的問題,它們都是說英超足球,屬于同一個(gè)話題,但是兩個(gè)不是同一個(gè)事件。2021 Sohu Campus Document Matching AIgorithm Competition每對文本在兩個(gè)顆粒度上判斷文本對中的兩段文字是否匹配。其中,一個(gè)顆粒度較為寬泛,兩段文字屬于一個(gè)話題即可視為匹配;另一個(gè)顆粒度較為嚴(yán)格,兩段文字必須是同一事件才視為匹配。如下面的問題,它們都是說英超足球,屬于同一個(gè)話題,但是兩個(gè)不是同一個(gè)事件。

          2019法研杯:相似案例匹配

          “中國法研杯”司法人工智能挑戰(zhàn)賽cail.cipsc.org.cn:2019/

          2019法研杯:相似案例匹配

          http://cail.cipsc.org.cn:2019/

          針對多篇法律文書進(jìn)行相似度的計(jì)算和判斷。具體來說,對于每份文書我們提供文書的標(biāo)題和事實(shí)描述,選手需要從兩篇候選集文書中找到與詢問文書更為相似的一篇文書。類似上面我提到的場景2,用語義匹配的方式做檢索,檢索出的案件或工單用于給工作人員參考。

          CCF:“技術(shù)需求”與“技術(shù)成果”項(xiàng)目之間關(guān)聯(lián)度計(jì)算模型

          “技術(shù)需求”與“技術(shù)成果”項(xiàng)目之間關(guān)聯(lián)度計(jì)算模型 Competitions - DataFountainwww.datafountain.cn/competitions/359

          CCF:“技術(shù)需求”與“技術(shù)成果”項(xiàng)目之間關(guān)聯(lián)度計(jì)算模型

          https://www.datafountain.cn/competitions/359

          應(yīng)用場景是有一個(gè)平臺,定期收集技術(shù)需求和技術(shù)成果,定期更新技術(shù)需求庫和技術(shù)成果庫,數(shù)據(jù)來源有兩種:(1)會員單位發(fā)布;(2)非會員單位官方網(wǎng)站采集。每月新增數(shù)據(jù)量約3000個(gè)項(xiàng)目。

          根據(jù)項(xiàng)目信息的文本含義,為供需雙方提供關(guān)聯(lián)度較高的對應(yīng)信息(需求——成果智能匹配服務(wù)),是平臺的一項(xiàng)功能需求。技術(shù)需求與技術(shù)成果之間的關(guān)聯(lián)度分為四個(gè)層級:強(qiáng)相關(guān)、較強(qiáng)相關(guān)、弱相關(guān)、無相關(guān)。

          百度千言數(shù)據(jù)集:

          飛槳AI Studio - 人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū)aistudio.baidu.com/aistudio/competition/detail/45/?isFromLUGE=TRUE

          千言數(shù)據(jù)集:文本相似度

          https://aistudio.baidu.com/aistudio/competition/detail/45/?isFromLUGE=TRUE
          • LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道領(lǐng)域的中文問題匹配數(shù)據(jù)集;

          • BQ Corpus(Bank Question Corpus), 銀行金融領(lǐng)域的問題匹配數(shù)據(jù);

          • PAWS-X (中文):語義匹配中難度很高的數(shù)據(jù)集。數(shù)據(jù)集里包含了釋義對和非釋義對,即識別一對句子是否具有相同的釋義(含義),特點(diǎn)是具有高度重疊詞匯,對于進(jìn)一步提升模型對于強(qiáng)負(fù)例的判斷很有幫助。

          瀏覽 101
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产又粗又大 | 国产夫妻自拍性爱视频 | 婷婷综合在线 | 久久婷婷五月天人人综合 | 欧美曰韩欧美视频 |