產(chǎn)品 | NLP主要落地場景梳理
共 3610字,需瀏覽 8分鐘
·
2022-02-09 17:28
本文主要摘錄自中金研究報告《自然語言處理成為企業(yè)數(shù)字化轉(zhuǎn)型的重要手段》
NLP(Natural Langunge Processing, 自然語言處理)就是用計算機對人類語言進行處理,使得計算機具備人的聽、說、讀、寫能力。該技術(shù)可使機器理解并解釋人類寫作和說話方式,是人工智能最早的應(yīng)用,也是現(xiàn)在關(guān)注度較高的領(lǐng)域。
NLP 技術(shù)大體可以分為自然語言理解(NLU)和自然語言生成(NLG)兩部分,NLU 主要結(jié)合語言學(xué)中的音韻學(xué)、句法、語義等理論,像人類一樣對自然語言進行理解;NLG 負責(zé)將理解后的內(nèi)容以一定結(jié)構(gòu)的文本信息輸出。
按照實現(xiàn)方式不同,可以把 NLP 落地應(yīng)用分為對話機器人(語音語義問答)、閱讀理解、智能搜索和機器翻譯 四種。這四種 NLP 技術(shù)在各行各業(yè)都能解決很多問題。
1. 對話機器人
[ 基本思想 ] 機器通過對自然語言問題的理解,利用NLP技術(shù)找到相應(yīng)的答案,最后以搜索引擎查詢結(jié)果或者語音的形式輸出。
[ 落地場景 ] 按照應(yīng)用范圍的不同,對話機器人可以分為通用型對話機器人與專業(yè)領(lǐng)域?qū)υ挋C器人。
1.1 通用型對話機器人
多用于 閑聊和咨詢?nèi)粘栴} 的場景,該場景下用戶對于通用型對話機器人的問答準(zhǔn)確性要求不高,更多關(guān)注體驗和效果。目前搭載通用型對話機器人的主要產(chǎn)品包括:
(1)Siri等手機助手,Cortana、小冰等PC助手
(2)Amazon Alexa、Google Home等智能音箱
由于用戶更重視通用型對話機器人的交互體驗,因此相較于 Siri 等手機助手,搭載語音交互,并且能夠在家居等特定場景完成各種任務(wù)的智能音箱更受到用戶青睞。 近年來,通用性對話機器人呈現(xiàn)出兩個趨勢:一是語音交互體驗逐漸增強(語音合成技術(shù)起重要作用);二是 NLP 技術(shù)與問答準(zhǔn)確性將是影響智能音箱市占率的重要因素。
1.2 專業(yè)領(lǐng)域?qū)υ挋C器人
多用于特定場景、解決特定行業(yè)的問題。相較于通用型對話機器人,用戶端更關(guān)注專業(yè)領(lǐng)域?qū)υ挋C器人問答的準(zhǔn)確性,服務(wù)端需要根據(jù)把問答和所處行業(yè)的專業(yè)知識庫、客戶關(guān)系系統(tǒng)、供應(yīng)鏈等其它IT功能相結(jié)合。
專業(yè)領(lǐng)域問答機器人一般采用SaaS形式向B端商家賦能。具體應(yīng)用過程中,智能客服利用自然語言處理技術(shù)對語義進行分析,判斷顧客的意向,再給予相應(yīng)的回復(fù)或轉(zhuǎn)人工。相比單一的人工客服,智能客服的優(yōu)勢主要體現(xiàn)在兩方面:一是省成本;二是24小時在線,全天候秒回。目前專業(yè)領(lǐng)域?qū)υ挋C器人主要用于電商、醫(yī)療、金融等行業(yè)的智能客服。
(1)電商領(lǐng)域
- 阿里和樂言合作,推出淘寶客服服務(wù),把自動問答機器人與人工坐席相結(jié)合,由機器人首先回答一些問題,當(dāng)碰到無法回答的問題,可以由人工接手。
- 京東推出客服機器人JIMI,通過分析用戶的語義,判斷客戶的情緒,給予更智能、有情感色彩的回復(fù)。
(2)醫(yī)療領(lǐng)域
通過智能的人機對話,醫(yī)療機構(gòu)可以使精確導(dǎo)診服務(wù)前置于掛號和就診前,提高醫(yī)療服務(wù)效率,改善患者的就醫(yī)體驗。智能導(dǎo)診幫助解決了三類問題:一是根據(jù)癥狀診斷疾?。欢歉鶕?jù)疾病導(dǎo)診科室;三是直接掛號最匹配的科室大夫。
相比人工導(dǎo)診,智能導(dǎo)診具有全天24小時在線、可以匹配醫(yī)生且精確度更高的優(yōu)勢,能提高醫(yī)患雙方的效率和體驗。
- 2018年,依圖科技聯(lián)合騰訊睿知和廣州市婦女兒童醫(yī)療中心推出“問診熊”問診小程序,可以識別518種婦女兒童醫(yī)療領(lǐng)域的疾病,涵蓋95%以上的領(lǐng)域常見疾病,醫(yī)生推薦準(zhǔn)確率達97.3%。
2. 閱讀理解
醫(yī)療、教育、金融、司法等眾多行業(yè),存在大量的文本信息。很多文字產(chǎn)品篇幅很長,用戶需要從頭到尾讀完之后才能理解內(nèi)容。同時,對長文本的校驗也是非常復(fù)雜的工作,需要耗費大量人力反復(fù)校驗,卻不能保證準(zhǔn)確性。利用NLP技術(shù),機器可以在輸入文本后完成:
2.1 數(shù)據(jù)結(jié)構(gòu)化
將原本雜亂的文本信息,利用NLP技術(shù)對每段文字進行理解,并按照特定的規(guī)則將原始文本變成結(jié)構(gòu)化、可查詢的數(shù)據(jù)格式,方便用戶使用。
- 典型的代表是AlphaSense(https://www.alpha-sense.com/index.html),一家成立于 2008 年的智能搜索引擎公司。 它從文件、 新聞和研究報告等碎片化信息中集合所有投資信息, 并進行語義分析, 整合相關(guān)概念、主題、行業(yè)等,方便用戶搜索、瀏覽和分析和金融投資相關(guān)的重要數(shù)據(jù)點及整體趨勢。
2.2 校驗審核
[ 概 要 ] 主要應(yīng)用于金融領(lǐng)域,可以極大提升投行/會計審計/銀行的效率和準(zhǔn)確性。
[ 行業(yè)痛點 ] 金融行業(yè)文本量大、合規(guī)要求高,文本出現(xiàn)問題后果嚴重。投行的申報材料和基礎(chǔ)底稿、會計師事務(wù)所的審計報告、銀行信貸業(yè)務(wù)的盡調(diào)和審批報告等,對準(zhǔn)確度的要求都非常高,然而傳統(tǒng)的人工審核方式需要耗費大量人力,效率低,而且很容易出錯。
[ 解決方案 ] 依據(jù)既定的規(guī)則和要求,機器可以利用NLP技術(shù)自動審核相應(yīng)文本,智能化檢查后快速出具審核報告,批注錯誤并解釋判斷邏輯、提出修正建議。以招股書為例,系統(tǒng)可以實現(xiàn):
- 財務(wù)檢查:結(jié)合監(jiān)管機構(gòu)的披露指引和財務(wù)勾稽關(guān)系,對IPO文檔中披露的信息進行邏輯監(jiān)控,如各財務(wù)報表的會計科目平衡等。
- 文本信息一致性審核:IPO過程中的申報材料、底稿達上千卷,系統(tǒng)可以實現(xiàn)同一文檔前后文的一致性、多文件文本信息的一致性校驗。
- 其他基礎(chǔ)性檢測:系統(tǒng)可以識別出錯別字、中英文標(biāo)點符號的錯用、專業(yè)名詞使用不規(guī)范等問題。
例如犀語科技為投行部門開發(fā)的IPO審核系統(tǒng),提供錯別字識別、第三方對比、多文件一致性檢測、財務(wù)檢查等功能。
2.3 專家系統(tǒng)+醫(yī)療/司法
[ 概 要 ] 主要應(yīng)用于醫(yī)療和司法領(lǐng)域,以輔助醫(yī)生和法官做出判決。
[ 行業(yè)痛點 ] 醫(yī)療和司法場景都存在大量非結(jié)構(gòu)化的文本信息,而且具有很高的專業(yè)性。除此之外,醫(yī)療和司法場景都會不斷出現(xiàn)新的案例,這對從業(yè)人員造成了一定的困惑。
[ 解決方案 ] 由于機器比人類擁有更快的存儲記憶能力,計算機利用NLP技術(shù),對醫(yī)療/司法行業(yè)的專業(yè)知識、過往案例等進行大量學(xué)習(xí),可以輔助醫(yī)生/法官進行疾病和案件的診斷和審判。自然語言處理在智能輔診的典型應(yīng)用過程如下:
- 從病歷、檢驗單、醫(yī)囑等醫(yī)療文本中提取患者的性別年齡、臨床癥狀等關(guān)鍵信息,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成一致、統(tǒng)一的表格等形式的結(jié)構(gòu)化數(shù)據(jù)
- 基于提取出的信息,并且讓機器掌握醫(yī)生具備的醫(yī)療知識,構(gòu)建出顯示各類醫(yī)療信息之間關(guān)系的知識圖譜,比如患者癥狀、藥物、疾病診療等
- 知識圖譜可以根據(jù)患者的癥狀診斷疾病,或者根據(jù)特定的疾病推斷出未來可能出現(xiàn)的癥狀
2.4 輿情分析
[ 概 要 ] 主要應(yīng)用于投資領(lǐng)域,輔助投資人做出投資決策。
[ 行業(yè)痛點 ] 金融資訊信息十分豐富,難以靠人工閱讀并分析所有相關(guān)的資訊,但這類定性數(shù)據(jù)對事件分析、決策輔助、監(jiān)控預(yù)警的重要性越來越顯著。利用自然語言處理技術(shù),可以基于語義對包括公司新聞、市場行情、宏觀經(jīng)濟、政策法規(guī)、社交媒體上的資訊予以抓取和語義分析,監(jiān)控股民、機構(gòu)等對市場的態(tài)度,并通過知識圖譜技術(shù)建立事件之間的關(guān)聯(lián)關(guān)系,可以實現(xiàn)實時監(jiān)控、輔助投資等功能。
[ 解決方案 ] 機器利用 NLP 技術(shù),對每一條輿情做情感分析,判斷其對股價變動的影響,從而輔助做出投資決策。
- 一家名為kensho(https://www.kensho.com/)的AI公司,其主要產(chǎn)品為warren問答引擎,通過監(jiān)測財報發(fā)布、全球數(shù)據(jù)環(huán)境、經(jīng)濟報告、公司產(chǎn)品發(fā)布、FDA藥品批準(zhǔn)等等多方面的信息,建立起事件與資產(chǎn)之間的相關(guān)性,從而預(yù)測資產(chǎn)價格走勢。2017年初,該公司成功預(yù)測了特朗普當(dāng)選后, 美元重回漲勢, 以及科技股的反彈。
2.5 智能寫作
[ 概 要 ] 主要應(yīng)用于傳媒領(lǐng)域,輔助媒體人自動寫稿。
[ 行業(yè)痛點 ] 現(xiàn)在互聯(lián)網(wǎng)聚集海量文本,新聞、微博、朋友圈、微信公眾號、頭條號等地方每天會產(chǎn)生大量文章。但很多內(nèi)容作者投入大量精力,實際閱讀量非常少,內(nèi)容投入產(chǎn)出率較低。
[ 解決方案 ] 通過對大量的新聞文本進行語義分析和快速摘要,可以快速形成熱點匯總類、新聞聚合類、事件盤點類的新聞稿件,進行自動寫作和輔助寫作,提升新聞生產(chǎn)效率。
- 今日頭條每天會產(chǎn)生很多新聞,2016 年頭條發(fā)布 “Xiaomingbot” 機器人,經(jīng)過 1 年多時間訓(xùn)練,“Xiaomingbot”已經(jīng)能夠?qū)戵w育、財經(jīng)、地產(chǎn)等多個行業(yè)的文章,而且文章的閱讀量和記者撰寫的文章非常接近,大大提高了今日頭條的投入產(chǎn)出比。
- 美國的Narrative Science,從結(jié)構(gòu)化數(shù)據(jù)中進行數(shù)據(jù)挖掘,并把結(jié)果用簡短的文字或依據(jù)模板產(chǎn)生報告內(nèi)容。又如Automated Insights,它為美聯(lián)社自動寫出了10億多篇文章與報告。
3. 機器翻譯
主要是使用機器將一種語言的源序列(句子,段落,文檔)翻譯成相應(yīng)的目標(biāo)序列或另一種語言,細節(jié)后續(xù)補充。
4. 智能搜索
主要是實現(xiàn)語義搜索,細節(jié)后續(xù)補充。
