小樣本文本數(shù)據(jù)分析
今后10年里,非結(jié)構(gòu)化數(shù)據(jù)將占所有生產(chǎn)的互聯(lián)網(wǎng)數(shù)據(jù)的90%。
互聯(lián)網(wǎng)媒介發(fā)展日益矚目,移動(dòng)APP、博客、微信、論壇等媒體接踵而至,在悄無聲息中改變了我們的生活方式。這些交互性強(qiáng)、容易沉淀價(jià)值信息的社交數(shù)據(jù),往往包含著大量用戶的基本信息和興趣標(biāo)簽,是企業(yè)用來發(fā)掘商機(jī)、認(rèn)知用戶的絕好原料。
自然語言處理(NLP)是一種使計(jì)算機(jī)理解人類自然語言的技術(shù)和方法,將非結(jié)構(gòu)化的語言文本轉(zhuǎn)化為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化信息,從而使之可以完成理解人類意圖并與人類直接溝通的任務(wù)。


基于大數(shù)據(jù)的文本分析技術(shù)具有快速識(shí)別海量非結(jié)構(gòu)化文本中的關(guān)鍵信息和關(guān)聯(lián),甚至實(shí)時(shí)監(jiān)測(cè)輿情和傳播趨勢(shì)。但是在傳統(tǒng)金融交互場(chǎng)景下,存在大量的對(duì)話或短語的形式的交互文本。由于現(xiàn)有語音轉(zhuǎn)文本存在一定的誤差,并且存在大量方言、語氣詞、口語化表述,而漢語又是典型的分析語(沒有詞性、時(shí)態(tài)等來輔助表達(dá)含義),因此在進(jìn)行這類語義識(shí)別上往往需要依賴上下文或語境,采用傳統(tǒng)的自然語言處理技術(shù)還遠(yuǎn)遠(yuǎn)不夠。
小樣本學(xué)習(xí)旨在通過少量樣本學(xué)習(xí)到解決問題的模型。近年來,在大數(shù)據(jù)訓(xùn)練模型的趨勢(shì)下,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在許多領(lǐng)域中取得突破性進(jìn)展和較好的效果。一般來講,深度學(xué)習(xí)的成功可以歸結(jié)于三個(gè)關(guān)鍵因素:強(qiáng)大的計(jì)算資源(例如GPU)、復(fù)雜的神經(jīng)網(wǎng)絡(luò)(如CNN、LSTM)、大規(guī)模數(shù)據(jù)集。但許多現(xiàn)實(shí)的應(yīng)用場(chǎng)景沒有條件獲取足夠的帶標(biāo)簽的訓(xùn)練樣本,擁有從少量樣本中學(xué)習(xí)和概括的能力,是將人工智能和人類智能進(jìn)行區(qū)分的明顯分界點(diǎn),小樣本學(xué)習(xí)能夠幫助提升在短語或?qū)υ捳Z義識(shí)別上性能和效果。
圖3 文本分析流程
隨著文本分析和挖掘技術(shù)的成熟,計(jì)算機(jī)可以更好、更快、更準(zhǔn)的理解人類自然語言,存在著廣闊的應(yīng)用場(chǎng)景。
了解客戶反饋:基于海量的非結(jié)構(gòu)化信息,正確的理解用戶散落在各渠道的聲音,讀懂用戶的想法,挖掘出用戶對(duì)于產(chǎn)品和服務(wù)的偏好以及隨時(shí)間發(fā)展的變化情況。 客戶關(guān)系管理:通過實(shí)時(shí)監(jiān)測(cè)客戶在使用產(chǎn)品、與服務(wù)人員和客戶經(jīng)理溝通記錄、直接反饋信息的內(nèi)容,挖掘出客戶對(duì)于產(chǎn)品和服務(wù)的情緒和態(tài)度,是否存在負(fù)面或者投訴的傾向,結(jié)合客戶旅程信息,捕獲出在業(yè)務(wù)流程中存在的問題,不僅可以及時(shí)與客戶溝通進(jìn)行關(guān)系維護(hù),還能夠改善流程,優(yōu)化客戶體驗(yàn)。 輿情和口碑監(jiān)測(cè)分析:通過大數(shù)據(jù)分析能夠快速準(zhǔn)確識(shí)別出企業(yè)及競(jìng)爭(zhēng)對(duì)手在互聯(lián)網(wǎng)上的熱點(diǎn)信息和口碑變化,分析傳播路徑、傳播節(jié)點(diǎn)、發(fā)展態(tài)勢(shì)和受眾反饋,為管理決策提供科學(xué)依據(jù)。 智能問答系統(tǒng):從大量歷史開放式問答記錄中提取出有價(jià)值的、有共性的知識(shí)點(diǎn),形成基于知識(shí)圖譜的對(duì)話庫。在智能客服和虛擬客服場(chǎng)景,能夠高效準(zhǔn)確地完成與客戶的交流和溝通。

由隨著人工智能在圖像識(shí)別、語音識(shí)別領(lǐng)域的大放異彩,人們對(duì)其在自然語言分析上的能力也寄予厚望,并且逐步在多個(gè)應(yīng)用領(lǐng)域嶄露頭角。雖然語言的本質(zhì)使一些自然語言處理短期還不能有效地形式化,例如自動(dòng)檢測(cè)文本中的諷刺、反諷和隱含性的任務(wù)尚未得到有效解決,但是本文分析和挖掘技術(shù)將在商業(yè)實(shí)踐中逐步體現(xiàn)出越來越大的商業(yè)價(jià)值。
(歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。
我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長(zhǎng)按,識(shí)別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂部
微信號(hào):zgsjgjjlb
專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。
