<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          小樣本文本數(shù)據(jù)分析

          共 3129字,需瀏覽 7分鐘

           ·

          2021-04-28 07:24

          今后10年里,非結(jié)構(gòu)化數(shù)據(jù)將占所有生產(chǎn)的互聯(lián)網(wǎng)數(shù)據(jù)的90%。


          國際數(shù)據(jù)公司(IDC)2011年調(diào)查報(bào)告


          引言

          互聯(lián)網(wǎng)媒介發(fā)展日益矚目,移動(dòng)APP、博客、微信、論壇等媒體接踵而至,在悄無聲息中改變了我們的生活方式。這些交互性強(qiáng)、容易沉淀價(jià)值信息的社交數(shù)據(jù),往往包含著大量用戶的基本信息和興趣標(biāo)簽,是企業(yè)用來發(fā)掘商機(jī)、認(rèn)知用戶的絕好原料。

          舉例來說,某個(gè)APP的用戶滿意度的變化,可以從服務(wù)評(píng)價(jià)的幾顆星來衡量,但是無從得知客戶為什么給予好評(píng)或差評(píng),也無法針對(duì)客戶不滿意處進(jìn)行優(yōu)化改進(jìn)。因此,我們需要挖掘更多的客戶“聲音”,通過主動(dòng)收集或被動(dòng)采集更多用戶的行為或言論信息幫助洞察潛在問題和真實(shí)需求。這些數(shù)據(jù)主要來源于如下幾個(gè)場(chǎng)景:客戶反饋和點(diǎn)評(píng)、與客服與銷售人員的交流記錄、社交媒體或網(wǎng)站的帖子、新聞媒體、用戶調(diào)研等,其中絕大部分都是非結(jié)構(gòu)化的文本數(shù)據(jù)。
          零售金融業(yè)務(wù)中,已經(jīng)存在大量這類信息,例如在線客服保有與客戶的聊天溝通記錄;呼叫中心存有大量的客戶來電語音,可通過成熟的語音識(shí)別技術(shù)轉(zhuǎn)化為文本記錄;實(shí)體服務(wù)網(wǎng)點(diǎn)也會(huì)記錄客戶訴求或反饋信息。這些信息主要以非結(jié)構(gòu)化的文字文本的方式存儲(chǔ)在IT系統(tǒng)里,無法直接使用,需要通過專有的技術(shù)來分析和挖掘。
          自然語言處理(NLP)

          自然語言處理(NLP)是一種使計(jì)算機(jī)理解人類自然語言的技術(shù)和方法,將非結(jié)構(gòu)化的語言文本轉(zhuǎn)化為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化信息,從而使之可以完成理解人類意圖并與人類直接溝通的任務(wù)。

          圖1 NLP連接橋梁
          NLP 可以使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法來處理,也可以使用深度學(xué)習(xí)的方法來處理。兩種不同的方法對(duì)應(yīng)不同的處理步驟,如下圖所示。
          圖2 NLP的兩種方法

          基于大數(shù)據(jù)的文本分析技術(shù)具有快速識(shí)別海量非結(jié)構(gòu)化文本中的關(guān)鍵信息和關(guān)聯(lián),甚至實(shí)時(shí)監(jiān)測(cè)輿情和傳播趨勢(shì)。但是在傳統(tǒng)金融交互場(chǎng)景下,存在大量的對(duì)話或短語的形式的交互文本。由于現(xiàn)有語音轉(zhuǎn)文本存在一定的誤差,并且存在大量方言、語氣詞、口語化表述,而漢語又是典型的分析語(沒有詞性、時(shí)態(tài)等來輔助表達(dá)含義),因此在進(jìn)行這類語義識(shí)別上往往需要依賴上下文或語境,采用傳統(tǒng)的自然語言處理技術(shù)還遠(yuǎn)遠(yuǎn)不夠。 

          小樣本數(shù)據(jù)分析

          小樣本學(xué)習(xí)旨在通過少量樣本學(xué)習(xí)到解決問題的模型。近年來,在大數(shù)據(jù)訓(xùn)練模型的趨勢(shì)下,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在許多領(lǐng)域中取得突破性進(jìn)展和較好的效果。一般來講,深度學(xué)習(xí)的成功可以歸結(jié)于三個(gè)關(guān)鍵因素:強(qiáng)大的計(jì)算資源(例如GPU)、復(fù)雜的神經(jīng)網(wǎng)絡(luò)(如CNN、LSTM)、大規(guī)模數(shù)據(jù)集。但許多現(xiàn)實(shí)的應(yīng)用場(chǎng)景沒有條件獲取足夠的帶標(biāo)簽的訓(xùn)練樣本,擁有從少量樣本中學(xué)習(xí)和概括的能力,是將人工智能和人類智能進(jìn)行區(qū)分的明顯分界點(diǎn),小樣本學(xué)習(xí)能夠幫助提升在短語或?qū)υ捳Z義識(shí)別上性能和效果。

          1.文本預(yù)處理
          在分析原始文本前通常需要對(duì)語料進(jìn)行預(yù)處理,處理包括分詞、詞性標(biāo)注、去停用詞、情感標(biāo)注等幾個(gè)步驟,合適的預(yù)處理能夠有效提升分析的效果。
          分詞:分詞是中文文本分析中特有的也是重要的任務(wù),正確的分詞可以幫助我們更好的構(gòu)建模型、運(yùn)用算法分析。為了提高準(zhǔn)確性,需要構(gòu)建業(yè)務(wù)領(lǐng)域?qū)S迷~詞庫,例如金融專業(yè)術(shù)語、機(jī)構(gòu)網(wǎng)點(diǎn)名稱、企業(yè)特色產(chǎn)品名稱等。
          詞性標(biāo)注:指為分詞結(jié)果的每個(gè)詞標(biāo)注正確的詞性,即確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性的過程。
          停用詞:連詞、虛詞、語氣詞等無意義的詞以及標(biāo)點(diǎn)符號(hào),在處理文本數(shù)據(jù)之前(或之后)會(huì)自動(dòng)過濾掉。
          例如“我從未激活信用卡,但是現(xiàn)在卻收到賬單還款通知”分詞結(jié)果、詞性標(biāo)注和去停用詞如下表所示。
          表1 語料預(yù)處理流程
           
          情感標(biāo)注:就是判斷句子是積極還是消極的,一般依靠預(yù)先標(biāo)注褒義詞貶義詞、客觀詞主觀詞的詞典來判斷句子的感情。情感標(biāo)注可以幫助我們分析客戶的情感傾向。
          另外,在預(yù)處理中還需要考慮解決形近詞、同音字、異體字、簡(jiǎn)稱縮寫這類等價(jià)詞替代問題。
          2.文本分析
          文本分析分為訓(xùn)練和預(yù)測(cè)兩個(gè)模塊。訓(xùn)練模塊接收已標(biāo)注的文本數(shù)據(jù),經(jīng)過特征提取和語料標(biāo)簽的處理,選取機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。常見的機(jī)器學(xué)習(xí)算法包括邏輯回歸、決策時(shí)、支持向量機(jī)、隨機(jī)森林、xgboost等。
          預(yù)測(cè)模塊傳入未標(biāo)注的文本數(shù)據(jù)進(jìn)行特征提取,輸入已經(jīng)訓(xùn)練完成的文本模型中,實(shí)現(xiàn)NLP的目標(biāo)任務(wù),包括文本分類、情感分析、機(jī)器翻譯和對(duì)話系統(tǒng)等。
           圖3 文本分析流程
          3.分析的成果
          小樣本文本分析的成果之一是語料的標(biāo)簽化。分析得到的文本分類能夠根據(jù)客戶特征生成客戶標(biāo)簽,從而形成客戶畫像,定位目標(biāo)客群。對(duì)話系統(tǒng)能夠根據(jù)客戶反饋的文本特征生成體驗(yàn)標(biāo)簽,進(jìn)而形成實(shí)時(shí)交互、定時(shí)推送等個(gè)性化服務(wù),有助于提升客戶體驗(yàn)。
          金融機(jī)構(gòu)日常與客戶的交互中會(huì)產(chǎn)生大量文本數(shù)據(jù),如語音交互、體驗(yàn)評(píng)價(jià)、行為埋點(diǎn)、運(yùn)營數(shù)據(jù)等。通過小樣本文本分析,實(shí)時(shí)提取這些文本的關(guān)鍵詞信息,再根據(jù)關(guān)鍵詞規(guī)則給客戶打上標(biāo)簽,定位客戶旅程。結(jié)合金融機(jī)構(gòu)的運(yùn)營訴求,形成“監(jiān)測(cè)-分析-改進(jìn)-追蹤”的管理閉環(huán),最終實(shí)現(xiàn)客戶體驗(yàn)的改善。
           
          圖4 體驗(yàn)評(píng)價(jià)體系與管理閉環(huán)
          應(yīng)用場(chǎng)景

          隨著文本分析和挖掘技術(shù)的成熟,計(jì)算機(jī)可以更好、更快、更準(zhǔn)的理解人類自然語言,存在著廣闊的應(yīng)用場(chǎng)景。

          • 了解客戶反饋:基于海量的非結(jié)構(gòu)化信息,正確的理解用戶散落在各渠道的聲音,讀懂用戶的想法,挖掘出用戶對(duì)于產(chǎn)品和服務(wù)的偏好以及隨時(shí)間發(fā)展的變化情況。
          • 客戶關(guān)系管理:通過實(shí)時(shí)監(jiān)測(cè)客戶在使用產(chǎn)品、與服務(wù)人員和客戶經(jīng)理溝通記錄、直接反饋信息的內(nèi)容,挖掘出客戶對(duì)于產(chǎn)品和服務(wù)的情緒和態(tài)度,是否存在負(fù)面或者投訴的傾向,結(jié)合客戶旅程信息,捕獲出在業(yè)務(wù)流程中存在的問題,不僅可以及時(shí)與客戶溝通進(jìn)行關(guān)系維護(hù),還能夠改善流程,優(yōu)化客戶體驗(yàn)。
          • 輿情和口碑監(jiān)測(cè)分析:通過大數(shù)據(jù)分析能夠快速準(zhǔn)確識(shí)別出企業(yè)及競(jìng)爭(zhēng)對(duì)手在互聯(lián)網(wǎng)上的熱點(diǎn)信息和口碑變化,分析傳播路徑、傳播節(jié)點(diǎn)、發(fā)展態(tài)勢(shì)和受眾反饋,為管理決策提供科學(xué)依據(jù)。
          • 智能問答系統(tǒng):從大量歷史開放式問答記錄中提取出有價(jià)值的、有共性的知識(shí)點(diǎn),形成基于知識(shí)圖譜的對(duì)話庫。在智能客服和虛擬客服場(chǎng)景,能夠高效準(zhǔn)確地完成與客戶的交流和溝通。
          表2 NLP應(yīng)用場(chǎng)景
          結(jié)束語

          隨著人工智能在圖像識(shí)別、語音識(shí)別領(lǐng)域的大放異彩,人們對(duì)其在自然語言分析上的能力也寄予厚望,并且逐步在多個(gè)應(yīng)用領(lǐng)域嶄露頭角。雖然語言的本質(zhì)使一些自然語言處理短期還不能有效地形式化,例如自動(dòng)檢測(cè)文本中的諷刺、反諷和隱含性的任務(wù)尚未得到有效解決,但是本文分析和挖掘技術(shù)將在商業(yè)實(shí)踐中逐步體現(xiàn)出越來越大的商業(yè)價(jià)值。



          (歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

          聯(lián)系我們

          掃描二維碼關(guān)注我們

          微信:SZH9543
          郵箱:[email protected]
          QQ:2286075659

          熱門文章


          什么叫“碳達(dá)峰、碳中和”?一副漫畫看明白


          你是如何進(jìn)入咨詢行業(yè)的?


          一文讀懂工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系


          智造講堂:數(shù)字孿生車間的概念、運(yùn)行機(jī)制及關(guān)鍵技術(shù)


          如何重新思考數(shù)據(jù)管理以加快價(jià)值實(shí)現(xiàn)

          我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。

          我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。

          我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

          了解更多精彩內(nèi)容


          長(zhǎng)按,識(shí)別二維碼,關(guān)注我們吧!

          數(shù)據(jù)工匠俱樂部

          微信號(hào):zgsjgjjlb

          專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。

          瀏覽 125
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲成人电影导航 | 日操夜干| www青青草 | 天天综合一 | 免费观看视频一区 |