<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          產(chǎn)品經(jīng)理如何入門自然語言處理(NLP)?

          共 2472字,需瀏覽 5分鐘

           ·

          2021-06-10 09:18

          自然語言處理,顧名思義即自然語言處理的技術,通常用縮寫NLP指代。各類產(chǎn)品經(jīng)理日常的工作中,會遇到大量自然語言處理的應用場景。以智能推薦為例,在待推薦物文本分類、主題分類等場景中都會用到。本篇以產(chǎn)品經(jīng)理的視角,談談如何入門自然語言處理。

          統(tǒng)計模型

          很多大牛對人工智能的抨擊在于,認為人工智能只是統(tǒng)計學,并不是真正的具有「智能」。在當前「弱人工智能」的時代背景下,學習統(tǒng)計模型仍然有非常重要的價值。

          拿經(jīng)常用于分類場景的貝葉斯模型為例,在已經(jīng)拿到用于訓練集的語料中,可以通過統(tǒng)計得出A出現(xiàn)的概率、B出現(xiàn)的概率、在A出現(xiàn)的前提下B出現(xiàn)的概率,計算如果B出現(xiàn)同時A出現(xiàn)的概率(即給定B樣本計算出現(xiàn)A的概率),就可以直接從前面三個統(tǒng)計概率計算得出。

          當然以上貝葉斯模型成立并且表現(xiàn)良好的前提是數(shù)據(jù)量足夠大,滿足大數(shù)定律。不難發(fā)現(xiàn)統(tǒng)計模型的精髓在于,假設數(shù)據(jù)量足夠大后,可以用已有樣本的統(tǒng)計情況,來做判別或預測。

          閉環(huán)流程

          NLP技術應用場景廣泛且松散,且在很多情況下,作為中間處理技術流程,不被最終用戶所感知。再加上近些年新的自然語言處理技術不斷出現(xiàn),給想入門自然語言處理的產(chǎn)品經(jīng)理眼花繚亂,不知如何入手的困惑。

          入門自然語言處理也需要講究MVP,以最小可行性的閉環(huán),建立起初步認知,再不斷擴展和豐富NLP的知識體系,逐步建立大的框架和認知。

          通常的自然語言處理任務可從「分詞」—>「構(gòu)建特征」—>「訓練模型」—>「分類或預測應用」。

          以上流程中,除了分詞外,與機器學習通常流程一樣。英文一個個單詞本身就是分開的,是不需要分詞的。但對于中文來講,詞與詞之間是連接在一起的,需要將文本內(nèi)容,切分成一個個詞再處理。

          完成分詞后,計算機無法直接理解漢字,需要通過將一個個詞,編碼成計算機可以理解的數(shù)字再做處理,這個階段即構(gòu)建特征階段。

          特征完成后,再根據(jù)自然語言處理任務類型,決定采用哪種算法訓練模型,最后將訓練好的模型應用于特定的分類或預測任務上。一個自然語言處理任務就完成了。

          標注與預處理

          前幾年從事的智能推薦產(chǎn)品中,推薦系統(tǒng)本身以CTR作為優(yōu)化目標,實際是將點擊與否作為label,相當于用戶幫著做了分布式的標注工作。

          傳統(tǒng)基于統(tǒng)計的自然語言處理任務中,大部分任務類型是有監(jiān)督學習,需要人在已有語料上做大量的標注工作,才能保證任務的正常進行。

          例如情感識別是否為正向情感,就需要人在語料上,將一條條信息標出是否為正向情感。再將此語料作為訓練集訓練模型,生成情感識別的分類模型用于情感識別。

          文檔的預處理通常是將拿到的語料做去除標點符號、停用詞、數(shù)字等處理,去除自然語言無關內(nèi)容,加快計算機計算和模型生成速度。

          在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。

          常見任務及算法原理

          自然語言處理通常有以下應用場景:分詞、詞性標注、主題識別、情感識別、文本分類、機器翻譯等。下面將主要應用及背后算法原理作簡要介紹。

          有監(jiān)督的分類問題。無論情感識別還是垃圾郵件分類,本質(zhì)上都可以轉(zhuǎn)化為幾個目標類型的分類問題。按照貝葉斯公式的邏輯,將已有語料數(shù)據(jù)進行類型標注,基于統(tǒng)計模型的邏輯,訓練得到分類模型,將待識別內(nèi)容通過模型計算打分,根據(jù)閾值即可完成識別。例如二分類的情感識別,可以將0-0.5區(qū)間歸為消極情感,0.5-1區(qū)間歸為積極情感。多分類則是計算待分類樣本離哪個區(qū)間更近,即識別為哪種類型。

          無監(jiān)督的分類問題。自然語言處理中,經(jīng)常會有主題識別任務,這類任務通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無監(jiān)督學習自動完成按照主題的詞聚類。由于是無監(jiān)督學習,需要根據(jù)實際情況指定學習出的主題個數(shù),最終選擇主題個數(shù)最合理的結(jié)果。依賴人的主觀判斷和理解一系列詞背后組成的主題。

          生成問題。生成問題常見的有文本糾錯、詞生成、句子生成、機器翻譯等。生成問題從統(tǒng)計學邏輯上講,是基于已有語料的統(tǒng)計,計算出接下來要生成內(nèi)容的概率。拿機器翻譯舉例,需要事先準備好中英文對照的大量語料,基于語料,機器學習到中英文詞對照、短語對照的知識,最終在翻譯場景下,輸出中文或英文相應的翻譯內(nèi)容。

          再拿隱馬爾可夫模型做詞性標注舉例,基于已經(jīng)標注的語料,隱馬爾可夫模型可以學習到詞與詞之間詞性的狀態(tài)轉(zhuǎn)移概率,基于這個概率可以計算出一個詞屬于哪種詞性。

          深度學習的應用。CNN構(gòu)建的神經(jīng)網(wǎng)絡,比較適合解決NLP分類問題,但由于沒有記憶,無法解決生成問題。RNN相較于CNN可以解決一定長度記憶問題,適合解決NLP領域一定長度的生成問題,例如詞生成,但無法保留長期記憶。LSTM具有長期記憶的手段,可以做生成句子的任務。

          NLP應用價值

          文本是最常見的生產(chǎn)資料,產(chǎn)品經(jīng)理學習NLP的原理及應用,可以開闊解決問題的視野。

          拿在線教育行業(yè)舉例,利用自然語言處理能力,可以自動識別出學生評論的情感傾向,可以輔助老師進行作文批改、自動出題、自動解題。

          不難看出,自然語言處理的應用場景,并非人做不了,而是可以替代人類的手工勞動,大大提升任務的效率,將人解放出來,做更有價值的工作。

          推薦課程:


          關于作者:

          小樂帝,一線大數(shù)據(jù)&AI產(chǎn)品經(jīng)理、簡書互聯(lián)網(wǎng)優(yōu)秀作者、產(chǎn)品經(jīng)理讀書會創(chuàng)始人。

          產(chǎn)品社群:

          產(chǎn)品經(jīng)理求職避坑探討小組:957290281

          產(chǎn)業(yè)互聯(lián)網(wǎng)產(chǎn)品交流QQ群:276558817

          高級產(chǎn)品經(jīng)理交流QQ群:872842643

          產(chǎn)品經(jīng)理校招求職QQ群:736083600

          AI產(chǎn)品經(jīng)理探索小組QQ群:634414026

          學習轉(zhuǎn)行人工智能/AI QQ群:704965446

          「產(chǎn)品經(jīng)理讀書會」

          專注于愛讀書愛思考的產(chǎn)品人提供讀書推薦、產(chǎn)品思考、以書會友的環(huán)境

          歡迎愛讀書的產(chǎn)品人分享產(chǎn)品道路上的感悟

          歡迎關注公眾號:產(chǎn)品經(jīng)理讀書會






          長按二維碼關注我們


          改變世界




          瀏覽 81
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久男人网 | 水蜜桃在线观看视频 | 欧美成本人视频 | 日韩男女操逼 | 免费在线观看黄色视频 |