<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【建議收藏】NLP全路徑學(xué)習(xí)推薦

          共 2974字,需瀏覽 6分鐘

           ·

          2022-06-11 23:15

          點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)

          重磅干貨,第一時(shí)間送達(dá)

          我跟幾位BAT老哥聊了下NLP全路徑學(xué)習(xí)的事情,總結(jié)出以下內(nèi)容,包含:


          • 學(xué)習(xí)NLP需要具備哪些基礎(chǔ)

          • NLP全路徑各任務(wù)學(xué)習(xí)的項(xiàng)目




          01

          學(xué)習(xí)NLP需要具備的基礎(chǔ)


          01?機(jī)器學(xué)習(xí)


          熟悉簡(jiǎn)單的機(jī)器學(xué)習(xí)模型。例如:邏輯回歸、決策樹、樸素貝葉斯、隱馬爾科夫模型、K-Means、正則化方法等;有部分高級(jí)機(jī)器學(xué)習(xí)基礎(chǔ)更好。例如:集成學(xué)習(xí)(隨機(jī)森林、GBDT、XGB、Stacking等)、條件隨機(jī)場(chǎng)CRF、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、主題模型等。


          02?深度學(xué)習(xí)


          熟悉簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)。例如:神經(jīng)元模型、多層感知機(jī)、反向傳播算法、激活函數(shù)的使用、Word2Vec、RNN、CNN等;有部分高級(jí)深度學(xué)習(xí)基礎(chǔ)更好。例如:LSTM、BiLSTM-CRF、TextCNN、注意力機(jī)制Attention、Transformer、Bert等。


          03?語言框架


          熟練Python編程語言、了解簡(jiǎn)單的Pytorch使用。


          04?NLP方向基礎(chǔ)


          了解BERT-based模型的結(jié)構(gòu),

          了解模型蒸餾的概念

          了解抽取式和生成式摘要模型的概念

          了解GPT-2

          了解文本分類、序列標(biāo)注模型的原理

          了解圖神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí)


          02

          基礎(chǔ)項(xiàng)目


          01?中文分詞


          中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟。不同于英文的是,中文句子中沒有詞的界限,因此在進(jìn)行中文自然語言處理時(shí),通常需要先進(jìn)行分詞,分詞效果將直接影響詞性、句法樹等模塊的效果。雖然有一些現(xiàn)成的分詞器可以使用,但了解其內(nèi)部原理、實(shí)踐一個(gè)工業(yè)級(jí)的分詞器也是大有裨益。


          推薦項(xiàng)目類搜狐新聞場(chǎng)景下的中文分詞器? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度:★


          該項(xiàng)目結(jié)合工業(yè)場(chǎng)景里常見的分詞需求:效果要好、速度要快、可以快速解決badcase、系統(tǒng)應(yīng)該越用越好、快速場(chǎng)景遷移等。


          學(xué)習(xí)完該項(xiàng)目后,可以從零熟悉整個(gè)工業(yè)界分詞的實(shí)現(xiàn)方式、使用場(chǎng)景、方法技巧。


          02?關(guān)鍵詞提取


          在自然語言處理領(lǐng)域,處理海量的文本文件最關(guān)鍵的是要把用戶最關(guān)心的問題提取出來。而無論是對(duì)于長文本還是短文本,往往可以通過幾個(gè)關(guān)鍵詞窺探整個(gè)文本的主題思想。與此同時(shí),不管是基于文本的推薦還是基于文本的搜索,對(duì)于文本關(guān)鍵詞的依賴也很大,關(guān)鍵詞提取的準(zhǔn)確程度直接關(guān)系到推薦系統(tǒng)或者搜索系統(tǒng)的最終效果。


          推薦項(xiàng)目類新浪門戶場(chǎng)景下的關(guān)鍵詞提取? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度:★


          實(shí)現(xiàn)一個(gè)新聞?wù)Z料下的關(guān)鍵詞提取器,滿足:在單個(gè)進(jìn)程的條件下,滿足至少0.80的精度,至少100的QPS;同時(shí)滿足識(shí)別出新詞的能力;

          學(xué)習(xí)完該項(xiàng)目后,可以從零熟悉關(guān)鍵詞提取方法的脈絡(luò)、整體實(shí)現(xiàn)無監(jiān)督關(guān)鍵詞提取的思路。


          03

          進(jìn)階項(xiàng)目


          03?實(shí)體識(shí)別


          實(shí)體識(shí)別是NLP領(lǐng)域一個(gè)極為普遍的任務(wù),幾乎是必備技能。它主要是從文本中抽取出重要的實(shí)體,比如:人名、地名、機(jī)構(gòu)名、時(shí)間、專有名詞等,可以引申為一些你關(guān)心的任何實(shí)體,比如車牌號(hào)、國籍等。


          推薦項(xiàng)目類新浪微博場(chǎng)景下的實(shí)體識(shí)別? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度:★


          實(shí)現(xiàn)一個(gè)基于多種模型的實(shí)體識(shí)別系統(tǒng),要滿足如下特性:傳統(tǒng)機(jī)器學(xué)習(xí)下,至少80%的精度,至少10的qps;深度學(xué)習(xí)下,至少90%的精度,不小于1的qps(不使用GPU),不小于10的qps(使用GPU);


          學(xué)習(xí)完該項(xiàng)目后,可以從零熟悉實(shí)體識(shí)別方法的歷史脈絡(luò)、并實(shí)現(xiàn)常見模型。


          04?文本分類


          文本分類是NLP中最基礎(chǔ)的任務(wù),也是最常見的任務(wù),在實(shí)際的工作中常常會(huì)碰到各種各樣的文本分類任務(wù)需求。隨著BERT-based模型的發(fā)展,實(shí)際工作中的文本分類模型的baseline得到大幅提升。然而,在實(shí)際模型開發(fā)過程中,常常會(huì)遇到兩類問題:(1)文本數(shù)據(jù)不規(guī)范,數(shù)據(jù)中包含大量的噪聲、類別不平衡等問題;(2)文本數(shù)據(jù)缺乏標(biāo)注。這兩類問題大幅提升了效果穩(wěn)定的文本分類模型的開發(fā)難度。


          推薦項(xiàng)目頭條新聞標(biāo)題分類場(chǎng)景下的BERT分類器訓(xùn)練、優(yōu)化及蒸餾? ? ? ??難度:★


          實(shí)現(xiàn):

          1、基于BERT的分類器,在中等難度任務(wù)和噪聲數(shù)據(jù)條件下,預(yù)測(cè)F1不低于0.9

          2、基于BERT的蒸餾分類器,和上述模型相比,效果退化不超過0.05,響應(yīng)速度不低于10qps;


          學(xué)習(xí)完該項(xiàng)目后,了解文本分類模型開發(fā)的基本思路和方法。


          05?文本摘要


          文本摘要生成是NLP中的高級(jí)任務(wù),指對(duì)長文本進(jìn)行壓縮以提高使用人員的閱讀效率,是企業(yè)深層次的業(yè)務(wù)需求,常見于互聯(lián)網(wǎng)或金融企業(yè)的新聞資訊發(fā)布和分析的業(yè)務(wù)領(lǐng)域之中,往往需要資深的算法人員才能滿足這種業(yè)務(wù)需求。


          推薦項(xiàng)目實(shí)現(xiàn)一個(gè)基于GPT的生成式摘要模型??? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度:★


          實(shí)現(xiàn)一個(gè)基于GPT的生成式摘要模型,滿足如下條件:

          1、高回答有效性,top10摘要的有效性不低于90%;

          2、單GPU下預(yù)測(cè)速度不低于1qps;


          學(xué)習(xí)完該項(xiàng)目后,可以了解摘要模型的技術(shù)發(fā)展歷程,了解經(jīng)典的模型,了解模型開發(fā)和優(yōu)化的基本思路和方法。


          06?對(duì)話系統(tǒng)


          智能對(duì)話是NLP中的高級(jí)任務(wù),通常包含閑聊型(生成型)、QA(檢索型)和任務(wù)型三種,在實(shí)際工作中最常見的智能對(duì)話系統(tǒng)是QA對(duì)話系統(tǒng),其次是任務(wù)型對(duì)話系統(tǒng),閑聊型對(duì)話系統(tǒng)往往作為前兩種對(duì)話系統(tǒng)的附屬能力,以提高對(duì)話系統(tǒng)的親和力。


          推薦項(xiàng)目搭建工業(yè)級(jí)對(duì)話系統(tǒng):檢索型/任務(wù)型/閑聊型?? ? ? ? ? ? ?項(xiàng)目難度:


          搭建工業(yè)級(jí)對(duì)話系統(tǒng):

          1、檢索型對(duì)話,Learning to Rank系統(tǒng)實(shí)現(xiàn)FAQ;?

          2、任務(wù)型對(duì)話系統(tǒng),基于rasa開源框架完成簡(jiǎn)單的多輪任務(wù)型對(duì)話;?

          3、閑聊型對(duì)話,基于GPT模型的對(duì)話生成;

          學(xué)習(xí)完該項(xiàng)目后,可以了解不同類型的對(duì)話系統(tǒng)的發(fā)展歷程,了解不同類型的對(duì)話系統(tǒng)開發(fā)的基本思路和方法。


          07?知識(shí)圖譜


          知識(shí)圖譜是2012年google在語義網(wǎng)的基礎(chǔ)上提出的一種語義表達(dá)規(guī)范,這是一種基于本體論(ontology)的語義網(wǎng)絡(luò)。隨著知識(shí)圖譜的發(fā)展,其在NLP中的應(yīng)用也是越來越廣泛。現(xiàn)在電商,搜索引擎,對(duì)話機(jī)器人等業(yè)態(tài)都離不開知識(shí)圖譜。


          推薦項(xiàng)目構(gòu)建知識(shí)圖譜? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?項(xiàng)目難度:


          能夠——

          1) 獨(dú)立開發(fā)構(gòu)建知識(shí)圖譜的信息抽取組件。包括NER,關(guān)系抽取等

          2) 獨(dú)立開發(fā)基于知識(shí)庫的問答系統(tǒng)

          3) 獨(dú)立開發(fā)基于知識(shí)庫的推薦系統(tǒng)


          學(xué)習(xí)完該項(xiàng)目后,可以了解知識(shí)圖譜的來龍去脈,了解知識(shí)圖譜的應(yīng)用場(chǎng)景和構(gòu)建方法。



          04

          項(xiàng)目試學(xué)


          以上內(nèi)容在深度之眼NLP項(xiàng)目班中均有涉及,如果想系統(tǒng)地學(xué)習(xí)NLP算法及其項(xiàng)目,可以添加微信:


          13個(gè)你一定要知道的PyTorch特性

          解讀:為什么要做特征歸一化/標(biāo)準(zhǔn)化?

          一文搞懂 PyTorch 內(nèi)部機(jī)制

          張一鳴:每個(gè)逆襲的年輕人,都具備的底層能力


          關(guān)


          ,學(xué),西學(xué)學(xué)運(yùn)護(hù)號(hào)質(zhì)結(jié)識(shí),關(guān)[],學(xué)習(xí)進(jìn)!


          瀏覽 83
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  夜夜夜夜撸一撸 | 麻豆AV三级观看 | 五月天黄色网址 | 欧美大香蕉视频 | 国产黄色片视频在线观看 |