從入門到入土,NLP學(xué)習(xí)全路徑推薦!
我跟幾位BAT老哥聊了下NLP全路徑學(xué)習(xí)的事情,總結(jié)出以下內(nèi)容,包含:
學(xué)習(xí)NLP需要具備哪些基礎(chǔ)
NLP全路徑各任務(wù)學(xué)習(xí)的項目
插播個廣告:7月6日,BAT某廠NLP算法工程師王師兄直播分享《大廠NLP算法工程師的日常&工程部署》
掃碼0.1元預(yù)約直播
01 機器學(xué)習(xí)
熟悉簡單的機器學(xué)習(xí)模型。例如:邏輯回歸、決策樹、樸素貝葉斯、隱馬爾科夫模型、K-Means、正則化方法等;有部分高級機器學(xué)習(xí)基礎(chǔ)更好。例如:集成學(xué)習(xí)(隨機森林、GBDT、XGB、Stacking等)、條件隨機場CRF、貝葉斯網(wǎng)絡(luò)、支持向量機、主題模型等。
02 深度學(xué)習(xí)
熟悉簡單的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)。例如:神經(jīng)元模型、多層感知機、反向傳播算法、激活函數(shù)的使用、Word2Vec、RNN、CNN等;有部分高級深度學(xué)習(xí)基礎(chǔ)更好。例如:LSTM、BiLSTM-CRF、TextCNN、注意力機制Attention、Transformer、Bert等。
03 語言框架
熟練Python編程語言、了解簡單的Pytorch使用。
04 NLP方向基礎(chǔ)
了解BERT-based模型的結(jié)構(gòu),
了解模型蒸餾的概念
了解抽取式和生成式摘要模型的概念
了解GPT-2
了解文本分類、序列標(biāo)注模型的原理
了解圖神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí)
01 中文分詞
中文分詞是中文文本處理的一個基礎(chǔ)步驟。不同于英文的是,中文句子中沒有詞的界限,因此在進(jìn)行中文自然語言處理時,通常需要先進(jìn)行分詞,分詞效果將直接影響詞性、句法樹等模塊的效果。雖然有一些現(xiàn)成的分詞器可以使用,但了解其內(nèi)部原理、實踐一個工業(yè)級的分詞器也是大有裨益。
推薦項目:類搜狐新聞場景下的中文分詞器 項目難度:★★
該項目結(jié)合工業(yè)場景里常見的分詞需求:效果要好、速度要快、可以快速解決badcase、系統(tǒng)應(yīng)該越用越好、快速場景遷移等。
學(xué)習(xí)完該項目后,可以從零熟悉整個工業(yè)界分詞的實現(xiàn)方式、使用場景、方法技巧。
02 關(guān)鍵詞提取
在自然語言處理領(lǐng)域,處理海量的文本文件最關(guān)鍵的是要把用戶最關(guān)心的問題提取出來。而無論是對于長文本還是短文本,往往可以通過幾個關(guān)鍵詞窺探整個文本的主題思想。與此同時,不管是基于文本的推薦還是基于文本的搜索,對于文本關(guān)鍵詞的依賴也很大,關(guān)鍵詞提取的準(zhǔn)確程度直接關(guān)系到推薦系統(tǒng)或者搜索系統(tǒng)的最終效果。
推薦項目:類新浪門戶場景下的關(guān)鍵詞提取 項目難度:★★
實現(xiàn)一個新聞?wù)Z料下的關(guān)鍵詞提取器,滿足:在單個進(jìn)程的條件下,滿足至少0.80的精度,至少100的QPS;同時滿足識別出新詞的能力;
學(xué)習(xí)完該項目后,可以從零熟悉關(guān)鍵詞提取方法的脈絡(luò)、整體實現(xiàn)無監(jiān)督關(guān)鍵詞提取的思路。
03 實體識別
實體識別是NLP領(lǐng)域一個極為普遍的任務(wù),幾乎是必備技能。它主要是從文本中抽取出重要的實體,比如:人名、地名、機構(gòu)名、時間、專有名詞等,可以引申為一些你關(guān)心的任何實體,比如車牌號、國籍等。
推薦項目:類新浪微博場景下的實體識別 項目難度:★★★★
實現(xiàn)一個基于多種模型的實體識別系統(tǒng),要滿足如下特性:傳統(tǒng)機器學(xué)習(xí)下,至少80%的精度,至少10的qps;深度學(xué)習(xí)下,至少90%的精度,不小于1的qps(不使用GPU),不小于10的qps(使用GPU);
學(xué)習(xí)完該項目后,可以從零熟悉實體識別方法的歷史脈絡(luò)、并實現(xiàn)常見模型。
04 文本分類
文本分類是NLP中最基礎(chǔ)的任務(wù),也是最常見的任務(wù),在實際的工作中常常會碰到各種各樣的文本分類任務(wù)需求。隨著BERT-based模型的發(fā)展,實際工作中的文本分類模型的baseline得到大幅提升。然而,在實際模型開發(fā)過程中,常常會遇到兩類問題:(1)文本數(shù)據(jù)不規(guī)范,數(shù)據(jù)中包含大量的噪聲、類別不平衡等問題;(2)文本數(shù)據(jù)缺乏標(biāo)注。這兩類問題大幅提升了效果穩(wěn)定的文本分類模型的開發(fā)難度。
推薦項目:頭條新聞標(biāo)題分類場景下的BERT分類器訓(xùn)練、優(yōu)化及蒸餾 難度:★★★
實現(xiàn):
1、基于BERT的分類器,在中等難度任務(wù)和噪聲數(shù)據(jù)條件下,預(yù)測F1不低于0.9
2、基于BERT的蒸餾分類器,和上述模型相比,效果退化不超過0.05,響應(yīng)速度不低于10qps;
學(xué)習(xí)完該項目后,了解文本分類模型開發(fā)的基本思路和方法。
05 文本摘要
文本摘要生成是NLP中的高級任務(wù),指對長文本進(jìn)行壓縮以提高使用人員的閱讀效率,是企業(yè)深層次的業(yè)務(wù)需求,常見于互聯(lián)網(wǎng)或金融企業(yè)的新聞資訊發(fā)布和分析的業(yè)務(wù)領(lǐng)域之中,往往需要資深的算法人員才能滿足這種業(yè)務(wù)需求。
推薦項目:實現(xiàn)一個基于GPT的生成式摘要模型 項目難度:★★★★
實現(xiàn)一個基于GPT的生成式摘要模型,滿足如下條件:
1、高回答有效性,top10摘要的有效性不低于90%;
2、單GPU下預(yù)測速度不低于1qps;
學(xué)習(xí)完該項目后,可以了解摘要模型的技術(shù)發(fā)展歷程,了解經(jīng)典的模型,了解模型開發(fā)和優(yōu)化的基本思路和方法。
06 對話系統(tǒng)
智能對話是NLP中的高級任務(wù),通常包含閑聊型(生成型)、QA(檢索型)和任務(wù)型三種,在實際工作中最常見的智能對話系統(tǒng)是QA對話系統(tǒng),其次是任務(wù)型對話系統(tǒng),閑聊型對話系統(tǒng)往往作為前兩種對話系統(tǒng)的附屬能力,以提高對話系統(tǒng)的親和力。
推薦項目:搭建工業(yè)級對話系統(tǒng):檢索型/任務(wù)型/閑聊型 項目難度:★★★★★
搭建工業(yè)級對話系統(tǒng):
1、檢索型對話,Learning to Rank系統(tǒng)實現(xiàn)FAQ;
2、任務(wù)型對話系統(tǒng),基于rasa開源框架完成簡單的多輪任務(wù)型對話;
3、閑聊型對話,基于GPT模型的對話生成;
學(xué)習(xí)完該項目后,可以了解不同類型的對話系統(tǒng)的發(fā)展歷程,了解不同類型的對話系統(tǒng)開發(fā)的基本思路和方法。
07 知識圖譜
知識圖譜是2012年google在語義網(wǎng)的基礎(chǔ)上提出的一種語義表達(dá)規(guī)范,這是一種基于本體論(ontology)的語義網(wǎng)絡(luò)。隨著知識圖譜的發(fā)展,其在NLP中的應(yīng)用也是越來越廣泛。現(xiàn)在電商,搜索引擎,對話機器人等業(yè)態(tài)都離不開知識圖譜。
推薦項目:構(gòu)建知識圖譜 項目難度:★★★★
能夠——
1) 獨立開發(fā)構(gòu)建知識圖譜的信息抽取組件。包括NER,關(guān)系抽取等
2) 獨立開發(fā)基于知識庫的問答系統(tǒng)
3) 獨立開發(fā)基于知識庫的推薦系統(tǒng)
學(xué)習(xí)完該項目后,可以了解知識圖譜的來龍去脈,了解知識圖譜的應(yīng)用場景和構(gòu)建方法。
Prompt Learning 提示學(xué)習(xí),是當(dāng)下學(xué)術(shù)界的一個研究熱點,原因在于:
01 利用預(yù)訓(xùn)練模型中的知識,有效提高 few-shot 或者 zero-shot 的性能
02 將模型統(tǒng)一,多個任務(wù)使用同一個模型即可
這一NLP新范式目前在企業(yè)中落地應(yīng)用較少,大家可以先做了解。
學(xué)習(xí)內(nèi)容:提示學(xué)習(xí)理論部分
1、小樣本學(xué)習(xí)
1)小樣本學(xué)習(xí)的基本概念
2)小樣本學(xué)習(xí)的常見方法&技術(shù)路線
3)小樣本學(xué)習(xí)的應(yīng)用場景
2、經(jīng)典小樣本學(xué)習(xí)實踐
1)經(jīng)典的小樣本分類方法
2)基于 PET 的小樣本分類方法
3、自然文本生成
1)自然文本生成模型、方法
2)預(yù)訓(xùn)練語言模型的最新進(jìn)展:GPT3、UNiLM、T5、T0
4、提示學(xué)習(xí)
1)提示學(xué)習(xí)由來
2)提示學(xué)習(xí)的分類:離散式、連續(xù)式
3)提示學(xué)習(xí)的搜索方法
學(xué)習(xí)內(nèi)容:提示學(xué)習(xí)實踐部分
1、文本分類與提示學(xué)習(xí)實踐
1)代碼實踐 P-tuning v2 方法
2)理論分析和實踐結(jié)合,辨析 Adapter 和 P-tuning 間的異同(hejunxian)
2、NER與提示學(xué)習(xí)
1)代碼實踐基于提示學(xué)習(xí)的NER
直播時間:7月6日晚20:00-21:00
直播分享人:王師兄
曾在某NLP獨角獸工作3年,現(xiàn)就職于BAT某廠算法研究院,負(fù)責(zé)算法架構(gòu)方面的工作。
直播內(nèi)容:大廠NLP算法工程師的日常&工程部署
掃碼0.1元預(yù)約直播
