91av在线在线,中文字幕第2页在线观看,欧美色图一区,人人澡超碰碰,色多多网址,77无码在线,欧美视频中文字幕,日韩黄页网站大全免费在线观看

我跟幾位BAT老哥聊了下NLP全路徑學(xué)習(xí)的事情，總結(jié)出以下內(nèi)容，包含：

學(xué)習(xí)NLP需要具備哪些基礎(chǔ)
NLP全路徑各任務(wù)學(xué)習(xí)的項(xiàng)目

學(xué)習(xí)NLP需要具備的基礎(chǔ)

01?機(jī)器學(xué)習(xí)

熟悉簡單的機(jī)器學(xué)習(xí)模型。例如：邏輯回歸、決策樹、樸素貝葉斯、隱馬爾科夫模型、K-Means、正則化方法等；有部分高級機(jī)器學(xué)習(xí)基礎(chǔ)更好。例如：集成學(xué)習(xí)（隨機(jī)森林、GBDT、XGB、Stacking等）、條件隨機(jī)場CRF、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、主題模型等。

02?深度學(xué)習(xí)

熟悉簡單的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)。例如：神經(jīng)元模型、多層感知機(jī)、反向傳播算法、激活函數(shù)的使用、Word2Vec、RNN、CNN等；有部分高級深度學(xué)習(xí)基礎(chǔ)更好。例如：LSTM、BiLSTM-CRF、TextCNN、注意力機(jī)制Attention、Transformer、Bert等。

03?語言框架

熟練Python編程語言、了解簡單的Pytorch使用。

04?NLP方向基礎(chǔ)

了解BERT-based模型的結(jié)構(gòu)，

了解模型蒸餾的概念

了解抽取式和生成式摘要模型的概念

了解GPT-2

了解文本分類、序列標(biāo)注模型的原理

了解圖神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí)

基礎(chǔ)項(xiàng)目

01?中文分詞

中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟。不同于英文的是，中文句子中沒有詞的界限，因此在進(jìn)行中文自然語言處理時(shí)，通常需要先進(jìn)行分詞，分詞效果將直接影響詞性、句法樹等模塊的效果。雖然有一些現(xiàn)成的分詞器可以使用，但了解其內(nèi)部原理、實(shí)踐一個(gè)工業(yè)級的分詞器也是大有裨益。

推薦項(xiàng)目：類搜狐新聞場景下的中文分詞器? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度：★★

該項(xiàng)目結(jié)合工業(yè)場景里常見的分詞需求：效果要好、速度要快、可以快速解決badcase、系統(tǒng)應(yīng)該越用越好、快速場景遷移等。

學(xué)習(xí)完該項(xiàng)目后，可以從零熟悉整個(gè)工業(yè)界分詞的實(shí)現(xiàn)方式、使用場景、方法技巧。

02?關(guān)鍵詞提取

在自然語言處理領(lǐng)域，處理海量的文本文件最關(guān)鍵的是要把用戶最關(guān)心的問題提取出來。而無論是對于長文本還是短文本，往往可以通過幾個(gè)關(guān)鍵詞窺探整個(gè)文本的主題思想。與此同時(shí)，不管是基于文本的推薦還是基于文本的搜索，對于文本關(guān)鍵詞的依賴也很大，關(guān)鍵詞提取的準(zhǔn)確程度直接關(guān)系到推薦系統(tǒng)或者搜索系統(tǒng)的最終效果。

推薦項(xiàng)目：類新浪門戶場景下的關(guān)鍵詞提取? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度：★★

實(shí)現(xiàn)一個(gè)新聞?wù)Z料下的關(guān)鍵詞提取器，滿足：在單個(gè)進(jìn)程的條件下，滿足至少0.80的精度，至少100的QPS；同時(shí)滿足識別出新詞的能力；

學(xué)習(xí)完該項(xiàng)目后，可以從零熟悉關(guān)鍵詞提取方法的脈絡(luò)、整體實(shí)現(xiàn)無監(jiān)督關(guān)鍵詞提取的思路。

進(jìn)階項(xiàng)目

03?實(shí)體識別

實(shí)體識別是NLP領(lǐng)域一個(gè)極為普遍的任務(wù)，幾乎是必備技能。它主要是從文本中抽取出重要的實(shí)體，比如：人名、地名、機(jī)構(gòu)名、時(shí)間、專有名詞等，可以引申為一些你關(guān)心的任何實(shí)體，比如車牌號、國籍等。

推薦項(xiàng)目：類新浪微博場景下的實(shí)體識別? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度：★★★★

實(shí)現(xiàn)一個(gè)基于多種模型的實(shí)體識別系統(tǒng)，要滿足如下特性：傳統(tǒng)機(jī)器學(xué)習(xí)下，至少80%的精度，至少10的qps；深度學(xué)習(xí)下，至少90%的精度，不小于1的qps（不使用GPU），不小于10的qps（使用GPU）；

學(xué)習(xí)完該項(xiàng)目后，可以從零熟悉實(shí)體識別方法的歷史脈絡(luò)、并實(shí)現(xiàn)常見模型。

04?文本分類

文本分類是NLP中最基礎(chǔ)的任務(wù)，也是最常見的任務(wù)，在實(shí)際的工作中常常會碰到各種各樣的文本分類任務(wù)需求。隨著BERT-based模型的發(fā)展，實(shí)際工作中的文本分類模型的baseline得到大幅提升。然而，在實(shí)際模型開發(fā)過程中，常常會遇到兩類問題：（1）文本數(shù)據(jù)不規(guī)范，數(shù)據(jù)中包含大量的噪聲、類別不平衡等問題；（2）文本數(shù)據(jù)缺乏標(biāo)注。這兩類問題大幅提升了效果穩(wěn)定的文本分類模型的開發(fā)難度。

推薦項(xiàng)目：頭條新聞標(biāo)題分類場景下的BERT分類器訓(xùn)練、優(yōu)化及蒸餾? ? ? ??難度：★★★

實(shí)現(xiàn)：

1、基于BERT的分類器，在中等難度任務(wù)和噪聲數(shù)據(jù)條件下，預(yù)測F1不低于0.9

2、基于BERT的蒸餾分類器，和上述模型相比，效果退化不超過0.05，響應(yīng)速度不低于10qps；

學(xué)習(xí)完該項(xiàng)目后，了解文本分類模型開發(fā)的基本思路和方法。

05?文本摘要

文本摘要生成是NLP中的高級任務(wù)，指對長文本進(jìn)行壓縮以提高使用人員的閱讀效率，是企業(yè)深層次的業(yè)務(wù)需求，常見于互聯(lián)網(wǎng)或金融企業(yè)的新聞資訊發(fā)布和分析的業(yè)務(wù)領(lǐng)域之中，往往需要資深的算法人員才能滿足這種業(yè)務(wù)需求。

推薦項(xiàng)目：實(shí)現(xiàn)一個(gè)基于GPT的生成式摘要模型??? ? ? ? ? ? ? ? ? ? ? ? ? ? 項(xiàng)目難度：★★★★

實(shí)現(xiàn)一個(gè)基于GPT的生成式摘要模型，滿足如下條件：

1、高回答有效性，top10摘要的有效性不低于90%；

2、單GPU下預(yù)測速度不低于1qps；

學(xué)習(xí)完該項(xiàng)目后，可以了解摘要模型的技術(shù)發(fā)展歷程，了解經(jīng)典的模型，了解模型開發(fā)和優(yōu)化的基本思路和方法。

06?對話系統(tǒng)

智能對話是NLP中的高級任務(wù)，通常包含閑聊型（生成型）、QA（檢索型）和任務(wù)型三種，在實(shí)際工作中最常見的智能對話系統(tǒng)是QA對話系統(tǒng)，其次是任務(wù)型對話系統(tǒng)，閑聊型對話系統(tǒng)往往作為前兩種對話系統(tǒng)的附屬能力，以提高對話系統(tǒng)的親和力。

推薦項(xiàng)目：搭建工業(yè)級對話系統(tǒng)：檢索型/任務(wù)型/閑聊型?? ? ? ? ? ? ?項(xiàng)目難度：★★★★★

搭建工業(yè)級對話系統(tǒng)：

1、檢索型對話，Learning to Rank系統(tǒng)實(shí)現(xiàn)FAQ；?

2、任務(wù)型對話系統(tǒng)，基于rasa開源框架完成簡單的多輪任務(wù)型對話；?

3、閑聊型對話，基于GPT模型的對話生成；

學(xué)習(xí)完該項(xiàng)目后，可以了解不同類型的對話系統(tǒng)的發(fā)展歷程，了解不同類型的對話系統(tǒng)開發(fā)的基本思路和方法。

07?知識圖譜

知識圖譜是2012年google在語義網(wǎng)的基礎(chǔ)上提出的一種語義表達(dá)規(guī)范，這是一種基于本體論（ontology）的語義網(wǎng)絡(luò)。隨著知識圖譜的發(fā)展，其在NLP中的應(yīng)用也是越來越廣泛。現(xiàn)在電商，搜索引擎，對話機(jī)器人等業(yè)態(tài)都離不開知識圖譜。

推薦項(xiàng)目：構(gòu)建知識圖譜? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?項(xiàng)目難度：★★★★

能夠——

1）獨(dú)立開發(fā)構(gòu)建知識圖譜的信息抽取組件。包括NER，關(guān)系抽取等

2）獨(dú)立開發(fā)基于知識庫的問答系統(tǒng)

3）獨(dú)立開發(fā)基于知識庫的推薦系統(tǒng)

學(xué)習(xí)完該項(xiàng)目后，可以了解知識圖譜的來龍去脈，了解知識圖譜的應(yīng)用場景和構(gòu)建方法。

項(xiàng)目試學(xué)

以上內(nèi)容在深度之眼NLP項(xiàng)目班中均有涉及，如果想系統(tǒng)地學(xué)習(xí)NLP算法及其項(xiàng)目，可以添加微信：

0.1元領(lǐng)取！

此外，本公眾號粉絲還可以獲取特殊福利：NLP項(xiàng)目試學(xué) ——?約5小時(shí)

01 算法崗簡歷撰寫及求職面試準(zhǔn)備（74分鐘）