向AI轉(zhuǎn)型的程序員都關(guān)注了這個號??????

人工智能大數(shù)據(jù)與深度學習公眾號：datayx

fastNLP是一款輕量級的自然語言處理（NLP）工具包，目標是快速實現(xiàn)NLP任務(wù)以及構(gòu)建復雜模型。

fastNLP具有如下的特性：

統(tǒng)一的Tabular式數(shù)據(jù)容器，簡化數(shù)據(jù)預(yù)處理過程；
內(nèi)置多種數(shù)據(jù)集的Loader和Pipe，省去預(yù)處理代碼;
各種方便的NLP工具，例如Embedding加載（包括ELMo和BERT）、中間數(shù)據(jù)cache等;
部分數(shù)據(jù)集與預(yù)訓練模型的自動下載；
提供多種神經(jīng)網(wǎng)絡(luò)組件以及復現(xiàn)模型（涵蓋中文分詞、命名實體識別、句法分析、文本分類、文本匹配、指代消解、摘要等任務(wù)）;
Trainer提供多種內(nèi)置Callback函數(shù)，方便實驗記錄、異常捕獲等。

安裝指南

fastNLP 依賴以下包:

numpy>=1.14.2
torch>=1.0.0
tqdm>=4.28.1
nltk>=3.4.1
requests
spacy
prettytable>=0.7.2

其中torch的安裝可能與操作系統(tǒng)及 CUDA 的版本相關(guān)，請參見 PyTorch 官網(wǎng) 。在依賴包安裝完成后，您可以在命令行執(zhí)行如下指令完成安裝

pip install fastNLP
python -m spacy download en

fastNLP教程

中文文檔、教程

快速入門

0. 快速入門

詳細使用教程

1. 使用DataSet預(yù)處理文本
2. 使用Vocabulary轉(zhuǎn)換文本與index
3. 使用Embedding模塊將文本轉(zhuǎn)成向量
4. 使用Loader和Pipe加載并處理數(shù)據(jù)集
5. 動手實現(xiàn)一個文本分類器I-使用Trainer和Tester快速訓練和測試
6. 動手實現(xiàn)一個文本分類器II-使用DataSetIter實現(xiàn)自定義訓練過程
7. 使用Metric快速評測你的模型
8. 使用Modules和Models快速搭建自定義模型
9. 快速實現(xiàn)序列標注模型
10. 使用Callback自定義你的訓練過程

擴展教程

Extend-1. BertEmbedding的各種用法
Extend-2. 分布式訓練簡介
Extend-3. 使用fitlog 輔助 fastNLP 進行科研

內(nèi)置組件

大部分用于的 NLP 任務(wù)神經(jīng)網(wǎng)絡(luò)都可以看做由詞嵌入（embeddings）和兩種模塊：編碼器（encoder）、解碼器（decoder）組成。

以文本分類任務(wù)為例，下圖展示了一個BiLSTM+Attention實現(xiàn)文本分類器的模型流程圖：

fastNLP 在 embeddings 模塊中內(nèi)置了幾種不同的embedding：靜態(tài)embedding（GloVe、word2vec）、上下文相關(guān)embedding （ELMo、BERT）、字符embedding（基于CNN或者LSTM的CharEmbedding）

與此同時，fastNLP 在 modules 模塊中內(nèi)置了兩種模塊的諸多組件，可以幫助用戶快速搭建自己所需的網(wǎng)絡(luò)。兩種模塊的功能和常見組件如下:

fastNLP的大致工作流程如上圖所示，而項目結(jié)構(gòu)如下：

代碼獲取方式：

分享本文到朋友圈

關(guān)注微信公眾號 datayx 然后回復 NLP 即可獲取。

AI項目體驗地址 https://loveai.tech

單肩包／雙肩包／斜挎包／手提包／胸包／旅行包／上課書包／個性布袋等各式包飾挑選

https://shop585613237.taobao.com/

↓

序列標注

這一部分的內(nèi)容主要展示如何使用fastNLP實現(xiàn)序列標注(Sequence labeling)任務(wù)。您可以使用fastNLP的各個組件快捷，方便地完成序列標注任務(wù)，達到出色的效果。在閱讀這篇教程前，希望您已經(jīng)熟悉了fastNLP的基礎(chǔ)使用，尤其是數(shù)據(jù)的載入以及模型的構(gòu)建。通過這個小任務(wù)，能讓您進一步熟悉fastNLP的使用。

命名實體識別(name entity recognition, NER)

命名實體識別任務(wù)是從文本中抽取出具有特殊意義或者指代性非常強的實體，通常包括人名、地名、機構(gòu)名和時間等。如下面的例子中

我來自復旦大學。

其中“復旦大學”就是一個機構(gòu)名，命名實體識別就是要從中識別出“復旦大學”這四個字是一個整體，且屬于機構(gòu)名這個類別。這個問題在實際做的時候會被轉(zhuǎn)換為序列標注問題

針對"我來自復旦大學"這句話，我們的預(yù)測目標將是[O, O, O, B-ORG, I-ORG, I-ORG, I-ORG]，其中O表示out,即不是一個實體，B-ORG是ORG( organization的縮寫)這個類別的開頭(Begin)，I-ORG是ORG類別的中間(Inside)。

在本tutorial中我們將通過fastNLP嘗試寫出一個能夠執(zhí)行以上任務(wù)的模型。

載入數(shù)據(jù)

fastNLP的數(shù)據(jù)載入主要是由Loader與Pipe兩個基類銜接完成的，您可以通過使用Loader和Pipe處理數(shù)據(jù) 了解如何使用fastNLP提供的數(shù)據(jù)加載函數(shù)。下面我們以微博命名實體任務(wù)來演示一下在fastNLP進行序列標注任務(wù)。