基于Pytorch的BERT-IDCNN-BILSTM-CRF中文實(shí)體識(shí)別實(shí)現(xiàn)

向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????
機(jī)器學(xué)習(xí)AI算法工程 公眾號(hào):datayx
文件描述
model/: 模型代碼
bert_lstm_crf.py
cnn.py
crf.py
data/: 數(shù)據(jù)集存放
train.txt: 訓(xùn)練集
test.txt: 測(cè)試集
data/bert/: bert模型存放
bert_config.json: bert配置文件
pytorch_model.bin: bert中文預(yù)訓(xùn)練模型pytorch版(詳情參考:https://github.com/maknotavailable/pytorch-pretrained-BERT)
vocab.txt: 詞表文件
constants.py: 模型配置:標(biāo)注,數(shù)據(jù)集,最大長(zhǎng)度,batch_size, epoch等
train.py: 訓(xùn)練模型
SaveModel.py: 從模型參數(shù)保存完整模型
Wrapper.py: 執(zhí)行單次NER
utils.py: 數(shù)據(jù)處理相關(guān)
constants.py
bert_model_dir: bert目錄,例如
data/bertvocab_file: bert詞表文件,例如
data/bert/vocab.txttrain_file: 訓(xùn)練集,例如
data/train.txtdev_file: 測(cè)試集,例如
data/test.txtmodel_path: 載入已有模型參數(shù)文件,指定文件名,例如
data/model/idcnn_lstm_1.pklsave_model_dir: 模型保存文件路徑及文件名前綴,例如
data/model/idcnn_lstm_max_length: 最大句子長(zhǎng)度
batch_size: batch大小
epochs: 訓(xùn)練輪數(shù)
tagset_size: 標(biāo)簽數(shù)目
use_cuda: 是否使用cuda
資源地址
數(shù)據(jù)集、訓(xùn)練好的BERT_IDCNN_LSTM_CRF模型文件以及中文版BERT預(yù)訓(xùn)練模型下載
關(guān)注微信公眾號(hào) datayx 然后回復(fù) 實(shí)體識(shí)別 即可獲取。
AI項(xiàng)目體驗(yàn)地址 https://loveai.tech
模型訓(xùn)練(可選)
下載pytorch_model.bin到data/bert
下載訓(xùn)練集和測(cè)試集到data/
檢查配置constants.py
執(zhí)行train.py,命令為
python train.py
中文命名實(shí)體識(shí)別系統(tǒng)運(yùn)行步驟
已訓(xùn)練好的BERT_IDCNN_LSTM_CRF模型(如果有),下載到data/model
檢查配置constants.py
單次運(yùn)行系統(tǒng),執(zhí)行Wrapper.py,命令為
Wrapper.py "新華網(wǎng)1950年10月1日電(中央人民廣播電臺(tái)記者劉振英、新華社記者張宿堂)中國(guó)科學(xué)院成立了。"若想多次運(yùn)行系統(tǒng),則執(zhí)行ChineseNer.sh,命令為
./ChineseNer.sh
依賴
python >= 3.5
torch = 0.4.0
pytorch-pretrained-bert
tqdm
numpy
...
數(shù)據(jù)集示例

機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)
搜索公眾號(hào)添加: datanlp
長(zhǎng)按圖片,識(shí)別二維碼
閱讀過(guò)本文的人還看了以下文章:
TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)
基于40萬(wàn)表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)
《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF
Deep Learning 中文版初版-周志華團(tuán)隊(duì)
【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!
《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf
《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼
python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目
2019最新《PyTorch自然語(yǔ)言處理》英、中文版PDF+源碼
《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼
《深度學(xué)習(xí)之pytorch》pdf+附書源碼
PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)
李沐大神開(kāi)源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
將機(jī)器學(xué)習(xí)模型部署為REST API
FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享
重要開(kāi)源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別
同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過(guò)不了?
前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)
【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類
VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目
特征工程(二) :文本數(shù)據(jù)的展開(kāi)、過(guò)濾和分塊
如何利用全新的決策樹(shù)集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
全球AI挑戰(zhàn)-場(chǎng)景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python
搜索公眾號(hào)添加: datayx
