百度開源的依存句法分析系統(tǒng)

向AI轉型的程序員都關注了這個號???
機器學習AI算法工程?? 公眾號:datayx
依存句法分析是自然語言處理核心技術之一,旨在通過分析句子中詞語之間的依存關系來確定句子的句法結構,如下圖實例所示:?
依存句法分析作為底層技術,可直接用于提升其他NLP任務的效果,這些任務包括但不限于語義角色標注、語義匹配、事件抽取等。該技術具有很高的研究價值及應用價值。為了方便研究人員和商業(yè)合作伙伴共享效果領先的依存句法分析技術,我們開源了基于大規(guī)模標注數(shù)據(jù)訓練的高性能的依存句法分析工具,并提供一鍵式安裝及預測服務,用戶只需一條命令即可獲取依存句法分析結果。
依存句法分析標注關系集合
DuCTB1.0數(shù)據(jù)集含14種標注關系,具體含義見下表:

項目介紹
DDParser(Baidu?Dependency?Parser)是百度自然語言處理部基于深度學習平臺飛槳(PaddlePaddle)和大規(guī)模標注數(shù)據(jù)研發(fā)的依存句法分析工具。其訓練數(shù)據(jù)不僅覆蓋了多種輸入形式的數(shù)據(jù),如鍵盤輸入query、語音輸入query,還覆蓋了多種場景的數(shù)據(jù),如新聞、論壇。該工具在隨機評測數(shù)據(jù)上取得了優(yōu)異的效果。同時,該工具使用簡單,一鍵完成安裝及預測。
本項目所用方法出自論文《Deep Biaffine Attention for Neural Dependency Parsing》,也有對應的pytorch版本。
代碼 以及運行教程??獲?。?/span>
關注微信公眾號 datayx ?然后回復? 句法分析? 即可獲取。
AI項目體驗地址 https://loveai.tech
效果說明

CTB5: Chinese Treebank 5.0?是Linguistic Data Consortium (LDC)在2005年發(fā)布的中文句法樹庫,包含18,782條句子,語料主要來自新聞和雜志,如新華社日報。
DuCTB1.0:?
Baidu Chinese Treebank1.0是百度構建的中文句法樹庫,即本次所發(fā)布的依存句法分析工具-DDParser的訓練數(shù)據(jù)來源,具體信息參見數(shù)據(jù)來源
注:由于CTB5數(shù)據(jù)集規(guī)模較小,最優(yōu)模型(即評測模型)使用了句子的word級表示、POS(詞性標簽)表示、以及預訓練詞向量,而DuCTB1.0數(shù)據(jù)集規(guī)模較大,其最優(yōu)模型僅使用了句子的word級和char級表示。
快速開始
版本依賴
python: >=3.6.0paddlepaddle: 1.8.2LAC: >=0.1.4
一鍵安裝
用戶可以使用以下方式進行一鍵安裝及預測:
pip安裝 pip install ddparser
半自動安裝 先從?https://pypi.org/project/ddparser/?下載包,解壓后使用
python setup.py install安裝包。
功能使用
未分詞方式
代碼示例

已分詞方式
代碼示例

注:標簽含義見依存句法分析標注關系集合。
進階使用
項目下載
用戶可以通過git clone https://github.com/baidu/DDParser下載源碼,并且執(zhí)行下列命令安裝依賴庫:
pip install --upgrade paddlepaddle-gpu
pip install --upgrade LAC
模型下載
我們發(fā)布了基于DuCTB1.0訓練的模型,通過執(zhí)行cd ddparser && sh download_pretrained_model.sh下載模型,模型將保存在./ddparser/model_files/baidu下。
訓練
用戶可以通過sh run_train.sh訓練模型。詳細命令如下所示:

注:用戶可通過修改train_data_path,?valid_data_path和test_data_path指定訓練集,評估集和測試集, 參數(shù)含義見參數(shù)說明,所用數(shù)據(jù)集格式見數(shù)據(jù)格式說明。
評估
用戶可以通過執(zhí)行sh download_data.sh下載我們提供的評估集,其將保存在./data/baidu/下。該評估集共2,592條句子,平均長度為11.27字符。
用戶可以通過執(zhí)行sh run_evaluate.sh評估模型效果,詳細命令如下所示:

注:用戶可通過修改test_data_path指定評估集,所用數(shù)據(jù)集格式見數(shù)據(jù)格式說明。
預測
基于源碼,我們提供兩種基于命令行的預測方法,分別用于已分詞數(shù)據(jù)和未分詞數(shù)據(jù)。
基于已分詞數(shù)據(jù)的預測
預測的輸入數(shù)據(jù)要求以CoNLL-X(官方說明)格式組織,缺失字段使用“-”代替。通過執(zhí)行sh run_predict.sh進行預測,詳細命令如下所示:

注:用戶可通過修改infer_data_path和infer_result_path指定要預測的數(shù)據(jù)集和預測結果的路徑。
基于未分詞數(shù)據(jù)的預測
預測的輸入數(shù)據(jù)為字符串形式,一行一條數(shù)據(jù)。通過執(zhí)行sh run_predict_query.sh對來自標準輸入的數(shù)據(jù)進行預測,詳細命令如下所示:

注:默認調用LAC預測分詞和詞性
參數(shù)說明

數(shù)據(jù)格式說明
本項目數(shù)據(jù)格式基于CoNLL-X(官方說明)的風格,缺少的字段使用"-"代替(用戶只用關注ID,F(xiàn)ROM,HEAD,DEPREL,PROB等列即可),如“百度是一家高科技公司”的可解析為如下格式:

閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
?搜索公眾號添加:?datayx??
機大數(shù)據(jù)技術與機器學習工程
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
