<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          百度開源的依存句法分析系統(tǒng)

          共 3425字,需瀏覽 7分鐘

           ·

          2020-09-07 23:20






          向AI轉型的程序員都關注了這個號???

          機器學習AI算法工程?? 公眾號:datayx


          依存句法分析是自然語言處理核心技術之一,旨在通過分析句子中詞語之間的依存關系來確定句子的句法結構,如下圖實例所示:?



          依存句法分析作為底層技術,可直接用于提升其他NLP任務的效果,這些任務包括但不限于語義角色標注、語義匹配、事件抽取等。該技術具有很高的研究價值及應用價值。為了方便研究人員和商業(yè)合作伙伴共享效果領先的依存句法分析技術,我們開源了基于大規(guī)模標注數(shù)據(jù)訓練的高性能的依存句法分析工具,并提供一鍵式安裝及預測服務,用戶只需一條命令即可獲取依存句法分析結果。


          依存句法分析標注關系集合

          DuCTB1.0數(shù)據(jù)集含14種標注關系,具體含義見下表:


          項目介紹

          DDParser(Baidu?Dependency?Parser)是百度自然語言處理部基于深度學習平臺飛槳(PaddlePaddle)和大規(guī)模標注數(shù)據(jù)研發(fā)的依存句法分析工具。其訓練數(shù)據(jù)不僅覆蓋了多種輸入形式的數(shù)據(jù),如鍵盤輸入query、語音輸入query,還覆蓋了多種場景的數(shù)據(jù),如新聞、論壇。該工具在隨機評測數(shù)據(jù)上取得了優(yōu)異的效果。同時,該工具使用簡單,一鍵完成安裝及預測。


          本項目所用方法出自論文《Deep Biaffine Attention for Neural Dependency Parsing》,也有對應的pytorch版本


          代碼 以及運行教程??獲?。?/span>

          關注微信公眾號 datayx ?然后回復? 句法分析? 即可獲取。

          AI項目體驗地址 https://loveai.tech


          效果說明



          • CTB5: Chinese Treebank 5.0?是Linguistic Data Consortium (LDC)在2005年發(fā)布的中文句法樹庫,包含18,782條句子,語料主要來自新聞和雜志,如新華社日報。


          • DuCTB1.0:?Baidu Chinese Treebank1.0是百度構建的中文句法樹庫,即本次所發(fā)布的依存句法分析工具-DDParser的訓練數(shù)據(jù)來源,具體信息參見數(shù)據(jù)來源

          注:由于CTB5數(shù)據(jù)集規(guī)模較小,最優(yōu)模型(即評測模型)使用了句子的word級表示、POS(詞性標簽)表示、以及預訓練詞向量,而DuCTB1.0數(shù)據(jù)集規(guī)模較大,其最優(yōu)模型僅使用了句子的word級和char級表示。


          快速開始

          版本依賴

          • python: >=3.6.0

          • paddlepaddle: 1.8.2

          • LAC: >=0.1.4


          一鍵安裝

          用戶可以使用以下方式進行一鍵安裝及預測:

          • pip安裝 pip install ddparser

          • 半自動安裝 先從?https://pypi.org/project/ddparser/?下載包,解壓后使用python setup.py install安裝包。


          功能使用

          未分詞方式

          • 代碼示例



          已分詞方式

          • 代碼示例


          注:標簽含義見依存句法分析標注關系集合。


          進階使用

          項目下載

          用戶可以通過git clone https://github.com/baidu/DDParser下載源碼,并且執(zhí)行下列命令安裝依賴庫:

          pip install --upgrade paddlepaddle-gpu
          pip install --upgrade LAC

          模型下載

          我們發(fā)布了基于DuCTB1.0訓練的模型,通過執(zhí)行cd ddparser && sh download_pretrained_model.sh下載模型,模型將保存在./ddparser/model_files/baidu下。


          訓練

          用戶可以通過sh run_train.sh訓練模型。詳細命令如下所示:


          注:用戶可通過修改train_data_path,?valid_data_pathtest_data_path指定訓練集,評估集和測試集, 參數(shù)含義見參數(shù)說明,所用數(shù)據(jù)集格式見數(shù)據(jù)格式說明。

          評估

          用戶可以通過執(zhí)行sh download_data.sh下載我們提供的評估集,其將保存在./data/baidu/下。該評估集共2,592條句子,平均長度為11.27字符。
          用戶可以通過執(zhí)行sh run_evaluate.sh評估模型效果,詳細命令如下所示:


          注:用戶可通過修改test_data_path指定評估集,所用數(shù)據(jù)集格式見數(shù)據(jù)格式說明。


          預測

          基于源碼,我們提供兩種基于命令行的預測方法,分別用于已分詞數(shù)據(jù)和未分詞數(shù)據(jù)。


          基于已分詞數(shù)據(jù)的預測

          預測的輸入數(shù)據(jù)要求以CoNLL-X(官方說明)格式組織,缺失字段使用“-”代替。通過執(zhí)行sh run_predict.sh進行預測,詳細命令如下所示:


          注:用戶可通過修改infer_data_pathinfer_result_path指定要預測的數(shù)據(jù)集和預測結果的路徑。

          基于未分詞數(shù)據(jù)的預測
          預測的輸入數(shù)據(jù)為字符串形式,一行一條數(shù)據(jù)。通過執(zhí)行sh run_predict_query.sh對來自標準輸入的數(shù)據(jù)進行預測,詳細命令如下所示:


          注:默認調用LAC預測分詞和詞性


          參數(shù)說明


          數(shù)據(jù)格式說明

          本項目數(shù)據(jù)格式基于CoNLL-X(官方說明)的風格,缺少的字段使用"-"代替(用戶只用關注ID,F(xiàn)ROM,HEAD,DEPREL,PROB等列即可),如“百度是一家高科技公司”的可解析為如下格式:





          閱讀過本文的人還看了以下文章:


          TensorFlow 2.0深度學習案例實戰(zhàn)


          基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測


          《基于深度學習的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團隊


          【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!


          《美團機器學習實踐》_美團算法團隊.pdf


          《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學習視頻,從入門到實戰(zhàn)項目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼


          《深度學習之pytorch》pdf+附書源碼


          PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)


          李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!


          《神經網絡與深度學習》最新2018版中英PDF+源碼


          將機器學習模型部署為REST API


          FashionAI服裝屬性標簽圖像識別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別


          yolo3 檢測出圖像中的不規(guī)則漢字


          同樣是機器學習算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據(jù)算法:風險概率預測


          【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類


          VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學習


          如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識別手寫中文網站


          中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程



          不斷更新資源

          深度學習、機器學習、數(shù)據(jù)分析、python

          ?搜索公眾號添加:?datayx??



          機大數(shù)據(jù)技術與機器學習工程

          ?搜索公眾號添加:?datanlp

          長按圖片,識別二維碼

          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉中文青草 | 无码一区二区激情 | 奶大灬舒服灬一进一出三区 | 久久无码影院 | 国产黄色视频在线免费观看 |