DDParser依存句法分析系統(tǒng)
DDParser(Baidu Dependency Parser)是百度自然語言處理部基于深度學(xué)習(xí)平臺(tái)飛槳(PaddlePaddle)和大規(guī)模標(biāo)注數(shù)據(jù)研發(fā)的依存句法分析工具。其訓(xùn)練數(shù)據(jù)不僅覆蓋了多種輸入形式的數(shù)據(jù),如鍵盤輸入query、語音輸入query,還覆蓋了多種場(chǎng)景的數(shù)據(jù),如新聞、論壇。該工具在隨機(jī)評(píng)測(cè)數(shù)據(jù)上取得了優(yōu)異的效果。同時(shí),該工具使用簡單,一鍵完成安裝及預(yù)測(cè)。
依存句法分析簡介
依存句法分析是自然語言處理核心技術(shù)之一,旨在通過分析句子中詞語之間的依存關(guān)系來確定句子的句法結(jié)構(gòu),如下圖實(shí)例所示:
依存句法分析作為底層技術(shù),可直接用于提升其他NLP任務(wù)的效果,這些任務(wù)包括但不限于語義角色標(biāo)注、語義匹配、事件抽取等。該技術(shù)具有很高的研究價(jià)值及應(yīng)用價(jià)值。為了方便研究人員和商業(yè)合作伙伴共享效果領(lǐng)先的依存句法分析技術(shù),我們開源了基于大規(guī)模標(biāo)注數(shù)據(jù)訓(xùn)練的高性能的依存句法分析工具,并提供一鍵式安裝及預(yù)測(cè)服務(wù),用戶只需一條命令即可獲取依存句法分析結(jié)果。
效果說明
| 數(shù)據(jù)集 | UAS | LAS |
|---|---|---|
| CTB5 | 90.31% | 89.06% |
| DuCTB1.0 | 94.80% | 92.88% |
- CTB5: Chinese Treebank 5.0 是Linguistic Data Consortium (LDC)在2005年發(fā)布的中文句法樹庫,包含18,782條句子,語料主要來自新聞和雜志,如新華社日?qǐng)?bào)。
- DuCTB1.0:
Baidu Chinese Treebank1.0是百度構(gòu)建的中文句法樹庫,即本次所發(fā)布的依存句法分析工具-DDParser的訓(xùn)練數(shù)據(jù)來源,包含近100萬句子(本次發(fā)布模型的訓(xùn)練數(shù)據(jù)近53萬句)。語料來自搜索query、網(wǎng)頁句子,覆蓋了手寫、語音等多種輸入形式,同時(shí)覆蓋了新聞、論壇等多種場(chǎng)景。
標(biāo)注關(guān)系集合
DuCTB1.0數(shù)據(jù)集含14種標(biāo)注關(guān)系,具體含義見下表:
| Label | 關(guān)系類型 | 說明 | 示例 |
|---|---|---|---|
| SBV | 主謂關(guān)系 | 主語與謂詞間的關(guān)系 | 他送了一本書(他<--送) |
| VOB | 動(dòng)賓關(guān)系 | 賓語與謂詞間的關(guān)系 | 他送了一本書(送-->書) |
| POB | 介賓關(guān)系 | 介詞與賓語間的關(guān)系 | 我把書賣了(書<--賣) |
| ADV | 狀中關(guān)系 | 狀語與中心詞間的關(guān)系 | 我昨天買書了(昨天<--買) |
| CMP | 動(dòng)補(bǔ)關(guān)系 | 補(bǔ)語與中心詞間的關(guān)系 | 我都吃完了(吃-->完) |
| ATT | 定中關(guān)系 | 定語與中心詞間的關(guān)系 | 他送了一本書(一本<--書) |
| F | 方位關(guān)系 | 方位詞與中心詞的關(guān)系 | 在公園里玩耍(公園-->里) |
| COO | 并列關(guān)系 | 同類型詞語間關(guān)系 | 叔叔阿姨(叔叔-->阿姨) |
| DBL | 兼語結(jié)構(gòu) | 主謂短語做賓語的結(jié)構(gòu) | 他請(qǐng)我吃飯(請(qǐng)-->我,請(qǐng)-->吃飯) |
| DOB | 雙賓語結(jié)構(gòu) | 謂語后出現(xiàn)兩個(gè)賓語 | 他送我一本書(送-->我,送-->書) |
| VV | 連謂結(jié)構(gòu) | 同主語的多個(gè)謂詞間關(guān)系 | 他外出吃飯(外出-->吃飯) |
| IC | 子句結(jié)構(gòu) | 兩個(gè)結(jié)構(gòu)獨(dú)立或關(guān)聯(lián)的單句 | 你好,書店怎么走?(你好<--走) |
| MT | 虛詞成分 | 虛詞與中心詞間的關(guān)系 | 他送了一本書(送-->了) |
| HED | 核心關(guān)系 | 指整個(gè)句子的核心 |
評(píng)論
圖片
表情
