文本抽取解決方案
共 867字,需瀏覽 2分鐘
·
2020-11-09 08:21
商品詳情
商品亮點(diǎn)
- 抽取精準(zhǔn)度高
- 樣本自動(dòng)豐富
- 深度學(xué)習(xí),片段感知
商品說明
| 版本: V1.0 | 交付方式: License |
| 適用于: Linux | 上架日期: 2020-10-13 |
| 交付SLA: 15 自然日 |
隨著行業(yè)知識(shí)慢慢地向統(tǒng)一格式化靠攏,由于領(lǐng)域需求不同,同一類文件的版式存在千差萬(wàn)別,比如發(fā)票,不同行業(yè),不同地市就存在很大的差異。傳統(tǒng)的文本處理方式:需要將每種類型的文件都去標(biāo)注一遍,特別是僅采用OCR的標(biāo)注,版本稍微有點(diǎn)改動(dòng)基本就需要重新標(biāo)注訓(xùn)練。這就給標(biāo)注工作帶來了巨大的壓力,且效率低下。那么,薄言文本抽取平臺(tái)有哪些優(yōu)勢(shì)呢?
第一、聯(lián)合研究的深度學(xué)習(xí)模型:采用全新預(yù)訓(xùn)練模型SegaBERT,在原始位置向量的基礎(chǔ)上,對(duì)段落、句子、詞語(yǔ)三者間的位置關(guān)系聯(lián)合建模,更符合語(yǔ)言邏輯習(xí)慣,也更有益于模型學(xué)習(xí)。SegaBERT不止在各種任務(wù)集上比BERT有提升,對(duì)輸入文本的編碼邏輯上也有顯著區(qū)別,能做到片段感知,即根據(jù)段落、句子的分隔信息進(jìn)行編碼。所以在相同的訓(xùn)練數(shù)據(jù)、計(jì)算資源與模型規(guī)模條件下,SegaBERT取得了較為明顯的提升效果。
第二、標(biāo)注樣本自動(dòng)豐富:大量的訓(xùn)練樣本可以用來觀測(cè)模型常見錯(cuò)誤,利用后處理修正,提取或修正分段特征,包括向已有的標(biāo)注樣本加入一些特征來進(jìn)行樣本擴(kuò)充和信息多樣化。
第三、精準(zhǔn)度高:除了采用領(lǐng)先的模型來提升效果外,我們結(jié)合薄言自身研究的語(yǔ)法引擎,增加對(duì)標(biāo)注和訓(xùn)練樣本預(yù)處理,能夠自動(dòng)篩選出更合理的數(shù)據(jù),并對(duì)一些樣本自動(dòng)泛化出一系列意思相近的樣本數(shù)據(jù),這樣就極大地增加了覆蓋面,最終精準(zhǔn)度明顯要優(yōu)于同行的其他產(chǎn)品。
第一、聯(lián)合研究的深度學(xué)習(xí)模型:采用全新預(yù)訓(xùn)練模型SegaBERT,在原始位置向量的基礎(chǔ)上,對(duì)段落、句子、詞語(yǔ)三者間的位置關(guān)系聯(lián)合建模,更符合語(yǔ)言邏輯習(xí)慣,也更有益于模型學(xué)習(xí)。SegaBERT不止在各種任務(wù)集上比BERT有提升,對(duì)輸入文本的編碼邏輯上也有顯著區(qū)別,能做到片段感知,即根據(jù)段落、句子的分隔信息進(jìn)行編碼。所以在相同的訓(xùn)練數(shù)據(jù)、計(jì)算資源與模型規(guī)模條件下,SegaBERT取得了較為明顯的提升效果。
第二、標(biāo)注樣本自動(dòng)豐富:大量的訓(xùn)練樣本可以用來觀測(cè)模型常見錯(cuò)誤,利用后處理修正,提取或修正分段特征,包括向已有的標(biāo)注樣本加入一些特征來進(jìn)行樣本擴(kuò)充和信息多樣化。
第三、精準(zhǔn)度高:除了采用領(lǐng)先的模型來提升效果外,我們結(jié)合薄言自身研究的語(yǔ)法引擎,增加對(duì)標(biāo)注和訓(xùn)練樣本預(yù)處理,能夠自動(dòng)篩選出更合理的數(shù)據(jù),并對(duì)一些樣本自動(dòng)泛化出一系列意思相近的樣本數(shù)據(jù),這樣就極大地增加了覆蓋面,最終精準(zhǔn)度明顯要優(yōu)于同行的其他產(chǎn)品。
用戶案例
寧波銀行文本抽取
在銀行內(nèi)部主要針對(duì)簡(jiǎn)歷、發(fā)票、理財(cái)公告等關(guān)鍵信息抽取。圖片類的文檔需要通過華為的OCR來提取文字,文本類支持PDF、Word、Txt等格式。 最終寧波銀行評(píng)測(cè)結(jié)果是,在理財(cái)公告的信息抽取結(jié)果達(dá)到了99%的準(zhǔn)確度,在十幾家參與競(jìng)爭(zhēng)的公司中,我們與華為聯(lián)合獲得了第一名的好成績(jī)。
評(píng)論
圖片
表情
