<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          刷新4項文檔智能任務(wù)紀錄,百度TextMind打造ERNIE-Layout登頂文檔智能權(quán)威榜單

          共 2955字,需瀏覽 6分鐘

           ·

          2021-10-16 13:27

          來源:機器之心

          本文約2300字,建議閱讀5分鐘 

          文檔智能國際權(quán)威榜單文檔視覺問答 DocVQA 迎來了新霸主。


          百度提出跨模態(tài)文檔理解模型 ERNIE-Layout,首次將布局知識增強技術(shù)融入跨模態(tài)文檔預(yù)訓(xùn)練,在 4 項文檔理解任務(wù)上刷新世界最好效果,登頂 DocVQA 榜首。同時,ERNIE-Layout 已集成至百度智能文檔分析平臺 TextMind,助力企業(yè)數(shù)字化升級。


          ERNIE-Layout 登頂文檔智能國際權(quán)威榜單 DocVQA

          文檔視覺問答:檢驗文檔理解能力的試金石

          對多模態(tài)文檔(如文檔圖片、PDF 文件、掃描件等)的深度理解和分析,是文檔智能的核心能力。文檔智能應(yīng)用行業(yè)包括金融、保險、能源、物流、醫(yī)療等,常見的應(yīng)用場景包括財務(wù)報銷、招聘簡歷、企業(yè)財報、合同文書、動產(chǎn)登記證、法律判決書、物流單據(jù)等。針對不同行業(yè)和應(yīng)用場景的需求,文檔智能的技術(shù)方向囊括文檔抽取、文檔解析、文檔比對等。

          文檔理解應(yīng)用場景舉例

          文檔視覺問答 DocVQA 是跨模態(tài)的文檔抽取任務(wù),要求文檔智能模型在文檔中抽取能夠回答文檔相關(guān)問題的答案,需要模型在抽取和理解文檔中文本信息的同時,還能充分利用文檔的布局、字體、顏色等視覺信息,這比單一模態(tài)的信息抽取任務(wù)更具挑戰(zhàn)性。

          DocVQA 文檔視覺問答示例

          上圖是 DocVQA 的一個示例,關(guān)于這個文檔內(nèi)容的問題是:「手掌中的卡片上寫了什么?」,模型需要對問題的核心語義(「手掌」、「卡片」)在文檔圖像中進行跨模態(tài)的語義對齊,準確找到圖像中的「手掌」并確定其中「卡片」的位置,進而結(jié)合文檔中文字和布局的信息得到答案是「Trabon」。

          正是由于文檔視覺問答任務(wù)需要結(jié)合視覺解析、布局分析、語義理解、信息抽取等一系列 AI 技術(shù),是綜合 AI 能力的集大成者,其技術(shù)挑戰(zhàn)與實用價值正得到越來越多的重視。

          ERNIE-Layout 以世界領(lǐng)先的語義理解模型 ERNIE 為底座,創(chuàng)新提出布局知識增強技術(shù),對文本、圖像、布局等信息進行聯(lián)合建模,取得該任務(wù)的世界最好水平,縮小了機器在文檔理解能力上與人類的差距。

          世界首創(chuàng)的布局知識增強文檔理解模型 ERNIE-Layout

          對文檔理解來說,文檔中的文字閱讀順序至關(guān)重要,目前主流的基于 OCR(Optical Character Recognition,文字識別)技術(shù)的模型大多遵循「從左到右、從上到下」的原則,然而對于文檔中分欄、文本圖片表格混雜的復(fù)雜布局,根據(jù) OCR 結(jié)果獲取的閱讀順序多數(shù)情況下都是錯誤的,從而導(dǎo)致模型無法準確地進行文檔內(nèi)容的理解。

          ERNIE-Layout 布局知識增強效果

          而人類通常會根據(jù)文檔結(jié)構(gòu)和布局進行層次化分塊閱讀,受此啟發(fā),百度研究者提出在文檔預(yù)訓(xùn)模型中對閱讀順序進行校正的布局知識增強創(chuàng)新思路。TextMind 平臺上業(yè)界領(lǐng)先的文檔解析工具(Document Parser)能夠準確識別文檔中的分塊信息,產(chǎn)出正確的文檔閱讀順序,將閱讀順序信號融合到模型的訓(xùn)練中,從而增強對布局信息的有效利用,提升模型對于復(fù)雜文檔的理解能力。

          基于布局知識增強技術(shù),同時依托文心 ERNIE,百度研究者提出了融合文本、圖像、布局等信息進行聯(lián)合建模的跨模態(tài)通用文檔預(yù)訓(xùn)練模型 ERNIE-Layout。如下圖所示,ERNIE-Layout 創(chuàng)新性地提出了閱讀順序預(yù)測和細粒度圖文匹配兩個自監(jiān)督預(yù)訓(xùn)練任務(wù),有效提升模型在文檔任務(wù)上跨模態(tài)語義對齊能力和布局理解能力。

          ERNIE-Layout 架構(gòu)圖

          在取得權(quán)威視覺問答榜單 DocVQA 第一的同時,ERNIE-Layout 還在文檔信息抽取權(quán)威榜單 SROIE 登頂榜首。

          ERNIE-Layout 登頂文檔信息抽取權(quán)威榜單 SROIE

          此外,ERNIE-Layout 還在表單理解 FUNSD、票據(jù)理解 CORD 等多個公開數(shù)據(jù)集上取得了目前業(yè)界最好的效果,其中 FUNSD 數(shù)據(jù)集 F1 大幅提升 6.47%,進一步驗證了 ERNIE-Layout 布局知識增強技術(shù)的有效性。
          ERNIE-Layout 在表單理解 FUNSD 數(shù)據(jù)集上的效果

          ERNIE-Layout 在票據(jù)理解 CORD 數(shù)據(jù)集上的效果

          ERNIE-Layout 技術(shù)已集成至百度智能文檔分析平臺 TextMind!

          2020 年 8 月百度大腦語言與知識十周年技術(shù)峰會上,百度發(fā)布了智能文檔分析平臺 TextMind,提供一站式企業(yè)文檔規(guī)范化解析方案,促進辦公智能化升級和企業(yè)數(shù)字化轉(zhuǎn)型。一年多以來,TextMind 平臺不斷打磨功能、優(yōu)化效果,基于百度領(lǐng)先的 OCR 和 NLP 技術(shù),平臺支持格式解析、內(nèi)容抽取、內(nèi)容比對、內(nèi)容審查、內(nèi)容理解 5 大核心功能。

          TextMind 產(chǎn)品架構(gòu)圖

          截至目前,TextMind 合作伙伴達到上百家,遍布銀行、券商、法律、能源、傳媒、通信、物流等眾多行業(yè),真正實現(xiàn)以 AI 助力企業(yè)的數(shù)字化轉(zhuǎn)型。本次 ERNIE-Layout 集成至 TextMind 更是助力企業(yè)提高文檔信息的提取效率和處理效率,顯著減少人工成本和時間投入,加快企業(yè)數(shù)字化轉(zhuǎn)型。

          以財務(wù)報銷智能審核為例,報銷憑證數(shù)據(jù)量大、樣式多樣且復(fù)雜,依靠人工處理則審核人力成本高、效率低并且審核時間長。得益于 ERNIE-Layout 模型具備的多樣化的文檔布局理解能力和文本語義理解能力,TextMind 的票據(jù)內(nèi)容抽取功能,能夠自動、快速、準確地提取不同樣式票據(jù)中的關(guān)鍵信息。目前,該功能已為多家客戶提供全流程、智能化的實時財務(wù)報銷審核服務(wù),提升企業(yè)審核效率 5 倍以上。

          基于ERNIE-Layout模型的票據(jù)內(nèi)容抽取示例

          結(jié)束語

          國家「十四五」規(guī)劃提出數(shù)字中國戰(zhàn)略,戰(zhàn)略旨在激活數(shù)據(jù)要素潛能,加快建設(shè)數(shù)字經(jīng)濟、數(shù)字社會、數(shù)字政府,以數(shù)字化轉(zhuǎn)型整體驅(qū)動生產(chǎn)方式、生活方式和治理方式變革。企業(yè) 80% 以上數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)(圖片、文檔),且文檔數(shù)量和占比都在呈現(xiàn)指數(shù)級增長。因此,文檔智能技術(shù)已成為企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵技術(shù)。

          百度提出的基于文檔布局知識增強的跨模態(tài)預(yù)訓(xùn)練模型 ERNIE-Layout,在 4 項文檔理解任務(wù)上刷新世界最好效果,并在 DocVQA 上登頂榜首。通過引入層次化的文檔布局知識信息,讓機器可以像人一樣閱讀復(fù)雜排版的文檔,學(xué)習(xí)文檔的布局知識、語義知識以及視覺知識并相互增強,從而實現(xiàn)對文檔的結(jié)構(gòu)化、語義化理解。這項能力通過百度智能文檔分析平臺 TextMind,提供一站式企業(yè)文檔規(guī)范化解析方案,促進辦公智能化升級和企業(yè)數(shù)字化轉(zhuǎn)型。

          了解 ERNIE-Layout,或者希望獲得 TextMind 的更多支持,可通過以下鏈接:

          百度智能文檔分析平臺 TextMind:

          https://cloud.baidu.com/product/textmind.html

          百度文心 ERNIE:

          https://wenxin.baidu.com/


          編輯:王菁

          校對:林亦霖

          瀏覽 37
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  啪啪啪啪xxxx欧美 | 大香蕉情色 | 久久久国产91桃色一区二区三区 | 久久免费少妇视频 | 国产AV 无码 乱噜噜 |