<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          微軟亞研院:文檔基礎(chǔ)模型引領(lǐng)文檔智能走向多模態(tài)大一統(tǒng)

          共 3591字,需瀏覽 8分鐘

           ·

          2022-10-28 08:00

          大數(shù)據(jù)文摘轉(zhuǎn)載自微軟亞洲研究院


          自2019年以來,微軟亞洲研究院在文檔智能領(lǐng)域進(jìn)行了諸多探索,開發(fā)出一系列多模態(tài)任務(wù)的文檔基礎(chǔ)模型 (Document Foundation Model),包括 LayoutLM (v1、v2、v3) 、LayoutXLM、MarkupLM 等。這些模型在諸如表單、收據(jù)、發(fā)票、報(bào)告等視覺富文本文檔數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn),獲得了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛認(rèn)可,并已應(yīng)用在包括 Azure Form Recognizer、AI Builder、Microsoft Syntex 等在內(nèi)的微軟產(chǎn)品中,賦能企業(yè)和機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型。


          你是否曾經(jīng)在核銷發(fā)票信息時(shí),被涵蓋抬頭、開票日期、商品內(nèi)容數(shù)量、單價(jià)、金額等多種信息且形式不一的發(fā)票搞得無從下手?處理重要的商業(yè)合同,小心翼翼,生怕弄錯(cuò)一位小數(shù)點(diǎn),造成不可估量的經(jīng)濟(jì)損失?面對海量的簡歷,勞心勞力一一過目,不想錯(cuò)過每一位人才?除此之外,保險(xiǎn)保單、業(yè)務(wù)報(bào)表、商務(wù)郵件、發(fā)貨訂單…… 商業(yè)活動中還有各種各樣的文檔需要處理。


          隨著企業(yè)數(shù)字化轉(zhuǎn)型,各種文檔、圖表、圖像內(nèi)容的數(shù)字化已經(jīng)成為企業(yè)一項(xiàng)重要的工作。但是面對大量質(zhì)量參差不齊的掃描文件,版式各異的網(wǎng)頁、電子文檔,人工操作不僅費(fèi)時(shí)費(fèi)力、效率低,還容易出錯(cuò),如何才能高效地提取、整理和分析文檔中的信息?幸運(yùn)的是,文檔智能 (Document AI) 技術(shù)的出現(xiàn)將員工和企業(yè)從重復(fù)繁鎖的文檔數(shù)字化工作中解放了出來。


          常見的商業(yè)文檔示例(從左至右):表單、收據(jù)、發(fā)票、報(bào)告


          文檔智能是通過計(jì)算機(jī)進(jìn)行自動閱讀、理解以及分析商業(yè)文檔的過程,是自然語言處理 (NLP) 和計(jì)算機(jī)視覺 (CV) 交叉領(lǐng)域的重要研究方向。深度學(xué)習(xí)技術(shù)的普及極大地推動了文檔智能的發(fā)展,以文檔版面分析、文檔信息抽取、文檔視覺問答以及文檔圖像分類等為代表的文檔智能任務(wù)均有顯著的性能提升,該技術(shù)也已經(jīng)在幫助企業(yè)節(jié)約運(yùn)營成本、提高員工效率、降低人為錯(cuò)誤等方面發(fā)揮了重要作用。


          從文本到多模態(tài),文檔智能模型逐步進(jìn)化解鎖新技能


          微軟亞洲研究院對文檔智能的系列研究始于2019年。在對深度學(xué)習(xí)進(jìn)行深入研究時(shí),研究員們希望可以從公開的文檔中抽取有用的信息,建立知識庫,以支持深度學(xué)習(xí)模型的預(yù)訓(xùn)練任務(wù)。然而來自真實(shí)世界的文檔并不是結(jié)構(gòu)化的數(shù)據(jù),如何從雜亂的文檔中提取出結(jié)構(gòu)化的文本信息就成了研究員們要解決的第一個(gè)問題。


          對此,微軟亞洲研究院提出了統(tǒng)一預(yù)訓(xùn)練語言模型 UniLM,它既能閱讀文檔又能自動生成內(nèi)容。UniLM 模型在抽象摘要、生成式問答和語言生成數(shù)據(jù)集的抽樣領(lǐng)域均取得了優(yōu)異的成績。同時(shí),研究員們還將模型從英文擴(kuò)展到了更多語言,推出了 InfoXLM 模型。這些只針對文本信息處理的模型方法,滿足了當(dāng)時(shí)研究工作的需求,然而在現(xiàn)實(shí)場景中,文檔內(nèi)容并不是只有文字,還包含各種各樣的字體、顏色、下劃線等布局和風(fēng)格信息。


          2019年底,微軟亞洲研究院結(jié)合 NLP 和 CV 技術(shù),推出了通用文檔理解預(yù)訓(xùn)練模型 LayoutLM,并第一次在文檔級預(yù)訓(xùn)練中將文本與布局信息聯(lián)合訓(xùn)練,其在 IIT-CDIP Test Collection 1.0 數(shù)據(jù)集約一千一百萬張的掃描文檔圖像上進(jìn)行了預(yù)訓(xùn)練,該數(shù)據(jù)集包含信件、備忘錄、電子郵件、表格、票據(jù)等各式各樣的文檔類型。LayoutLM 在表格理解、票據(jù)理解、文檔圖像分類等任務(wù)的實(shí)驗(yàn)上獲得了優(yōu)于其它模型的結(jié)果,并有效改善了以往模型在具體場景中沒有利用大規(guī)模無標(biāo)注數(shù)據(jù),且模型難以泛化的問題。隨后在 LayoutLMv2 版本中,研究員們將視覺特征信息融入到預(yù)訓(xùn)練過程中,提升了模型的圖像理解能力,從而將文本、布局和圖像信息統(tǒng)一在一個(gè)框架中共同建模訓(xùn)練,使用一個(gè)模型就能更好地學(xué)習(xí)到不同模態(tài)之間的關(guān)聯(lián)。


          微軟亞洲研究院文檔智能系列研究發(fā)展歷程


          而為了滿足不同用戶對多語言的需求,研究員們在 LayoutLMv2 的基礎(chǔ)上進(jìn)一步提出了多語言文檔理解任務(wù)的多模態(tài)預(yù)訓(xùn)練模型 LayoutXLM。LayoutXLM 模型不僅從各種不同語言的文檔模板、布局、格式中獲得了文本和視覺信號,同時(shí)還從文本、視覺和語言學(xué)的角度利用了局部不變的特性。除了在將近200種語言上進(jìn)行了預(yù)訓(xùn)練外,為了更精準(zhǔn)地評估多語言文檔理解預(yù)訓(xùn)練模型的性能,研究員們還創(chuàng)建了多語言文檔理解數(shù)據(jù)集 XFUND,其涵蓋7種語言:中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文。


          另外,在眾多視覺效果固定不變的文檔之外,現(xiàn)實(shí)場景中還存在大量實(shí)時(shí)渲染的動態(tài)視覺富文本文檔,如基于 HTML 的網(wǎng)頁,或基于 XML 的 Office 文件等。為此,研究員們又開發(fā)了 MarkupLM 模型,可直接對動態(tài)文檔的標(biāo)記語言源代碼進(jìn)行處理,不需要任何額外的計(jì)算資源即可渲染生成動態(tài)文檔的實(shí)際視覺效果。實(shí)驗(yàn)結(jié)果表明 MarkupLM 顯著優(yōu)于過去基于網(wǎng)頁布局的方法,具有很高的實(shí)用性。


          從最初的文本信息到布局信息,再到圖像信息,微軟亞洲研究院持續(xù)迭代文檔智能技術(shù)和模型,并于今年發(fā)布了最新成果 LayoutLMv3,以統(tǒng)一的文本和圖像掩碼建模目標(biāo)來預(yù)訓(xùn)練多模態(tài)模型。LayoutLMv3 的創(chuàng)新之處在于提出了一個(gè)詞塊對齊預(yù)訓(xùn)練目標(biāo),通過預(yù)測一個(gè)文本詞的對應(yīng)圖像塊是否被遮蓋,并把圖像細(xì)粒度對齊關(guān)系看作一種語言,來學(xué)習(xí)跨模態(tài)的對齊關(guān)系。與此同時(shí),LayoutLMv3 首次將文本和圖像同時(shí)進(jìn)行掩碼預(yù)測,進(jìn)一步增強(qiáng)了跨模態(tài)學(xué)習(xí)的有效性。而在模型架構(gòu)上,LayoutLMv3 不依賴復(fù)雜的 CNN 或 Faster R-CNN 網(wǎng)絡(luò)來表征圖像,直接利用文檔圖像的圖像塊,大大節(jié)省了參數(shù)并避免了復(fù)雜的文檔預(yù)處理,進(jìn)而讓 LayoutLMv3 可適用于以文本為中心和以圖像為中心的文檔智能任務(wù)。


          微軟亞洲研究院首席研究員韋福如表示:“Layout(X)LM 系列模型是大規(guī)模預(yù)訓(xùn)練基礎(chǔ)研究,推進(jìn)不同任務(wù)、語言和模態(tài)基礎(chǔ)模型‘大一統(tǒng)’ (Big Convergence),以及構(gòu)建通用基礎(chǔ)模型等研究的重要組成部分?!?/span>


          LayoutLMv3 的架構(gòu)和預(yù)訓(xùn)練目標(biāo)


          “我們看到,在人工智能領(lǐng)域的研究中,包括 NLP、CV 等不同模態(tài)的研究都在呈現(xiàn)大一統(tǒng) (Big Convergence) 的趨勢,不同領(lǐng)域都在進(jìn)行統(tǒng)一模型的研究。LayoutLM 的前兩個(gè)版本著重解決的是語言處理問題,而 LayoutLMv3 最大的特點(diǎn)是可以同時(shí)應(yīng)對 NLP 和 CV 兩種模態(tài)的任務(wù),在計(jì)算視覺領(lǐng)域取得了較大的突破,”微軟亞洲研究院高級研究員崔磊表示。


          引領(lǐng)業(yè)界的基準(zhǔn)模型


          無論在大規(guī)模無標(biāo)注數(shù)據(jù)的使用上,還是對文本、圖片、多模態(tài)、多版式、多語言的富文本內(nèi)容的理解上,LayoutLM 都極具領(lǐng)先性,尤其是 LayoutLMv3 更高的通用性和優(yōu)越性,使之成為業(yè)界研究的基準(zhǔn)模型,眾多頭部企業(yè)和機(jī)器人自動化 (RPA) 領(lǐng)域企業(yè)的文檔智能產(chǎn)品中都有 LayoutLM 的身影。


          “微軟亞洲研究院不僅在基礎(chǔ)模型和基準(zhǔn)數(shù)據(jù)集的創(chuàng)新上取得了諸多成果,我們的模型還支撐了很多上層應(yīng)用,讓用戶只用一個(gè)基礎(chǔ)模型就能完成多項(xiàng)任務(wù)的訓(xùn)練。很多學(xué)術(shù)界和產(chǎn)業(yè)界的同仁都在用 LayoutLM 或 LayoutXLM 進(jìn)行更多有意義的探索,促進(jìn)文檔智能領(lǐng)域向前發(fā)展?!贝蘩谡f。


          微軟自身的產(chǎn)品更是一馬當(dāng)先,目前微軟亞洲研究院在文檔智能領(lǐng)域的一系列模型已應(yīng)用到諸多微軟的相關(guān)產(chǎn)品中,包括 Azure Form Recognizer、AI Builder、Microsoft Syntex 等。微軟 Azure AI 合伙人研發(fā)經(jīng)理張察表示,“我們很高興能和微軟亞洲研究院這些頂尖的研究員們合作。文檔智能的基礎(chǔ)模型極大地提高了我們在該領(lǐng)域應(yīng)用、開發(fā)的效率,同時(shí),也對文檔智能的普及有著積極的推動作用。我們期待未來在這一領(lǐng)域有更多激動人心的進(jìn)展。”


          文檔智能的下一步:大規(guī)模的統(tǒng)一框架


          隨著技術(shù)逐步走向成熟,文檔智能已在金融、醫(yī)療、能源、政務(wù)、物流等不同行業(yè)實(shí)現(xiàn)了不同類型的應(yīng)用。例如,在金融領(lǐng)域可實(shí)現(xiàn)財(cái)報(bào)分析和智能決策分析;在醫(yī)療領(lǐng)域推動病例數(shù)字化,分析醫(yī)學(xué)文獻(xiàn)和病例關(guān)聯(lián)性,發(fā)現(xiàn)潛在治療方案;在財(cái)務(wù)領(lǐng)域?qū)崿F(xiàn)發(fā)票和訂單的自動化信息提取,節(jié)省大量人工處理的時(shí)間成本。


          但微軟亞洲研究院并不會止步于此,崔磊表示,下一步研究員們將從提升模型規(guī)模、擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模和統(tǒng)一框架三個(gè)方面著手,進(jìn)一步推進(jìn)文檔智能的基礎(chǔ)研究?!癗LP 領(lǐng)域的 GPT-3 證明了超大模型可以顯著提升模型的性能,與此同時(shí)當(dāng)前文檔智能模型訓(xùn)練使用的數(shù)據(jù)還不及互聯(lián)網(wǎng)數(shù)據(jù)的十分之一,還有很大的提升空間。我們希望不斷擴(kuò)展數(shù)據(jù)和模型規(guī)模,并實(shí)現(xiàn)一個(gè)統(tǒng)一的框架,把整個(gè)文檔智能包含的要素都統(tǒng)一起來,這正是我們當(dāng)前和未來研究工作的重點(diǎn)?!?/span>



          點(diǎn)「在看」的人都變好看了哦!

          瀏覽 26
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲AV系列 | 亚洲高清av | 婬荡的寡妇一区二区三区 | 成人无码视频 | 一级性爱视频免费看 |