一区二区在线不卡,五月丁香五月,黄色视频大全在线免费观看,乱伦A区,91吴梦梦,欧美性极品少妇精品网站,仓井空一区二区三区,九九九九精品九九九九

向AI轉(zhuǎn)型的程序員都關(guān)注了這個號???

機器學習AI算法工程?? 公眾號：datayx

預訓練模型到底是什么，它是如何被應(yīng)用在產(chǎn)品里，未來又有哪些機會和挑戰(zhàn)？

預訓練模型把遷移學習很好地用起來了，讓我們感到眼前一亮。這和小孩子讀書一樣，一開始語文、數(shù)學、化學都學，讀書、網(wǎng)上游戲等，在腦子里積攢了很多。當他學習計算機時，實際上把他以前學到的所有知識都帶進去了。如果他以前沒上過中學，沒上過小學，突然學計算機就不懂這里有什么道理。這和我們預訓練模型一樣，預訓練模型就意味著把人類的語言知識，先學了一個東西，然后再代入到某個具體任務(wù)，就順手了，就是這么一個簡單的道理。

為什么要做預訓練模型

自然語言處理（NLP），目的是使得計算機具備人類的聽、說、讀、寫、譯、問、答、搜索、摘要、對話和聊天等能力，并可利用知識和常識進行推理和決策，并支持客服、診斷、法律、教學等場景。自然語言理解，被認為是 AI 皇冠上的明珠。一旦有突破，則會大幅度推動 AI 在很多重要場景落地。

過去這五年，對自然語言是一個難忘的五年，它的一個標志就是神經(jīng)網(wǎng)絡(luò)全面引入到了自然語言理解。從大規(guī)模的語言數(shù)據(jù)到強有力的算力，加上深度學習，把整個自然語言帶到一個新的階段。

預訓練模型，則是使自然語言處理由原來的手工調(diào)參、依靠 ML 專家的階段，進入到可以大規(guī)模、可復制的大工業(yè)施展的階段。而且預訓練模型從單語言、擴展到多語言、多模態(tài)任務(wù)。一路銳氣正盛，所向披靡。

預訓練通過自監(jiān)督學習從大規(guī)模數(shù)據(jù)中獲得與具體任務(wù)無關(guān)的預訓練模型。體現(xiàn)某一個詞在一個特定上下文中的語義表征。第二個步驟是微調(diào)，針對具體的任務(wù)修正網(wǎng)絡(luò)。訓練數(shù)據(jù)可以是文本、文本-圖像對、文本-視頻對。預訓練模型的訓練方法可使用自監(jiān)督學習技術(shù)（如自回歸的語言模型和自編碼技術(shù)）?？捎柧殕握Z言、多語言和多模態(tài)的模型。此類模型可經(jīng)過微調(diào)之后，用于支持分類、序列標記、結(jié)構(gòu)預測和序列生成等各項技術(shù)，并構(gòu)建文摘、機器翻譯、圖片檢索、視頻注釋等應(yīng)用。

為什么我們要做預訓練模型？首先，預訓練模型是一種遷移學習的應(yīng)用，利用幾乎無限的文本，學習輸入句子的每一個成員的上下文相關(guān)的表示，它隱式地學習到了通用的語法語義知識。第二，它可以將從開放領(lǐng)域?qū)W到的知識遷移到下游任務(wù)，以改善低資源任務(wù)，對低資源語言處理也非常有利。第三，預訓練模型在幾乎所有 NLP 任務(wù)中都取得了目前最佳的成果。最后，這個預訓練模型+微調(diào)機制具備很好的可擴展性，在支持一個新任務(wù)時，只需要利用該任務(wù)的標注數(shù)據(jù)進行微調(diào)即可，一般工程師就可以實現(xiàn)。

預訓練模型的三個關(guān)鍵技術(shù)

首先，第一個關(guān)鍵技術(shù)是 Transformer。它在 NLP 各個任務(wù)中都取得了優(yōu)異的性能，它是預訓練語言模型的核心網(wǎng)絡(luò)。給定一句話或是一個段落作為輸入，首先將輸入序列中各個詞轉(zhuǎn)換為其對應(yīng)的詞向量，同時加上每一個詞的位置向量，體現(xiàn)詞在序列的位置。然后將這些詞向量輸入到多層 Transformer 網(wǎng)絡(luò)中，通過自注意力（self-attention）機制來學習詞與詞之間的關(guān)系，編碼其上下文信息，再通過一個前饋網(wǎng)絡(luò)經(jīng)過非線性變化，輸出綜合了上下文特征的各個詞的向量表示。每一層 Transformer 網(wǎng)絡(luò)主要由 Multi-head self-attention 層（多頭自注意力機制）和前饋網(wǎng)絡(luò)層兩個子層構(gòu)成。Multi-head self-attention 會并行地執(zhí)行多個不同參數(shù)的 self-attention，并將各個 self-attention 的結(jié)果拼接作為后續(xù)網(wǎng)絡(luò)的輸入，self-attention 機制會在后面中做詳細介紹。此后，我們得到了蘊含當前上下文信息的各個詞的表示，然后網(wǎng)絡(luò)會將其輸入到前饋網(wǎng)絡(luò)層以計算非線性層次的特征。

在每一層 Transformer 網(wǎng)絡(luò)中，會將殘差連接（residual connection）把自注意力機制前或者前饋神經(jīng)網(wǎng)絡(luò)之前的向量引入進來，以增強自注意力機制或者前饋網(wǎng)絡(luò)的輸出結(jié)果向量。并且還做一個 layer normalization，也就是通過歸一化把同層的各個節(jié)點的多維向量映射到一個區(qū)間里面，這樣各層節(jié)點的向量在一個區(qū)間里面。這兩個操作加入在每個子層后，可更加平滑地訓練深層次網(wǎng)絡(luò)。

Transformer 可以用于編碼，也可以用于解碼。所謂解碼就是根據(jù)一個句子的輸入得到一個預想的結(jié)果，比如機器翻譯（輸入源語言句子，輸出目標語言句子），或者閱讀理解（輸入文檔和問題，輸出答案）。解碼時，已經(jīng)解碼出來的詞要做一個自注意力機制，之后和編碼得到的隱狀態(tài)的序列再做一個注意力機制。這樣可以做 N 層，然后通過一個線性層映射到詞表的大小的一個向量。每個向量代表一個詞表詞的輸出可能性，經(jīng)過一個softmax 層得到每個詞的輸出概率。

接下來介紹一下 self-attention 機制，以一個 head 作為示例。假定當前輸入包含三個詞，給定其輸入詞向量或是其上一層 Transformer 網(wǎng)絡(luò)的輸出，將其通過三組線性變換，轉(zhuǎn)換得到三組 queries、keys 和 values 向量。Query 和 key 向量用來計算兩兩詞之間的得分，也就是其依賴關(guān)系，這個得分會同其對應(yīng)的 value 向量做加權(quán)和，以得到每個詞綜合上下文信息的表示。給定當前第一個詞的 query 向量，其首先同各個詞的 key 向量通過點積操作得到這兩個詞的得分，這些得分用來表示這兩個詞的依賴或是相關(guān)程度。這些得分之后會根據(jù) query 等向量的維度做一定比例的縮放，并將這些得分通過 softmax 操作做歸一化。之后，各個得分會同其相對應(yīng)的 value 向量相乘得到針對第一個詞加權(quán)的各個 value 向量，這些加權(quán)的 value 向量最終相加以得到當前第一個詞的上下文表示。

在得到第一個詞的上下文表示后，給定第二個詞的 query 向量，我們會重復之前的操作，計算當前 query 向量同各個詞 key 向量的得分，對這些得分做 softmax 歸一化處理，并將這些得分同其對應(yīng)的 value 向量做加權(quán)和，以得到其編碼上下文信息的表示。

第二個關(guān)鍵技術(shù)是自監(jiān)督學習。在預訓練的模型中，AR（自回歸）LM 和 AE（自動編碼器）是最常用的自監(jiān)督學習方法，其中，自回歸 LM 旨在利用前面的詞序列預測下個詞的出現(xiàn)概率（語言模型）。自動編碼器旨在對損壞的輸入句子，比如遮掩了句子某個詞、或者打亂了詞序等，重建原始數(shù)據(jù)。通過這些自監(jiān)督學習手段來學習單詞的上下文相關(guān)表示。

第三個關(guān)鍵技術(shù)就是微調(diào)。在做具體任務(wù)時，微調(diào)旨在利用其標注樣本對預訓練網(wǎng)絡(luò)的參數(shù)進行調(diào)整。以我們使用基于 BERT（一種流行的預訓練模型）為例來判斷兩個句子是否語義相同。輸入是兩個句子，經(jīng)過 BERT 得到每個句子的對應(yīng)編碼表示，我們可以簡單地用預訓練模型的第一個隱節(jié)點預測分類標記判斷兩個句子是同義句子的概率，同時需要額外加一個線性層和 softmax 計算得到分類標簽的分布。預測損失可以反傳給 BERT 再對網(wǎng)絡(luò)進行微調(diào)。當然也可以針對具體任務(wù)設(shè)計一個新網(wǎng)絡(luò)，把預訓練的結(jié)果作為其輸入。

總體來講，預訓練模型發(fā)展趨勢：第一，模型越來越大。比如 Transformer 的層數(shù)變化，從12層的 Base 模型到24層的 Large 模型。導致模型的參數(shù)越來越大，比如 GPT 110 M，到 GPT-2 是1.5 Billion，圖靈是 17 Billion，而 GPT-3 達到了驚人的 175 Billion。一般而言模型大了，其能力也會越來越強，但是訓練代價確實非常大。第二，預訓練方法也在不斷增加，從自回歸 LM，到自動編碼的各種方法，以及各種多任務(wù)訓練等。第三，還有從語言、多語言到多模態(tài)不斷演進。最后就是模型壓縮，使之能在實際應(yīng)用中經(jīng)濟的使用，比如在手機端。這就涉及到知識蒸餾和 teacher-student models，把大模型作為 teacher，讓一個小模型作為 student 來學習，接近大模型的能力，但是模型的參數(shù)減少很多。

預訓練模型發(fā)展趨勢

第一，模型越來越大。比如 Transformer 的層數(shù)變化，從12層的 Base 模型到24層的 Large 模型。導致模型的參數(shù)越來越大，比如 GPT 110 M，到 GPT-2 是1.5 Billion，圖靈是 17 Billion，而 GPT-3 達到了驚人的 175 Billion。一般而言模型大了，其能力也會越來越強，但是訓練代價確實非常大。

第二，預訓練方法也在不斷增加，從自回歸 LM，到自動編碼的各種方法，以及各種多任務(wù)訓練等。

第三，還有從語言、多語言到多模態(tài)不斷演進。最后就是模型壓縮，使之能在實際應(yīng)用中經(jīng)濟的使用，比如在手機端。這就涉及到知識蒸餾和 teacher-student models，把大模型作為 teacher，讓一個小模型作為 student 來學習，接近大模型的能力，但是模型的參數(shù)減少很多。

隨著許多行業(yè)的數(shù)字化轉(zhuǎn)型，電子商業(yè)文檔的結(jié)構(gòu)化分析和內(nèi)容提取成為一項熱門的研究課題。電子商業(yè)文檔通常包括兩大類：一類是紙質(zhì)文檔的掃描圖像件，另一類是計算機生成的數(shù)字文檔，這些文檔涵蓋采購單據(jù)、行業(yè)報告、商務(wù)郵件、銷售合同、雇傭協(xié)議、商業(yè)發(fā)票、個人簡歷等。

一般來說，電子商業(yè)文檔包含了公司對于內(nèi)部和外部事物的處理細節(jié)，具有大量與行業(yè)相關(guān)的實體信息和數(shù)字信息。在過去，電子商業(yè)文檔的信息處理一般由人工來完成，然而，人工信息提取不僅耗時費力，可復用性也不高，大大限制和阻礙了企業(yè)運行效率。因此，電子文檔的自動精準快速處理對于企業(yè)生產(chǎn)力提升至關(guān)重要，這也促使了一些新興行業(yè)的出現(xiàn)，幫助傳統(tǒng)行業(yè)進行數(shù)字化轉(zhuǎn)型，提高生產(chǎn)力。

近年來，機器人流程自動化（Robotic Process Automation, RPA）應(yīng)運而生，正是利用人工智能技術(shù)幫助大量人力從繁雜的電子文檔處理任務(wù)中解脫出來，提供了一系列配套的自動化工具提升企業(yè)生產(chǎn)力。其中，最為關(guān)鍵的核心技術(shù)就是自動文檔分析與識別技術(shù)。

傳統(tǒng)的文檔分析和識別技術(shù)往往基于人工定制的規(guī)則或少量標注數(shù)據(jù)進行學習，這些方法雖然能夠帶來一定程度的性能提升，但由于定制規(guī)則和可學習的樣本數(shù)量不足，其通用性往往不盡如人意，針對不同類別文檔的分析遷移成本較高。

隨著深度學習預訓練技術(shù)的發(fā)展，以及大量無標注電子文檔的積累，文檔分析與識別技術(shù)進入了一個全新的時代。大量的研究成果表明，大規(guī)模預訓練語言模型能夠通過自監(jiān)督任務(wù)在預訓練階段有效捕捉文本中蘊含的語義信息，經(jīng)過下游任務(wù)微調(diào)后能有效地提升模型效果。然而，現(xiàn)有的預訓練語言模型主要針對文本單一模態(tài)進行，而忽視了文檔本身與文本天然對齊的視覺結(jié)構(gòu)信息。

為了解決這一問題，我們提出了一種通用文檔預訓練模型 LayoutLM，對文檔結(jié)構(gòu)信息（Document Layout Information）和視覺信息（Visual Information）進行建模，讓模型在預訓練階段進行多模態(tài)對齊。我們在三個不同類型的下游任務(wù)中進行驗證：表單理解（Form Understanding），票據(jù)理解（Receipt Understanding），以及文檔圖像分類（Document Image Classification）。

文檔智能相關(guān)的基準數(shù)據(jù)集

大量的研究成果表明，大規(guī)模預訓練語言模型通過自監(jiān)督任務(wù)，可在預訓練階段有效捕捉文本中蘊含的語義信息，經(jīng)過下游任務(wù)微調(diào)后能有效的提升模型效果。然而，現(xiàn)有的預訓練語言模型主要針對文本單一模態(tài)進行，忽視了文檔本身與文本天然對齊的視覺結(jié)構(gòu)信息。為了解決這一問題，研究員們提出了一種通用文檔預訓練模型LayoutLM[1][2]，選擇了文檔結(jié)構(gòu)信息（Document Layout Information）和視覺信息（Visual Information）進行建模，讓模型在預訓練階段進行多模態(tài)對齊。

在實際使用的過程中，LayoutLM 僅需要極少的標注數(shù)據(jù)即可達到行業(yè)領(lǐng)先的水平。研究員們在三個不同類型的下游任務(wù)中進行了驗證：表單理解（Form Understanding）、票據(jù)理解（Receipt Understanding），以及文檔圖像分類（Document Image Classification）。實驗結(jié)果表明，在預訓練中引入的結(jié)構(gòu)和視覺信息，能夠有效地遷移到下游任務(wù)中，最終在三個下游任務(wù)中都取得了顯著的準確率提升。

文檔結(jié)構(gòu)和視覺信息不可忽視

很多情況下，文檔中文字的位置關(guān)系蘊含著豐富的語義信息。以下圖的表單為例，表單通常是以鍵值對（key-value pair）的形式展示的（例如 “DATE: 11/28/84”）。一般情況下，鍵值對的排布是以左右或者上下的形式，并且有特殊的類型關(guān)系。類似地，在表格文檔中，表格中的文字通常是網(wǎng)格狀排列，并且表頭一般出現(xiàn)在第一列或第一行。通過預訓練，這些與文本天然對齊的位置信息可以為下游的信息抽取任務(wù)提供更豐富的語義信息。

表單示例

對于富文本文檔，除了文字本身的位置關(guān)系之外，文字格式所呈現(xiàn)的視覺信息同樣可以幫助下游任務(wù)。對文本級（token-level）任務(wù)來說，文字大小、是否傾斜、是否加粗，以及字體等富文本格式都能夠體現(xiàn)相應(yīng)的語義。例如，表單鍵值對的鍵位（key）通常會以加粗的形式給出；而在一般文檔中，文章的標題通常會放大加粗呈現(xiàn)，特殊概念名詞會以斜體呈現(xiàn)，等等。對文檔級（document-level）任務(wù)來說，整體的文檔圖像能提供全局的結(jié)構(gòu)信息。例如個人簡歷的整體文檔結(jié)構(gòu)與科學文獻的文檔結(jié)構(gòu)是有明顯的視覺差異的。這些模態(tài)對齊的富文本格式所展現(xiàn)的視覺特征，可以通過視覺模型抽取，再結(jié)合到預訓練階段，從而有效地幫助下游任務(wù)。

將視覺信息與文檔結(jié)構(gòu)融入到通用預訓練方案

建模上述信息需要尋找這些信息的有效表示方式。然而現(xiàn)實中的文檔格式豐富多樣，除了格式明確的電子文檔外，還有大量掃描式報表和票據(jù)等圖片式文檔。對于計算機生成的電子文檔，可以使用對應(yīng)的工具獲取文本和對應(yīng)的位置以及格式信息；對于掃描圖片文檔，則可以使用 OCR 技術(shù)進行處理，從而獲得相應(yīng)的信息。兩種不同的手段幾乎可以使用現(xiàn)存的所有文檔數(shù)據(jù)進行預訓練，保證了預訓練數(shù)據(jù)的規(guī)模。

基于文檔結(jié)構(gòu)和視覺信息的 LayoutLM 模型結(jié)構(gòu)

利用上述信息，微軟亞洲研究院的研究員們在現(xiàn)有的預訓練模型基礎(chǔ)上添加了二維位置嵌入（2-D Position Embedding）和圖嵌入（Image Embedding）兩種新的 Embedding 層，可以有效地結(jié)合文檔結(jié)構(gòu)和視覺信息：

1)?二維位置嵌入 2-D Position Embedding：根據(jù) OCR 獲得的文本邊界框?(Bounding Box)，能獲取文本在文檔中的具體位置。在將對應(yīng)坐標轉(zhuǎn)化為虛擬坐標之后，則可以計算該坐標對應(yīng)在 x、y、w、h 四個 Embedding 子層的表示，最終的 2-D Position Embedding 為四個子層的 Embedding 之和。

2)?圖嵌入 Image Embedding：將每個文本相應(yīng)的邊界框?(Bounding Box)?當作 Faster R-CNN 中的候選框（Proposal），從而提取對應(yīng)的局部特征。其特別之處在于，由于 [CLS] 符號用于表示整個輸入文本的語義，所以同樣使用整張文檔圖像作為該位置的 Image Embedding，從而保持模態(tài)對齊。

在預訓練階段，研究員們針對 LayoutLM 的特點提出了兩個自監(jiān)督預訓練任務(wù)：

1)?掩碼視覺語言模型（Masked Visual-Language Model，MVLM）：大量實驗已經(jīng)證明 MLM 能夠在預訓練階段有效地進行自監(jiān)督學習。研究員們在此基礎(chǔ)上進行了修改：在遮蓋當前詞之后，保留對應(yīng)的 2-D Position Embedding 暗示，讓模型預測對應(yīng)的詞。在這種方法下，模型根據(jù)已有的上下文和對應(yīng)的視覺暗示預測被掩碼的詞，從而讓模型更好地學習文本位置和文本語義的模態(tài)對齊關(guān)系。

2)?多標簽文檔分類（Multi-label Document Classification，MDC）：MLM 能夠有效的表示詞級別的信息，但是對于文檔級的表示，還需要將文檔級的預訓練任務(wù)引入更高層的語義信息。在預訓練階段研究員們使用的 IIT-CDIP 數(shù)據(jù)集為每個文檔提供了多標簽的文檔類型標注，并引入 MDC 多標簽文檔分類任務(wù)。該任務(wù)使得模型可以利用這些監(jiān)督信號，聚合相應(yīng)的文檔類別并捕捉文檔類型信息，從而獲得更有效的高層語義表示。

實驗結(jié)果：LayoutLM 的表單、票據(jù)理解和文檔圖像分類水平顯著提升

預訓練過程使用了 IIT-CDIP 數(shù)據(jù)集，這是一個大規(guī)模的掃描圖像公開數(shù)據(jù)集，經(jīng)過處理后的文檔數(shù)量達到約11,000,000。研究員們隨機采樣了1,000,000個進行測試實驗，最終使用全量數(shù)據(jù)進行完全預訓練。通過千萬文檔量級的預訓練并在下游任務(wù)微調(diào)，LayoutLM 在測試的三個不同類型的下游任務(wù)中都取得了 SOTA 的成績，具體如下：

1)?表單理解（Form Understanding）：表單理解任務(wù)上，使用了 FUNSD 作為測試數(shù)據(jù)集，該數(shù)據(jù)集中的199個標注文檔包含了31,485個詞和9,707個語義實體。在該數(shù)據(jù)集上，需要對數(shù)據(jù)集中的表單進行鍵值對（key-value）抽取。通過引入位置信息的訓練，LayoutLM 模型在該任務(wù)上取得了顯著的提升，將表單理解的 F1 值從70.72 提高至79.2。

2)?票據(jù)理解（Receipt Understanding）：票據(jù)理解任務(wù)中，選擇了 SROIE 測評比賽作為測試。SROIE 票據(jù)理解包含1000張已標注的票據(jù)，每張票據(jù)都標注了店鋪名、店鋪地址、總價、消費時間四個語義實體。通過在該數(shù)據(jù)集上微調(diào)，LayoutLM 模型在 SROIE 測評中的 F1 值高出第一名（2019）1.2個百分點，達到95.24%。

3)?文檔圖像分類（Document Image Classification）：對于文檔圖像分類任務(wù)，則選擇了 RVL-CDIP 數(shù)據(jù)集進行測試。RVL-CDIP 數(shù)據(jù)集包含有16類總記40萬個文檔，每一類都包含25,000個文檔數(shù)據(jù)。LayoutLM 模型在該數(shù)據(jù)集上微調(diào)之后，將分類準確率提高了1.35個百分點，達到了94.42%。

微軟亞洲研究院的研究員們構(gòu)建了 DocBank 數(shù)據(jù)集[3][4]，這是一個文檔基準數(shù)據(jù)集，其中包含了50萬文檔頁面以及用于文檔布局分析的細粒度 Token 級標注。與常規(guī)的人工標注數(shù)據(jù)集不同，微軟亞洲研究院的方法以簡單有效的方式利用弱監(jiān)督的方法獲得了高質(zhì)量標注。DocBank 數(shù)據(jù)集是文檔布局標注數(shù)據(jù)集 TableBank[5][6] 的擴展，基于互聯(lián)網(wǎng)上大量的數(shù)字化文檔進行開發(fā)而來。例如當下很多研究論文的 PDF 文件，都是由 LaTeX 工具編譯而成。LaTeX 系統(tǒng)的命令中包含了標記作為構(gòu)造塊的顯式語義結(jié)構(gòu)信息，例如摘要、作者、標題、公式、圖形、頁腳、列表、段落、參考、節(jié)標題、表格和文章標題。為了區(qū)分不同的語義結(jié)構(gòu)，研究員們修改了 LaTeX 源代碼，為不同語義結(jié)構(gòu)的文本指定不同的顏色，從而能清楚地劃分不同的文本區(qū)域，并標識為對應(yīng)的語義結(jié)構(gòu)。

從自然語言處理的角度來看，DocBank 數(shù)據(jù)集的優(yōu)勢是可用于任何序列標注模型，同時還可以輕松轉(zhuǎn)換為基于圖像的標注，以支持計算機視覺中的物體檢測模型。通過這種方式，可以使用 DocBank 公平地比較來自不同模態(tài)的模型，并且進一步研究多模態(tài)方法，提高文檔布局分析的準確性。

為了驗證 DocBank 的有效性，研究員們使用了 BERT、RoBERTa 和 LayoutLM 三個基線模型進行實驗。實驗結(jié)果表明，對于文檔布局分析任務(wù)，LayoutLM 模型明顯優(yōu)于 DocBank 上的 BERT 和 RoBERTa 模型。微軟亞洲研究院希望 DocBank 可以驅(qū)動更多文檔布局分析模型，同時促進更多的自定義網(wǎng)絡(luò)結(jié)構(gòu)在這個領(lǐng)域取得實質(zhì)性進展。

DocBank 數(shù)據(jù)集的數(shù)據(jù)樣例

實驗結(jié)果

LayoutLM、BERT、RoBERTa 模型在 DocBank 測試集的準確性

在 DocBank 的測試集上評估了六個模型后，研究員們發(fā)現(xiàn) LayoutLM 在摘要、作者、表格標題、方程式、圖形、頁腳、列表、段落、節(jié)標題、表格、文章標題標簽上得分最高。在其他標簽上 LayoutLM 與其他模型的差距也較小。這表明在文檔布局分析任務(wù)中，LayoutLM 結(jié)構(gòu)明顯優(yōu)于 BERT 和 RoBERTa 結(jié)構(gòu)。

原始文檔頁面

預訓練BERT結(jié)果

真實結(jié)果

預訓練LayoutLM結(jié)果

測試集上預訓練 BERT 模型和預訓練 LayoutLM 模型的樣例輸出

研究員們又選取了測試集的一些樣本，將預訓練 BERT 和預訓練 LayoutLM 的輸出進行了可視化?？梢杂^察到，序列標記方法在 DocBank 數(shù)據(jù)集上表現(xiàn)良好，它可以識別不同的語義單元。對于預訓練的 BERT 模型，某些 Token 沒有被正確標記，這表明僅使用文本信息仍不足以完成文檔布局分析任務(wù)，還應(yīng)考慮視覺信息。

與預訓練的 BERT 模型相比，預訓練的 LayoutLM 模型集成了文本和布局信息，因此它在基準數(shù)據(jù)集上實現(xiàn)了更好的性能。這是因為二維的位置嵌入可以在統(tǒng)一的框架中對語義結(jié)構(gòu)的空間距離和邊界進行建模，從而提高了檢測精度。

附錄

[1]LayoutLM 論文：https://arxiv.org/abs/1912.13318

[2]LayoutLM 代碼&模型：https://aka.ms/layoutlm

[3]?DocBank 論文：https://arxiv.org/abs/2006.01038

[4]?DocBank 數(shù)據(jù)集&模型：https://github.com/doc-analysis/DocBank

[5]?TableBank 論文：https://arxiv.org/abs/1903.01949

[6]?TableBank 數(shù)據(jù)集&模型：https://github.com/doc-analysis/TableBank

[7]?“Injecting Artificial Intelligence into Financial Analysis”：https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949

[8]?“Document Visual Question Answering”：https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee

閱讀過本文的人還看了以下文章：

TensorFlow 2.0深度學習案例實戰(zhàn)

基于40萬表格數(shù)據(jù)集TableBank，用MaskRCNN做表格檢測

《基于深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解，通俗易懂！

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門：基于Python的理論與實現(xiàn)》高清中文PDF+源碼

特征提取與圖像處理(第二版).pdf

python就業(yè)班學習視頻，從入門到實戰(zhàn)項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼