[IJCV 2022] PageNet: 面向端到端弱監(jiān)督篇幅級手寫中文文本識別(已開源)

一、背景
手寫中文文本識別是一個具有廣泛應(yīng)用場景的研究方向。目前該領(lǐng)域的相關(guān)研究通常關(guān)注文本行級的手寫中文識別,不考慮在實際應(yīng)用中因為文本行檢測帶來的誤差。近年來,也有部分研究關(guān)注篇幅級的文本識別,但是它們要么僅考慮簡單的版面結(jié)構(gòu),要么需要極為細(xì)致的標(biāo)注信息(文本行級甚至單字級的邊界框)。同時,領(lǐng)域內(nèi)對于閱讀順序的研究較少,而實際應(yīng)用中會出現(xiàn)多方向文本、彎曲文本等復(fù)雜的閱讀順序。為了解決上述問題,這篇文章中提出一種新型的端到端弱監(jiān)督篇幅級手寫中文文本識別方法PageNet。該方法拋棄文本行檢測+文本行識別的傳統(tǒng)流程,先檢測識別單字再預(yù)測單字間的閱讀順序,這使得PageNet可以輕松處理復(fù)雜的板式和閱讀順序。對于真實數(shù)據(jù),PageNet僅需要文本標(biāo)注,但是可以輸出文本行級和單字級的檢測和識別結(jié)果,省去了標(biāo)注文本行級和單字級邊界框的巨額成本(表1)。實驗證明PageNet優(yōu)于現(xiàn)有的弱監(jiān)督和全監(jiān)督篇幅級文本識別方法。
表1 現(xiàn)有方法需要的標(biāo)注信息和模型輸出結(jié)果的對比(L: 文本行級,W: 單詞級,C:單字級)。PageNet僅需要文本標(biāo)注即可得到文本行級和單字級的檢測和識別結(jié)果。

二、方法
2.1 算法框架

PageNet方法的整體框架如圖1所示,包括四個部分:(1)主干網(wǎng)絡(luò)提取輸入圖像的高維特征;(2)檢測和識別模塊完成單字的檢測識別;(3)閱讀順序模塊預(yù)測單字間的閱讀順序;(4)基于圖的解碼算法結(jié)合單字的檢測識別結(jié)果和閱讀順序,得到最終的篇幅級結(jié)果。該結(jié)果包含文本行級和單字級的檢測識別結(jié)果。
此外,為了省去人工標(biāo)注單字和文本行邊界框的成本,文章中提出了一種新型的弱監(jiān)督學(xué)習(xí)方法 (圖4)。借助該方法,僅需要對真實數(shù)據(jù)標(biāo)注各行的文本信息即可訓(xùn)練PageNet。
2.2 主干網(wǎng)絡(luò)
主干網(wǎng)絡(luò)采用多個殘差模塊堆疊的結(jié)構(gòu)。對于高為H、寬為W的輸入圖片,主干網(wǎng)絡(luò)輸出形狀為
512的特征圖。為了方便下文敘述,將
分別標(biāo)記為
。
2.3 檢測和識別模塊
檢測和識別模塊參考文獻[1]和[2],在主干網(wǎng)絡(luò)提取的特征的基礎(chǔ)上分為三個分支,分別為CharBox、CharDis和CharCls分支。首先將輸入圖片分為
個網(wǎng)格并將第i列第j行的網(wǎng)格標(biāo)記為
。CharBox分支輸出形狀為
的單字邊界框預(yù)測
,其中
可轉(zhuǎn)換為網(wǎng)格
中的單字邊界框坐標(biāo)
。CharDis分支預(yù)測形狀為
的字符分布
,其中
為網(wǎng)格
中存在單字的置信度。CharCls分支預(yù)測形狀為
的字符分類結(jié)果
,其中
為網(wǎng)格
中單字的
類分類概率。
2.4 閱讀順序模塊

閱讀順序模塊的整體流程如圖2所示。該模塊將閱讀順序預(yù)測問題分解為:(1)文本行開始字符預(yù)測;(2)根據(jù)字符間的連接關(guān)系逐步找到閱讀順序中的下一個字符;(3)行結(jié)束字符預(yù)測。其中,字符間的連接關(guān)系定義為字符間搜索路徑上網(wǎng)格的轉(zhuǎn)移方向(上下左右之一)。
對應(yīng)地,該模塊分別預(yù)測:(1)行開始分布
,其中
為網(wǎng)格
中單字為行開始的置信度;(2)四方向閱讀順序
,其中
為網(wǎng)格
在閱讀順序中向其四個相鄰網(wǎng)格的轉(zhuǎn)移方向;(3)行結(jié)束分布
為網(wǎng)格
中單字為行結(jié)束的置信度。
2.5 基于圖的解碼算法

基于圖的解碼算法流程如圖3所示。該算法結(jié)合檢測識別模塊和閱讀順序模塊的輸出,得到最終的單字級和文本行級的檢測和識別結(jié)果。首先,檢測識別模塊中三個分支的輸出
經(jīng)過非極大值抑制(NMS)得到單字的檢測和識別結(jié)果;然后,每個單字視為圖結(jié)構(gòu)中的一個節(jié)點。每個節(jié)點根據(jù)相應(yīng)單字框中心點的坐標(biāo)對應(yīng)一個網(wǎng)格。接下來,基于四方向閱讀順序
,可以逐步根據(jù)網(wǎng)格的轉(zhuǎn)移方向找到每個節(jié)點在閱讀順序中的下一節(jié)點。這種連接關(guān)系構(gòu)成圖結(jié)構(gòu)的邊。下一步,根據(jù)行開始分布
和行結(jié)束分布
,判定行開始節(jié)點和行結(jié)束節(jié)點。最后,保留開始于行開始節(jié)點并且結(jié)束于行結(jié)束節(jié)點的路徑,得到每個文本行的閱讀順序圖。將圖中的節(jié)點替換為對應(yīng)的單字檢測和識別結(jié)果,即可得到單字級和文本行級的檢測識別結(jié)果。
2.6 弱監(jiān)督學(xué)習(xí)方法

弱監(jiān)督學(xué)習(xí)方法的整體流程圖如圖4所示。輸入數(shù)據(jù)包括僅有各行文本標(biāo)注的真實數(shù)據(jù)和有完整標(biāo)注的合成數(shù)據(jù)。為了驗證弱監(jiān)督學(xué)習(xí)方法的泛化性,合成數(shù)據(jù)采用將字體文件生成的漢字貼到簡單背景上的方法,因此與真實數(shù)據(jù)存在較大的差異。弱監(jiān)督學(xué)習(xí)方法需要將合成數(shù)據(jù)中學(xué)習(xí)到的檢測識別能力遷移到多種多樣的真實場景中。
三、 實驗
3.1 實驗數(shù)據(jù)集
(1)CASIA-HWDB手寫中文數(shù)據(jù)集,包括篇幅級數(shù)據(jù)集CASIA-HWDB2.0-2.2(5091張圖片)和單字?jǐn)?shù)據(jù)集CASIA-HWDB1.0-1.2(389萬個單字)。
(2)ICDAR2013手寫中文比賽測試集,包括篇幅級數(shù)據(jù)集ICDAR13(300張圖片)和單字?jǐn)?shù)據(jù)集ICDAR13-SC(22萬個單字)。
(3)MTHv2中文古籍?dāng)?shù)據(jù)集,包括3199張古籍圖片,分為2399張訓(xùn)練集和800張測試集。
(4)SCUT-HCCDoc拍照手寫數(shù)據(jù)集,包括12253張圖片,分為9801張訓(xùn)練集和2452張測試集。
(5)JS-SCUT PrintCC中英文印刷文檔數(shù)據(jù)集,包括398張圖片,分為348張訓(xùn)練集和50張測試集。
(6)合成數(shù)據(jù)集采用真實單字?jǐn)?shù)據(jù)或字體生成的單字?jǐn)?shù)據(jù)和網(wǎng)絡(luò)獲取的簡單紙張背景進行合成。首先將單字組成文本行,再將文本行以一定傾斜度貼在背景上。數(shù)據(jù)合成不涉及任何語料和其他復(fù)雜的光照、視角和扭曲變換等處理。合成數(shù)據(jù)的示例如圖5所示。

3.2 模型結(jié)構(gòu)
模型結(jié)構(gòu)如圖6所示。
圖6 模型具體結(jié)構(gòu)圖3.3 評測指標(biāo)
針對僅標(biāo)注各行文本內(nèi)容的弱監(jiān)督情況,提出了AR*和CR*指標(biāo)。這兩種指標(biāo)首先將模型預(yù)測文本行和標(biāo)注文本行根據(jù)AR進行匹配。對已經(jīng)匹配的文本行對,計算插入錯誤、刪除錯誤和替換錯誤并累積。對于沒有被匹配的預(yù)測文本行,其中所有單字均視為插入錯誤。對于沒有被匹配的標(biāo)注文本行,其中所有單字均視為刪除錯誤。最后,采用類似于AR和CR的計算方式,得到AR*和CR*指標(biāo)。
3.4 ICDAR13數(shù)據(jù)集
PageNet在ICDAR13篇幅級手寫中文數(shù)據(jù)集上的端到端識別指標(biāo)和文本行檢測指標(biāo)及其與現(xiàn)有方法的對比如下表所示??梢钥闯?,PageNet超過了現(xiàn)有的全監(jiān)督和弱監(jiān)督方法,取得SoTA的端到端篇幅級識別指標(biāo)。

3.5 MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集
PageNet與現(xiàn)有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集上的端到端識別指標(biāo)對比如下表所示??梢钥闯?,在MTHv2數(shù)據(jù)集上,PageNet取得了與最佳的全監(jiān)督模型相近的端到端識別指標(biāo)。在SCUT-HCCDoc數(shù)據(jù)集上,因為該數(shù)據(jù)集涉及復(fù)雜的版面和光照、拍照角度等干擾,這對無真實場景文本位置信息監(jiān)督的PageNet提出了很大挑戰(zhàn)。但是借助合理設(shè)計的弱監(jiān)督學(xué)習(xí)方法,PageNet大幅度超過了其他弱監(jiān)督方法且與最佳的全監(jiān)督模型指標(biāo)較為接近。在JS-SCUT PrintCC數(shù)據(jù)集上,PageNet取得了最高的端到端識別指標(biāo),證明該方法可以處理中英文混合的文檔場景。
表3 PageNet與現(xiàn)有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集上的對比

3.6 ICDAR13文本行級數(shù)據(jù)
PageNet與現(xiàn)有方法在ICDAR13文本行數(shù)據(jù)集(根據(jù)標(biāo)注切出文本行)上的識別指標(biāo)對比如下表所示??梢钥闯?,雖然PageNet是在篇幅級進行識別且AR*和CR*需要考慮到文本行檢測的準(zhǔn)確度,但是PageNet的指標(biāo)仍然超過了現(xiàn)有的文本行級識別方法。這一結(jié)果證明了基于單字檢測和識別的方法相較于流行的基于CTC/Attention方法更加適合于中文文本識別。
表4 PageNet與現(xiàn)有方法在ICDAR13文本行數(shù)據(jù)集上的對比

3.7 單字檢測識別指標(biāo)
PageNet與經(jīng)典檢測方法Faster R-CNN和YOLOv3在ICDAR13數(shù)據(jù)集上的單字檢測識別指標(biāo)如下表所示??梢钥吹饺醣O(jiān)督的PageNet在同時考慮單字檢測和識別時(7356C)取得了遠超全監(jiān)督的Faster R-CNN & YOLOv3的指標(biāo)。
表5 PageNet與Faster R-CNN和YOLOv3在ICDAR13數(shù)據(jù)集上的單字檢測識別指標(biāo)對比

3.8 實驗結(jié)果可視化
部分可視化結(jié)果如下圖所示,圖中左側(cè)為單字檢測識別結(jié)果,右側(cè)為閱讀順序預(yù)測結(jié)果。更多可視化結(jié)果請參見原文。



3.9 其他實驗
四、 總結(jié)及討論
五、 相關(guān)資源
論文地址1:https://arxiv.org/abs/2207.14807
論文地址2:https://link.springer.com/article/10.1007/s11263-022-01654-0
代碼地址:https://github.com/shannanyinxiang/PageNet
參考文獻
[1] Dezhi Peng, et al. “A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition.” Proceedings of International Conference on Document Analysis and Recognition. 2019.
[2] Dezhi Peng, et al. “Recognition of handwritten Chinese text by segmentation: A segment-annotation-free approach.” IEEE Transactions on Multimedia. 2022.
[3] Dezhi Peng, et al. “PageNet: Towards end-to-end weakly supervised page-level handwritten Chinese text recognition” International Journal of Computer Vision. 2022.
撰稿:彭德智
編排:高 學(xué)
審校:殷 飛
發(fā)布:金連文
免責(zé)聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準(zhǔn)確及全面,論文完整思想及論點應(yīng)以原論文為準(zhǔn)。(2)本文觀點不代表本公眾號立場。
