ICCV2021 | 端到端的文本圖像分塊矯正方法
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時間送達(dá)

本文簡要介紹ICCV2021錄用論文“End-to-end Piece-wise Unwarping of Document Images”的主要工作。該論文提出將一張文檔圖像切分成多個Patches來進(jìn)行局部矯正,這種方式相比于直接在整圖上進(jìn)行全局矯正能夠獲得更好的效果。而對比之前同樣基于Patch進(jìn)行局部矯正的方法[1],本文實(shí)現(xiàn)了Patches拼接過程的端到端可訓(xùn)練化,同時為拼接過程加入了全局信息,可以得到更好的拼接效果。本文方法在多個指標(biāo)上好于目前的SOTAs。?

一、研究背景
移動設(shè)備拍照得到的文檔圖像由于紙張本身包含的物理形變、相機(jī)的位置以及復(fù)雜的光照環(huán)境等因素通常質(zhì)量較差。其數(shù)字化效果不如平面掃描儀得到的掃描圖。為了提升拍照文檔圖像的質(zhì)量,提高下游任務(wù)(如OCR)的性能。我們通常會對拍照得到的文檔圖像進(jìn)行矯正,使得其更接近于掃描圖。但由于相機(jī)角度、紙張形狀以及光照環(huán)境的多變性和復(fù)雜性,拍照文檔圖像校正是一個極具挑戰(zhàn)性的任務(wù)。
二、方法原理簡述

圖2?網(wǎng)絡(luò)整體框架圖
圖2是這篇文章所提方法的整體結(jié)構(gòu)??偣灿扇齻€子網(wǎng)絡(luò)構(gòu)成,第一個網(wǎng)絡(luò)是為了回歸3D Shape Map,第二個網(wǎng)絡(luò)是為了回歸Backward Map,最后一個網(wǎng)絡(luò)將多個Patches 的Backward Map進(jìn)行拼接。
Shape Network:第一個網(wǎng)絡(luò)采用類似于UNet的Encoder-decoder結(jié)構(gòu),將輸入圖
轉(zhuǎn)化成3D Shape Map
。3D Shape Map可以用來表征輸入圖的形變信息。3D Shape Map由對應(yīng)的GT通過L1 Loss進(jìn)行監(jiān)督訓(xùn)練,此外對它們的梯度也計算L1 Loss:?

Piece-wise Unwarping Network:第二個網(wǎng)絡(luò)以DenseNet作為主干網(wǎng),以從3D Shape Map切片得到的多個Patches作為輸入回歸各自的Backward Map。所以第二個網(wǎng)絡(luò)需要對數(shù)據(jù)進(jìn)行切分(3D Shape Map和Backward Map都需要進(jìn)行切分)。3D Shape Map的切分直接按照空間位置將其切分成
個不重疊的Patches:
,其中i和j分別是對Patches橫向和縱向的索引。而Backward Map由于與3D Shape Map在空間位置上不是一一對應(yīng)的,所以不能直接根據(jù)其空間位置進(jìn)行切分,而要根據(jù)其取值進(jìn)行切分:?

此外由于切片后Patch相比于整圖而言坐標(biāo)系發(fā)生了改變,所以還需要對切片得到的Backward Map Patches進(jìn)行歸一化使其和新坐標(biāo)系相對應(yīng)。?

得到成對的3D Shape Map和Backward Map之后,就可以進(jìn)行訓(xùn)練。Backward Map由對應(yīng)的GT通過L1 Loss監(jiān)督生成,同時還對基于Backward Map生成的矯正圖計算L2 Loss:?

Global Stitching Network:第三個網(wǎng)絡(luò)目的是將多個Backward Map的Patches進(jìn)行拼接。先對各個Backward Map Patch進(jìn)行逆歸一化操作,然后再送入如圖3所示的CPL模塊對所有Backward Map Patches進(jìn)行一個粗略的排序放置。?

圖3 CPL模塊。作者基于圖像校正前后大致位置不變(如形變圖左上角的Patch矯正后應(yīng)該還是位于矯正圖的左上角)的假設(shè)來進(jìn)行粗略的排序放置。
將多個粗略放置好位置的Patches Concatenate在一起之后就作為Global Stitching Network局部分支的輸入,提供局部信息。此外,Global Stitching Network還包含一個全局分支:以第一個網(wǎng)絡(luò)Shape Network得到的3D Shape Map作為輸入提供全局信息。如圖4所示,Global Stitching Network將兩個分支中分別提取的特征進(jìn)行融合之后再經(jīng)過卷積網(wǎng)絡(luò)得到最終拼接好的整圖的Backward Map。?

圖4?Global Stitching Network的網(wǎng)絡(luò)結(jié)構(gòu)
損失函數(shù)則與Piece-wise Unwarping Network相似,對Backward Map計算L1 Loss,對由Backward Map得到的矯正圖計算L2 Loss。?

三、主要實(shí)驗(yàn)結(jié)果及可視化結(jié)果


圖5 DocUNet[3]基準(zhǔn)數(shù)據(jù)集上CER指標(biāo)的分布情況。DW代表DewarpNet[2],PW代表本文方法。


圖6 與DewarpNet[2]的定性比較結(jié)果。其中第1、2、3、4列分別是輸入,本文方法結(jié)果,DewarpNet[2]結(jié)果以及GT。

圖7 與CREASE[4]定性比較結(jié)果。第1、3列為本文方法,2、4列為CREASE[4]結(jié)果。?

圖8 與DocProj[1]定性比較結(jié)果。第1、3列為本文方法,2、4列為DocProj[1]結(jié)果。
?
四、總結(jié)及討論
五、相關(guān)資源
論文地址:
https://openaccess.thecvf.com/content/ICCV2021/html/Das_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.html
項(xiàng)目地址:
參考文獻(xiàn)
[1] Li, X., Zhang, B., Liao, J., & Sander, P. V. (2019). Document rectification and illumination correction using a patch-based CNN. ACM Transactions on Graphics (TOG), 38(6), 1-11.
[2] Das, S., Ma, K., Shu, Z., Samaras, D., & Shilkrot, R. (2019). Dewarpnet: Single-image document unwarping with stacked 3d and 2d regression networks. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 131-140).
[3] Ma, K., Shu, Z., Bai, X., Wang, J., & Samaras, D. (2018). Docunet: Document image unwarping via a stacked u-net. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4700-4709).
[4] Markovitz, A., Lavi, I., Perel, O., Mazor, S., & Litman, R. (2020, August). Can You Read Me Now? Content Aware Rectification Using Angle Supervision. In European Conference on Computer Vision (pp. 208-223). Springer, Cham.
原文作者: Sagnik Das, Kunwar Yashraj Singh, Jon Wu, Erhan Bas, Vijay Mahadevan, Rahul Bhotika, Dimitris Samaras
撰稿:張家鑫
?
免責(zé)聲明:(1)本文僅代表撰稿者觀點(diǎn),撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準(zhǔn)確及全面,論文完整思想及論點(diǎn)應(yīng)以原論文為準(zhǔn)。(2)本文觀點(diǎn)不代表本公眾號立場。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

