Mask TextSpotter v3 來(lái)了!最強(qiáng)端到端文本識(shí)別模型
共 2126字,需瀏覽 5分鐘
·
2022-02-09 17:37
場(chǎng)景文本的識(shí)別可以用文本檢測(cè)+文本識(shí)別兩個(gè)過(guò)程來(lái)做,近年來(lái)端到端的場(chǎng)景文本識(shí)別(即Text Spotting)越來(lái)越引起學(xué)術(shù)界的重視,而華中科技大學(xué)白翔老師組的 Mask TextSpotter v1、v2 一直是該領(lǐng)域的代表性工作。
近日 Mask TextSpotter v3 發(fā)布,代碼已開(kāi)源,論文 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 詳細(xì)介紹了其要解決的問(wèn)題、使用的方案和達(dá)到的性能,此次更新依然帶來(lái)驚喜,在多個(gè)數(shù)據(jù)集上大幅刷新了SOTA!
該文作者信息:
作者來(lái)自華中科技大學(xué)和 Facebook AI。
文中稱(chēng) Mask TextSpotter v3 在 ICDAR 2013 數(shù)據(jù)集上提升了 21.9個(gè)百分點(diǎn),在Total-Text 數(shù)據(jù)集上提升了5.9個(gè)百分點(diǎn),在MSRA-TD500 數(shù)據(jù)集上也達(dá)到了SOTA,證明該算法具有強(qiáng)大的應(yīng)對(duì)文本旋轉(zhuǎn)、形狀多變和極端縱橫比的魯棒性。
要解決的問(wèn)題
如下圖:
之前的端到端文本識(shí)別模型使用包圍文本的矩形框作為Proposals,在應(yīng)對(duì)旋轉(zhuǎn)、形狀任意和極端縱橫比的文本時(shí)存在明顯的缺陷。圖中(a)內(nèi)部的Proposals對(duì)應(yīng)的特征包含鄰接文本的特征,不能很好的識(shí)別文本。
而Mask TextSpotter v3使用一種稱(chēng)之為分割候選網(wǎng)絡(luò)( Segmentation Proposal Network )生成多邊形Proposals,并在此Proposals基礎(chǔ)上計(jì)算hard ROI 特征,更好的表征了文本區(qū)域,可以取得更好的識(shí)別結(jié)果。
Mask TextSpotter v3 的關(guān)鍵是如何得到包圍文本的多邊形Proposals(通過(guò)分割的思想),和硬加權(quán)的hard ROI 特征,作者的實(shí)驗(yàn)證明去除干擾的hard ROI 特征可大幅提高識(shí)別精度。
Mask TextSpotter v3整體流程
如下圖:
Mask TextSpotter v3 使用U-Net結(jié)構(gòu)提取分割的特征,同F(xiàn)PN不同,v3 直接將不同的尺度特征融合成特征 F,使用 F 做文本區(qū)域的預(yù)測(cè),對(duì)預(yù)測(cè)得到的在(0,1)之間的連續(xù)值結(jié)果,使用DB(Real-time scene text detection with differentiable binarization,AAAI 2020)二值化得到多個(gè)文本區(qū)域,然后將連通的區(qū)域作為一個(gè)文本實(shí)例的收縮(這里是關(guān)鍵!),對(duì)其進(jìn)行一定系數(shù)的膨脹操作,即得到了文本Proposal。
得到文本區(qū)域 Proposal 后,僅含有0和1元素的二值多邊形mask矩陣與特征按元素相乘,得到Hard ROI masking 特征。此處名中的Hard(硬)因?yàn)檫@里是僅含有0與1的二值加權(quán),ROI masking 操作按照多邊形 mask 將特征在表示對(duì)應(yīng)區(qū)域上“提精”了。
到這里既找到了文本區(qū)域,又有了每個(gè)文本區(qū)域?qū)?yīng)的特征,作者按照Mask TextSpotter v2 的流程進(jìn)行識(shí)別,使用Fast R-CNN算法,字符分割模塊和空間注意力模型都被用于識(shí)別。
在訓(xùn)練的時(shí)候,要制作分割標(biāo)簽,下圖為標(biāo)簽生成示意圖:
Mask TextSpotter v3 針對(duì) v2 中的 Proposal 的產(chǎn)生進(jìn)行了改進(jìn),并利用Hard ROI masking 提精了文本實(shí)例對(duì)應(yīng)的ROI特征,可以在文本檢測(cè)的三大難題(旋轉(zhuǎn)、形狀任意、極端縱橫比)中得到更好的結(jié)果。
實(shí)驗(yàn)結(jié)果
作者在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以下為在三個(gè)數(shù)據(jù)集上識(shí)別結(jié)果可視化:
應(yīng)對(duì)旋轉(zhuǎn),比v2更好:
應(yīng)對(duì)極端縱橫比,比v2更好:
應(yīng)對(duì)形狀任意文本,比v2更好:
以下為在ROIC13數(shù)據(jù)集上在檢測(cè)任務(wù)和端到端識(shí)別任務(wù)中的結(jié)果比較,大幅超越之前的SOTA:
以下為在MSRA-TD500數(shù)據(jù)集上在檢測(cè)任務(wù)中的結(jié)果:
在Total-Text 數(shù)據(jù)集上端到端識(shí)別結(jié)果:
應(yīng)對(duì)小實(shí)例文本數(shù)據(jù)集,在IC15上的結(jié)果比較,v3 取得了三個(gè)最好結(jié)果:
總結(jié)與思考
Mask TextSpotter v3 在端到端文本識(shí)別任務(wù)中實(shí)現(xiàn)了更高的精度,得益于從分割中獲得文本多邊形區(qū)域表示和Hard ROI masking 特征提精方法。
值得一提的是, v3 基于 v2 和可微分二值化方法 DB 等,這些研究都出自華科白翔老師組,體現(xiàn)出作者們對(duì)問(wèn)題的"系統(tǒng)性"思考而產(chǎn)生的不斷的技術(shù)創(chuàng)新。
論文地址:
https://arxiv.org/abs/2007.09482
代碼地址:
https://github.com/MhLiao/MaskTextSpotterV3
在我愛(ài)計(jì)算機(jī)視覺(jué)公眾號(hào)后臺(tái)回復(fù)“MaskTS”,即可收到論文和代碼下載。
