欧美日韩免费观看一区=区三区 ,国产逼,日本少妇成人,亚洲精品www久久久久久,初尝人妻滑进去了莹莹视频,国产精品无码中文在线,特级一级a片,全国在线一区二区

場(chǎng)景文本的識(shí)別可以用文本檢測(cè)+文本識(shí)別兩個(gè)過(guò)程來(lái)做，近年來(lái)端到端的場(chǎng)景文本識(shí)別（即Text Spotting）越來(lái)越引起學(xué)術(shù)界的重視，而華中科技大學(xué)白翔老師組的 Mask TextSpotter v1、v2 一直是該領(lǐng)域的代表性工作。

近日 Mask TextSpotter v3 發(fā)布，代碼已開(kāi)源，論文 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 詳細(xì)介紹了其要解決的問(wèn)題、使用的方案和達(dá)到的性能，此次更新依然帶來(lái)驚喜，在多個(gè)數(shù)據(jù)集上大幅刷新了SOTA！

該文作者信息：

作者來(lái)自華中科技大學(xué)和 Facebook AI。

文中稱(chēng) Mask TextSpotter v3 在 ICDAR 2013 數(shù)據(jù)集上提升了 21.9個(gè)百分點(diǎn)，在Total-Text 數(shù)據(jù)集上提升了5.9個(gè)百分點(diǎn)，在MSRA-TD500 數(shù)據(jù)集上也達(dá)到了SOTA，證明該算法具有強(qiáng)大的應(yīng)對(duì)文本旋轉(zhuǎn)、形狀多變和極端縱橫比的魯棒性。

要解決的問(wèn)題

如下圖：

之前的端到端文本識(shí)別模型使用包圍文本的矩形框作為Proposals,在應(yīng)對(duì)旋轉(zhuǎn)、形狀任意和極端縱橫比的文本時(shí)存在明顯的缺陷。圖中（a）內(nèi)部的Proposals對(duì)應(yīng)的特征包含鄰接文本的特征，不能很好的識(shí)別文本。

而Mask TextSpotter v3使用一種稱(chēng)之為分割候選網(wǎng)絡(luò)（ Segmentation Proposal Network ）生成多邊形Proposals，并在此Proposals基礎(chǔ)上計(jì)算hard ROI 特征，更好的表征了文本區(qū)域，可以取得更好的識(shí)別結(jié)果。

Mask TextSpotter v3 的關(guān)鍵是如何得到包圍文本的多邊形Proposals（通過(guò)分割的思想），和硬加權(quán)的hard ROI 特征，作者的實(shí)驗(yàn)證明去除干擾的hard ROI 特征可大幅提高識(shí)別精度。

Mask TextSpotter v3整體流程

如下圖：

Mask TextSpotter v3 使用U-Net結(jié)構(gòu)提取分割的特征，同F(xiàn)PN不同，v3 直接將不同的尺度特征融合成特征 F,使用 F 做文本區(qū)域的預(yù)測(cè)，對(duì)預(yù)測(cè)得到的在（0，1）之間的連續(xù)值結(jié)果，使用DB（Real-time scene text detection with differentiable binarization，AAAI 2020）二值化得到多個(gè)文本區(qū)域，然后將連通的區(qū)域作為一個(gè)文本實(shí)例的收縮（這里是關(guān)鍵！），對(duì)其進(jìn)行一定系數(shù)的膨脹操作，即得到了文本Proposal。

得到文本區(qū)域 Proposal 后，僅含有0和1元素的二值多邊形mask矩陣與特征按元素相乘，得到Hard ROI masking 特征。此處名中的Hard(硬)因?yàn)檫@里是僅含有0與1的二值加權(quán)，ROI masking 操作按照多邊形 mask 將特征在表示對(duì)應(yīng)區(qū)域上“提精”了。

到這里既找到了文本區(qū)域，又有了每個(gè)文本區(qū)域?qū)?yīng)的特征，作者按照Mask TextSpotter v2 的流程進(jìn)行識(shí)別，使用Fast R-CNN算法，字符分割模塊和空間注意力模型都被用于識(shí)別。

在訓(xùn)練的時(shí)候，要制作分割標(biāo)簽，下圖為標(biāo)簽生成示意圖：

Mask TextSpotter v3 針對(duì) v2 中的 Proposal 的產(chǎn)生進(jìn)行了改進(jìn)，并利用Hard ROI masking 提精了文本實(shí)例對(duì)應(yīng)的ROI特征，可以在文本檢測(cè)的三大難題（旋轉(zhuǎn)、形狀任意、極端縱橫比）中得到更好的結(jié)果。