<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Mask TextSpotter v3 來(lái)了!最強(qiáng)端到端文本識(shí)別模型

          共 2126字,需瀏覽 5分鐘

           ·

          2022-02-09 17:37

          場(chǎng)景文本的識(shí)別可以用文本檢測(cè)+文本識(shí)別兩個(gè)過(guò)程來(lái)做,近年來(lái)端到端的場(chǎng)景文本識(shí)別(即Text Spotting)越來(lái)越引起學(xué)術(shù)界的重視,而華中科技大學(xué)白翔老師組的 Mask TextSpotter v1、v2 一直是該領(lǐng)域的代表性工作。

          近日 Mask TextSpotter v3 發(fā)布,代碼已開(kāi)源,論文 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 詳細(xì)介紹了其要解決的問(wèn)題、使用的方案和達(dá)到的性能,此次更新依然帶來(lái)驚喜,在多個(gè)數(shù)據(jù)集上大幅刷新了SOTA!

          該文作者信息:


          作者來(lái)自華中科技大學(xué)和 Facebook AI。

          文中稱(chēng) Mask TextSpotter v3 在 ICDAR 2013 數(shù)據(jù)集上提升了 21.9個(gè)百分點(diǎn),在Total-Text 數(shù)據(jù)集上提升了5.9個(gè)百分點(diǎn),在MSRA-TD500 數(shù)據(jù)集上也達(dá)到了SOTA,證明該算法具有強(qiáng)大的應(yīng)對(duì)文本旋轉(zhuǎn)、形狀多變和極端縱橫比的魯棒性。

          要解決的問(wèn)題

          如下圖:

          之前的端到端文本識(shí)別模型使用包圍文本的矩形框作為Proposals,在應(yīng)對(duì)旋轉(zhuǎn)、形狀任意和極端縱橫比的文本時(shí)存在明顯的缺陷。圖中(a)內(nèi)部的Proposals對(duì)應(yīng)的特征包含鄰接文本的特征,不能很好的識(shí)別文本。

          而Mask TextSpotter v3使用一種稱(chēng)之為分割候選網(wǎng)絡(luò)( Segmentation Proposal Network )生成多邊形Proposals,并在此Proposals基礎(chǔ)上計(jì)算hard ROI 特征,更好的表征了文本區(qū)域,可以取得更好的識(shí)別結(jié)果。

          Mask TextSpotter v3 的關(guān)鍵是如何得到包圍文本的多邊形Proposals(通過(guò)分割的思想),和硬加權(quán)的hard ROI 特征,作者的實(shí)驗(yàn)證明去除干擾的hard ROI 特征可大幅提高識(shí)別精度。

          Mask TextSpotter v3整體流程

          如下圖:



          Mask TextSpotter v3 使用U-Net結(jié)構(gòu)提取分割的特征,同F(xiàn)PN不同,v3 直接將不同的尺度特征融合成特征 F,使用 F 做文本區(qū)域的預(yù)測(cè),對(duì)預(yù)測(cè)得到的在(0,1)之間的連續(xù)值結(jié)果,使用DB(Real-time scene text detection with differentiable binarization,AAAI 2020)二值化得到多個(gè)文本區(qū)域,然后將連通的區(qū)域作為一個(gè)文本實(shí)例的收縮(這里是關(guān)鍵!),對(duì)其進(jìn)行一定系數(shù)的膨脹操作,即得到了文本Proposal。

          得到文本區(qū)域 Proposal 后,僅含有0和1元素的二值多邊形mask矩陣與特征按元素相乘,得到Hard ROI masking 特征。此處名中的Hard(硬)因?yàn)檫@里是僅含有0與1的二值加權(quán),ROI masking 操作按照多邊形 mask 將特征在表示對(duì)應(yīng)區(qū)域上“提精”了。

          到這里既找到了文本區(qū)域,又有了每個(gè)文本區(qū)域?qū)?yīng)的特征,作者按照Mask TextSpotter v2 的流程進(jìn)行識(shí)別,使用Fast R-CNN算法,字符分割模塊和空間注意力模型都被用于識(shí)別。

          在訓(xùn)練的時(shí)候,要制作分割標(biāo)簽,下圖為標(biāo)簽生成示意圖:



          Mask TextSpotter v3 針對(duì) v2 中的 Proposal 的產(chǎn)生進(jìn)行了改進(jìn),并利用Hard ROI masking 提精了文本實(shí)例對(duì)應(yīng)的ROI特征,可以在文本檢測(cè)的三大難題(旋轉(zhuǎn)、形狀任意、極端縱橫比)中得到更好的結(jié)果。

          實(shí)驗(yàn)結(jié)果

          作者在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以下為在三個(gè)數(shù)據(jù)集上識(shí)別結(jié)果可視化:

          應(yīng)對(duì)旋轉(zhuǎn),比v2更好:


          應(yīng)對(duì)極端縱橫比,比v2更好:


          應(yīng)對(duì)形狀任意文本,比v2更好:


          以下為在ROIC13數(shù)據(jù)集上在檢測(cè)任務(wù)和端到端識(shí)別任務(wù)中的結(jié)果比較,大幅超越之前的SOTA:


          以下為在MSRA-TD500數(shù)據(jù)集上在檢測(cè)任務(wù)中的結(jié)果:


          在Total-Text 數(shù)據(jù)集上端到端識(shí)別結(jié)果:


          應(yīng)對(duì)小實(shí)例文本數(shù)據(jù)集,在IC15上的結(jié)果比較,v3 取得了三個(gè)最好結(jié)果:


          總結(jié)與思考

          Mask TextSpotter v3 在端到端文本識(shí)別任務(wù)中實(shí)現(xiàn)了更高的精度,得益于從分割中獲得文本多邊形區(qū)域表示和Hard ROI masking 特征提精方法。

          值得一提的是, v3 基于 v2 和可微分二值化方法 DB 等,這些研究都出自華科白翔老師組,體現(xiàn)出作者們對(duì)問(wèn)題的"系統(tǒng)性"思考而產(chǎn)生的不斷的技術(shù)創(chuàng)新。

          論文地址:

          arxiv.org/abs/2007.0948

          代碼地址:

          github.com/MhLiao/MaskT

          在我愛(ài)計(jì)算機(jī)視覺(jué)公眾號(hào)后臺(tái)回復(fù)“MaskTS”,即可收到論文和代碼下載。

          瀏覽 24
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  米奇影院一区二区三区免费观看视频 | 一级a一级a爰片免费免软件ww | 哦美草逼视频 | 美国 日本 韩国三级三级三级黄色A在线播放 | 久久久91精品国产一区陈可心 |