<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR2021 | 基于語義感知的自然場景視頻中文本檢測和跟蹤

          共 3457字,需瀏覽 7分鐘

           ·

          2021-06-09 02:16

          點擊下面卡片關(guān)注,”AI算法與圖像處理

          最新CV成果,火速送達(dá)

          本文簡要介紹來自中國科學(xué)院自動化所近期的一篇論文“Semantic-Aware Video Text Detection”,此論文已被CVPR2021錄用,它主要解決了自然場景視頻中文本檢測和跟蹤的問題。

          一、研究背景



          大多數(shù)現(xiàn)有的視頻文本檢測方法采用兩階段的形式,即首先采用檢測器對每幀進(jìn)行檢測,之后采用跟蹤器對檢測結(jié)果進(jìn)行跟蹤。這樣的做法忽略了視頻中的時序信息,同時視頻文本檢測和跟蹤是分開進(jìn)行的,兩個任務(wù)學(xué)習(xí)到的特征無法復(fù)用。最近一些方法將檢測和跟蹤統(tǒng)一在一個框架中,然而這些方法主要基于文本行的表觀特征,這使得方法容易受到光線和視角變化的影響。相較于表觀特征,語義特征能夠提升文本檢測和跟蹤的魯棒性。如Fig. 1(a)所示,由于巨大的視角變化,跟蹤器錯誤地匹配了大多數(shù)文本行的關(guān)系。然而,不同視角下相同文本行的字符類別和位置關(guān)系是相似的。當(dāng)引入語義信息之后,如Fig. 1(b)所示,之前錯誤的匹配結(jié)果可以得到糾正。

          盡管文本行中的字符位置和類別可以提供語義信息,然而不幸的是,真實數(shù)據(jù)集的字符級標(biāo)注需要消耗大量的成本。為了在真實數(shù)據(jù)集上自動生成字符級標(biāo)注,一些方法采用基于弱監(jiān)督的形式。這類方法首先在合成文本數(shù)據(jù)集上對字符檢測器進(jìn)行預(yù)訓(xùn)練,之后利用預(yù)訓(xùn)練的模型在真實數(shù)據(jù)集上檢測字符。這類方法的缺陷有兩個方面:一方面,合成數(shù)據(jù)集和真實數(shù)據(jù)集之間有較大的領(lǐng)域差距,這使得在合成數(shù)據(jù)集上預(yù)訓(xùn)練的模型在真實數(shù)據(jù)集上的表現(xiàn)并不令人滿意。另一方面,廣泛使用的合成數(shù)據(jù)集主要關(guān)注英文,因此這些方法難以遷移到不具有合成數(shù)據(jù)的語種上面。 

          Figure 1 The Category And Position Of Characters Can Help The Tracking Branch

          二、原理簡述



          Figure 2 Overall Architecture

          Fig. 2是作者提出的文本檢測和跟蹤器的整體結(jié)構(gòu)。經(jīng)過主干網(wǎng)絡(luò)提取特征之后,ConvLSTM模塊用于提取時間和空間信息。之后,本文在掩碼分支中增加了一個字符中心點分割任務(wù)來定位和識別字符,這個分支可以提取文本行內(nèi)部的語義特征。最終,文本跟蹤分支生成表觀中語義中幾何描述子,它可以和之前幀的檢測結(jié)果進(jìn)行匹配。此外,基于滑動窗的文本識別器被用于為字符分割分支提供真值,該識別器可以通過弱監(jiān)督的形式定位字符。

          關(guān)于檢測器,本文采用采用ConvLSTM模塊來集成長期的時間信息。在集成時域信息之后,本文采用Mask R-CNN方法來預(yù)測軸對齊的矩形框和對應(yīng)的實例分割掩碼。由于Mask R-CNN方法可以通過實例分割的方式檢測任意形狀文本行,因此本文對四邊形文本行的掩碼擬合一個最小外接旋轉(zhuǎn)矩形。為了提升檢測性能和為接下來的跟蹤分支提取語義特征,本文在Mask R-CNN的基礎(chǔ)上增加了一個字符中心點分割分支。這個分支包含兩個卷積核為3×3的卷積層和一個步長為2的上采樣層。之后特征圖被用于生成通道數(shù)為S的分割圖,S為字符類別數(shù)加上背景類別。對于每一個字符中心,本文將距離其小于r的像素都看作正樣本。聯(lián)合字符中心點分割分支,文本檢測任務(wù)的損失函數(shù)可被寫作: 

          Figure 3 The Illustration Of ASGD

          關(guān)于跟蹤器,本文將字符的類別和位置編碼為文本跟蹤任務(wù)輸入的一部分。為了魯棒地表示文本行,本文提出了一種新穎的表觀-語義-幾何描述子(ASGD)。如Fig. 3所示,它由三部分組成。其中,語義特征通過字符中心點分割分支的第二個卷積層的輸出特征映射得到。幾何特征通過RoI的坐標(biāo)映射得到。為了訓(xùn)練文本跟蹤分支,本文使正樣本間的距離盡可能的小,負(fù)樣本間的距離盡可能的大。然而,由于運(yùn)動造成的差異,正樣本之間的距離很難接近0。因此,本文采用了一個平滑雙閾值的對比損失來優(yōu)化跟蹤分支。為了端到端的訓(xùn)練文本檢測和跟蹤任務(wù),整個框架的損失函數(shù)可被寫作: 

          關(guān)于弱監(jiān)督字符檢測器,本文只需要詞級別標(biāo)注的真實數(shù)據(jù)。在訓(xùn)練集上生成字符級真值的流程如Fig. 4所示。首先,本文通過RoIRotate操作將文本行矯正成軸對齊的形式。之后,本文采用基于滑動窗的文本識別器對每個滑動窗口進(jìn)行分類。當(dāng)字符位于滑動窗口的中心時,文本識別器將以高置信度識別字符。當(dāng)滑動窗口和字符的中心未對齊時,文本識別器將輸出低置信度或者空白類別。最終,本文對滑動窗口進(jìn)行非極大值抑制操作,并將選擇到的窗口中心點逆變換到輸入圖片作為字符級別標(biāo)簽。 

          Figure 4 The Procedure Of Generating Character-level Labels

          關(guān)于推理過程,本文采用在線的形式生成檢測結(jié)果和匹配檢測到的文本行。給定第t幀的圖像,本文首先檢測所有的文本行并獲得對應(yīng)的。之后,本文計算和之前存儲的ASGD的相似矩陣,最后,本文使用閾值為的匈牙利算法來生成匹配對。如果某個文本行找到了對應(yīng)的匹配文本,本文就更新該跟蹤序列和對應(yīng)的ASGD。注意對于每一個跟蹤序列,本文只保存最新的ASGD。對于沒有匹配到的文本行,本文為它們構(gòu)建新的跟蹤序列,并將它們的ASGD存儲。最終,本文所提出的方法可在ICDAR 2013視頻文本數(shù)據(jù)集上達(dá)到9.6 fps。

          三、主要實驗結(jié)果及可視化結(jié)果



          Table 1 Results On ICDAR 2013 Video Test Set 
          Table 2 Results On Minetto Test Set 
          Table 3 Results On RT-1K Test Sset 
          Table 4 Results On CASIA10K Test Set
          Table 5 Results On MSRA-TD500 Test Set 
           

          Figure 5 Examples Of Text Detection And Tracking Results

          由Table 1、2和3可以看出,文中所提出的模型在視頻文本數(shù)據(jù)集的檢測和跟蹤任務(wù)上取得了SOTA的結(jié)果,證明了該方法的優(yōu)越性。同時在Table 4和5中,在兩個中文場景文本數(shù)據(jù)集上也取得了SOTA的結(jié)果,證明方法可以應(yīng)用于非英文的數(shù)據(jù)集上。值得注意的是,訓(xùn)練過程中使用的字符級別標(biāo)注都是通過弱監(jiān)督的形式獲得的,因此具備更高的實用價值。為了驗證語義特征的優(yōu)勢,本文評估了移除字符分割分支的性能。如表1、2、3、4和5所示,所提出的方法在文本檢測和跟蹤任務(wù)上都超過了不使用語義特征的方法。為了驗證端到端訓(xùn)練的優(yōu)勢,本文評估了將檢測和跟蹤任務(wù)分離訓(xùn)練的性能。如表1、2和3所示,所提出的方法大幅領(lǐng)先雙階段的方法,這證明兩個任務(wù)可以互相提供增益。Fig. 5展示了本文的部分檢測和跟蹤結(jié)果,可以看出文中提出的模型能夠有效地檢測和跟蹤自然場景視頻中的文本行。



          原文作者:Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu


          撰稿:馮 偉
          編排:高 學(xué)
          推薦委員:殷飛
          審校:連宙輝
          發(fā)布:金連文



          免責(zé)聲明:1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準(zhǔn)確及全面,論文完整思想及論點應(yīng)以原論文為準(zhǔn)。(2)本文觀點不代表本公眾號立場。 


          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點亮 ,告訴大家你也在看



          瀏覽 92
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人澡人人爽人人精品 | 免费看黄色视频在线观看 | 婷婷成人免费视频 | 中国一区二区 | 成人毛片18女人毛片免费看百度 |