<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          [CVPR 2021] 融合文本檢測與相似度學習的場景文本檢索

          共 3932字,需瀏覽 8分鐘

           ·

          2021-04-29 14:27

          點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂”

          重磅干貨,第一時間送達

          本文簡要介紹CVPR 2021錄用論文“Scene Text Retrieval via Joint Text Detection and Similarity Learning”的主要工作。場景文本檢索的目的是定位和搜索圖像庫中與給定查詢文本相同或相似的所有文本實例圖像。作者建立了一個端到端的可訓練網(wǎng)絡(luò),共同優(yōu)化了場景文本檢測和跨模態(tài)相似性學習的過程,通過對檢測到的文本實例的相似度進行排序來進行場景文本檢索。數(shù)據(jù)集和代碼將開源:https://github.com/lanfeng4659/STR-TDSL。 

          圖1 場景文本檢索示意圖

          一、研究背景



          場景文本檢索[1]旨在從自然圖像集合中搜索所有與給定的文本相同或相似的文本實例。與自然場景文本檢測與識別不同,場景文本檢索僅查找用戶給出的感興趣文本對應(yīng)的圖像。如圖1所示,場景文本檢索的目標是返回所有可能包含查詢文本的圖像及其邊界框。從這個意義上講,場景文本檢索是一種跨模式檢索/匹配任務(wù),目的是縮小查詢文本與每個文本圖像之間的語義鴻溝。

          文獻[1]研究了場景圖像中的文本檢索,作者將文本檢索分為兩個獨立的子任務(wù):文本檢測和文本圖像檢索。由于其框架采用了手工選取的特征,因此性能受到限制。場景文本檢索的另一種可行解決方案是基于端到端文本識別系統(tǒng),但是這意味著需要在檢測和識別方面都要求很高的準確性,因此,這種方法通常無法獲得令人滿意的檢索性能。 

          二、方法原理簡述



          圖2 網(wǎng)絡(luò)整體框架圖

          圖2是這篇文章提出網(wǎng)絡(luò)的整體結(jié)構(gòu),包括了圖像分支和文本分支。圖像分支提取所有可能的文本候選圖片的特征E,文本分支將查詢詞Q轉(zhuǎn)換為特征F。接著計算E和F的配對相似度并進行排序。

          為了簡化檢測流程,文本檢測模塊(Detection Module)采用了[2]中提出的Anchor-free檢測器,使用ResNet-50+FPN作為主干網(wǎng)絡(luò)。與一般需要檢測的目標不同,場景文本通常以字符序列的形式出現(xiàn)。因此,采用了一種序列到序列模塊(Image-S2SM)用于增強每個文本候選框的內(nèi)容信息,具體結(jié)構(gòu)在表1中詳細說明。 

          表1 Image-S2SM 和 Text-S2SM的結(jié)構(gòu)

          與圖像不同,查詢詞是無法由神經(jīng)網(wǎng)絡(luò)直接處理的一組文本字符串。因此,采用詞嵌入模塊(Word Embedding Module)將查詢詞表達為特征。與Image-S2SM類似,同樣嵌入后的文本特征經(jīng)過了一個序列到序列模塊(Text-S2SM),其具體結(jié)構(gòu)在表1中詳細說明。

          在提取出文本候選圖像和查詢詞的特征E和F之后,查詢詞Q與文本候選圖像P的特征之間的配對相似度可以表示為相似度矩陣。在此,的值等于特征之間的余弦相似度,即通過下式計算: 

          其中,V代表將二維矩陣變形到一維的操作。

          在訓練過程中,預(yù)測的相似度矩陣由目標相似度矩陣監(jiān)督。每一個目標相似度矩陣S(Q,P)是對應(yīng)詞對的歸一化編輯距離,如下式定義: 

          其中Distance是Levenshtein編輯距離[3],代表的字符個數(shù)。

          除了之外,也被用于輔助訓練。

          在推理階段,和輸入圖像特征的相似度被用來進行排序。

          損失函數(shù)包含三部分: 

          其中,是[2]中的檢測Loss。是文本轉(zhuǎn)譯任務(wù)的CTC[4] Loss。是跨模態(tài)相似學習的Loss,并使用Smooth-L1 Loss做回歸。損失函數(shù)被定義為: 

          其中和S是預(yù)測相似度矩陣及其對應(yīng)的目標相似度矩陣。2N和K分別是增廣后的查詢詞數(shù)和文本實例數(shù)。

          三、主要實驗結(jié)果及可視化結(jié)果



          圖3 在STR數(shù)據(jù)集上檢索關(guān)鍵詞“Coffee”

          表2 在不同數(shù)據(jù)集上與不同方法的mAP指標對比 

          圖3展示在STR數(shù)據(jù)集上檢索關(guān)鍵詞“Coffee”后的8個結(jié)果。表1通過在SVT(Street View Text)[5]、STR(Scene Text Retrieval)[1]、CTR(Coco-Text Retrieval)[6]數(shù)據(jù)集上與其他先進的方法進行對比,證明了本文提出方法的優(yōu)越性。 

          圖4  CSVTR數(shù)據(jù)集的樣例

          除此之外,作者還提出了一個中文街景文本檢索數(shù)據(jù)集CSVTR(Chinese Street View Text Retrieval),如圖4所示。

          表3 在中文街景文本檢索數(shù)據(jù)集CSVTR上的對比實驗結(jié)果 

          由于對比的方法[2]采用了一種稱為PHOC (Pyramidal Histogram Of Characters)的文本編碼方法,其維度隨著字符的類別數(shù)急劇增長。限于GPU顯存限制,PHOC方法只能限制在1019個字符類別上,而本文提出的方法可以支持完整的3755個字符類別,且mAP和FPS都遠高于對比方法。這些結(jié)果表明,作者提出的方法更加魯棒,可以很容易地推廣到非拉丁語語言。

          四、總結(jié)及討論



          文章提出了一種將場景文本檢測與配對相似學習相結(jié)合的端到端訓練框架。該框架可以在自然圖像中與給定查詢文本相同或相似的狀態(tài)下搜索文本。實驗表明,該方法在三個數(shù)據(jù)集基準上始終優(yōu)于最新的檢索/定位方法。此外,在提出的中文數(shù)據(jù)集上的結(jié)果表明,該框架能夠較好地解決中文場景文本檢索問題,這對現(xiàn)有的檢索方法提出了更高的挑戰(zhàn)。

          五、相關(guān)資源



          • 論文原文下載地址: 

            https://arxiv.org/abs/2104.01552

          • 本文開源代碼及中文街景文本檢索數(shù)據(jù)集CSVTR下載地址(尚未更新): https://github.com/lanfeng4659/STR-TDSL

          • SVT(Street View Text)數(shù)據(jù)集下載地址:

            http://vision.ucsd.edu/~kai/svt/

          參考文獻



          [1] Anand Mishra, Karteek Alahari, and C. V. Jawahar. Image retrieval using textual cues. In ICCV, 2013.

          [2] David Aldavert, Mar?al Rusi?ol, Ricardo Toledo, and Josep Lladós. Integrating  visual and textual cues for query-by-string word spotting. In ICDAR, 2013.

          [3] Ladimir Levenshtein. Binary codes capable of correcting deletions, insertions,  and reversals. In Soviet physics doklady, volume 10, pages 707-710, 1966

          [4] Alex Graves, Santiago Fernández, Faustino Gomez, and Jürgen Schmidhuber.  Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. InICML, 2006.

          [5] Kai Wang, Boris Babenko, and Serge J. Belongie. End-to-end scene text recognition. In ICCV, 2011.

          [6] Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, and Serge  Belongie. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arXiv preprint arXiv:1601.07140, 2016.



          原文作者 Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu


          撰稿:楊文韜
          編排:高 學

          審校:連宙輝

          發(fā)布:金連文



          免責聲明:1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準確及全面,論文完整思想及論點應(yīng)以原論文為準。(2)本文觀點不代表本公眾號立場。 

          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復(fù):CVPR即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點亮 ,告訴大家你也在看



          瀏覽 154
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  男人的天堂久久 | 国产性爱免费 | 日本欧美性爱视频一区二区 | 国产一起色 | 成人 免费视频A片视频88p |