[CVPR 2021] 融合文本檢測與相似度學習的場景文本檢索
點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達

本文簡要介紹CVPR 2021錄用論文“Scene Text Retrieval via Joint Text Detection and Similarity Learning”的主要工作。場景文本檢索的目的是定位和搜索圖像庫中與給定查詢文本相同或相似的所有文本實例圖像。作者建立了一個端到端的可訓練網(wǎng)絡(luò),共同優(yōu)化了場景文本檢測和跨模態(tài)相似性學習的過程,通過對檢測到的文本實例的相似度進行排序來進行場景文本檢索。數(shù)據(jù)集和代碼將開源:https://github.com/lanfeng4659/STR-TDSL。

一、研究背景
場景文本檢索[1]旨在從自然圖像集合中搜索所有與給定的文本相同或相似的文本實例。與自然場景文本檢測與識別不同,場景文本檢索僅查找用戶給出的感興趣文本對應(yīng)的圖像。如圖1所示,場景文本檢索的目標是返回所有可能包含查詢文本的圖像及其邊界框。從這個意義上講,場景文本檢索是一種跨模式檢索/匹配任務(wù),目的是縮小查詢文本與每個文本圖像之間的語義鴻溝。
二、方法原理簡述
圖2 網(wǎng)絡(luò)整體框架圖
圖2是這篇文章提出網(wǎng)絡(luò)的整體結(jié)構(gòu),包括了圖像分支和文本分支。圖像分支提取所有可能的文本候選圖片的特征E,文本分支將查詢詞Q轉(zhuǎn)換為特征F。接著計算E和F的配對相似度并進行排序。
為了簡化檢測流程,文本檢測模塊(Detection Module)采用了[2]中提出的Anchor-free檢測器,使用ResNet-50+FPN作為主干網(wǎng)絡(luò)。與一般需要檢測的目標不同,場景文本通常以字符序列的形式出現(xiàn)。因此,采用了一種序列到序列模塊(Image-S2SM)用于增強每個文本候選框的內(nèi)容信息,具體結(jié)構(gòu)在表1中詳細說明。
表1 Image-S2SM 和 Text-S2SM的結(jié)構(gòu)

與圖像不同,查詢詞是無法由神經(jīng)網(wǎng)絡(luò)直接處理的一組文本字符串。因此,采用詞嵌入模塊(Word Embedding Module)將查詢詞表達為特征。與Image-S2SM類似,同樣嵌入后的文本特征經(jīng)過了一個序列到序列模塊(Text-S2SM),其具體結(jié)構(gòu)在表1中詳細說明。
在提取出文本候選圖像和查詢詞的特征E和F之后,查詢詞Q與文本候選圖像P的特征之間的配對相似度可以表示為相似度矩陣
。在此,
的值等于特征
和
之間的余弦相似度,即通過下式計算:
其中,V代表將二維矩陣變形到一維的操作。
在訓練過程中,預(yù)測的相似度矩陣由目標相似度矩陣監(jiān)督。每一個目標相似度矩陣S(Q,P)是對應(yīng)詞對
的歸一化編輯距離,如下式定義:
其中Distance是Levenshtein編輯距離[3],
代表
的字符個數(shù)。
除了
之外,
和
也被用于輔助訓練。
在推理階段,
和輸入圖像特征的相似度
被用來進行排序。
損失函數(shù)包含三部分:
其中,
是[2]中的檢測Loss。
是文本轉(zhuǎn)譯任務(wù)的CTC[4] Loss。
是跨模態(tài)相似學習的Loss,并使用Smooth-L1 Loss
做回歸。損失函數(shù)
被定義為:
和S是預(yù)測相似度矩陣及其對應(yīng)的目標相似度矩陣。2N和K分別是增廣后的查詢詞數(shù)和文本實例數(shù)。三、主要實驗結(jié)果及可視化結(jié)果
圖3 在STR數(shù)據(jù)集上檢索關(guān)鍵詞“Coffee”
表2 在不同數(shù)據(jù)集上與不同方法的mAP指標對比

圖3展示在STR數(shù)據(jù)集上檢索關(guān)鍵詞“Coffee”后的8個結(jié)果。表1通過在SVT(Street View Text)[5]、STR(Scene Text Retrieval)[1]、CTR(Coco-Text Retrieval)[6]數(shù)據(jù)集上與其他先進的方法進行對比,證明了本文提出方法的優(yōu)越性。

圖4 CSVTR數(shù)據(jù)集的樣例
除此之外,作者還提出了一個中文街景文本檢索數(shù)據(jù)集CSVTR(Chinese Street View Text Retrieval),如圖4所示。
表3 在中文街景文本檢索數(shù)據(jù)集CSVTR上的對比實驗結(jié)果

四、總結(jié)及討論
五、相關(guān)資源
論文原文下載地址:
https://arxiv.org/abs/2104.01552
本文開源代碼及中文街景文本檢索數(shù)據(jù)集CSVTR下載地址(尚未更新): https://github.com/lanfeng4659/STR-TDSL
SVT(Street View Text)數(shù)據(jù)集下載地址:
http://vision.ucsd.edu/~kai/svt/
參考文獻
[2] David Aldavert, Mar?al Rusi?ol, Ricardo Toledo, and Josep Lladós. Integrating visual and textual cues for query-by-string word spotting. In ICDAR, 2013.
[3] Ladimir Levenshtein. Binary codes capable of correcting deletions, insertions, and reversals. In Soviet physics doklady, volume 10, pages 707-710, 1966
[4] Alex Graves, Santiago Fernández, Faustino Gomez, and Jürgen Schmidhuber. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. InICML, 2006.
[5] Kai Wang, Boris Babenko, and Serge J. Belongie. End-to-end scene text recognition. In ICCV, 2011.
[6] Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, and Serge Belongie. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arXiv preprint arXiv:1601.07140, 2016.
原文作者: Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu
審校:連宙輝
發(fā)布:金連文
免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準確及全面,論文完整思想及論點應(yīng)以原論文為準。(2)本文觀點不代表本公眾號立場。
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
,告訴大家你也在看
