SPTS v2:華科華工聯(lián)合發(fā)布,端到端文本檢測識別提速19倍
【新智元導(dǎo)讀】單點(diǎn)文本框標(biāo)注,成本顯著降低;將檢測和識別解耦,并行解碼提升自回歸速度。
近年來,場景文本閱讀(Text Spotting)有了顯著進(jìn)步,能同時(shí)定位和識別文本,廣泛應(yīng)用于智慧辦公、金融、交通等領(lǐng)域。
然而,與目標(biāo)檢測相比,文字除了定位還需要精確識別內(nèi)容;同時(shí),由于字體和排版的不同,文本實(shí)例可能以任意形狀呈現(xiàn),這就需要使用包含更多坐標(biāo)的邊界框來標(biāo)注,例如SCUT-CTW1500最多使用了28個(gè)坐標(biāo)進(jìn)行標(biāo)注,標(biāo)注成本十分高昂。

論文鏈接:https://arxiv.org/abs/2301.01635
代碼地址:https://github.com/Yuliang-Liu/SPTSv2
今年9月,華中科技大學(xué)白翔團(tuán)隊(duì)劉禹良研究員聯(lián)合華南理工大學(xué)、浙江大學(xué)、香港中文大學(xué)、字節(jié)跳動等機(jī)構(gòu)的研究人員于TPAMI在線發(fā)表了SPTS v2的相關(guān)工作,針對端到端場景文本檢測識別任務(wù),提出基于單點(diǎn)標(biāo)注的SPTS v2方法。
該方法采用了單點(diǎn)來指示文本位置,采用語言序列統(tǒng)一表征圖片、坐標(biāo)及文本等不同模態(tài),使得檢測及識別任務(wù)的融合更加緊密,也免除了先驗(yàn)知識的介入和復(fù)雜的后處理操作。針對其自回歸推理速度較慢的問題,通過將檢測識別解耦為自回歸的單點(diǎn)序列預(yù)測及基于每個(gè)單點(diǎn)的并行文本識別進(jìn)行推理加速。
此外,該方法同樣采用了單點(diǎn)來指示文本位置,極大地降低了標(biāo)注成本,并且使用序列預(yù)測的方式完成端到端場景文本檢測識別任務(wù),使得兩個(gè)任務(wù)的融合更加緊密,也免除了先驗(yàn)知識的介入和復(fù)雜的后處理操作。
實(shí)驗(yàn)證明該方法在多個(gè)場景文本端到端檢測識別數(shù)據(jù)集上優(yōu)于現(xiàn)有方法,同時(shí)相對于SPTS v1達(dá)到了19倍的推理加速。
大白話SPTSv2
舉個(gè)例子,假設(shè)設(shè)置最長有100個(gè)文本實(shí)例,最大長度取最小默認(rèn)值25。
那么,對于單點(diǎn)來說,串行循環(huán)次數(shù)是2701次。對于多邊形來說就是5301次。
而SPTS v2提出了實(shí)例分配解碼器(IAD)和并行識別解碼器(PRD),串行自回歸只需要單點(diǎn)坐標(biāo)參與,識別解碼是由每個(gè)單點(diǎn)并行自回歸得到的,總共只需T * N + K + 1個(gè)串循環(huán)次數(shù),減少了K * (N - 1)。
那么在上述例子中,SPTSv2只需要226次,循環(huán)數(shù)量減少了91.6%(226/2701),對于文本行來說,K通常取100,此時(shí)循環(huán)數(shù)量甚至減少了97.0%!
同時(shí),在實(shí)際上可能串行循環(huán)次數(shù)還能進(jìn)一步減少,因?yàn)樵赟PTSv2的識別預(yù)測上,如果所有實(shí)例都遇到序列結(jié)束符,SPTS v2也可以提前結(jié)束。

3. 點(diǎn)的表征有什么性質(zhì)及優(yōu)點(diǎn)?
① 點(diǎn)的標(biāo)注可以很隨意。
實(shí)驗(yàn)表明,點(diǎn)即使是隨機(jī)的一個(gè)點(diǎn),效果依然是和全部選取中心點(diǎn)相差不大的,甚至比全部取左上角點(diǎn)還要高。這意味著標(biāo)注人員僅需對著文本隨意點(diǎn)一個(gè)點(diǎn)即可標(biāo)注文本。

② 點(diǎn)的性能很高。
文中點(diǎn)的性能取得了最好的Text Spotting結(jié)果。同時(shí)為了消除是否是因?yàn)辄c(diǎn)和框不同評估標(biāo)準(zhǔn)的影響,實(shí)驗(yàn)驗(yàn)證了點(diǎn)的評估和框的評估性能差異不大。

③ 隨機(jī)文本排序最好。
由于自回歸的有序性,第一階段預(yù)測哪個(gè)文本點(diǎn)的順序可能會對結(jié)果產(chǎn)生影響。實(shí)驗(yàn)表明隨機(jī)點(diǎn)排序達(dá)到了最佳性能,因?yàn)樗赡軙谝院蟛东@那些丟失的對象。由于在不同迭代中為同一圖像構(gòu)建的不同序列,這使模型更加魯棒。這一結(jié)論也與Pix2seq[5]一致。

④對噪聲更加魯棒。
在SCUT-CTW1500上對框或者點(diǎn)的坐標(biāo)加上隨機(jī)擾動,實(shí)驗(yàn)結(jié)果表明SPTSV2相比于基于框的方法能夠更好地應(yīng)對標(biāo)注噪聲。

⑤甚至很長的文本行也可以僅用一個(gè)點(diǎn)標(biāo)注。
如SCUT-CTW1500就是文本行數(shù)據(jù),SPTSv2效果不僅是最好的,還大幅好于基于框的方法。
4. 既然檢測識別解耦,是不是該方法不需要點(diǎn)也能識別結(jié)果?

此外,值得一提的是,文中還有一個(gè)有趣的發(fā)現(xiàn)。僅僅只是在SPTS的框架內(nèi)驗(yàn)證,如果不預(yù)測點(diǎn),而是預(yù)測水平矩形框和多邊形,效果不如點(diǎn)。
針對這一現(xiàn)象,文中做了一些分析:


總結(jié)
本文的方法能夠在任意形狀的文本上獲得更好的準(zhǔn)確性的原因可能是:所提出的方法丟棄了基于先驗(yàn)知識設(shè)計(jì)的特定任務(wù)模塊(例如RoI模塊)。
因此,識別精度與檢測結(jié)果解耦,即使檢測標(biāo)注點(diǎn)在文本區(qū)域內(nèi)隨機(jī),本文的方法也能獲得魯棒的識別結(jié)果。
實(shí)驗(yàn)證明SPTS v2在多個(gè)場景文本端到端檢測識別數(shù)據(jù)集中均有出色的表現(xiàn),且推理速度可達(dá)到SPTS的19倍。
SPTS v2將多模態(tài)數(shù)據(jù)統(tǒng)一表征的訓(xùn)練方法使其特別適合多模態(tài)、多任務(wù)場景,且整個(gè)方法僅需一個(gè)交叉熵?fù)p失函數(shù),框架十分簡潔。另一方面,它能大大減少所需的自回歸序列長度(如減少91%)。
事實(shí)上,這也引發(fā)了思考,大模型ChatGPT本質(zhì)上也是一個(gè)自回歸Transformer。
假如,當(dāng)其能夠在第一階段串行輸出關(guān)鍵點(diǎn),建模不同點(diǎn)之間的關(guān)系,那么第二階段是否也可以根據(jù)不同關(guān)鍵點(diǎn)并行輸出所有文本內(nèi)容,這種「分點(diǎn)作答」的方式,或許也可以大幅度提升大模型輸出的速度。
參考資料:
關(guān)注公眾號【機(jī)器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來讀
臥剿,6萬字!30個(gè)方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完
深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀
深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法!
戳我,查看GAN的系列專輯~!
附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
《禮記·學(xué)記》有云:獨(dú)學(xué)而無友,則孤陋而寡聞
點(diǎn)擊一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!,加入 AI生成創(chuàng)作與計(jì)算機(jī)視覺 知識星球!
