<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          新視角:用圖像分類來建模文字識別也可以SOTA!

          共 1819字,需瀏覽 4分鐘

           ·

          2021-02-25 22:04

          ↑ 點擊藍(lán)字?關(guān)注極市平臺

          作者丨mileistone@知乎(已授權(quán))
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/352348349?
          編輯丨極市平臺

          極市導(dǎo)讀

          ?

          本文介紹了一個文字識別的新工作:CSTR,通過文字識別任務(wù)建模為圖像分類,且不需要字符級別的標(biāo)注。該模型像其他圖像分類模型一樣容易實現(xiàn),因為是純卷積所以訓(xùn)練、推理非常高效。?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

          我們最近做了一個文字識別的工作:CSTR: A Classification Perspective on Scene Text Recognition(https://arxiv.org/abs/2102.10884),簡單介紹如下。

          當(dāng)前文字識別有兩種建模視角:seq2seq-based和segmentation-based。

          seq2seq-based的方法首先將圖片encode為特征序列(比如CNN、RNN、Transformer encoder或者它們的組合),然后對特征序列進行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。

          segmentation-based的方法首先定位出字符的位置,然后識別出各個位置的字符,最后將字符組合成字符串。

          過去達到SOTA的文字識別方法大部分是seq2seq-based,但是seq2seq-based的方法pipeline復(fù)雜(大部分還需要STN模塊來對圖像進行矯正)。

          segmentation-based的方法簡潔很多,但是需要字符級別的標(biāo)注,字符級別的標(biāo)注成本高昂,在實際生產(chǎn)環(huán)境中不太可能使用這樣精細(xì)的標(biāo)注方式。

          我們提出了一種圖像分類的建模視角:classification-based。即將文字識別任務(wù)建模為圖像分類,整體pipeline比segmentation-based的方法更簡單,而且不需要字符級別的標(biāo)注。classification-based的模型像其他圖像分類模型一樣容易實現(xiàn),因為是純卷積所以訓(xùn)練、推理非常高效。

          CSTR模型結(jié)構(gòu),?為end token

          我們的classification-based模型即CSTR,在六個常用的公開數(shù)據(jù)集上的效果如下表所示。我們的模型沒有STN模塊,僅僅只有一個圖像分類器,訓(xùn)練數(shù)據(jù)集為常用的兩個合成的數(shù)據(jù)集SynthText (ST)和MJSynth (MJ),僅使用單詞級別的標(biāo)注,測試的時候沒用任何TTA,整體效果基本達到SOTA。

          CSTR與業(yè)界經(jīng)典模型指標(biāo)比較

          代碼將在我們的文字識別工具箱vedastr(https://github.com/Media-Smart/vedastr)中開源。

          CSTR: A Classification Perspective on Scene Text Recognitionarxiv.org

          https://arxiv.org/abs/2102.10884

          Media-Smart/vedastr

          https://github.com/Media-Smart/vedastr



          推薦閱讀


          大年三十問候?qū)煹暮蠊?..

          2021-02-12

          化繁為簡,一張圖看懂梯度、散度、旋度、Jacobian、Hessian和Laplacian

          2021-02-15

          擦除:提升 CNN 特征可視化的 3 種重要手段

          2021-02-16



          # CV技術(shù)社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~??
          瀏覽 60
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日本黄色一级视频 | 欧美一级片免费在线 | 亚洲免费视频欧洲免费视频 | 三级无码视频 | 波多野结衣成人视频 |