<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2020最新文本檢測算法TextFuseNet

          共 4054字,需瀏覽 9分鐘

           ·

          2021-01-28 19:08






          向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號??????

          人工智能大數(shù)據(jù)與深度學(xué)習(xí) ?公眾號:datayx


          TextFuseNet: Scene Text Detection with Richer Fused Features


          ??自然場景中任意形狀文本檢測是一項(xiàng)極具挑戰(zhàn)性的任務(wù),與現(xiàn)有的僅基于有限特征表示感知文本的文本檢測方法不同,本文提出了一種新的框架,即?TextFuseNet?,以利用融合的更豐富的特征進(jìn)行文本檢測。
          ??該算法用三個(gè)層次的特征來表示文本,字符、單詞全局級別,然后引入一種新的文本融合技術(shù)融合這些特征,來幫助實(shí)現(xiàn)魯棒的任意文本檢測。另外提出了一個(gè)弱監(jiān)督學(xué)習(xí)機(jī)制,可以生成字符級別的標(biāo)注,在缺乏字符級注釋的數(shù)據(jù)集情況下也可以進(jìn)行訓(xùn)練。
          ??該算法在ICDAR2013上取得F1分?jǐn)?shù)94.3%,在ICDAR2015上F1分?jǐn)?shù)92.1%,在Total-Text上87.1%,在CTW-1500上86.6%,目前為止最佳成績。


          復(fù)現(xiàn)代碼? 獲?。?/span>

          關(guān)注微信公眾號 datayx ?然后回復(fù)??文本檢測? 即可獲取。

          AI項(xiàng)目體驗(yàn)地址 https://loveai.tech




          1. 算法簡介

          ??之前的文本檢測算法大致分為兩種,基于字符級別的檢測和基于單詞級別的檢測?;谧址墑e的檢測算法首先提取單個(gè)字符,然后再使用字符合并算法合并這些字符成一個(gè)單詞,然而這種方法因?yàn)橐纱罅康淖址蜻x框并且要合并,比較耗時(shí)。相比之下,基于單詞級別的檢測算法直接檢測單詞,會更高效和簡單,但這種方法通常無法有效地檢測具有任意形狀的文本。為了解決這個(gè)問題,一些基于單詞的方法進(jìn)一步應(yīng)用實(shí)例分割來進(jìn)行文本檢測。在這些方法中,前景分割掩碼被估計(jì)以幫助確定各種文本形狀。


          ??盡管有很好的結(jié)果,但現(xiàn)有的基于實(shí)例分割的方法仍然有兩個(gè)主要的局限性。一是,這些方法只基于單個(gè)感興趣區(qū)域(RoI)檢測文本,而不考慮全局上下文,因此它們傾向于基于有限的視覺信息產(chǎn)生不準(zhǔn)確的檢測結(jié)果。二是,現(xiàn)有的方法沒有對不同層次的單詞語義進(jìn)行建模,產(chǎn)生假陽性的可能性增大。從圖一中可以看到這種方法的弊端。



          ??本文提出的TextFuseNet能夠有效的解決這些問題,并且可以高效準(zhǔn)確的預(yù)測任意形狀的文本。TextFuseNet與其他算法相比主要的區(qū)別在于,有效的利用各種層次的特征,例如字符級別的、單詞級別的、全局級別的特征,而其他的文本檢測算法往往只使用一種層次的特征。

          ??TextFuseNet網(wǎng)絡(luò)結(jié)構(gòu)主要分為三個(gè)分支:
          ??第一個(gè)是語義分割分支( semantic segmentation branch),該分支用來提取液全局級別的特征;
          ??另外二個(gè)是檢測分支和mask分支(detection and mask branches),用來提取字符級別和單詞級別的特征;
          ??在得到三種層次的特征后,使用多路徑特征融合體系結(jié)構(gòu)(Multi-path Fusion Architecture),融合三者特征,生成更具代表性的特征表示,從而產(chǎn)生更準(zhǔn)確的文本檢測結(jié)果。

          ??目前大部分?jǐn)?shù)據(jù)集只包含單詞級別的標(biāo)注,很少有字符級別的標(biāo)注,為解決字符級別標(biāo)注數(shù)據(jù)集缺乏的問題,提出了一種弱監(jiān)督學(xué)習(xí)方案,通過從單詞級注釋數(shù)據(jù)集學(xué)習(xí)來生成字符級注釋。
          總體的結(jié)構(gòu)如圖2所示。


          2. 算法詳解

          2.1 網(wǎng)絡(luò)結(jié)構(gòu)

          ??具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,首先提取多層次的特征,然后執(zhí)行多路徑融合以進(jìn)行文本檢測。該結(jié)構(gòu)主要由5部分組成,

          1. 使用特征金字塔(FPN)作為backbone進(jìn)行多特征提?。?/span>

          2. 使用RPN生成文本候選框;

          3. 語義分割分支生成全局語義特征;

          4. 檢測分支預(yù)測單詞和字符;

          5. mask分支生成單詞和字符的實(shí)例分割;

          ??在TextFuseNet中,使用ResNet作為backbone,RPN生成的文本候選框作為檢測和mask分支的輸入,在語義分割分支來對輸入圖像進(jìn)行語義分割,并幫助獲得全局級別的特征。
          ??mask在檢測分支中,通過預(yù)測文本候選框的類別和采用邊界框回歸來細(xì)化文本候選框,提取和融合了單詞和全局級別的特征來檢測單詞和字符。
          ??mask分支,對從檢測分支檢測到的對象執(zhí)行實(shí)例分割;
          ??提取和融合所有字符、單詞和全局級別的特征,以完成實(shí)例分割以及最后的文本檢測任務(wù)。
          ??2.2節(jié)來主要來講解提取多層次的特征表示,在提取多特征后,多路徑融合體系結(jié)構(gòu)來融合不同的特征,用于檢測任意形狀的文本,多徑融合體系結(jié)構(gòu)可以有效地對多層特征進(jìn)行對齊和合并,以提供健壯的文本檢測,多路徑融合體系結(jié)構(gòu)的實(shí)現(xiàn)細(xì)節(jié)在2.3節(jié)中描述。

          2.2 Multi-level Feature Representation

          ??在檢測器的檢測和掩碼分支中,通過預(yù)測文本候選框中的字符和單詞,能夠很容易的獲得字符級別和單詞級別的特征。這里應(yīng)用RoIAlign提取不同的特征,并對單詞和字符進(jìn)行檢測。
          ??除了字符和單詞特征,還要獲取全局的語義特征,如圖2所示,語義分割分支是基于FPN的輸出構(gòu)建的。將所有特征層的特征融合到一個(gè)統(tǒng)一的特征表示中,并在這個(gè)統(tǒng)一的特征表示上執(zhí)行分割,從而獲得全局分段的文本檢測結(jié)果。通常,使用1×1的卷積將不同特征層的特征的通道數(shù)對齊,并將特征映射調(diào)整為相同的大小,以便以后統(tǒng)一。

          2.3 Multi-path Fusion Architecture

          ??在獲取到多級特征后,分別在檢測和mask分支采用多徑融合體系結(jié)構(gòu)。
          ??在檢測分支中,基于從RPN獲得的文本候選,提取全局和單詞級特征,用于不同路徑的文本檢測。然后,融合這兩種類型的特征,以單詞和字符的形式提供文本檢測。值得注意的是,在檢測分支的時(shí)候,不能提取和融合字符級別的特征,因?yàn)?,在?zhí)行檢測之前,字符尚未被識別。在實(shí)際代碼中,給定一個(gè)文本候選框,使用RoIAlign從FPN的輸出特征中提取到一個(gè)大小為7×7的全局和單詞特征。使用 element-wise相加融合這兩個(gè)特征,然后再經(jīng)過一個(gè)3×3的卷積層和一個(gè)1×1的卷積層,最終融合后的特征用于分類和坐標(biāo)回歸。
          ??在mask分支,對于每個(gè)單詞級實(shí)例,可以在多路徑融合體系結(jié)構(gòu)中融合得到相應(yīng)的字符、單詞和全局級別特征。圖3詳細(xì)說明了多路徑融合結(jié)構(gòu)。
          ??在所提出的體系結(jié)構(gòu)中,從不同的路徑中提取多層次特征,并將它們?nèi)诤掀饋?,以獲得更豐富的特征,以幫助學(xué)習(xí)更具鑒別性的特征表示。

          ?



          ??通過進(jìn)一步應(yīng)用RoIAlign提取單詞的特征和相應(yīng)的全局語義特征,通過element-wise求和將這三個(gè)層次的特征融合起來,然后通過一個(gè)3×3卷積層和一個(gè)1×1卷積層去獲得更豐富的特征。最后融合的特征用于實(shí)例分割。

          3.4 loss函數(shù)



          4. 測試結(jié)果

          原文地址https://blog.csdn.net/qq_39707285/article/details/113046449




          閱讀過本文的人還看了以下文章:


          TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


          基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測


          《基于深度學(xué)習(xí)的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團(tuán)隊(duì)


          【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!


          《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


          《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


          《深度學(xué)習(xí)之pytorch》pdf+附書源碼


          PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


          李沐大神開源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


          《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


          將機(jī)器學(xué)習(xí)模型部署為REST API


          FashionAI服裝屬性標(biāo)簽圖像識別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識別


          yolo3 檢測出圖像中的不規(guī)則漢字


          同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測


          【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


          VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識別分類工程項(xiàng)目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學(xué)習(xí)


          如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



          不斷更新資源

          深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

          ?搜索公眾號添加:?datayx??



          機(jī)大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)工程

          ?搜索公眾號添加:?datanlp

          長按圖片,識別二維碼



          瀏覽 83
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99综合在线 | 国产精品久久久久久久久吹潮 | 国产精品自拍偷拍 | 亚洲三级视频在线观看 | 青青草视频在线免费观看 |