<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          騰訊優(yōu)圖提出ISTR:基于transformer的端到端實(shí)例分割!性能SOTA,代碼已開(kāi)源!

          共 1688字,需瀏覽 4分鐘

           ·

          2021-05-06 12:14

          點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師

          設(shè)為星標(biāo),干貨直達(dá)!


          近日,廈門(mén)大學(xué)和騰訊優(yōu)圖聯(lián)合發(fā)布了一種基于transformer的端到端的實(shí)例分割方法ISTR


          ISTR使用ResNet50-FPN在MS COCO數(shù)據(jù)集上可達(dá)到46.8/38.6 box/mask AP,使用ResNet101-FPN可達(dá)到48.1/39.9 box/mask AP。代碼已經(jīng)開(kāi)源在:https://github. com/hujiecpp/ISTR。在類(lèi)似FPS下,ISTR模型效果超過(guò)Mask R-CNN和SOLOv2:



          ISTR模型的主體網(wǎng)絡(luò)結(jié)構(gòu)如下所示,其主體思路借鑒了DETR和Sparse R-CNN,其中采用基于CNN的FPN網(wǎng)絡(luò)作為backbone來(lái)作為特征提取器,然后定義一系列l(wèi)earnable query boxes,通過(guò)boxes的RoI Features和Img Features做attention,然后接三個(gè)heads來(lái)分別預(yù)測(cè)Class,Box和Mask。其訓(xùn)練的loss和DETR類(lèi)似,采用Bipartite Matching Cost,只不過(guò)增加了mask loss部分


          ISTR的訓(xùn)練和推理基本和Sparse R-CNN一樣,因?yàn)镮STR也是采用了可學(xué)習(xí)的query boxes,訓(xùn)練也采用了Recurrent Refinement Strategy,區(qū)別主要在于增加了mask部分,主要流程如下:

          ISTR的核心點(diǎn)是mask head不是直接預(yù)測(cè)一個(gè)2-D的mask,而是預(yù)測(cè)的是一個(gè)mask embedding,具體做法是基于PCA對(duì)sxs大小的mask進(jìn)行降維,得到維度為l的embedding vector,雖然看起來(lái)PCA可能會(huì)損失高維信息,實(shí)際上論文中發(fā)現(xiàn)mask的信息主要集中在前面的主成分中:

          對(duì)于Bipartite Matching Cost,ISTR相比DETR就包括了三部分

          (1)matching cost for bounding boxes

          (2)matching cost for classes:

          (3)matching cost for mask embedding:采用cos相似度來(lái)計(jì)算


          ISTR的訓(xùn)練loss也包括三個(gè)部分:

          其中mask loss包括基于mask embeddings的L2 loss和基于2-D mask的dice loss


          雖然ISTR的mask head是直接預(yù)測(cè)mask embeddings,但是從可視化的結(jié)果來(lái)看,生成的mask還是很精細(xì)的:



          更多內(nèi)容可以直接閱讀論文:https://arxiv.org/pdf/2105.00637.pdf



          推薦閱讀

          CPVT:一個(gè)卷積就可以隱式編碼位置信息

          FAIR最新無(wú)監(jiān)督研究:視頻的無(wú)監(jiān)督時(shí)空表征學(xué)習(xí)

          DETR:基于 Transformers 的目標(biāo)檢測(cè)

          MoCo V3:我并不是你想的那樣!

          Transformer在語(yǔ)義分割上的應(yīng)用

          "未來(lái)"的經(jīng)典之作ViT:transformer is all you need!

          PVT:可用于密集任務(wù)backbone的金字塔視覺(jué)transformer!

          漲點(diǎn)神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA

          Transformer為何能闖入CV界秒殺CNN?

          不妨試試MoCo,來(lái)替換ImageNet上pretrain模型!


          機(jī)器學(xué)習(xí)算法工程師


                                              一個(gè)用心的公眾號(hào)


           



          瀏覽 39
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一区二区视频在线播放 | 日韩五码视频 | 中国操逼片 | caobi.mianfei | 一级日韩毛片 |