<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

超越SOLO V2| ISTR：基于Transformer的端到端實例分割（文末獲取論文與源碼）

AI人工智能初學者

共 13507字，需瀏覽 28分鐘

·

2021-05-05 12:23

點擊上方【AI人工智能初學者】，選擇【星標】公眾號

期待您我的相遇與進步

ISTR：實例分割Transformer，首次驗證了Transformer在端到端實例分割中的潛力，表現(xiàn)SOTA！性能優(yōu)于Sparse R-CNN、SOLOv2等網絡，代碼已經開源！
作者單位：廈門大學(紀榮嶸團隊), Pinterest, 騰訊優(yōu)圖, IIAI

1 簡介

在本文中提出了一種稱為ISTR的實例分割Transformer，它是首個基于Transformer的端到端框架。ISTR通過預測低維Mask嵌入，并將其與Ground-Truth Mask嵌入進行匹配以得到Set Loss。此外，ISTR同時使用循環(huán)細化策略進行檢測和分割，與現(xiàn)有的自上而下和自下而上的框架相比，它提供了一種實現(xiàn)實例分割的新方法。

得益于所提出的端到端機制，即使使用基于近似的次優(yōu)嵌入，ISTR仍能展示出最先進的性能。具體而言，ISTR在MS COCO數(shù)據(jù)集上使用ResNet50-FPN獲得46.8/38.6box/maskAP，并使用ResNet101-FPN獲得48.1/39.9 box/mask AP。

2 所提方法

2.1 Mask Embeddings

為了提供一個有效提取Mask Embeddings的公式，作者對原始和重構Mask之間的互信息進行了約束:

其中，為2個隨機變量之間的互信息，M為Mask集合，為用于提取嵌入的Mask編碼器，為用于重建Mask的解碼器，上式保證了編碼和解碼階段的信息損失最小，這隱含用嵌入表征Mask。推導后可以得到Mask Embeddings的廣義目標函數(shù):

式中，為Mask Embeddings，為L2-norm，通過使用矩陣( )對編碼器和解碼器進行簡單的線性變換，最終目標函數(shù)可以表達為：

式中，l為Mask Embeddings的維數(shù)，為單位矩陣。上式與PCA的目標函數(shù)有相同的公式，它提供了一個closed-form solution來學習transformation。

2.2 Matching Cost and Prediction Loss

在得到Mask Embeddings的編碼器和解碼器后，本文還定義了端到端實例分割的bipartite matching cost和prediction loss。將Ground truth bounding boxes, classes和masks表示為。predicted bounding boxes, classes和mask embeddings表示為，其中

2.2.1 Bipartite Matching Cost

對于Bipartite Matching，以最小代價尋找n個非重復整數(shù) 的排列，如：

將bounding boxes的matching cost定義為:

class的matching cost為:

其中表示平衡cost的超參數(shù)，表示L1成本，表示generalized IoU cost，是類的概率。

這里不再直接匹配高維mask，而是使用mask embeddings之間的相似性度量來匹配它們，定義為：

其中mask embeddings L2歸一化，2個歸一化向量之間的點積用于計算余弦相似度。結果加上1，然后除以2保證取值范圍在[0,1]之間。

2.2.2 Set Prediction Loss

對于set prediction loss使用匹配預測回歸mask ground truth。set prediction loss定義為:

定義與相同, 為用于分類的Focal loss。對于masks，加入dice loss來改進學習到的嵌入以重構mask。mask loss定義為:

為L2 loss，表示dice loss。

2.3 Instance Segmentation Transformer

圖2 Framework of ISTR

ISTR的結構如圖2所示。它包含4個主要組件:

CNN backbone with FPN 用于提取每個實例的特征；
a Transformer encoder with dynamic attention，用于學習物體之間的關系；
a set of prediction heads，用于同時進行檢測和分割；
N-step recurrent update用于細化預測集。

2.3.1 Backbone

對于ROI特征： 首先，這里使用一個帶有FPN的CNN Backbone來提取特征金字塔的P2到P5級的特征。

然后，利用初始化k個可學習query boxes 覆蓋整個圖像的，通過RoIAlign提取k個RoI特征。

對于Image特征：對P2到P5的特征進行平均求和，提取圖像特征，

2.3.2 Transformer Encoder and Dynamic Attention

首先對圖像特征和位置嵌入的和進行3個可學習權矩陣的變換，得到輸入 ; ; ,self-attention模塊定義為:

multi-head attention包括多個self-attention塊，例如最初的Transformer中的8個用來封裝不同特性之間的多個復雜關系。為了更好地融合RoI和圖像特征增加了dynamic attention模塊，定義為第步中對RoI特征的關注:

其中為全連接層，用來生成dynamic parameters。然后在預測頭中使用獲得的特征來產生輸出。

2.3.3 Prediction Heads

預測由Prediction Heads計算得到，包括class head, box head, mask head以及fixed mask decoder。

box head：預測歸一化中心坐標、高度和寬度的殘差值，用于在第i步中更新query boxes ，

class head：使用softmax函數(shù)預測類。

mask head：輸出掩模嵌入，然后使用預先學習的mask decoder重建以預測mask。

2.3.4 Recurrent Refinement Strategy

query boxes 被預測框周期性地更新，這改進了預測并使同時處理檢測和分割成為可能。整個過程如下：

3 Experiments

上表作者分別對于所設計的Mask embedding、Mask Cost Function、LossFunction以及Attention type進行了消融實驗，各位老鐵可以看出本文設計的有效性。

通過SOTA對比可以看出，在使用相同的Backbone的基礎上，ISTR比Mask R-CNN、BlendMask、SOLO V2以及Sparse R-CNN都要好，同時推理時間并沒有增加多少，確實是一個不錯的工作。

4 參考

[1].ISTR: End-to-End Instance Segmentation with Transformers
[2].https://github.com/hujiecpp/ISTR

5 推薦閱讀

CVPR2021 | 重新思考BiSeNet讓語義分割模型速度起飛（文末獲取論文）

YOLO在升級 | PP-YOLO v2開源致敬YOLOV4攜帶Tricks又準又快地歸來（附論文與源碼）

簡單有效 | Transformer通過剪枝降低FLOPs以走向部署（文末獲取論文）

又改ResNet | 重新思考ResNet：采用高階方案的改進堆疊策略（附論文下載）

本文論文原文獲取方式，掃描下方二維碼

回復【ISTR】即可獲取論文與源碼

長按掃描下方二維碼加入交流群

長按掃描下方二維碼添加小助手。

可以一起討論遇到的問題

聲明：轉載請說明出處

掃描下方二維碼關注【AI人工智能初學者】公眾號，獲取更多實踐項目源碼和論文解讀，非常期待你我的相遇，讓我們以夢為馬，砥礪前行?。?！

點“在看”給我一朵小黃花唄

瀏覽 78

點贊

收藏

分享

舉報

評論

圖片

表情

騰訊優(yōu)圖提出ISTR：基于transformer的端到端實例分割！性能SOTA，代碼已開源！

機器學習算法工程師

Transformer系列 | 更深、更強、更輕巧的Transformer，DeLighT(文末獲取論文與源碼)

AI人工智能初學者

超快速的端到端實例分割模型，手把手教你用opencv部署Yolact

CVPR 2022 | 武大&京東提出：使用Transformer的端到端弱監(jiān)督語義分割

解讀UTNet | 用于醫(yī)學圖像分割的混合Transformer架構（文末獲取論文）

AI人工智能初學者

CVPR2021 | 基于transformer的視頻實例分割網絡VisTR

AI算法與圖像處理

Playwright 可靠的端到端測試

Transformer崛起| TopFormer打造Arm端實時分割與檢測模型，完美超越MobileNet!

AI人工智能初學者

【論文解讀】OneNet：一階段的端到端物體檢測器，無需NMS

機器學習初學者

SurrealDB端到端的云原生數(shù)據(jù)庫

SurrealDB是一個端到端的云原生數(shù)據(jù)庫，適用于Web、移動、無服務器、jamstack、后端和傳統(tǒng)應用程序。SurrealDB通過簡化數(shù)據(jù)庫和API堆棧來減少現(xiàn)代應用程序的開發(fā)時間，消除對大多數(shù)

點贊

收藏

分享

舉報

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

18禁乱伦| 欧美三级片网 | 人人看人人做 | 日韩久久精品国产亚洲AV成人 | 亚洲大骚逼 |