騰訊優(yōu)圖提出ISTR:基于transformer的端到端實(shí)例分割!性能SOTA,代碼已開(kāi)源!
點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師”
設(shè)為星標(biāo),干貨直達(dá)!
近日,廈門(mén)大學(xué)和騰訊優(yōu)圖聯(lián)合發(fā)布了一種基于transformer的端到端的實(shí)例分割方法ISTR:

ISTR使用ResNet50-FPN在MS COCO數(shù)據(jù)集上可達(dá)到46.8/38.6 box/mask AP,使用ResNet101-FPN可達(dá)到48.1/39.9 box/mask AP。代碼已經(jīng)開(kāi)源在:https://github. com/hujiecpp/ISTR。在類(lèi)似FPS下,ISTR模型效果超過(guò)Mask R-CNN和SOLOv2:

ISTR模型的主體網(wǎng)絡(luò)結(jié)構(gòu)如下所示,其主體思路借鑒了DETR和Sparse R-CNN,其中采用基于CNN的FPN網(wǎng)絡(luò)作為backbone來(lái)作為特征提取器,然后定義一系列l(wèi)earnable query boxes,通過(guò)boxes的RoI Features和Img Features做attention,然后接三個(gè)heads來(lái)分別預(yù)測(cè)Class,Box和Mask。其訓(xùn)練的loss和DETR類(lèi)似,采用Bipartite Matching Cost,只不過(guò)增加了mask loss部分。

ISTR的訓(xùn)練和推理基本和Sparse R-CNN一樣,因?yàn)镮STR也是采用了可學(xué)習(xí)的query boxes,訓(xùn)練也采用了Recurrent Refinement Strategy,區(qū)別主要在于增加了mask部分,主要流程如下:

ISTR的核心點(diǎn)是mask head不是直接預(yù)測(cè)一個(gè)2-D的mask,而是預(yù)測(cè)的是一個(gè)mask embedding,具體做法是基于PCA對(duì)sxs大小的mask進(jìn)行降維,得到維度為l的embedding vector,雖然看起來(lái)PCA可能會(huì)損失高維信息,實(shí)際上論文中發(fā)現(xiàn)mask的信息主要集中在前面的主成分中:

對(duì)于Bipartite Matching Cost,ISTR相比DETR就包括了三部分

(1)matching cost for bounding boxes

(2)matching cost for classes:

(3)matching cost for mask embedding:采用cos相似度來(lái)計(jì)算

ISTR的訓(xùn)練loss也包括三個(gè)部分:

其中mask loss包括基于mask embeddings的L2 loss和基于2-D mask的dice loss:

雖然ISTR的mask head是直接預(yù)測(cè)mask embeddings,但是從可視化的結(jié)果來(lái)看,生成的mask還是很精細(xì)的:

更多內(nèi)容可以直接閱讀論文:https://arxiv.org/pdf/2105.00637.pdf
推薦閱讀
FAIR最新無(wú)監(jiān)督研究:視頻的無(wú)監(jiān)督時(shí)空表征學(xué)習(xí)
DETR:基于 Transformers 的目標(biāo)檢測(cè)
Transformer在語(yǔ)義分割上的應(yīng)用
"未來(lái)"的經(jīng)典之作ViT:transformer is all you need!
PVT:可用于密集任務(wù)backbone的金字塔視覺(jué)transformer!
漲點(diǎn)神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA
不妨試試MoCo,來(lái)替換ImageNet上pretrain模型!
機(jī)器學(xué)習(xí)算法工程師
一個(gè)用心的公眾號(hào)

