国产大鸡八,国产一级a毛一级a毛免费视频 ,俺来也俺去也www色官网,风间精品一区二区三区,99在线免费视频观看,操小骚逼网站,日本天天艹人人艹视频在线观看 ,免费无码一区二区三区四区

點(diǎn)擊下方“AI算法與圖像處理”，一起進(jìn)步！
重磅干貨，第一時(shí)間送達(dá)

轉(zhuǎn)載于：機(jī)器之心

基于注意力的深度神經(jīng)網(wǎng)絡(luò)（DNN）在NLP和CV等不同領(lǐng)域的各種任務(wù)上都表現(xiàn)出了卓越的性能。這些進(jìn)展使得此類網(wǎng)絡(luò)（如 Transformer）成為解決多模態(tài)問(wèn)題的有力候選。特別是近一兩年，Transformer 模型已經(jīng)開(kāi)始在CV任務(wù)上大展手腳，從目標(biāo)識(shí)別到檢測(cè)，效果優(yōu)于通用的CNN視覺(jué)骨干網(wǎng)絡(luò)。

參考視頻對(duì)象分割（referring video object segmentation, RVOS）任務(wù)涉及到給定視頻幀中文本參考對(duì)象實(shí)例的分割。相比之下，在得到更廣泛研究的參考圖像分割（referring image segmention, RIS）任務(wù)中，對(duì)象主要通過(guò)它們的外觀進(jìn)行參考。在RVOS中，對(duì)象可以通過(guò)它們正在執(zhí)行或參與的動(dòng)作進(jìn)行參考。這使得 RVOS比RIS復(fù)雜得多，因?yàn)閰⒖紕?dòng)作的文本表達(dá)通常無(wú)法從單個(gè)靜態(tài)幀中推導(dǎo)出來(lái)。

此外，與基于圖像的 RIS 不同，RVOS 方法可能還需要跨多個(gè)幀（即跟蹤）來(lái)建立參考對(duì)象的數(shù)據(jù)關(guān)聯(lián)，以處理遮擋或運(yùn)動(dòng)模糊這類的干擾。

為了解決這些挑戰(zhàn)，現(xiàn)有 RVOS 方法往往依賴復(fù)雜的 pipeline。在被CVPR 2022接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中，來(lái)自以色列理工學(xué)院的研究者提出了一種簡(jiǎn)單的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer（MTTR ）。

論文地址：https://arxiv.org/pdf/2111.14821.pdf
項(xiàng)目地址：https://github.com/mttr2021/MTTR
Huggingface Spaces Gradio demo：https://huggingface.co/spaces/akhaliq/MTTR

具體地，他們使用MTTR 將任務(wù)建模成序列預(yù)測(cè)問(wèn)題。給定一個(gè)視頻和文本查詢，該模型在確定文本參考的對(duì)象之前為視頻中所有對(duì)象生成預(yù)測(cè)序列。并且，他們的方法不需要與文本相關(guān)的歸納偏置模塊，利用簡(jiǎn)單的交叉熵?fù)p失對(duì)齊視頻和文本。因此，該方法相比以往簡(jiǎn)單的多。

研究者提出的pipeline示意圖如下所示。首先使用標(biāo)準(zhǔn)的Transformer文本編碼器從文本查詢中提取語(yǔ)言特征，使用時(shí)空編碼器從視頻幀中提取視覺(jué)特征。接著將這些特征傳遞給多模態(tài) Transformer 以輸出幾個(gè)對(duì)象預(yù)測(cè)序列。然后為了確定哪個(gè)預(yù)測(cè)序列能夠最好地對(duì)應(yīng)參考對(duì)象，研究者計(jì)算了每個(gè)序列的文本參考分?jǐn)?shù)。為此，他們還提出了一種時(shí)序分割voting方案，使模型在做出決策時(shí)專注于最相關(guān)的部分。

從實(shí)驗(yàn)結(jié)果來(lái)看，MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數(shù)據(jù)集上分別實(shí)現(xiàn)了+5.7和+5.0的mAP增益，同時(shí)每秒能夠處理76幀。

研究者還展示了一系列不同對(duì)象之間的實(shí)際分割效果，如下穿白色T恤和藍(lán)色短褲的沖浪者（淡黃色沖浪板）。

又如嬉戲玩鬧的大小猩猩。

網(wǎng)友對(duì)這項(xiàng)研究展示的視頻對(duì)象分割效果贊不絕口。有人表示，即使在重疊的對(duì)象上，分割效果也很有效。

方法介紹

任務(wù)定義。RVOS 的輸入為幀序列

，其中

；文本查詢?yōu)?/span>

，這里t_i是文本中的第i個(gè)單詞；大小為

的感興趣幀的子集為

，目標(biāo)是在每一幀

中分割對(duì)象

。

特征提取。該研究首先使用深度時(shí)空編碼器從序列 V 中的每一幀中提取特征。同時(shí)使用基于 Transformer 的文本編碼器從文本查詢 T 中提取語(yǔ)言特征。然后，將空間-時(shí)間和語(yǔ)言特征線性投影到共享維度 D。

實(shí)例預(yù)測(cè)。之后，感興趣的幀特征被平化（flattened）并與文本嵌入分開(kāi)連接，產(chǎn)生一組T_I多模態(tài)序列，這些序列被并行饋送到 Transformer。在 Transformer 的編碼器層中，文本嵌入和每幀的視覺(jué)特征交換信息。然后，解碼器層對(duì)每個(gè)輸入幀提供N_q對(duì)象查詢，查詢與實(shí)體相關(guān)的多模態(tài)序列，并將其存儲(chǔ)在對(duì)象查詢中。該研究將這些查詢（在圖 1 和圖 2 中由相同的唯一顏色和形狀表示）稱為屬于同一實(shí)例序列的查詢。這種設(shè)計(jì)允許自然跟蹤視頻中的每個(gè)對(duì)象實(shí)例。

輸出生成。Transformer 輸出的每個(gè)實(shí)例序列，將會(huì)生成一個(gè)對(duì)應(yīng)的掩碼序列。為了實(shí)現(xiàn)這一點(diǎn)，該研究使用了類似 FPN 的空間解碼器和動(dòng)態(tài)生成的條件卷積核。最后，該研究使用文本參考評(píng)分函數(shù)（text-reference score function），該函數(shù)基于掩碼和文本關(guān)聯(lián)，以確定哪個(gè)對(duì)象查詢序列與 T 中描述的對(duì)象具有最強(qiáng)的關(guān)聯(lián)，并將其分割序列作為模型的預(yù)測(cè)返回。

時(shí)間編碼器。適合 RVOS 任務(wù)的時(shí)間編碼器應(yīng)該能夠?yàn)橐曨l中的每個(gè)實(shí)例提取視覺(jué)特征（例如，形狀、大小、位置）和動(dòng)作語(yǔ)義。相比之下，該研究使用端到端方法，不需要任何額外的掩碼細(xì)化步驟，并使用單個(gè)主干就可完成。最近，研究者提出了 Video Swin Transformer [27] 作為 Swin Transformer 對(duì)視頻領(lǐng)域的泛化。最初的 Swin 在設(shè)計(jì)時(shí)考慮了密集預(yù)測(cè)（例如分割）， Video Swin 在動(dòng)作識(shí)別基準(zhǔn)上進(jìn)行了大量測(cè)試。

據(jù)了解，該研究是第一個(gè)使用Video Swin （稍作修改）進(jìn)行視頻分割的。與 I3D 不同，Video Swin 僅包含一個(gè)時(shí)間下采樣層，并且研究者可以輕松修改以輸出每幀特征圖。因此，Video Swin是處理完整的連續(xù)視頻幀序列以進(jìn)行分割的更好選擇。

實(shí)例分割過(guò)程

實(shí)例分割過(guò)程如圖 2 所示。

首先，給定 F_E，即最后一個(gè) Transformer 編碼器層輸出的更新后的多模態(tài)序列，該研究提取每個(gè)序列的視頻相關(guān)部分（即第一個(gè) H × W token）并重塑為集合

。然后，該研究采用時(shí)間編碼器的前 n ? 1 個(gè)塊的輸出

，并使用類似 FPN 的 [21] 空間解碼器 G_Seg 將它們與

分層融合。這個(gè)過(guò)程產(chǎn)生了視頻幀的語(yǔ)義豐富、高分辨率的特征圖，表示為 F_Seg。

?
接下來(lái)，對(duì)于 Transformer 解碼器輸出的每個(gè)實(shí)例序列

，該研究使用兩層感知器 G_kernel 生成相應(yīng)的條件分割核序列。

最后，通過(guò)將每個(gè)分割核與其對(duì)應(yīng)的幀特征進(jìn)行卷積，為

生成一系列分割掩碼 M，然后進(jìn)行雙線性上采樣操作以將掩碼大小調(diào)整為真實(shí)分辨率

實(shí)驗(yàn)

該研究在A2D-Sentences數(shù)據(jù)集上將MTTR與SOAT方法進(jìn)行比較。結(jié)果如表 1所示，該方法在所有指標(biāo)上都顯著優(yōu)于所有現(xiàn)有方法。

例如，該模型比當(dāng)前SOTA模型提高了 4.3 mAP ，這證明了MTTR能夠生成高質(zhì)量的掩碼。該研究還注意到，與當(dāng)前SOTA技術(shù)相比，頂級(jí)配置（w = 10）的MTTR實(shí)現(xiàn)了 5.7 的 mAP 提高和 6.7% 的平均 IoU 和總體 IoU 的絕對(duì)改進(jìn)。值得一提的是，這種配置能夠在單個(gè) RTX 3090 GPU 上每秒處理 76 幀的同時(shí)做到這一點(diǎn)。

按照之前的方法 [11, 24]，該研究通過(guò)在沒(méi)有微調(diào)的 JHMDBSentences 上評(píng)估模型的泛化能力。該研究從每個(gè)視頻中統(tǒng)一采樣三幀，并在這些幀上評(píng)估模型。如表2所示，MTTR方法具有很好的泛化性并且優(yōu)于所有現(xiàn)有方法。

?
表3報(bào)告了在Refer-YouTube-VOS公共驗(yàn)證集上的結(jié)果。與現(xiàn)有方法[24,37]相比，這些方法是在完整數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估的，盡管該研究模型在較少的數(shù)據(jù)上進(jìn)行訓(xùn)練，并專門(mén)在一個(gè)更具挑戰(zhàn)性的子集上進(jìn)行評(píng)估，但MTTR在所有指標(biāo)上都表現(xiàn)出了卓越的性能。

如圖 3 所示，MTTR 可以成功地跟蹤和分割文本參考對(duì)象，即使在具有挑戰(zhàn)性的情況下，它們被類似實(shí)例包圍、被遮擋或在視頻的廣泛部分中完全超出相機(jī)的視野。

參考鏈接：https://www.reddit.com/r/MachineLearning/comments/t7qe6b/r_endtoend_referring_video_object_segmentation/

努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺(jué)相關(guān)內(nèi)容，歡迎關(guān)注：

交流群

歡迎加入公眾號(hào)讀者群一起和同行交流，目前有美顏、三維視覺(jué)、計(jì)算攝影、檢測(cè)、分割、識(shí)別、NeRF、GAN、算法競(jìng)賽等微信群

個(gè)人微信（如果沒(méi)有備注不拉群！）
請(qǐng)注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



下載1：何愷明頂會(huì)分享

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：終身受益的編程指南：Google編程風(fēng)格指南

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：c++，即可下載。歷經(jīng)十年考驗(yàn)，最權(quán)威的編程規(guī)范！


下載3 CVPR2021

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：CVPR，即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

CVPR2022 | 多模態(tài)Transformer用于視頻分割效果驚艷

方法介紹

實(shí)例分割過(guò)程

實(shí)驗(yàn)