點擊上方 “視學(xué)算法 ”,選擇加" 星標(biāo) "或“ 置頂 ”
重磅干貨,第一時間送達(dá)
本文首發(fā)極市平臺公眾號, 轉(zhuǎn)載請獲得授權(quán)并標(biāo)明出處。 極市平臺一直在對CVPR 2022的論文進行分方向的整理,目前已累計更新了535篇,本文為最新的CVPR 2022 Oral 論文,包含目標(biāo)檢測、圖像處理等方向,附打包下載鏈接。?
CVPR 2022 已經(jīng)放榜,本次一共有2067篇論文被接收,接收論文數(shù)量相比去年增長了24%。在CVPR2022正式會議召開前,為了讓大家更快地獲取和學(xué)習(xí)到計算機視覺前沿技術(shù),極市對CVPR022 最新論文進行追蹤,包括分研究方向的論文、代碼匯總以及論文技術(shù)直播分享。 CVPR 2022 論文分方向整理目前在極市社區(qū)持續(xù)更新中,已累計更新了535 篇,項目地址:https://www.cvmart.net/community/detail/6124 【1】Marginal Contrastive Correspondence for Guided Image Generationpaper:https://arxiv.org/abs/2204.00442 基于示例的圖像翻譯在條件輸入和示例(來自兩個不同的域)之間建立了密集的對應(yīng)關(guān)系,以利用詳細(xì)的示例樣式來實現(xiàn)逼真的圖像翻譯。現(xiàn)有工作通過最小化兩個域之間的特征距離來隱式地建立跨域?qū)?yīng)關(guān)系。如果沒有明確利用域不變特征,這種方法可能無法有效地減少域間隙,這通常會導(dǎo)致次優(yōu)的對應(yīng)和圖像翻譯。 本文設(shè)計了一個邊際對比學(xué)習(xí)網(wǎng)絡(luò)(MCL-Net),它通過對比學(xué)習(xí)來學(xué)習(xí)領(lǐng)域不變的特征,以此進行基于真實示例的圖像翻譯。具體來說,作者設(shè)計了一種創(chuàng)新的邊際對比損失,指導(dǎo)明確地建立密集對應(yīng)。然而,僅與域不變語義建立對應(yīng)關(guān)系可能會損害紋理模式并導(dǎo)致紋理生成質(zhì)量下降。因此,作者設(shè)計了一個自相關(guān)圖(SCM),它結(jié)合了場景結(jié)構(gòu)作為輔助信息,大大改善了構(gòu)建的對應(yīng)關(guān)系。對各種圖像翻譯任務(wù)的定量和定性實驗表明,所提出的方法始終優(yōu)于最先進的方法。 【2】TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Countingpaper:https://arxiv.org/abs/2204.01018 dataset:https://svip-lab.github.io/dataset/RepCount_dataset.html code:https://github.com/SvipRepetitionCounting/TransRAC
計算重復(fù)動作在體育鍛煉等人類活動中很常見。現(xiàn)有方法側(cè)重于在短視頻中執(zhí)行重復(fù)動作計數(shù),這對于在真實的場景中處理更長的視頻是很困難的。在數(shù)據(jù)驅(qū)的時代,這種泛化能力的退化主要歸因于缺乏長視頻數(shù)據(jù)集。 因此,本文構(gòu)建了一個新的大規(guī)模重復(fù)動作計數(shù)數(shù)據(jù)集,涵蓋了各種視頻長度,以及視頻中出現(xiàn)動作中斷或動作不一致等更現(xiàn)實的情況。此外,作者還提供了動作周期的細(xì)粒度標(biāo)簽,而不是僅僅計算注釋和數(shù)值。這一數(shù)據(jù)集包含 1,451 個視頻和大約 20,000 個標(biāo)注 。對于更現(xiàn)實場景的重復(fù)動作,作者建議使用可以同時考慮性能和效率的Transformer編碼多尺度時間相關(guān)性。此外,在動作周期的細(xì)粒度注釋的幫助下,本文提出了一種基于密度圖回歸的方法來預(yù)測動作周期,從而產(chǎn)生更好的性能和足夠的可解釋性。 【3】Learning Part Segmentation through Unsupervised Domain Adaptation from Synthetic Vehiclespaper:https://arxiv.org/abs/2103.14098 dataset:https://qliu24.github.io/udapart 局部分割提供了對象的豐富而詳細(xì)的局部級描述。然而,局部分割的注釋需要大量的工作,這使得很難使用標(biāo)準(zhǔn)的深度學(xué)習(xí)方法。在本文中,作者提出了通過合成數(shù)據(jù)中的無監(jiān)督域適應(yīng) (UDA) 來學(xué)習(xí)局部分割 的想法。本文首先介紹了 UDA-Part,這是一個全面的車輛局部分割數(shù)據(jù)集,可以作為 UDA1 的基準(zhǔn)。在 UDA-Part 中,作者在 3D CAD 模型上標(biāo)注局部,來生成大量帶注釋的合成圖像。本文還在許多真實圖像上標(biāo)注局部來提供真實的測試集。其次,為了推進從合成數(shù)據(jù)訓(xùn)練的局部模型對真實圖像的適應(yīng),作者引入了一種新的 UDA 算法,該算法利用對象的空間結(jié)構(gòu)來指導(dǎo)適應(yīng)過程。本文在兩個真實測試數(shù)據(jù)集上的實驗結(jié)果證實了我們的方法優(yōu)于現(xiàn)有工作,并證明了從合成數(shù)據(jù)中學(xué)習(xí)一般對象的局部分割的前景。 【4】Semantic-Aware Domain Generalized Segmentationpaper:https://arxiv.org/abs/2204.00822 code:https://github.com/leolyj/SAN-SAW 當(dāng)在具有不同數(shù)據(jù)分布的看不見的目標(biāo)域上進行評估時,在源域上訓(xùn)練的深度模型缺乏泛化性。當(dāng)我們無法訪問目標(biāo)域樣本進行適應(yīng)時,問題變得更加突出。在本文中,作者解決了域泛化語義分割問題,其中分割模型被訓(xùn)練為域不變,而不使用任何目標(biāo)域數(shù)據(jù)。解決此問題的現(xiàn)有方法將數(shù)據(jù)標(biāo)準(zhǔn)化為統(tǒng)一分布。作者認(rèn)為,雖然這樣的標(biāo)準(zhǔn)化促進了全局標(biāo)準(zhǔn)化,但由此產(chǎn)生的特征沒有足夠的辨別力來獲得清晰的分割邊界。 為了增強類別之間的分離,同時促進域不變性,本文提出了一個框架,包括兩個新模塊:語義感知標(biāo)準(zhǔn)化(SAN)和語義感知白化(SAW)。具體來說,SAN 專注于來自不同圖像風(fēng)格的特征之間的類別級中心對齊,而 SAW 對已經(jīng)中心對齊的特征強制執(zhí)行分布式對齊。在 SAN 和 SAW 的幫助下,促進類別內(nèi)的緊湊性和類別間的可分離性。 【5】Revisiting Skeleton-based Action Recognitionpaper:https://arxiv.org/abs/2104.13586 code:https://github.com/kennymckormick/pyskl 人體骨骼作為人類動作的重要特征,近年來受到越來越多的關(guān)注。許多基于骨骼的動作識別方法采用 GCN 在人體骨骼上提取特征。盡管這些嘗試獲得了積極的結(jié)果,但基于 GCN 的方法在魯棒性、互操作性和可擴展性方面受到限制。 這項工作提出了 PoseConv3D,一種基于骨架的動作識別的新方法。PoseConv3D 依賴于 3D 熱圖體積而不是圖形序列作為人體骨骼的基本表示。與基于 GCN 的方法相比,PoseConv3D 在學(xué)習(xí)時空特征方面更有效,對姿態(tài)估計噪聲更魯棒,并且在跨數(shù)據(jù)集中泛化效果更好 。此外,PoseConv3D 可以處理多人場景而無需額外的計算成本。分層特征可以在早期融合階段輕松地與其他模式集成,為提高性能提供了巨大的設(shè)計空間。PoseConv3D 在六個標(biāo)準(zhǔn)的基于骨架的動作識別基準(zhǔn)中的五個上達(dá)到了最先進的水平。一旦與其他模態(tài)融合,它在所有八個多模態(tài)動作識別基準(zhǔn)上都達(dá)到了最先進的水平。 【6】MAXIM: Multi-Axis MLP for Image Processingpapar:https://arxiv.org/abs/2201.02973 code:https://github.com/google-research/maxim 006C3FgEgy1h12cmurshpj31ba0gkdpc Transformers 和多層感知器 (MLP) 模型的最新進展為計算機視覺任務(wù)提供了新的網(wǎng)絡(luò)架構(gòu)設(shè)計。盡管這些模型在圖像識別等許多視覺任務(wù)中被證明是有效的,但在將它們用于底層視覺方面仍然存在挑戰(zhàn)。支持高分辨率圖像的不靈活性和局部注意力的限制可能是主要瓶頸。 本文提出了一種基于多軸 MLP 的架構(gòu),稱為 MAXIM,它可以作為圖像處理任務(wù)的高效靈活的通用視覺骨干 。MAXIM 使用 UNet 形層次結(jié)構(gòu)并支持由空間門控 MLP 實現(xiàn)的遠(yuǎn)程交互。具體來說,MAXIM 包含兩個基于 MLP 的構(gòu)建塊:一個多軸門控 MLP,允許對局部和全局視覺線索進行有效和可擴展的空間混合,以及一個交叉門控塊,它是交叉注意力的替代方案,它解釋了用于交叉特征調(diào)節(jié)。這兩個模塊都完全基于 MLP,但也受益于全局和“完全卷積”,這是圖像處理所需的兩個屬性。實驗結(jié)果表明,所提出的 MAXIM 模型在一系列圖像處理任務(wù)(包括去噪、去模糊、去雨、去霧和增強)的十多個基準(zhǔn)上實現(xiàn)了最先進的性能。 【7】Rethinking Minimal Sufficient Representation in Contrastive Learningpaper:https://arxiv.org/abs/2203.07004 code:https://github.com/Haoqing-Wang/InfoCL 不同數(shù)據(jù)視圖之間的對比學(xué)習(xí)在自監(jiān)督表示學(xué)習(xí)領(lǐng)域取得了顯著成功,并且學(xué)習(xí)的表示在廣泛的下游任務(wù)中很有用。由于一個視圖的所有監(jiān)督信息都來自另一個視圖,因此對比學(xué)習(xí)近似地獲得了包含共享信息的最小充分表示,并消除了視圖之間的非共享信息。考慮到下游任務(wù)的多樣性,不能保證所有與任務(wù)相關(guān)的信息在視圖之間共享。因此,作者假設(shè)不能忽略非共享任務(wù)相關(guān)信息,并從理論上證明對比學(xué)習(xí)中的最小充分表示不足以滿足下游任務(wù),從而導(dǎo)致性能下降。這揭示了一個新問題,即對比學(xué)習(xí)模型存在過度擬合視圖之間共享信息的風(fēng)險 。為了緩解這個問題,作者建議增加表示和輸入之間的互信息作為正則化,以近似引入更多與任務(wù)相關(guān)的信息,因為在訓(xùn)練期間不能利用任何下游任務(wù)信息。大量的實驗驗證了本文分析的合理性以及方法的有效性。它顯著提高了幾種經(jīng)典對比學(xué)習(xí)模型在下游任務(wù)中的性能。 【8】 I M Avatar: Implicit Morphable Head Avatars from Videospaper:https://arxiv.org/abs/2112.07471 project:https://ait.ethz.ch/projects/2022/IMavatar/ 傳統(tǒng)的 3D 可變形人臉模型 (3DMM) 提供了對表情的細(xì)粒度控制,但無法輕松捕獲幾何和外觀細(xì)節(jié)。神經(jīng)體積表示接近真實感,但難以動畫化并且不能很好地推廣到看不見的表達(dá)。 為了解決這個問題,本文提出了 IMavatar(隱式可變形化身),這是一種從單目視頻中學(xué)習(xí)隱式頭部化身的新方法。受傳統(tǒng) 3DMM 提供的細(xì)粒度控制機制的啟發(fā),作者通過學(xué)習(xí)的混合形狀和蒙皮字段來表示與表情和姿勢相關(guān)的變形。這些屬性與姿勢無關(guān),可用于在給定新的表達(dá)式和姿勢參數(shù)的情況下變形規(guī)范幾何和紋理場。本文采用光線行進和迭代尋根來定位每個像素的規(guī)范表面交點。本文關(guān)鍵貢獻(xiàn)是新穎的梯度分析公式 ,它可以從視頻中對 IMavatar 進行端到端訓(xùn)練。定量和定性結(jié)果表明,與最先進的方法相比,本文方法改進了幾何結(jié)構(gòu)并覆蓋了更完整的表達(dá)空間。 【9】Parameter-free Online Test-time Adaptationpaper:https://arxiv.org/abs/2201.05718 code:https://github.com/fiveai/LAME 對于研究人員和從業(yè)者來說,訓(xùn)練最先進的視覺模型已經(jīng)變得非常昂貴。為了可訪問性和資源重用,需要重點關(guān)注這些模型在各種下游場景的適應(yīng)性。一個有趣且實用的范例是在線測試時間適應(yīng),根據(jù)該范式,無法訪問訓(xùn)練數(shù)據(jù),沒有來自測試分布的標(biāo)記數(shù)據(jù)可用,并且適應(yīng)只能在測試時間和少數(shù)樣本上發(fā)生。 本文研究了測試時適應(yīng)方法如何在各種現(xiàn)實世界場景中對許多預(yù)訓(xùn)練模型產(chǎn)生影響,顯著擴展了它們最初的評估方式。作者表明,它們僅在狹義的實驗設(shè)置中表現(xiàn)良好,并且當(dāng)它們的超參數(shù)沒有被選擇用于測試它們的相同場景時,它們有時會發(fā)生災(zāi)難性的失敗。受測試時最終會遇到的條件的固有不確定性的啟發(fā),本文提出了一種特別“保守”的方法,該方法通過拉普拉斯調(diào)整最大似然估計 (LAME) 目標(biāo)來解決問題。通過調(diào)整模型的輸出(而不是其參數(shù)),并通過有效的凹凸程序解決目標(biāo)。本文方法在各種場景中表現(xiàn)出比現(xiàn)有方法高得多的平均準(zhǔn)確度,同時顯著更快并且具有更低的內(nèi)存占用。 【10】Correlation Verification for Image Retrievalpaper:https://arxiv.org/abs/2204.01458 code:https://github.com/sungonce/CVNet 幾何驗證被認(rèn)為是圖像檢索中重新排序任務(wù)的解決方案。在這項研究中,作者提出了一種名為 Correlation Verification Networks (CVNet) 的新型圖像檢索重新排序網(wǎng)絡(luò)。本文提出的網(wǎng)絡(luò)由深度堆疊的 4D 卷積層組成,逐漸將密集的特征相關(guān)性壓縮為圖像相似性,同時從各種圖像對中學(xué)習(xí)不同的幾何匹配模式。為了實現(xiàn)跨尺度匹配,它構(gòu)建了特征金字塔,并在單個推理中構(gòu)建了跨尺度特征相關(guān)性,取代了昂貴的多尺度推理。此外,我們使用課程學(xué)習(xí)與難負(fù)挖掘和隱藏策略來處理難樣本而不失一般性。 【11】Rethinking Semantic Segmentation: A Prototype Viewpaper:https://arxiv.org/abs/2203.15102 code:https://github.com/tfzhou/ProtoSeg 近期流行的語義分割解決方案盡管有不同的網(wǎng)絡(luò)設(shè)計(基于 FCN 或基于注意力)和掩碼解碼策略(基于參數(shù) softmax 或基于像素查詢),但可以通過將 softmax 權(quán)重或查詢向量視為一類可學(xué)習(xí)的類原型。鑒于這種原型觀點,本研究揭示了這種參數(shù)分割方案的幾個局限性,并提出了一種基于不可學(xué)習(xí)原型的非參數(shù)替代方案。 本文的模型不是過去以完全參數(shù)化的方式為每個類學(xué)習(xí)單個權(quán)重/查詢向量的方法,而是將每個類表示為一組不可學(xué)習(xí)的原型,僅依賴于其中幾個訓(xùn)練像素的平均特征類型。因此,密集預(yù)測是通過非參數(shù)最近原型檢索來實現(xiàn)的。這允許本文模型通過優(yōu)化嵌入像素和錨定原型之間的排列來直接塑造像素嵌入空間。它能夠處理具有恒定數(shù)量可學(xué)習(xí)參數(shù)的任意數(shù)量的類。憑經(jīng)驗證明,使用基于 FCN 和基于注意力的分割模型(即 HR-Net、Swin、SegFormer)和主干網(wǎng)絡(luò)(即 ResNet、HRNet、 Swin, MiT),本文的非參數(shù)框架在多個數(shù)據(jù)集上產(chǎn)生了令人信服的結(jié)果。 【12】SNUG: Self-Supervised Neural Dynamic Garmentspaper:https://arxiv.org/abs/2204.02219 project:http://mslab.es/projects/SNUG/ 本文提出了一種我監(jiān)督的方法,來學(xué)習(xí)參數(shù)人體所穿服裝的動態(tài) 3D 變形。最先進的 3D 服裝變形模型數(shù)據(jù)驅(qū)動方法,是使用需要大型數(shù)據(jù)集的監(jiān)督策略進行訓(xùn)練的,這些數(shù)據(jù)集往往通過昂貴的基于物理的模擬方法或?qū)I(yè)的多攝像頭捕獲設(shè)置獲得。相比之下,本文提出了一種新的訓(xùn)練方案,去除了對真實樣本的需求,實現(xiàn)了動態(tài) 3D 服裝變形的自監(jiān)督訓(xùn)練 。 本文主要貢獻(xiàn)是認(rèn)識到傳統(tǒng)上由隱式積分器逐幀求解的基于物理的變形模型可以重鑄為優(yōu)化問題。作者利用這種基于優(yōu)化的方案來制定一組基于物理的損失項,可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),而無需預(yù)先計算真實數(shù)據(jù),這使我們能夠?qū)W習(xí)交互式服裝的模型,包括動態(tài)變形和細(xì)皺紋。 【13】SelfRecon: Self Reconstruction Your Digital Avatar from Monocular Videopaper:https://arxiv.org/abs/2201.12792 code:https://github.com/jby1993/SelfReconCode 本文提出了一種穿著衣服的人體重建方法 SelfRecon,它結(jié)合了隱式和顯式表示,從單目自旋轉(zhuǎn)人體視頻中恢復(fù)時空相干幾何圖形。顯式方法需要為給定序列預(yù)定義模板網(wǎng)格,而對于特定主題很難獲取模板。同時,固定拓?fù)湎拗屏酥亟ň群头b類型。隱式表示支持任意拓?fù)洌⑶矣捎谄溥B續(xù)性可以表示高保真幾何形狀。然而,很難整合多幀信息來為下游應(yīng)用程序生成一致的注冊序列。作者建議結(jié)合兩種表示的優(yōu)點。利用顯式網(wǎng)格的微分掩模損失來獲得連貫的整體形狀,而隱式表面上的細(xì)節(jié)則通過可微分的神經(jīng)渲染進行細(xì)化。同時,顯式網(wǎng)格會定期更新以調(diào)整其拓?fù)渥兓⒃O(shè)計一致性損失來匹配兩種表示。與現(xiàn)有方法相比,SelfRecon 可以通過自監(jiān)督優(yōu)化為任意穿衣服的人生成高保真表面。廣泛的實驗結(jié)果證明了它對真實捕獲的單目視頻的有效性。 【14】Dual-AI: Dual-path Action Interaction Learning for Group Activity Recognitionpaper:https://arxiv.org/abs/2204.02148 project:https://arxiv.org/pdf/2204.02148 學(xué)習(xí)多個參與者之間的時空關(guān)系對于群體活動識別至關(guān)重要。不同的團體活動往往表現(xiàn)出視頻中演員之間的多樣化互動。因此,通常很難從時空參與者演化的單一視圖中對復(fù)雜的群體活動進行建模。為了解決這個問題,本文提出了一個獨特的雙路徑演員交互(Dual-AI)框架,它以兩個互補的順序靈活地安排空間和時間轉(zhuǎn)換器,通過整合來自不同時空路徑的優(yōu)點來增強演員關(guān)系。此外,在 Dual-AI 的兩條交互路徑之間引入了一種新穎的多尺度 Actor 對比損失(MAC-Loss)。通過幀和視頻級別的自監(jiān)督演員一致性,MAC-Loss 可以有效地區(qū)分個體演員表示,以減少不同演員之間的動作混淆。因此,Dual-AI 可以通過融合不同參與者的這種區(qū)分特征來提高群體活動識別。 【15】3D Common Corruptions and Data Augmentationpaper:https://arxiv.org/abs/2203.01441 project:https://3dcommoncorruptions.epfl.ch/ 本文引入了一組圖像轉(zhuǎn)換,可用作評估模型魯棒性的損壞以及用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強機制。所提出的轉(zhuǎn)換與現(xiàn)有方法在于場景的幾何形狀被納入轉(zhuǎn)換中,從而導(dǎo)致更可能發(fā)生在現(xiàn)實世界中的損壞。此外還引入了一組語義損壞。本文證明了這些轉(zhuǎn)換是“高效的”(可以即時計算)、“可擴展”(可以應(yīng)用于大多數(shù)圖像數(shù)據(jù)集),并暴露了現(xiàn)有模型的脆弱性。 【16】GAN-Supervised Dense Visual Alignmentpaper:https://arxiv.org/abs/2112.05143 code:https://www.github.com/wpeebles/gangealing project:https://www.wpeebles.com/gangealing 本文提出了一個用于學(xué)習(xí)判別模型及其 GAN 生成的訓(xùn)練數(shù)據(jù)端到端聯(lián)合的框架。并將此框架應(yīng)用于密集的視覺對齊問題。受經(jīng)典 Congealing 方法的啟發(fā),GANgealing 算法訓(xùn)練了一個空間Transformer,把來自在未對齊數(shù)據(jù)上訓(xùn)練的 GAN 中的隨機樣本映射到一個常見的聯(lián)合學(xué)習(xí)目標(biāo)模式。文章展示了八個數(shù)據(jù)集的結(jié)果,均證明了本文方法成功地對齊了復(fù)雜的數(shù)據(jù)并發(fā)現(xiàn)了密集的對應(yīng)關(guān)系。GANgealing 顯著優(yōu)于過去的自監(jiān)督對應(yīng)算法,并且在多個數(shù)據(jù)集上的性能與(有時甚至超過)最先進的監(jiān)督對應(yīng)算法相當(dāng)——不使用任何對應(yīng)監(jiān)督或數(shù)據(jù)增強,盡管專門針對 GAN 生成的數(shù)據(jù)進行訓(xùn)練。 【17】It's All In the Teacher: Zero-Shot Quantization Brought Closer to the Teacherpaper:https://arxiv.org/abs/2203.17008 模型量化被認(rèn)為是一種很有前途的方法,可以大大降低深度神經(jīng)網(wǎng)絡(luò)的資源需求。為了應(yīng)對量化誤差導(dǎo)致的性能下降,一種流行的方法是使用訓(xùn)練數(shù)據(jù)對量化網(wǎng)絡(luò)進行微調(diào)。然而,在現(xiàn)實世界環(huán)境中,這種方法通常是不可行的,因為由于安全、隱私或機密性問題,訓(xùn)練數(shù)據(jù)不可用。零樣本量化解決了此類問題,通常通過從全精度教師網(wǎng)絡(luò)的權(quán)重中獲取信息來補償量化網(wǎng)絡(luò)的性能下降。 在本文中,作者首先分析了最先進的零樣本量化技術(shù)的損失面,并提供了一些發(fā)現(xiàn)。與通常的知識蒸餾問題相比,零樣本量化通常存在以下問題:1難以同時優(yōu)化多個損失項,以及由于使用合成樣本,泛化能力較差。此外,作者觀察到許多權(quán)重在訓(xùn)練量化網(wǎng)絡(luò)期間未能跨越舍入閾值,即使有必要這樣做以獲得更好的性能。 基于觀察,本文提出了 AIT,這是一種簡單而強大的零樣本量化技術(shù),它通過以下方式解決上述兩個問題:AIT 僅使用 KL 距離損失而沒有交叉熵?fù)p失,以及操縱梯度以保證在超過舍入閾值后正確更新權(quán)重的某一部分。實驗表明,AIT 大大優(yōu)于許多現(xiàn)有方法的性能。 【18】AdaMixer: A Fast-Converging Query-Based Object Detectorpaper:https://arxiv.org/abs/2203.16507 code:https://github.com/MCG-NJU/AdaMixer 傳統(tǒng)的物體檢測器采用密集模式掃描圖像中的位置和尺度。最近基于查詢的對象檢測器通過使用一組可學(xué)習(xí)的查詢解碼圖像特征來打破這一慣例。然而,這種范式仍然存在收斂速度慢、性能有限以及骨干網(wǎng)和解碼器之間額外網(wǎng)絡(luò)的設(shè)計復(fù)雜性的問題。在本文中,我們發(fā)現(xiàn)解決這些問題的關(guān)鍵是解碼器對將查詢轉(zhuǎn)換為不同對象的適應(yīng)性。 因此,本文提出了一種快速收斂的基于查詢的檢測器AdaMixer,在兩個方面提高基于查詢的解碼過程的適應(yīng)性:首先,每個查詢都根據(jù)估計的偏移量自適應(yīng)地對空間和尺度上的特征進行采樣,這使得 AdaMixer 能夠有效地處理對象的連貫區(qū)域。然后,在每個查詢的指導(dǎo)下使用自適應(yīng) MLP-Mixer 動態(tài)解碼這些采樣特征。由于這兩個關(guān)鍵設(shè)計,AdaMixer 享有架構(gòu)簡單性,而不需要密集的注意力編碼器或顯式金字塔網(wǎng)絡(luò)。 【19】Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometrypaper:https://arxiv.org/abs/2112.08177 code:https://github.com/baegwangbin/MaGNet 多視圖深度估計方法通常需要計算多視圖成本量,這會導(dǎo)致巨大的內(nèi)存消耗和緩慢的推理。此外,對于無紋理表面、反射表面和移動物體,多視圖匹配可能會失敗。對于這種故障模式,單視圖深度估計方法通常更可靠。為此,本文提出了 MaGNet,這是一種將單視圖深度概率與多視圖幾何融合的新框架,以提高多視圖深度估計的準(zhǔn)確性、魯棒性和效率。對于每一幀,MaGNet 估計一個單視圖深度概率分布,參數(shù)化為像素級高斯分布。然后使用為參考幀估計的分布來對每個像素的深度候選進行采樣。這種概率采樣使網(wǎng)絡(luò)能夠在評估更少的深度候選時獲得更高的準(zhǔn)確度。本文還提出了多視圖匹配分?jǐn)?shù)的深度一致性加權(quán),以確保多視圖深度與單視圖預(yù)測一致。 【20】 What to look at and where: Semantic and Spatial Refined Transformer for detecting human-object interactionspaper:https://arxiv.org/abs/2204.00746 我們提出了一種新穎的基于 Transformer 的語義和空間精煉Transformer (SSRT) 來解決人與對象交互檢測任務(wù),該任務(wù)需要定位人和對象,并預(yù)測它們的交互。與以前的基于 Transformer 的 HOI 方法不同,這些方法主要側(cè)重于改進解碼器輸出的設(shè)計以進行最終檢測,SSRT 引入了兩個新模塊來幫助選擇圖像中最相關(guān)的對象-動作對并優(yōu)化查詢。使用豐富的語義和空間特征表示。