<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一文看盡 CVPR 2022 最新 20 篇 Oral 論文

          共 9799字,需瀏覽 20分鐘

           ·

          2022-04-13 01:13

          來源:極市平臺(tái)

          導(dǎo)讀

          ?

          極市平臺(tái)一直在對(duì)CVPR 2022的論文進(jìn)行分方向的整理,目前已累計(jì)更新了535篇,本文為最新的CVPR 2022 Oral 論文,包含目標(biāo)檢測(cè)、圖像處理等方向,附打包下載鏈接。

          CVPR 2022 已經(jīng)放榜,本次一共有2067篇論文被接收,接收論文數(shù)量相比去年增長了24%。

          【1】Marginal Contrastive Correspondence for Guided Image Generation

          paper:https://arxiv.org/abs/2204.00442

          基于示例的圖像翻譯在條件輸入和示例(來自兩個(gè)不同的域)之間建立了密集的對(duì)應(yīng)關(guān)系,以利用詳細(xì)的示例樣式來實(shí)現(xiàn)逼真的圖像翻譯。現(xiàn)有工作通過最小化兩個(gè)域之間的特征距離來隱式地建立跨域?qū)?yīng)關(guān)系。如果沒有明確利用域不變特征,這種方法可能無法有效地減少域間隙,這通常會(huì)導(dǎo)致次優(yōu)的對(duì)應(yīng)和圖像翻譯。
          本文設(shè)計(jì)了一個(gè)邊際對(duì)比學(xué)習(xí)網(wǎng)絡(luò)(MCL-Net),它通過對(duì)比學(xué)習(xí)來學(xué)習(xí)領(lǐng)域不變的特征,以此進(jìn)行基于真實(shí)示例的圖像翻譯。具體來說,作者設(shè)計(jì)了一種創(chuàng)新的邊際對(duì)比損失,指導(dǎo)明確地建立密集對(duì)應(yīng)。然而,僅與域不變語義建立對(duì)應(yīng)關(guān)系可能會(huì)損害紋理模式并導(dǎo)致紋理生成質(zhì)量下降。因此,作者設(shè)計(jì)了一個(gè)自相關(guān)圖(SCM),它結(jié)合了場(chǎng)景結(jié)構(gòu)作為輔助信息,大大改善了構(gòu)建的對(duì)應(yīng)關(guān)系。對(duì)各種圖像翻譯任務(wù)的定量和定性實(shí)驗(yàn)表明,所提出的方法始終優(yōu)于最先進(jìn)的方法。

          【2】TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting

          paper:https://arxiv.org/abs/2204.01018
          dataset:https://svip-lab.github.io/dataset/RepCount_dataset.html
          code:https://github.com/SvipRepetitionCounting/TransRAC

          計(jì)算重復(fù)動(dòng)作在體育鍛煉等人類活動(dòng)中很常見。現(xiàn)有方法側(cè)重于在短視頻中執(zhí)行重復(fù)動(dòng)作計(jì)數(shù),這對(duì)于在真實(shí)的場(chǎng)景中處理更長的視頻是很困難的。在數(shù)據(jù)驅(qū)的時(shí)代,這種泛化能力的退化主要?dú)w因于缺乏長視頻數(shù)據(jù)集。
          因此,本文構(gòu)建了一個(gè)新的大規(guī)模重復(fù)動(dòng)作計(jì)數(shù)數(shù)據(jù)集,涵蓋了各種視頻長度,以及視頻中出現(xiàn)動(dòng)作中斷或動(dòng)作不一致等更現(xiàn)實(shí)的情況。此外,作者還提供了動(dòng)作周期的細(xì)粒度標(biāo)簽,而不是僅僅計(jì)算注釋和數(shù)值。這一數(shù)據(jù)集包含 1,451 個(gè)視頻和大約 20,000 個(gè)標(biāo)注。對(duì)于更現(xiàn)實(shí)場(chǎng)景的重復(fù)動(dòng)作,作者建議使用可以同時(shí)考慮性能和效率的Transformer編碼多尺度時(shí)間相關(guān)性。此外,在動(dòng)作周期的細(xì)粒度注釋的幫助下,本文提出了一種基于密度圖回歸的方法來預(yù)測(cè)動(dòng)作周期,從而產(chǎn)生更好的性能和足夠的可解釋性。

          【3】Learning Part Segmentation through Unsupervised Domain Adaptation from Synthetic Vehicles

          paper:https://arxiv.org/abs/2103.14098
          dataset:https://qliu24.github.io/udapart

          局部分割提供了對(duì)象的豐富而詳細(xì)的局部級(jí)描述。然而,局部分割的注釋需要大量的工作,這使得很難使用標(biāo)準(zhǔn)的深度學(xué)習(xí)方法。在本文中,作者提出了通過合成數(shù)據(jù)中的無監(jiān)督域適應(yīng) (UDA) 來學(xué)習(xí)局部分割的想法。本文首先介紹了 UDA-Part,這是一個(gè)全面的車輛局部分割數(shù)據(jù)集,可以作為 UDA1 的基準(zhǔn)。在 UDA-Part 中,作者在 3D CAD 模型上標(biāo)注局部,來生成大量帶注釋的合成圖像。本文還在許多真實(shí)圖像上標(biāo)注局部來提供真實(shí)的測(cè)試集。其次,為了推進(jìn)從合成數(shù)據(jù)訓(xùn)練的局部模型對(duì)真實(shí)圖像的適應(yīng),作者引入了一種新的 UDA 算法,該算法利用對(duì)象的空間結(jié)構(gòu)來指導(dǎo)適應(yīng)過程。本文在兩個(gè)真實(shí)測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證實(shí)了我們的方法優(yōu)于現(xiàn)有工作,并證明了從合成數(shù)據(jù)中學(xué)習(xí)一般對(duì)象的局部分割的前景。

          【4】Semantic-Aware Domain Generalized Segmentation

          paper:https://arxiv.org/abs/2204.00822
          code:https://github.com/leolyj/SAN-SAW

          當(dāng)在具有不同數(shù)據(jù)分布的看不見的目標(biāo)域上進(jìn)行評(píng)估時(shí),在源域上訓(xùn)練的深度模型缺乏泛化性。當(dāng)我們無法訪問目標(biāo)域樣本進(jìn)行適應(yīng)時(shí),問題變得更加突出。在本文中,作者解決了域泛化語義分割問題,其中分割模型被訓(xùn)練為域不變,而不使用任何目標(biāo)域數(shù)據(jù)。解決此問題的現(xiàn)有方法將數(shù)據(jù)標(biāo)準(zhǔn)化為統(tǒng)一分布。作者認(rèn)為,雖然這樣的標(biāo)準(zhǔn)化促進(jìn)了全局標(biāo)準(zhǔn)化,但由此產(chǎn)生的特征沒有足夠的辨別力來獲得清晰的分割邊界。
          為了增強(qiáng)類別之間的分離,同時(shí)促進(jìn)域不變性,本文提出了一個(gè)框架,包括兩個(gè)新模塊:語義感知標(biāo)準(zhǔn)化(SAN)和語義感知白化(SAW)。具體來說,SAN 專注于來自不同圖像風(fēng)格的特征之間的類別級(jí)中心對(duì)齊,而 SAW 對(duì)已經(jīng)中心對(duì)齊的特征強(qiáng)制執(zhí)行分布式對(duì)齊。在 SAN 和 SAW 的幫助下,促進(jìn)類別內(nèi)的緊湊性和類別間的可分離性。

          【5】Revisiting Skeleton-based Action Recognition

          paper:https://arxiv.org/abs/2104.13586
          code:https://github.com/kennymckormick/pyskl

          人體骨骼作為人類動(dòng)作的重要特征,近年來受到越來越多的關(guān)注。許多基于骨骼的動(dòng)作識(shí)別方法采用 GCN 在人體骨骼上提取特征。盡管這些嘗試獲得了積極的結(jié)果,但基于 GCN 的方法在魯棒性、互操作性和可擴(kuò)展性方面受到限制。
          這項(xiàng)工作提出了 PoseConv3D,一種基于骨架的動(dòng)作識(shí)別的新方法。PoseConv3D 依賴于 3D 熱圖體積而不是圖形序列作為人體骨骼的基本表示。與基于 GCN 的方法相比,PoseConv3D 在學(xué)習(xí)時(shí)空特征方面更有效,對(duì)姿態(tài)估計(jì)噪聲更魯棒,并且在跨數(shù)據(jù)集中泛化效果更好。此外,PoseConv3D 可以處理多人場(chǎng)景而無需額外的計(jì)算成本。分層特征可以在早期融合階段輕松地與其他模式集成,為提高性能提供了巨大的設(shè)計(jì)空間。PoseConv3D 在六個(gè)標(biāo)準(zhǔn)的基于骨架的動(dòng)作識(shí)別基準(zhǔn)中的五個(gè)上達(dá)到了最先進(jìn)的水平。一旦與其他模態(tài)融合,它在所有八個(gè)多模態(tài)動(dòng)作識(shí)別基準(zhǔn)上都達(dá)到了最先進(jìn)的水平。

          【6】MAXIM: Multi-Axis MLP for Image Processing

          papar:https://arxiv.org/abs/2201.02973
          code:https://github.com/google-research/maxim

          006C3FgEgy1h12cmurshpj31ba0gkdpc
          Transformers 和多層感知器 (MLP) 模型的最新進(jìn)展為計(jì)算機(jī)視覺任務(wù)提供了新的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。盡管這些模型在圖像識(shí)別等許多視覺任務(wù)中被證明是有效的,但在將它們用于底層視覺方面仍然存在挑戰(zhàn)。支持高分辨率圖像的不靈活性和局部注意力的限制可能是主要瓶頸。
          本文提出了一種基于多軸 MLP 的架構(gòu),稱為 MAXIM,它可以作為圖像處理任務(wù)的高效靈活的通用視覺骨干。MAXIM 使用 UNet 形層次結(jié)構(gòu)并支持由空間門控 MLP 實(shí)現(xiàn)的遠(yuǎn)程交互。具體來說,MAXIM 包含兩個(gè)基于 MLP 的構(gòu)建塊:一個(gè)多軸門控 MLP,允許對(duì)局部和全局視覺線索進(jìn)行有效和可擴(kuò)展的空間混合,以及一個(gè)交叉門控塊,它是交叉注意力的替代方案,它解釋了用于交叉特征調(diào)節(jié)。這兩個(gè)模塊都完全基于 MLP,但也受益于全局和“完全卷積”,這是圖像處理所需的兩個(gè)屬性。實(shí)驗(yàn)結(jié)果表明,所提出的 MAXIM 模型在一系列圖像處理任務(wù)(包括去噪、去模糊、去雨、去霧和增強(qiáng))的十多個(gè)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。

          【7】Rethinking Minimal Sufficient Representation in Contrastive Learning

          paper:https://arxiv.org/abs/2203.07004
          code:https://github.com/Haoqing-Wang/InfoCL

          不同數(shù)據(jù)視圖之間的對(duì)比學(xué)習(xí)在自監(jiān)督表示學(xué)習(xí)領(lǐng)域取得了顯著成功,并且學(xué)習(xí)的表示在廣泛的下游任務(wù)中很有用。由于一個(gè)視圖的所有監(jiān)督信息都來自另一個(gè)視圖,因此對(duì)比學(xué)習(xí)近似地獲得了包含共享信息的最小充分表示,并消除了視圖之間的非共享信息。考慮到下游任務(wù)的多樣性,不能保證所有與任務(wù)相關(guān)的信息在視圖之間共享。因此,作者假設(shè)不能忽略非共享任務(wù)相關(guān)信息,并從理論上證明對(duì)比學(xué)習(xí)中的最小充分表示不足以滿足下游任務(wù),從而導(dǎo)致性能下降。這揭示了一個(gè)新問題,即對(duì)比學(xué)習(xí)模型存在過度擬合視圖之間共享信息的風(fēng)險(xiǎn)。為了緩解這個(gè)問題,作者建議增加表示和輸入之間的互信息作為正則化,以近似引入更多與任務(wù)相關(guān)的信息,因?yàn)樵谟?xùn)練期間不能利用任何下游任務(wù)信息。大量的實(shí)驗(yàn)驗(yàn)證了本文分析的合理性以及方法的有效性。它顯著提高了幾種經(jīng)典對(duì)比學(xué)習(xí)模型在下游任務(wù)中的性能。

          【8】 I M Avatar: Implicit Morphable Head Avatars from Videos

          paper:https://arxiv.org/abs/2112.07471
          project:https://ait.ethz.ch/projects/2022/IMavatar/

          傳統(tǒng)的 3D 可變形人臉模型 (3DMM) 提供了對(duì)表情的細(xì)粒度控制,但無法輕松捕獲幾何和外觀細(xì)節(jié)。神經(jīng)體積表示接近真實(shí)感,但難以動(dòng)畫化并且不能很好地推廣到看不見的表達(dá)。
          為了解決這個(gè)問題,本文提出了 IMavatar(隱式可變形化身),這是一種從單目視頻中學(xué)習(xí)隱式頭部化身的新方法。受傳統(tǒng) 3DMM 提供的細(xì)粒度控制機(jī)制的啟發(fā),作者通過學(xué)習(xí)的混合形狀和蒙皮字段來表示與表情和姿勢(shì)相關(guān)的變形。這些屬性與姿勢(shì)無關(guān),可用于在給定新的表達(dá)式和姿勢(shì)參數(shù)的情況下變形規(guī)范幾何和紋理場(chǎng)。本文采用光線行進(jìn)和迭代尋根來定位每個(gè)像素的規(guī)范表面交點(diǎn)。本文關(guān)鍵貢獻(xiàn)是新穎的梯度分析公式,它可以從視頻中對(duì) IMavatar 進(jìn)行端到端訓(xùn)練。定量和定性結(jié)果表明,與最先進(jìn)的方法相比,本文方法改進(jìn)了幾何結(jié)構(gòu)并覆蓋了更完整的表達(dá)空間。

          【9】Parameter-free Online Test-time Adaptation

          paper:https://arxiv.org/abs/2201.05718
          code:https://github.com/fiveai/LAME

          對(duì)于研究人員和從業(yè)者來說,訓(xùn)練最先進(jìn)的視覺模型已經(jīng)變得非常昂貴。為了可訪問性和資源重用,需要重點(diǎn)關(guān)注這些模型在各種下游場(chǎng)景的適應(yīng)性。一個(gè)有趣且實(shí)用的范例是在線測(cè)試時(shí)間適應(yīng),根據(jù)該范式,無法訪問訓(xùn)練數(shù)據(jù),沒有來自測(cè)試分布的標(biāo)記數(shù)據(jù)可用,并且適應(yīng)只能在測(cè)試時(shí)間和少數(shù)樣本上發(fā)生。
          本文研究了測(cè)試時(shí)適應(yīng)方法如何在各種現(xiàn)實(shí)世界場(chǎng)景中對(duì)許多預(yù)訓(xùn)練模型產(chǎn)生影響,顯著擴(kuò)展了它們最初的評(píng)估方式。作者表明,它們僅在狹義的實(shí)驗(yàn)設(shè)置中表現(xiàn)良好,并且當(dāng)它們的超參數(shù)沒有被選擇用于測(cè)試它們的相同場(chǎng)景時(shí),它們有時(shí)會(huì)發(fā)生災(zāi)難性的失敗。受測(cè)試時(shí)最終會(huì)遇到的條件的固有不確定性的啟發(fā),本文提出了一種特別“保守”的方法,該方法通過拉普拉斯調(diào)整最大似然估計(jì) (LAME) 目標(biāo)來解決問題。通過調(diào)整模型的輸出(而不是其參數(shù)),并通過有效的凹凸程序解決目標(biāo)。本文方法在各種場(chǎng)景中表現(xiàn)出比現(xiàn)有方法高得多的平均準(zhǔn)確度,同時(shí)顯著更快并且具有更低的內(nèi)存占用。

          【10】Correlation Verification for Image Retrieval

          paper:https://arxiv.org/abs/2204.01458
          code:https://github.com/sungonce/CVNet

          幾何驗(yàn)證被認(rèn)為是圖像檢索中重新排序任務(wù)的解決方案。在這項(xiàng)研究中,作者提出了一種名為 Correlation Verification Networks (CVNet) 的新型圖像檢索重新排序網(wǎng)絡(luò)。本文提出的網(wǎng)絡(luò)由深度堆疊的 4D 卷積層組成,逐漸將密集的特征相關(guān)性壓縮為圖像相似性,同時(shí)從各種圖像對(duì)中學(xué)習(xí)不同的幾何匹配模式。為了實(shí)現(xiàn)跨尺度匹配,它構(gòu)建了特征金字塔,并在單個(gè)推理中構(gòu)建了跨尺度特征相關(guān)性,取代了昂貴的多尺度推理。此外,我們使用課程學(xué)習(xí)與難負(fù)挖掘和隱藏策略來處理難樣本而不失一般性。

          【11】Rethinking Semantic Segmentation: A Prototype View

          paper:https://arxiv.org/abs/2203.15102
          code:https://github.com/tfzhou/ProtoSeg

          近期流行的語義分割解決方案盡管有不同的網(wǎng)絡(luò)設(shè)計(jì)(基于 FCN 或基于注意力)和掩碼解碼策略(基于參數(shù) softmax 或基于像素查詢),但可以通過將 softmax 權(quán)重或查詢向量視為一類可學(xué)習(xí)的類原型。鑒于這種原型觀點(diǎn),本研究揭示了這種參數(shù)分割方案的幾個(gè)局限性,并提出了一種基于不可學(xué)習(xí)原型的非參數(shù)替代方案。
          本文的模型不是過去以完全參數(shù)化的方式為每個(gè)類學(xué)習(xí)單個(gè)權(quán)重/查詢向量的方法,而是將每個(gè)類表示為一組不可學(xué)習(xí)的原型,僅依賴于其中幾個(gè)訓(xùn)練像素的平均特征類型。因此,密集預(yù)測(cè)是通過非參數(shù)最近原型檢索來實(shí)現(xiàn)的。這允許本文模型通過優(yōu)化嵌入像素和錨定原型之間的排列來直接塑造像素嵌入空間。它能夠處理具有恒定數(shù)量可學(xué)習(xí)參數(shù)的任意數(shù)量的類。憑經(jīng)驗(yàn)證明,使用基于 FCN 和基于注意力的分割模型(即 HR-Net、Swin、SegFormer)和主干網(wǎng)絡(luò)(即 ResNet、HRNet、 Swin, MiT),本文的非參數(shù)框架在多個(gè)數(shù)據(jù)集上產(chǎn)生了令人信服的結(jié)果。

          【12】SNUG: Self-Supervised Neural Dynamic Garments

          paper:https://arxiv.org/abs/2204.02219
          project:http://mslab.es/projects/SNUG/

          本文提出了一種我監(jiān)督的方法,來學(xué)習(xí)參數(shù)人體所穿服裝的動(dòng)態(tài) 3D 變形。最先進(jìn)的 3D 服裝變形模型數(shù)據(jù)驅(qū)動(dòng)方法,是使用需要大型數(shù)據(jù)集的監(jiān)督策略進(jìn)行訓(xùn)練的,這些數(shù)據(jù)集往往通過昂貴的基于物理的模擬方法或?qū)I(yè)的多攝像頭捕獲設(shè)置獲得。相比之下,本文提出了一種新的訓(xùn)練方案,去除了對(duì)真實(shí)樣本的需求,實(shí)現(xiàn)了動(dòng)態(tài) 3D 服裝變形的自監(jiān)督訓(xùn)練
          本文主要貢獻(xiàn)是認(rèn)識(shí)到傳統(tǒng)上由隱式積分器逐幀求解的基于物理的變形模型可以重鑄為優(yōu)化問題。作者利用這種基于優(yōu)化的方案來制定一組基于物理的損失項(xiàng),可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),而無需預(yù)先計(jì)算真實(shí)數(shù)據(jù),這使我們能夠?qū)W習(xí)交互式服裝的模型,包括動(dòng)態(tài)變形和細(xì)皺紋。

          【13】SelfRecon: Self Reconstruction Your Digital Avatar from Monocular Video

          paper:https://arxiv.org/abs/2201.12792
          code:https://github.com/jby1993/SelfReconCode

          本文提出了一種穿著衣服的人體重建方法 SelfRecon,它結(jié)合了隱式和顯式表示,從單目自旋轉(zhuǎn)人體視頻中恢復(fù)時(shí)空相干幾何圖形。顯式方法需要為給定序列預(yù)定義模板網(wǎng)格,而對(duì)于特定主題很難獲取模板。同時(shí),固定拓?fù)湎拗屏酥亟ň群头b類型。隱式表示支持任意拓?fù)洌⑶矣捎谄溥B續(xù)性可以表示高保真幾何形狀。然而,很難整合多幀信息來為下游應(yīng)用程序生成一致的注冊(cè)序列。作者建議結(jié)合兩種表示的優(yōu)點(diǎn)。利用顯式網(wǎng)格的微分掩模損失來獲得連貫的整體形狀,而隱式表面上的細(xì)節(jié)則通過可微分的神經(jīng)渲染進(jìn)行細(xì)化。同時(shí),顯式網(wǎng)格會(huì)定期更新以調(diào)整其拓?fù)渥兓⒃O(shè)計(jì)一致性損失來匹配兩種表示。與現(xiàn)有方法相比,SelfRecon 可以通過自監(jiān)督優(yōu)化為任意穿衣服的人生成高保真表面。廣泛的實(shí)驗(yàn)結(jié)果證明了它對(duì)真實(shí)捕獲的單目視頻的有效性。

          【14】Dual-AI: Dual-path Action Interaction Learning for Group Activity Recognition

          paper:https://arxiv.org/abs/2204.02148
          project:https://arxiv.org/pdf/2204.02148

          學(xué)習(xí)多個(gè)參與者之間的時(shí)空關(guān)系對(duì)于群體活動(dòng)識(shí)別至關(guān)重要。不同的團(tuán)體活動(dòng)往往表現(xiàn)出視頻中演員之間的多樣化互動(dòng)。因此,通常很難從時(shí)空參與者演化的單一視圖中對(duì)復(fù)雜的群體活動(dòng)進(jìn)行建模。為了解決這個(gè)問題,本文提出了一個(gè)獨(dú)特的雙路徑演員交互(Dual-AI)框架,它以兩個(gè)互補(bǔ)的順序靈活地安排空間和時(shí)間轉(zhuǎn)換器,通過整合來自不同時(shí)空路徑的優(yōu)點(diǎn)來增強(qiáng)演員關(guān)系。此外,在 Dual-AI 的兩條交互路徑之間引入了一種新穎的多尺度 Actor 對(duì)比損失(MAC-Loss)。通過幀和視頻級(jí)別的自監(jiān)督演員一致性,MAC-Loss 可以有效地區(qū)分個(gè)體演員表示,以減少不同演員之間的動(dòng)作混淆。因此,Dual-AI 可以通過融合不同參與者的這種區(qū)分特征來提高群體活動(dòng)識(shí)別。

          【15】3D Common Corruptions and Data Augmentation

          paper:https://arxiv.org/abs/2203.01441
          project:https://3dcommoncorruptions.epfl.ch/

          本文引入了一組圖像轉(zhuǎn)換,可用作評(píng)估模型魯棒性的損壞以及用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)機(jī)制。所提出的轉(zhuǎn)換與現(xiàn)有方法在于場(chǎng)景的幾何形狀被納入轉(zhuǎn)換中,從而導(dǎo)致更可能發(fā)生在現(xiàn)實(shí)世界中的損壞。此外還引入了一組語義損壞。本文證明了這些轉(zhuǎn)換是“高效的”(可以即時(shí)計(jì)算)、“可擴(kuò)展”(可以應(yīng)用于大多數(shù)圖像數(shù)據(jù)集),并暴露了現(xiàn)有模型的脆弱性。

          【16】GAN-Supervised Dense Visual Alignment

          paper:https://arxiv.org/abs/2112.05143
          code:https://www.github.com/wpeebles/gangealing
          project:https://www.wpeebles.com/gangealing

          本文提出了一個(gè)用于學(xué)習(xí)判別模型及其 GAN 生成的訓(xùn)練數(shù)據(jù)端到端聯(lián)合的框架。并將此框架應(yīng)用于密集的視覺對(duì)齊問題。受經(jīng)典 Congealing 方法的啟發(fā),GANgealing 算法訓(xùn)練了一個(gè)空間Transformer,把來自在未對(duì)齊數(shù)據(jù)上訓(xùn)練的 GAN 中的隨機(jī)樣本映射到一個(gè)常見的聯(lián)合學(xué)習(xí)目標(biāo)模式。文章展示了八個(gè)數(shù)據(jù)集的結(jié)果,均證明了本文方法成功地對(duì)齊了復(fù)雜的數(shù)據(jù)并發(fā)現(xiàn)了密集的對(duì)應(yīng)關(guān)系。GANgealing 顯著優(yōu)于過去的自監(jiān)督對(duì)應(yīng)算法,并且在多個(gè)數(shù)據(jù)集上的性能與(有時(shí)甚至超過)最先進(jìn)的監(jiān)督對(duì)應(yīng)算法相當(dāng)——不使用任何對(duì)應(yīng)監(jiān)督或數(shù)據(jù)增強(qiáng),盡管專門針對(duì) GAN 生成的數(shù)據(jù)進(jìn)行訓(xùn)練。

          【17】It's All In the Teacher: Zero-Shot Quantization Brought Closer to the Teacher

          paper:https://arxiv.org/abs/2203.17008

          模型量化被認(rèn)為是一種很有前途的方法,可以大大降低深度神經(jīng)網(wǎng)絡(luò)的資源需求。為了應(yīng)對(duì)量化誤差導(dǎo)致的性能下降,一種流行的方法是使用訓(xùn)練數(shù)據(jù)對(duì)量化網(wǎng)絡(luò)進(jìn)行微調(diào)。然而,在現(xiàn)實(shí)世界環(huán)境中,這種方法通常是不可行的,因?yàn)橛捎诎踩㈦[私或機(jī)密性問題,訓(xùn)練數(shù)據(jù)不可用。零樣本量化解決了此類問題,通常通過從全精度教師網(wǎng)絡(luò)的權(quán)重中獲取信息來補(bǔ)償量化網(wǎng)絡(luò)的性能下降。
          在本文中,作者首先分析了最先進(jìn)的零樣本量化技術(shù)的損失面,并提供了一些發(fā)現(xiàn)。與通常的知識(shí)蒸餾問題相比,零樣本量化通常存在以下問題:1難以同時(shí)優(yōu)化多個(gè)損失項(xiàng),以及由于使用合成樣本,泛化能力較差。此外,作者觀察到許多權(quán)重在訓(xùn)練量化網(wǎng)絡(luò)期間未能跨越舍入閾值,即使有必要這樣做以獲得更好的性能。
          基于觀察,本文提出了 AIT,這是一種簡(jiǎn)單而強(qiáng)大的零樣本量化技術(shù),它通過以下方式解決上述兩個(gè)問題:AIT 僅使用 KL 距離損失而沒有交叉熵?fù)p失,以及操縱梯度以保證在超過舍入閾值后正確更新權(quán)重的某一部分。實(shí)驗(yàn)表明,AIT 大大優(yōu)于許多現(xiàn)有方法的性能。

          【18】AdaMixer: A Fast-Converging Query-Based Object Detector

          paper:https://arxiv.org/abs/2203.16507
          code:https://github.com/MCG-NJU/AdaMixer

          傳統(tǒng)的物體檢測(cè)器采用密集模式掃描圖像中的位置和尺度。最近基于查詢的對(duì)象檢測(cè)器通過使用一組可學(xué)習(xí)的查詢解碼圖像特征來打破這一慣例。然而,這種范式仍然存在收斂速度慢、性能有限以及骨干網(wǎng)和解碼器之間額外網(wǎng)絡(luò)的設(shè)計(jì)復(fù)雜性的問題。在本文中,我們發(fā)現(xiàn)解決這些問題的關(guān)鍵是解碼器對(duì)將查詢轉(zhuǎn)換為不同對(duì)象的適應(yīng)性。
          因此,本文提出了一種快速收斂的基于查詢的檢測(cè)器AdaMixer,在兩個(gè)方面提高基于查詢的解碼過程的適應(yīng)性:首先,每個(gè)查詢都根據(jù)估計(jì)的偏移量自適應(yīng)地對(duì)空間和尺度上的特征進(jìn)行采樣,這使得 AdaMixer 能夠有效地處理對(duì)象的連貫區(qū)域。然后,在每個(gè)查詢的指導(dǎo)下使用自適應(yīng) MLP-Mixer 動(dòng)態(tài)解碼這些采樣特征。由于這兩個(gè)關(guān)鍵設(shè)計(jì),AdaMixer 享有架構(gòu)簡(jiǎn)單性,而不需要密集的注意力編碼器或顯式金字塔網(wǎng)絡(luò)。

          【19】Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry

          paper:https://arxiv.org/abs/2112.08177
          code:https://github.com/baegwangbin/MaGNet

          多視圖深度估計(jì)方法通常需要計(jì)算多視圖成本量,這會(huì)導(dǎo)致巨大的內(nèi)存消耗和緩慢的推理。此外,對(duì)于無紋理表面、反射表面和移動(dòng)物體,多視圖匹配可能會(huì)失敗。對(duì)于這種故障模式,單視圖深度估計(jì)方法通常更可靠。為此,本文提出了 MaGNet,這是一種將單視圖深度概率與多視圖幾何融合的新框架,以提高多視圖深度估計(jì)的準(zhǔn)確性、魯棒性和效率。對(duì)于每一幀,MaGNet 估計(jì)一個(gè)單視圖深度概率分布,參數(shù)化為像素級(jí)高斯分布。然后使用為參考幀估計(jì)的分布來對(duì)每個(gè)像素的深度候選進(jìn)行采樣。這種概率采樣使網(wǎng)絡(luò)能夠在評(píng)估更少的深度候選時(shí)獲得更高的準(zhǔn)確度。本文還提出了多視圖匹配分?jǐn)?shù)的深度一致性加權(quán),以確保多視圖深度與單視圖預(yù)測(cè)一致。

          【20】 What to look at and where: Semantic and Spatial Refined Transformer for detecting human-object interactions

          paper:https://arxiv.org/abs/2204.00746
          我們提出了一種新穎的基于 Transformer 的語義和空間精煉Transformer (SSRT) 來解決人與對(duì)象交互檢測(cè)任務(wù),該任務(wù)需要定位人和對(duì)象,并預(yù)測(cè)它們的交互。與以前的基于 Transformer 的 HOI 方法不同,這些方法主要側(cè)重于改進(jìn)解碼器輸出的設(shè)計(jì)以進(jìn)行最終檢測(cè),SSRT 引入了兩個(gè)新模塊來幫助選擇圖像中最相關(guān)的對(duì)象-動(dòng)作對(duì)并優(yōu)化查詢。使用豐富的語義和空間特征表示。

          瀏覽 71
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产中文字幕免费观看 | 欧美操骚逼| 裸体美女黄网 | 欧美视频综合网 | 无码高清操逼 |