ICCV?2023|IDEA研究院12篇入選論文亮點(diǎn)解讀
近日,ICCV 2023正式公布論文收錄結(jié)果,IDEA研究院12篇論文入選,在開(kāi)放詞表目標(biāo)檢測(cè)與分割、交互式關(guān)鍵點(diǎn)標(biāo)注、可控文生圖、3D目標(biāo)檢測(cè)、3D重建、肖像視頻生成等領(lǐng)域取得新成果。
ICCV(國(guó)際計(jì)算機(jī)視覺(jué)大會(huì),International Conference on Computer Vision)是計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)會(huì)議之一,每?jī)赡暾匍_(kāi)一次。根據(jù)Google Scholar Metrics 2022年榜單,ICCV在所有計(jì)算機(jī)科學(xué)領(lǐng)域的刊物和會(huì)議中位居第4。ICCV 2023將于10月2日至10月6日法國(guó)巴黎舉辦。
跟隨本期文章了解IDEA研究院CV領(lǐng)域的部分學(xué)術(shù)成果,歡迎感興趣的讀者閱讀論文原文。
來(lái)源:IDEA數(shù)字經(jīng)濟(jì)研究院
僅用于學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪除
簡(jiǎn)單有效的開(kāi)放詞表分割框架,未見(jiàn)之物亦可分割,是已知的第一個(gè)同時(shí)訓(xùn)練全景分割和目標(biāo)檢測(cè)提升開(kāi)集分割性能的模型。
摘要:本文提出了一個(gè)開(kāi)放詞表圖像分割和檢測(cè)的框架,解決了檢測(cè)和分割同時(shí)訓(xùn)練過(guò)程中的data gap和 training gap,實(shí)現(xiàn)了兩大任務(wù)在開(kāi)放詞表內(nèi)的聯(lián)合訓(xùn)練,并大大提升了分割性能。本文在COCO全景分割榜單取得SOTA,并在多個(gè)開(kāi)集分割任務(wù)上超越主流方法。
論文鏈接:
https://arxiv.org/pdf/2303.08131.pdf
代碼鏈接:
https://github.com/IDEA-Research/OpenSeeD
一個(gè)改進(jìn)新物體標(biāo)題生成任務(wù)多模態(tài)表示能力的全新方法。
摘要:本文提出了一種新型的新物體圖像標(biāo)題生成方法,該方法采用相對(duì)對(duì)比學(xué)習(xí)來(lái)學(xué)習(xí)視覺(jué)和語(yǔ)義對(duì)齊,以最大化區(qū)域與物體標(biāo)簽的兼容性。為了設(shè)置合適的對(duì)比學(xué)習(xí)目標(biāo),對(duì)于每一張圖片,我們使用CLIP來(lái)擴(kuò)增標(biāo)簽,并利用每個(gè)擴(kuò)增標(biāo)簽的排序位置作為相對(duì)的相關(guān)性標(biāo)簽,將每個(gè)排名最高的標(biāo)簽與一組排名較低的標(biāo)簽進(jìn)行對(duì)比。這個(gè)學(xué)習(xí)目標(biāo)鼓勵(lì)排名最高的標(biāo)簽與其圖片和文本上下文的兼容性超過(guò)排名較低的標(biāo)簽,從而提高了學(xué)習(xí)的多模態(tài)表示的辨別能力。我們?cè)趦蓚€(gè)數(shù)據(jù)集上評(píng)估了我們的方法,RCA-NOC大幅度超越了目前最好的方法,展示出其在改進(jìn)新物體標(biāo)題生成任務(wù)上的視覺(jué)-語(yǔ)言表示的有效性。
(論文鏈接待公開(kāi))
首次定義交互式關(guān)鍵點(diǎn)檢測(cè)任務(wù),基準(zhǔn)框架方法標(biāo)注效率超越純手工10+倍。
摘要:本文首次定義了交互式關(guān)鍵點(diǎn)檢測(cè)的任務(wù),旨在追求高精度和低成本的標(biāo)注,并提出了解決該任務(wù)的基準(zhǔn)框架 Click-Pose,在訓(xùn)練中引入姿態(tài)誤差建模和交互式人類反饋循環(huán)。本方案可以穩(wěn)定提升標(biāo)注效率和質(zhì)量,我們?cè)诓煌臉?biāo)注場(chǎng)景中廣泛驗(yàn)證了Click-Pose的交互式標(biāo)注有效性,相對(duì)手工標(biāo)注效率提升10倍以上,相對(duì)SOTA模型結(jié)合人工修改可提升5倍左右,且實(shí)現(xiàn)了端到端關(guān)鍵點(diǎn)檢測(cè)的最先進(jìn)性能。
(論文鏈接待公開(kāi))
比ControlNet更可控更高效的人體圖像生成模型HumanSD。
摘要:本文提出了一個(gè)可控人物圖像生成方法HumanSD,旨在高效、準(zhǔn)確、原生地控制以人為中心的圖片的生成。具體來(lái)說(shuō),HumanSD使用一種新穎的熱圖引導(dǎo)去噪損失(heatmap-guided denoising loss)來(lái)微調(diào)預(yù)訓(xùn)練的Stable Diffusion模型,這種策略有效加強(qiáng)了骨骼條件的控制力,同時(shí)減輕了災(zāi)難性遺忘效應(yīng)。相比ControlNet、T2I-Adapter等即插即用的雙分支控制方法,HumanSD展現(xiàn)了更優(yōu)的可控力和更快的生成速度,其中可控精度提升73%。同時(shí),我們提供了適用于人體生成的大規(guī)模公開(kāi)數(shù)據(jù)集用于后續(xù)研究。
論文鏈接:
https://arxiv.org/abs/2304.04269
代碼鏈接:
https://github.com/IDEA-Research/HumanSD
一個(gè)全新基礎(chǔ)算子以及基于其實(shí)現(xiàn)2D特征拉升至3D空間的新方法。
摘要:本文提出了一個(gè)基礎(chǔ)算子:3D Deformable Attention(DFA3D)。基于DFA3D,我們提出了一種全新的將2D特征拉升到3D空間的方法。我們與其他的特征拉升方法(Lift-Splat-based、2D Deformable Attention-based等)進(jìn)行了公平比較,結(jié)果驗(yàn)證了我們DFA3D-based的方法的優(yōu)越性。我們?cè)诙鄠€(gè)多視角3D目標(biāo)檢測(cè)方法上進(jìn)行對(duì)比實(shí)驗(yàn),進(jìn)一步驗(yàn)證了我們的方法的有效性和泛化性。
(論文鏈接待公開(kāi))
通過(guò)在損失中僅引入位置度量來(lái)改進(jìn)DETR模型匹配穩(wěn)定性,大幅提升性能。
摘要:本文指出DETR中存在的不穩(wěn)定匹配問(wèn)題是由多重優(yōu)化路徑所導(dǎo)致,這一問(wèn)題在DETR的one-to-one matching中更加明顯。論文表明,僅需要在分類損失中引入了位置度量即可很好地優(yōu)化問(wèn)題?;谶@一原則,我們通過(guò)引入了位置度量信息,提出了兩個(gè)簡(jiǎn)單有效并且可適用于所有DETR系列模型的position-supervised loss和position-modulated matching cost設(shè)計(jì)。
我們基于DETR系列模型對(duì)方法的有效性進(jìn)行了驗(yàn)證,其中,Stable-DINO在以ResNet-50作為backbone的條件下,在1x和2x標(biāo)準(zhǔn)settings下分別達(dá)到了50.4AP和51.5AP。本文方法具有強(qiáng)大的可拓展性,使用Swin-Large和Focal-Huge backbone的條件下,Stable-DINO在COCO test-dev上分別達(dá)到了63.8AP和64.8AP的準(zhǔn)確率。
論文鏈接:
https://arxiv.org/abs/2304.04742
代碼鏈接:
https://github.com/IDEA-Research/Stable-DINO
一個(gè)基于編碼器、從單圖進(jìn)行3D重建的高效方法。
摘要:3D GAN Inversion旨在從單個(gè)圖像輸入中同時(shí)實(shí)現(xiàn)高重建保真度和合理的3D幾何。然而,現(xiàn)有的3D GAN Inversion方法依賴于耗時(shí)的優(yōu)化過(guò)程,并且是每張圖片單獨(dú)優(yōu)化。在這項(xiàng)工作中,我們介紹了一種基于EG3D的新型基于編碼器的Inversion框架,EG3D是最廣泛使用的3D GAN模型之一。我們利用EG3D隱空間的固有屬性,設(shè)計(jì)了一個(gè)鑒別器和背景深度正則化,訓(xùn)練出一個(gè)具備幾何感知能力的編碼器,能夠?qū)⑤斎雸D像轉(zhuǎn)換為相應(yīng)的隱空間向量。此外,我們探索了EG3D的特征空間,并開(kāi)發(fā)了一個(gè)自適應(yīng)細(xì)化階段,以提高EG3D中特征的表示能力,從而增強(qiáng)細(xì)粒度紋理細(xì)節(jié)的恢復(fù)。最后,我們提出了一種考慮遮擋的融合操作,以防止未觀察區(qū)域的畸變。我們的方法結(jié)果可與基于優(yōu)化的方法媲美,同時(shí)運(yùn)行速度提高了500倍。我們的框架非常適用于語(yǔ)義編輯等應(yīng)用。
論文鏈接:
https://arxiv.org/pdf/2303.12326.pdf
代碼鏈接:
https://eg3d-goae.github.io/
從蒸餾到自蒸餾:通用歸一化損失與定制化軟標(biāo)簽。
摘要:知識(shí)蒸餾(KD)使用教師的預(yù)測(cè)logits作為軟標(biāo)簽來(lái)指導(dǎo)學(xué)生,而自知蒸餾則不需要真實(shí)的教師來(lái)提供軟標(biāo)簽。本研究通過(guò)將通用的KD損失分解和重新組織,將這兩個(gè)任務(wù)的公式統(tǒng)一為標(biāo)準(zhǔn)化KD(NKD)損失和針對(duì)目標(biāo)類別(圖像的類別)和非目標(biāo)類別的定制軟標(biāo)簽,命名為通用自知蒸餾(USKD)。我們將KD損失分解,并發(fā)現(xiàn)其中的非目標(biāo)損失強(qiáng)制使學(xué)生的非目標(biāo)logits與教師的相匹配,但兩個(gè)非目標(biāo)logits的總和不同,防止它們完全相同。NKD將非目標(biāo)logits進(jìn)行歸一化,使它們的總和相等。它可以廣泛應(yīng)用于KD和自知蒸餾,以更好地利用軟標(biāo)簽進(jìn)行蒸餾損失。USKD為目標(biāo)和非目標(biāo)類別生成定制的軟標(biāo)簽,而無(wú)需教師。它將學(xué)生的目標(biāo)logit平滑處理為軟目標(biāo)標(biāo)簽,并利用中間特征的排名按照Z(yǔ)ipf定律生成軟非目標(biāo)標(biāo)簽。對(duì)于帶有教師的KD,我們的NKD在CIFAR-100和ImageNet數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能,使用ResNet-34教師將ResNet18的ImageNet Top-1準(zhǔn)確率從69.90%提升到71.96%。對(duì)于沒(méi)有教師的自知蒸餾,USKD是第一個(gè)可以有效應(yīng)用于CNN和ViT模型的自知蒸餾方法,額外的時(shí)間和內(nèi)存開(kāi)銷可以忽略不計(jì),從而獲得了新的最先進(jìn)結(jié)果,例如在ImageNet上,MobileNet和DeiT-Tiny分別獲得了1.17%和0.55%的準(zhǔn)確率提升。
論文鏈接:
https://arxiv.org/pdf/2303.13005.pdf
代碼鏈接:
https://github.com/yzd-v/cls_KD
一個(gè)從音頻驅(qū)動(dòng)指定人物生成高保真且多樣的肖像視頻的框架。
摘要:音頻驅(qū)動(dòng)的肖像視頻生成旨在通過(guò)給定的音頻驅(qū)動(dòng)指定肖像的視頻。驅(qū)動(dòng)保真度和多模態(tài)的肖像視頻肖像具有廣泛應(yīng)用。以往的方法嘗試通過(guò)訓(xùn)練不同模型或從給定視頻中提取信號(hào)來(lái)捕捉不同的運(yùn)動(dòng)模式,以此生成高保真度的肖像視頻。然而,缺乏音-唇同步與其他動(dòng)作(例如頭部姿勢(shì)/眼睛眨動(dòng))之間的相關(guān)度學(xué)習(xí)通常導(dǎo)致不自然的驅(qū)動(dòng)結(jié)果。在本文中,我們提出了一個(gè)統(tǒng)一的系統(tǒng),用于多人、多模態(tài)和高保真度的說(shuō)話肖像視頻生成。該方法包含三個(gè)階段:1)帶有雙重注意力的網(wǎng)絡(luò)(MODA)從給定音頻中生成說(shuō)話相關(guān)的表征。在MODA中,我們?cè)O(shè)計(jì)了一個(gè)雙重注意力模塊,以編碼準(zhǔn)確的口部動(dòng)作和多樣的模態(tài)信息。2)面部合成網(wǎng)絡(luò)生成密集且詳細(xì)的面部關(guān)鍵點(diǎn)。3)時(shí)序引導(dǎo)的渲染器合成穩(wěn)定的視頻。廣泛的評(píng)估結(jié)果表明,所提出的系統(tǒng)比同期其他方法生成的視頻肖像更加自然和逼真。
項(xiàng)目鏈接:
https://liuyunfei.net/projects/iccv23-moda
代碼:
https://github.com/DreamtaleCore/MODA
一個(gè)基于Transformer的高精度單目3D人臉重建模型。
摘要:精確地從單目圖像和視頻中重建3D人臉對(duì)于各種應(yīng)用至關(guān)重要,例如數(shù)字化角色創(chuàng)建等。然而,目前基于深度學(xué)習(xí)的方法在實(shí)現(xiàn)準(zhǔn)確重建的過(guò)程中,確保解耦面部參數(shù)和視頻數(shù)據(jù)處理的穩(wěn)定性方面面臨著重大挑戰(zhàn)。在本文中,我們提出了一種基于Transformer的單目3D人臉重建模型TokenFace。TokenFace使用不同面部元素的獨(dú)立Token來(lái)捕捉不同面部參數(shù)的信息,并采用時(shí)間Transformer從視頻數(shù)據(jù)中捕捉時(shí)間信息。這種設(shè)計(jì)可以自然地解開(kāi)不同的面部元素,并對(duì)2D和3D訓(xùn)練數(shù)據(jù)都兼具靈活性。在混合2D和3D數(shù)據(jù)上訓(xùn)練后,該模型能夠在圖像上準(zhǔn)確重建人臉并對(duì)視頻數(shù)據(jù)達(dá)到穩(wěn)定重建的能力。在基準(zhǔn)數(shù)據(jù)集NoW和Stirling上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,TokenFace在所有指標(biāo)上達(dá)到了最先進(jìn)的性能,大幅優(yōu)于同期其他方法。
(論文鏈接待公開(kāi))
首個(gè)純ViT架構(gòu)的視頻分割方法,可借助自監(jiān)督預(yù)訓(xùn)練的ViT(如MAE)大幅提升性能。
摘要:當(dāng)前流行的視頻對(duì)象分割(VOS)方法通過(guò)多個(gè)手工設(shè)計(jì)的模塊實(shí)現(xiàn)特征匹配,這些模塊分別執(zhí)行特征提取和匹配。然而,上述手工設(shè)計(jì)的方法在經(jīng)驗(yàn)上導(dǎo)致目標(biāo)交互不足,從而限制了VOS中動(dòng)態(tài)目標(biāo)感知特征學(xué)習(xí)的發(fā)展。為了解決這些限制,本文提出了一個(gè)簡(jiǎn)化的VOS(SimVOS)框架,通過(guò)利用單個(gè)Transformer骨干網(wǎng)絡(luò)來(lái)執(zhí)行聯(lián)合特征提取和匹配。這種設(shè)計(jì)使SimVOS能夠?qū)W習(xí)更好的針對(duì)目標(biāo)的特征,從而實(shí)現(xiàn)準(zhǔn)確的mask預(yù)測(cè)。更重要的是,SimVOS可以直接使用預(yù)訓(xùn)練的ViT骨干網(wǎng)絡(luò)(如MAE)進(jìn)行視頻分割,從而彌合了VOS和大規(guī)模自監(jiān)督預(yù)訓(xùn)練之間的差距。為了在性能和速度之間取得更好的平衡,我們進(jìn)一步探索了幀內(nèi)注意力,并提出了一種新的token細(xì)調(diào)模塊來(lái)提高運(yùn)行速度和節(jié)省計(jì)算成本。在不使用任何合成視頻和BL30K預(yù)訓(xùn)練數(shù)據(jù)的情況下,我們?nèi)〉昧薉AVIS-2017(88.0% J&F),DAVIS-2016(92.9% J&F)和YouTube-VOS 2019(84.2% J&F)的SOTA結(jié)果。
(論文鏈接待公開(kāi))
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有美顏、三維視覺(jué)、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群
個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2022
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
![]()
