<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR 2022 | 騰訊AI Lab入選論文解讀,關(guān)注圖像理解、生成、建模及可信AI

          共 9231字,需瀏覽 19分鐘

           ·

          2022-06-27 16:57


          來(lái)自騰訊AI Lab微信(tencent_ailab)

          CVPR(Conference on Computer Vision and Pattern Recognition)是計(jì)算機(jī)視覺(jué)三大頂會(huì)之一,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的人工智能領(lǐng)域的A類會(huì)議。今年會(huì)議于 6 月 19 - 24 日以線上線下結(jié)合形式舉行,據(jù)此前披露數(shù)據(jù),今年會(huì)議投稿量突破了一萬(wàn),其中 2067 篇論文被接收。


          本文將解讀騰訊 AI Lab 18 篇入選論文,涵蓋圖像與視頻理解、視覺(jué)內(nèi)容生成、神經(jīng)輻射場(chǎng)建模、可信AI、具身人工智能等方向。論文完整內(nèi)容將于會(huì)議官方渠道發(fā)布,本文為部分論文解讀。


          圖像與視頻理解


          視覺(jué)的理解與識(shí)別為計(jì)算機(jī)視覺(jué)任務(wù)中經(jīng)久不衰的問(wèn)題。面對(duì)海量數(shù)據(jù)的環(huán)境,如何設(shè)計(jì)性能優(yōu)異的模型,與挖掘模型潛能的學(xué)習(xí)算法,成為了圖像與視頻理解的核心問(wèn)題。針對(duì)數(shù)據(jù)特性本身,視頻數(shù)據(jù)相比于圖像數(shù)據(jù),其時(shí)序連續(xù)性帶來(lái)了更多研究空間,也使得視頻的理解受到了廣泛的關(guān)注。


          1. 基于前景-背景融合的運(yùn)動(dòng)感知對(duì)比視頻表征學(xué)習(xí)

          Motion-aware Contrastive Video Representation Learning via Foreground-background Merging


          本文由騰訊AI Lab主導(dǎo),與上海交通大學(xué)、香港中文大學(xué)、密歇根大學(xué)合作完成。鑒于對(duì)比學(xué)習(xí)在圖像領(lǐng)域已取得的成功,當(dāng)前的自監(jiān)督視頻表征學(xué)習(xí)方法通常采用對(duì)比損失來(lái)學(xué)習(xí)視頻表征。然而,當(dāng)直接地將視頻的兩個(gè)增強(qiáng)視圖拉近時(shí),該模型傾向于將共同的靜態(tài)背景作為捷徑來(lái)學(xué)習(xí),而不能捕捉更重要的運(yùn)動(dòng)信息,這種現(xiàn)象被稱為背景偏差。這種偏差使得模型的泛化能力較弱,導(dǎo)致下游任務(wù)(如動(dòng)作識(shí)別)的性能較差。


          為了減輕這種偏見(jiàn),本文提出前景-背景合并來(lái)有意識(shí)地將所選視頻的運(yùn)動(dòng)前景區(qū)域合成到其他視頻的靜態(tài)背景上。具體來(lái)說(shuō),在沒(méi)有任何現(xiàn)成的檢測(cè)器的情況下,該項(xiàng)工作通過(guò)幀差和顏色統(tǒng)計(jì)從背景區(qū)域中提取運(yùn)動(dòng)前景,并在視頻中融合其他的背景區(qū)域。通過(guò)要求原始片段和融合片段之間的語(yǔ)義一致性,使得該模型更加關(guān)注運(yùn)動(dòng)模式,并有效地消除背景偏見(jiàn)。


          大量實(shí)驗(yàn)表明,該方法可以有效地抵抗背景偏置,從而在UCF101、HMDB51和Diving48數(shù)據(jù)集上取得最先進(jìn)的下游任務(wù)性能。




          2. 針對(duì)時(shí)序動(dòng)作定位任務(wù)的無(wú)監(jiān)督預(yù)訓(xùn)練

          Unsupervised Pre-training for Temporal Action Localization Tasks


          本文由騰訊AI Lab主導(dǎo),與北京大學(xué)合作完成。雖然近年來(lái)無(wú)監(jiān)督視頻表征學(xué)習(xí)取得了顯著的成就,但大多數(shù)現(xiàn)有的方法都是針對(duì)視頻行為分類任務(wù)(TAC)進(jìn)行設(shè)計(jì)和優(yōu)化的。當(dāng)應(yīng)用于時(shí)序定位任務(wù)(TAL)時(shí),由于視頻級(jí)別分類和片段級(jí)別定位之間的固有差異,這些預(yù)先訓(xùn)練的模型的遷移性能會(huì)受限。


          為了緩解這一問(wèn)題,本文首次嘗試對(duì)時(shí)序行為定位任務(wù)進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,提出一種新的自監(jiān)督代理任務(wù),稱為“偽動(dòng)作定位(Pseudo Action Localization,PAL)”。具體來(lái)說(shuō),該項(xiàng)工作首先從一個(gè)視頻中隨機(jī)選擇兩個(gè)不同時(shí)序區(qū)域(每個(gè)區(qū)域包含多個(gè)視頻片段)作為偽動(dòng)作區(qū)域,然后分別將它們粘貼到另外兩個(gè)視頻的不同時(shí)間位置。代理任務(wù)的目標(biāo)是對(duì)齊兩個(gè)新合成視頻中粘貼的偽動(dòng)作區(qū)域的特征,并最大化它們之間的一致性。


          與現(xiàn)有的無(wú)監(jiān)督視頻表征學(xué)習(xí)方法相比,PAL 以時(shí)間密集采樣和時(shí)間尺度敏感的方式引入時(shí)序等變對(duì)比學(xué)習(xí)范式,從而使上游預(yù)訓(xùn)練與下游 TAL 任務(wù)實(shí)現(xiàn)更好的對(duì)齊。大量實(shí)驗(yàn)表明,PAL 可以利用大規(guī)模無(wú)類別標(biāo)簽的視頻數(shù)據(jù)來(lái)顯著提高現(xiàn)有 TAL 方法的性能。




          3. 針對(duì)弱監(jiān)督時(shí)序動(dòng)作定位探索去噪跨視頻對(duì)比學(xué)習(xí)

          Exploring Denoised Cross-video Contrast for Weakly-supervised Temporal Action Localization


          本文由騰訊AI Lab主導(dǎo),與阿爾伯塔大學(xué)合作完成。弱監(jiān)督時(shí)間動(dòng)作定位旨在僅使用視頻級(jí)弱標(biāo)簽來(lái)定位未修剪視頻中的動(dòng)作。大多數(shù)現(xiàn)有方法使用“先分類后定位”的框架解決這個(gè)問(wèn)題,該框架基于片段分類序列來(lái)定位動(dòng)作區(qū)域。然而,由于視頻級(jí)標(biāo)簽的稀疏性,片段分類容易出錯(cuò)。


          受到無(wú)監(jiān)督對(duì)比表示學(xué)習(xí)的啟發(fā),本文提出了一種新穎的去噪跨視頻對(duì)比算法,旨在增強(qiáng)視頻片段的特征識(shí)別能力,以在弱監(jiān)督環(huán)境中實(shí)現(xiàn)準(zhǔn)確的時(shí)間動(dòng)作定位。這是通過(guò)三個(gè)關(guān)鍵設(shè)計(jì)實(shí)現(xiàn)的:1) 一個(gè)有效的偽標(biāo)簽去噪模塊,以減輕由嘈雜的對(duì)比特征引起的副作用,2) 一種有效的區(qū)域級(jí)特征對(duì)比策略,結(jié)合區(qū)域級(jí)特征記憶庫(kù),來(lái)捕獲整個(gè)數(shù)據(jù)集的“全局”對(duì)比,以及 3)多樣化的對(duì)比學(xué)習(xí)策略,以實(shí)現(xiàn)動(dòng)作-背景分離以及類內(nèi)緊湊性和類間可分離性。


          在 THUMOS14 和 ActivityNet v1.2 上進(jìn)行的大量實(shí)驗(yàn)證明了該方法的卓越性能。





          4. 基于帶權(quán)的序列EM的實(shí)時(shí)的視頻物體分割算法

          SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization


          本文由騰訊AI Lab主導(dǎo),與清華大學(xué),騰訊TEG數(shù)據(jù)平臺(tái)部合作完成。在半監(jiān)督視頻物體分割(VOS)任務(wù)中,基于時(shí)空記憶匹配的方法在準(zhǔn)確性方面顯著優(yōu)于其他解決方案。然而不斷增長(zhǎng)的記憶規(guī)模會(huì)導(dǎo)致低下的推理效率。


          為了解決這一問(wèn)題,本文提出了一種帶權(quán)的序列期望最大算法,簡(jiǎn)稱為SWEM,該算法能夠極大地減少記憶特征的冗余度。與之前只考慮視頻幀間特征冗余的方法不同,該項(xiàng)工作提出的SWEM通過(guò)同時(shí)聚合幀間和幀內(nèi)的相似特征,來(lái)得到表達(dá)力強(qiáng)且緊湊的基特征。此外,本文還提出了一種自適應(yīng)加權(quán)方法來(lái)表明不同像素的重要程度,從而突出那些對(duì)物體分割貢獻(xiàn)度較高的特征。


          本文所提出的方法在推斷過(guò)程中始終維持固定的記憶特征個(gè)數(shù),從而保證了分割系統(tǒng)推理復(fù)雜度的穩(wěn)定性。SWEM在DAVIS和YouTube-VOS數(shù)據(jù)集上都取得了極具競(jìng)爭(zhēng)力的結(jié)果,并且能夠保持實(shí)時(shí)的推理速度(36 FPS)。




          5. 基于自監(jiān)督transformer和Ncut的顯著物體檢測(cè)和分割

          Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut


          本文由騰訊AI Lab主導(dǎo),與法國(guó)國(guó)立計(jì)算機(jī)及自動(dòng)化研究院、三星、麻省理工大學(xué)合作完成。基于蒸餾的自監(jiān)督學(xué)習(xí)的transformer (Dino)的Attention map會(huì)突出前景物體。本文展現(xiàn)了一個(gè)基于graph的方法,利用自監(jiān)督學(xué)習(xí)的transformer的特征來(lái)檢測(cè)圖片中的物體。輸入的圖片方塊是graph的節(jié)點(diǎn),同時(shí)圖片特征之間的相似度是graph的邊。前景物體可以通過(guò)歸一的圖切割的方式得到。本文使用具有廣義特征分解的譜聚類來(lái)解決圖切割問(wèn)題,并表明第二小的特征向量提供了切割解決方案,而且特征向量的絕對(duì)值大小表示此區(qū)域?qū)儆谇熬暗目赡苄浴?/p>


          盡管方法很簡(jiǎn)單,但這種方法顯著提高了無(wú)監(jiān)督物體檢測(cè)的性能:實(shí)驗(yàn)證明,該方法在 VOC07、VOC12 和 COCO20K 上分別比最近最先進(jìn)的 LOST 提高了 6.9%、8.1% 和 8.1%。通過(guò)添加第二階段與類別無(wú)關(guān)的檢測(cè)器 (CAD),可以進(jìn)一步提高性能。該方法可以很容易地?cái)U(kuò)展到無(wú)監(jiān)督顯著性檢測(cè)和弱監(jiān)督目標(biāo)檢測(cè)。對(duì)于無(wú)監(jiān)督顯著性檢測(cè),該項(xiàng)工作在 ECSSD、DUTS、DUT-OMRON 上的 IoU 與之前的技術(shù)水平相比分別提高了 4.9%、5.2%、12.9%。對(duì)于弱監(jiān)督目標(biāo)檢測(cè),該項(xiàng)工作在 CUB 和 ImageNet 上取得了具有競(jìng)爭(zhēng)力的性能。


          項(xiàng)目代碼和Demo可見(jiàn):https://www.m-psi.fr/Papers/TokenCut2022/




          6. ADeLA:語(yǔ)義分割中視角變換下的自動(dòng)稠密標(biāo)注算法

          ADeLA: Automatic Dense Labeling with Attention for Viewpoint Shift in Semantic Segmentation


          本文由騰訊AI Lab與斯坦福大學(xué)、北京大學(xué)和浙江大學(xué)合作完成,致力于解決多相機(jī)系統(tǒng)中由于視角變化導(dǎo)致語(yǔ)義分割性能下降的問(wèn)題。這個(gè)問(wèn)題提供了時(shí)序上關(guān)聯(lián)但視角不一致的圖片,并且僅有個(gè)別視角提供了對(duì)應(yīng)的稠密語(yǔ)義標(biāo)簽。


          過(guò)去的方法通過(guò)不同域之間的配準(zhǔn)來(lái)解決這個(gè)問(wèn)題,然而視角變化引起的障礙可能會(huì)破壞這樣的配準(zhǔn)效果。本文提出一個(gè)新穎的基于注意力機(jī)制的視角變換網(wǎng)絡(luò)來(lái)預(yù)測(cè)目標(biāo)圖像的語(yǔ)義信息。即使在訓(xùn)練階段缺少監(jiān)督,視角變換網(wǎng)絡(luò)依然能夠泛化到語(yǔ)義圖像。


          本文提出的方法超越了最新的視角合成和關(guān)聯(lián)預(yù)測(cè)方法,并且大幅優(yōu)于基于無(wú)監(jiān)督學(xué)習(xí)的域適應(yīng)方法。




          7. SVIP:視頻中過(guò)程的序列驗(yàn)證

          SVIP: Sequence VerIfication for Procedures in Videos


          本文由騰訊AI Lab與上??萍即髮W(xué)合作完成,可以通過(guò)視頻,自動(dòng)判斷操作流程,是否和標(biāo)準(zhǔn)流程一致,起到監(jiān)督預(yù)警的作用。


          本文提出了一種新穎的序列驗(yàn)證任務(wù),旨在將執(zhí)行相同動(dòng)作序列的正視頻對(duì)與具有步進(jìn)級(jí)轉(zhuǎn)換但仍執(zhí)行相同任務(wù)的負(fù)視頻對(duì)區(qū)分開(kāi)來(lái)。這樣一項(xiàng)具有挑戰(zhàn)性的任務(wù)存在于一個(gè)開(kāi)放集設(shè)置中,沒(méi)有事先需要事件級(jí)甚至幀級(jí)注釋的動(dòng)作檢測(cè)或分割。為此,該項(xiàng)工作仔細(xì)重組了兩個(gè)公開(kāi)可用的具有步驟-過(guò)程-任務(wù)結(jié)構(gòu)的動(dòng)作相關(guān)數(shù)據(jù)集。


          為了充分研究任何方法的有效性,該項(xiàng)工作收集了一個(gè)腳本視頻數(shù)據(jù)集,其中列舉了化學(xué)實(shí)驗(yàn)中的各種步驟級(jí)轉(zhuǎn)換。此外,引入了一種新的評(píng)估度量加權(quán)距離比,以確保評(píng)估過(guò)程中不同步級(jí)變換的等效性。最后,引入了一個(gè)簡(jiǎn)單但有效的基線,該基線基于具有新穎序列對(duì)齊損失的轉(zhuǎn)換器,以更好地表征步驟之間的長(zhǎng)期依賴性,優(yōu)于其他動(dòng)作識(shí)別方法。


          代碼和數(shù)據(jù)詳見(jiàn):https://github.com/svip-lab/SVIP-Sequence-VerIfication-for-Procedures-in-Videos

                                



          視覺(jué)內(nèi)容生成


          數(shù)字內(nèi)容生成是視覺(jué)領(lǐng)域中備受關(guān)注的任務(wù),內(nèi)容智能創(chuàng)作有巨大應(yīng)用價(jià)值。


          保持幾何結(jié)構(gòu)的圖像拼接方法

          Geometric Structure Preserving Warp for Natural Image Stitching


          本文由騰訊AI Lab與新加坡國(guó)立大學(xué)、西北農(nóng)林科技大學(xué)合作完成。保留場(chǎng)景中的幾何結(jié)構(gòu)在圖像拼接中起著至關(guān)重要的作用。然而,現(xiàn)有的方法大多忽略了由直線或曲線反映的大規(guī)模布局,降低了整體拼接質(zhì)量。


          本文提出了一種結(jié)構(gòu)保持拼接方法,可以產(chǎn)生具有自然視覺(jué)效果和較少失真的圖像。該項(xiàng)工作首先采用基于深度學(xué)習(xí)的邊緣檢測(cè)來(lái)提取各種類型的大規(guī)模邊緣。然后,對(duì)提取的邊緣進(jìn)行采樣以構(gòu)造多組三角形來(lái)表示它們的幾何結(jié)構(gòu)。作者引入了幾何結(jié)構(gòu)保持 (GES) 能量項(xiàng)來(lái)鼓勵(lì)這些三角形進(jìn)行相似變換。此外,本文提出了一種優(yōu)化的GES能量項(xiàng),以合理確定幾何結(jié)構(gòu)上采樣點(diǎn)的權(quán)重,并將其添加到稱為GES-GSP的全局相似性先驗(yàn)(GSP)拼接模型中,以實(shí)現(xiàn)局部對(duì)齊和幾何結(jié)構(gòu)保存之間的平滑過(guò)渡。


          本文通過(guò)對(duì)拼接數(shù)據(jù)集的綜合實(shí)驗(yàn)證明了所提出的 GES-GSP 的有效性。同時(shí)實(shí)驗(yàn)表明,所提出的方法在幾何結(jié)構(gòu)保存方面始終優(yōu)于幾種最先進(jìn)的方法,并獲得更自然的拼接結(jié)果。




          神經(jīng)輻射場(chǎng)建模



          神經(jīng)輻射場(chǎng)相關(guān)技術(shù)是近年來(lái)計(jì)算機(jī)視覺(jué)與圖形學(xué)領(lǐng)域的熱點(diǎn)研究問(wèn)題。如何在不同數(shù)據(jù)條件下利用神經(jīng)輻射場(chǎng)高效地進(jìn)行場(chǎng)景與人物的高真實(shí)感建模,并靈活的對(duì)神經(jīng)輻射場(chǎng)中的內(nèi)容進(jìn)行有效的編輯,是當(dāng)下相關(guān)研究中核心問(wèn)題。


          1. 去模糊神經(jīng)輻射場(chǎng): 從模糊圖片中恢復(fù)清晰神經(jīng)輻射場(chǎng)

          Deblur-NeRF: Neural Radiance Fields from Blurry Images


          本文由騰訊AI Lab主導(dǎo),與香港科技大學(xué)合作完成。由于出色的圖像合成表現(xiàn), 神經(jīng)輻射場(chǎng)(NeRF)已經(jīng)在3D場(chǎng)景重建和新視點(diǎn)合成領(lǐng)域獲得了廣泛的關(guān)注。然而在真正的重建過(guò)程中,拍攝時(shí)的鏡頭失焦或者相機(jī)抖動(dòng)而帶來(lái)的成像模糊常常會(huì)大大降低重建的精度。


          為了解決這個(gè)問(wèn)題,本文首創(chuàng)性地提出了從多個(gè)模糊的輸入圖像重建清晰的神經(jīng)輻射場(chǎng),可對(duì)模糊成像的過(guò)程進(jìn)行建模,通過(guò)對(duì)模型合成的模糊結(jié)果進(jìn)行分析從而進(jìn)行去模糊。這個(gè)模糊模型的核心是一個(gè)新穎的可變性稀疏模糊核(DSK)模塊。它通過(guò)對(duì)一個(gè)模板空間的稀疏模糊核進(jìn)行變形,來(lái)模擬空間上處處不同的模糊核。同時(shí)模糊核中的每個(gè)點(diǎn)的光學(xué)中心也會(huì)同時(shí)被優(yōu)化變形,因?yàn)槟:奈锢磉^(guò)程也會(huì)有光學(xué)中心的變化。該方法將這個(gè)DSK模塊參數(shù)化為一個(gè)多層感知器,因此它對(duì)不同的模糊類型都是通用的。同時(shí)優(yōu)化神經(jīng)輻射場(chǎng)和DSK模塊,就可以得到一個(gè)清晰的神經(jīng)輻射場(chǎng)。


          該方法可以同時(shí)用于去除兩種最常見(jiàn)的模糊:由于失焦和由于相機(jī)抖動(dòng)造成的模糊。在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集下的對(duì)比實(shí)驗(yàn)也證明了本方法超過(guò)了幾個(gè)基線方法。


          項(xiàng)目細(xì)節(jié)可見(jiàn):https://github.com/limacv/Deblur-NeRF





          2. NeRFReN: 支持反射的神經(jīng)輻射場(chǎng)

          NeRFReN: Neural Radiance Fields with Reflections


          本文由騰訊AI Lab主導(dǎo),與北京信息科學(xué)與技術(shù)國(guó)家研究中心、北京雁棲湖應(yīng)用數(shù)學(xué)研究院合作完成。神經(jīng)輻射場(chǎng)技術(shù)(Neural Radiance Fields,NeRF)通過(guò)利用基于坐標(biāo)的場(chǎng)景表示,在新視點(diǎn)合成任務(wù)上取得了令人驚艷的效果。雖然神經(jīng)輻射場(chǎng)建模了物體的視角相關(guān)特性,但實(shí)驗(yàn)表明其只能正確地處理高光等簡(jiǎn)單的反射現(xiàn)象。對(duì)于玻璃、鏡子等物體帶來(lái)的復(fù)雜反射,神經(jīng)輻射場(chǎng)會(huì)估計(jì)錯(cuò)誤的幾何,并在某些不具有多視角一致性的場(chǎng)景下得到模糊的視點(diǎn)合成結(jié)果。


          為此,本工作提出使用兩個(gè)神經(jīng)輻射場(chǎng)建模此類場(chǎng)景,其中一個(gè)建模真實(shí)幾何的反射光,另一個(gè)建模反射像。針對(duì)這種欠約束表示,本工作提出采用幾何先驗(yàn)和特殊設(shè)計(jì)的訓(xùn)練策略來(lái)進(jìn)行解空間的約束。本工作提出的方法在有復(fù)雜反射的場(chǎng)景下可以實(shí)現(xiàn)高質(zhì)量的視點(diǎn)合成效果,同時(shí)取得明顯更優(yōu)的深度估計(jì)結(jié)果。


          本工作將所提出技術(shù)應(yīng)用在了場(chǎng)景編輯上。在含有復(fù)雜反射的場(chǎng)景下取得更理想、可解釋性更強(qiáng)的的新視點(diǎn)合成結(jié)果,并且可以實(shí)現(xiàn)多個(gè)場(chǎng)景編輯操作,如反射去除、反射替換等。


          項(xiàng)目細(xì)節(jié)可見(jiàn):https://bennyguo.github.io/nerfren/




          3. 光影幻象:神經(jīng)輻射場(chǎng)中的時(shí)空流轉(zhuǎn)

          Hallucinated Neural Radiance Fields in the Wild


          本文由騰訊AI Lab主導(dǎo),與西安交通大學(xué)合作完成。神經(jīng)輻射場(chǎng)(NeRF)因其令人印象深刻的新視點(diǎn)合成能力而備受關(guān)注。本文研究了幻象NeRF問(wèn)題:即從一組旅游中拍攝的圖片恢復(fù)高保真的不同時(shí)間的NeRF?,F(xiàn)有的解決方案采用具有可控的外觀嵌入的NeRF來(lái)在各種條件下渲染新的視點(diǎn),但無(wú)法跨視角一致地渲染未曾見(jiàn)過(guò)外觀的圖像。


          為了解決這個(gè)問(wèn)題,本文提出了一個(gè)端到端框架來(lái)構(gòu)建一種幻象NeRF,稱為Ha-NeRF。具體來(lái)說(shuō),本文提出了一種外觀幻象模塊來(lái)處理時(shí)變的外觀,并將這樣的外觀轉(zhuǎn)換到新的視點(diǎn)當(dāng)中。針對(duì)旅游圖像的復(fù)雜遮擋問(wèn)題,該方法引入抗遮擋模塊對(duì)靜態(tài)對(duì)象進(jìn)行精確的能見(jiàn)度建模。


          在合成數(shù)據(jù)和真實(shí)旅游照片采集上的實(shí)驗(yàn)結(jié)果表明,該方法不僅能產(chǎn)生理想的外觀,而且能從不同視角渲染無(wú)遮擋的圖像。


          項(xiàng)目細(xì)節(jié)可見(jiàn):https://rover-xingyu.github.io/Ha-NeRF/




          可信AI



          近年來(lái),人工智能算法被廣泛地應(yīng)用到醫(yī)療、金融、工業(yè)生產(chǎn)等多個(gè)重要領(lǐng)域,這些算法在提升生產(chǎn)力的同時(shí),也面臨各種風(fēng)險(xiǎn)隱患。可信AI目標(biāo)于使AI系統(tǒng)所做出的決策能夠被理解、被信任,其研究范圍包含魯棒性、公平性、可解釋性和隱私保護(hù)等。


          1. LAS-AT:具有可學(xué)習(xí)攻擊策略的對(duì)抗訓(xùn)練 

          LAS-AT: Adversarial Training with Learnable Attack Strategy  


          本文由騰訊AI Lab主導(dǎo),與中國(guó)科學(xué)院大學(xué)信息工程研究所國(guó)家重點(diǎn)實(shí)驗(yàn)室,香港中文大學(xué)(深圳)大數(shù)據(jù)研究院數(shù)據(jù)科學(xué)學(xué)院合作完成。


          對(duì)抗訓(xùn)練通常被描述為一個(gè)min-max的優(yōu)化問(wèn)題,其性能取決于內(nèi)部的max優(yōu)化問(wèn)題,即對(duì)抗樣本的生成。以前的大多數(shù)方法都采用投影梯度下降,手動(dòng)指定對(duì)抗樣本的攻擊生成參數(shù)。攻擊參數(shù)的組合可以被稱為攻擊策略。一些研究表明,在整個(gè)訓(xùn)練階段使用固定的攻擊策略生成的對(duì)抗樣本會(huì)限制模型的魯棒性,并提出在不同的訓(xùn)練階段使用不同的攻擊策略來(lái)提高魯棒性。但是,這些多階段的手工設(shè)計(jì)的攻擊策略需要大量的專業(yè)知識(shí),而且魯棒性改進(jìn)有限。


          本文通過(guò)引入“可學(xué)習(xí)的攻擊策略”的概念,提出了一種新的對(duì)抗訓(xùn)練框架,它學(xué)習(xí)自動(dòng)生成攻擊策略,以提高模型的魯棒性。該框架由一個(gè)使用對(duì)抗樣本進(jìn)行訓(xùn)練以提高模型魯棒性的目標(biāo)網(wǎng)絡(luò)和一個(gè)生成攻擊策略以控制對(duì)抗樣本生成的策略網(wǎng)絡(luò)組成。在三個(gè)基準(zhǔn)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)評(píng)估表明了該方法的優(yōu)越性,并且該方法優(yōu)于現(xiàn)有的對(duì)抗訓(xùn)練方法。




          2. 基于自監(jiān)督對(duì)抗樣本的可泛化的假臉檢測(cè)方法

          Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection


          本文由騰訊AI Lab主導(dǎo),與阿德萊德大學(xué)合作完成。近年來(lái),基于深度學(xué)習(xí)的人臉造假方法層出不窮,同時(shí),針對(duì)這些假臉的檢測(cè)方法也受到了廣泛的關(guān)注。但是,現(xiàn)有的假臉檢測(cè)方法一般只能被用來(lái)檢測(cè)訓(xùn)練集中已知的幾種造假方法產(chǎn)生的假圖,當(dāng)測(cè)試案例中給出的假臉圖片由未知的造假方法生成,這些檢測(cè)方法往往表現(xiàn)較差。


          為了有效緩解泛化性的問(wèn)題,本文提出了一個(gè)簡(jiǎn)單的原則:一個(gè)可以泛化的表征必定會(huì)對(duì)各種假圖都敏感?;诖?,本文首先提出在訓(xùn)練過(guò)程中用可學(xué)習(xí)的增廣方式來(lái)決定多種造假參數(shù),并由這些造假參數(shù)來(lái)豐富假圖的種類;其次,為了增強(qiáng)敏感性,本文讓模型在預(yù)測(cè)人臉圖片真假的同時(shí),也同步預(yù)測(cè)假圖的造假參數(shù);最后,為了構(gòu)造困難的檢測(cè)樣本,該項(xiàng)工作用對(duì)抗學(xué)習(xí)的方式來(lái)交替更新增廣模型和檢測(cè)模型。


          廣泛的實(shí)驗(yàn)證明,本文的方法能有效提高基準(zhǔn)模型的泛化性,并在多個(gè)基準(zhǔn)數(shù)據(jù)集上優(yōu)于現(xiàn)有的方法。




          3. 基于對(duì)抗分布遷移的黑盒對(duì)抗攻擊

          Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution


          本文由騰訊AI Lab與清華大學(xué)、香港中文大學(xué)(深圳)、深圳大數(shù)據(jù)研究院、騰訊數(shù)據(jù)平臺(tái)部、美團(tuán)和鵬程實(shí)驗(yàn)室人工智能中心合作完成,提出了一種高效的黑盒攻擊方法,更貼近業(yè)務(wù)的運(yùn)行環(huán)境,可以提供更好的對(duì)抗魯棒性評(píng)測(cè),進(jìn)而推動(dòng)系統(tǒng)的安全性和可靠性。


          由于不需要被攻擊模型的模型結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)等信息,黑盒攻擊更貼近實(shí)際的運(yùn)行環(huán)境,可以更好的衡量業(yè)務(wù)系統(tǒng)的潛在威脅。本文研究了一種基于對(duì)抗樣本分布遷移的黑盒攻擊方法。對(duì)抗樣本的遷移性指在替代模型上生成的對(duì)抗樣本對(duì)目標(biāo)模型仍然具有一定的攻擊性。然而,替代模型和目標(biāo)模型之間潛在的網(wǎng)絡(luò)結(jié)構(gòu)、模型參數(shù)、訓(xùn)練數(shù)據(jù)集等方面的不一致性,極大的影響著對(duì)抗樣本的遷移成功率。


          本文提出了一種新的部分遷移機(jī)制來(lái)緩解這種不一致性,特別建模了基于條件流模型的對(duì)抗樣本分布,并在替代模型上進(jìn)行流模型學(xué)習(xí)。在對(duì)目標(biāo)模型的黑盒攻擊過(guò)程中,本文僅遷移條件流模型的部分參數(shù),其余參數(shù)則基于目標(biāo)模型優(yōu)化得到。這種部分遷移策略可以兼顧攻擊效率和性能,在多個(gè)基準(zhǔn)數(shù)據(jù)集和真實(shí)的API系統(tǒng)上的實(shí)驗(yàn)驗(yàn)證了方法的有效性。




          具身人工智能



          具身人工智能 (Embodied AI) 指擁有實(shí)體、在環(huán)境中學(xué)習(xí)的人工智能,亦即人工智能的具身化。


          具身人工智能關(guān)注以下幾個(gè)重點(diǎn)問(wèn)題:1)搭建供智能體學(xué)習(xí)的仿真/真實(shí)環(huán)境 2)具身智能體的學(xué)習(xí)任務(wù) 3)如何學(xué)習(xí)和解決這些任務(wù)。


          視覺(jué)感知是具身智能的重要組成部分,具身化的智能體如何主動(dòng)在復(fù)雜環(huán)境中發(fā)展可靠、魯棒、可泛化的視覺(jué)系統(tǒng),理解實(shí)體概念,如何感知能夠更好服務(wù)于決策與執(zhí)行的信息,也為視覺(jué)的發(fā)展帶來(lái)了新的任務(wù)和挑戰(zhàn)。         


          基于神經(jīng)二值圖匹配的多機(jī)器人自主場(chǎng)景重建

          Multi-Robot Active Mapping via Neural Bipartite Graph Matching


          本文由騰訊AI Lab與斯坦福大學(xué)、清華大學(xué)、北京大學(xué)和山東大學(xué)合作完成,主要研究多機(jī)器人自主場(chǎng)景重建的問(wèn)題。該問(wèn)題的目標(biāo)是利用最少的時(shí)間步實(shí)現(xiàn)完整的場(chǎng)景重建,而解決這個(gè)問(wèn)題的關(guān)鍵在于用于實(shí)現(xiàn)高效機(jī)器人移動(dòng)的目標(biāo)位置預(yù)測(cè)算法。過(guò)去的方法要么通過(guò)一種貪心策略選擇邊界點(diǎn)(frontier)作為目標(biāo)位置,要么通過(guò)強(qiáng)化學(xué)習(xí)來(lái)直接回歸目標(biāo)位置,這兩種方法在探索效率和場(chǎng)景的重建完整度上都表現(xiàn)欠佳。


          本文通過(guò)融合上述兩種方法提出了一種新穎的多機(jī)器人自主場(chǎng)景重建算法。具體而言,本文將該問(wèn)題簡(jiǎn)化為二值圖匹配,并通過(guò)建立機(jī)器人和邊界點(diǎn)的點(diǎn)與點(diǎn)對(duì)應(yīng)來(lái)解決該問(wèn)題。為了實(shí)現(xiàn)更有效的圖匹配,本文提出一個(gè)多元圖神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)點(diǎn)與點(diǎn)之間的神經(jīng)距離用于填充圖匹配中的鄰接矩陣。該項(xiàng)工作通過(guò)強(qiáng)化學(xué)習(xí)最大化長(zhǎng)期的時(shí)間效率和場(chǎng)景完整度來(lái)優(yōu)化多元圖神經(jīng)網(wǎng)絡(luò)。該算法僅需要9個(gè)場(chǎng)景就可以訓(xùn)練成功,且在多種不同的室內(nèi)場(chǎng)景和一些機(jī)器人上驗(yàn)證了其優(yōu)越性。





          猜您喜歡:

           戳我,查看GAN的系列專輯~!
          一頓午飯外賣,成為CV視覺(jué)前沿弄潮兒!
          CVPR 2022 | 25+方向、最新50篇GAN論文
           ICCV 2021 | 35個(gè)主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理


          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成


          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺(jué)中的數(shù)學(xué)方法》分享


          《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》




          瀏覽 74
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  波多野结衣一区在线 | 欧美亚洲日韩电影 | 操逼视频,国产操逼片 | 国产精品永久成人免费 | 国产精品www...xxc |