<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          中科院自動化所17篇CVPR 2022 論文新作速覽!

          共 10326字,需瀏覽 21分鐘

           ·

          2022-03-23 11:18

          點擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達

          僅作學(xué)術(shù)分享,不代表本公眾號立場,侵權(quán)聯(lián)系刪除
          轉(zhuǎn)載于:中科院自動化所
          編輯:專知

          01.?AnyFACE: 自由式文本到人臉合成與操控

          AnyFace: Free-style Text-to-Face Synthesis and Manipulation

          現(xiàn)有的文本到圖像生成的方法通常只適用于數(shù)據(jù)集中已有的單詞,然而,有限的單詞無法全面地描述一張人臉。因此,本文開創(chuàng)性地提出了一種自由風(fēng)格的文本到人臉生成方法(AnyFace)以支持元宇宙、社交媒體、取證等更廣泛的應(yīng)用。對于任意給定的文本,AnyFace 采用一個新型的雙通道網(wǎng)絡(luò)實現(xiàn)人臉的生成和編輯。首先用CLIP編碼器對人臉的文本和圖像特征進行編碼,跨模態(tài)蒸餾模塊用于實現(xiàn)視覺和文本空間的交互。此外,本文還采用了一個多樣化對比損失來生成更加多樣化和細密度的細節(jié)。在多個數(shù)據(jù)集上的實驗證明了算法的有效性。AnyFace可以在對輸入沒有限制的條件下實現(xiàn)高質(zhì)量,高分辨率,多樣性的人臉生成和編輯。

          圖.?自由風(fēng)格的文本到人臉生成方法示意圖

          作者:Jianxin Sun, Qiyao Deng, Qi Li, Muyi Sun, Min Ren, Zhenan Sun



          02.?基于獨立成分的藝術(shù)風(fēng)格發(fā)掘

          Artistic Style Discovery with Independent Components

          目前大多數(shù)風(fēng)格遷移模型通常選擇卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)高質(zhì)量的圖像風(fēng)格化,但這些方法很少對潛在的風(fēng)格空間進行探索。在潛在的風(fēng)格空間中,大量信息未能得到有效的利用,這導(dǎo)致生成的風(fēng)格可控性差以及有限的實際應(yīng)用。我們重新審視了風(fēng)格特征的內(nèi)在意義,并且提出了一種新穎的無監(jiān)督算法。該算法用于生成多種風(fēng)格并實現(xiàn)個性化操作。我們重新探索了風(fēng)格轉(zhuǎn)移的機制,并從由不同風(fēng)格特征組成的潛在空間中解耦出了不同的藝術(shù)風(fēng)格成分。通過線性組合不同的風(fēng)格成分可以生成多種新的風(fēng)格特征。我們在AdaIN、SANet、Linear、MST上取得了不錯的效果。

          圖. 基于不同模型的多樣性風(fēng)格化圖像

          圖. 風(fēng)格特征由風(fēng)格元件線性組合

          作者:Xin Xie, Yi Li, Huaibo Huang, Haiyan Fu, Wanwan Wang, Yanqing Guo



          03.?一種基于數(shù)據(jù)域和下游任務(wù)的預(yù)訓(xùn)練模型

          DATA: Domain-Aware and Task-Aware Pre-training

          通過自監(jiān)督學(xué)習(xí) (SSL) 和對許多下游任務(wù)進行微調(diào)來在無標(biāo)簽的海量數(shù)據(jù)上訓(xùn)練模型的范式最近已成為一種趨勢。?然而,由于訓(xùn)練成本高和下游使用的無意識,大多數(shù)自監(jiān)督學(xué)習(xí)方法缺乏對應(yīng)下游場景多樣性的能力,因為存在各種數(shù)據(jù)域、延遲約束等。?神經(jīng)架構(gòu)搜索 (NAS) 是一種公認的克服上述問題的方式,但在 SSL 上應(yīng)用 NAS 似乎是不可能的,因為沒有提供用于判斷模型選擇的標(biāo)簽或指標(biāo)。在本文中,我們介紹了 DATA,這是一種簡單而有效的 NAS 方法,專門用于 SSL,提供數(shù)據(jù)域相關(guān)和任務(wù)相關(guān)的預(yù)訓(xùn)練模型。具體來說,我們 (i) 首先訓(xùn)練了一個超網(wǎng),它可以被視為一組數(shù)百萬個網(wǎng)絡(luò),涵蓋了廣泛的模型規(guī)模,沒有任何標(biāo)簽,(ii) 其次提出了一種與 SSL 兼容的靈活搜索機制,可以針對沒有提供明確指標(biāo)的各種下游視覺任務(wù)和數(shù)據(jù)域,找到不同計算成本的網(wǎng)絡(luò)。使用 MoCov2 實例化,我們的方法在下游任務(wù)的廣泛計算成本上取得了可喜的結(jié)果,包括圖像分類、目標(biāo)檢測和語義分割。DATA 與大多數(shù)現(xiàn)有 SSL 方法正交,并賦予它們根據(jù)下游需求進行定制的能力。大量的實驗驗證了所提出的方法在其他 SSL 方法(包括 BYOL、ReSSL 和 DenseCL)上的普適性。

          圖. DATA結(jié)構(gòu)設(shè)計

          作者:Qing Chang, Junran Peng, Jiajun Sun, LingxiXie, Haoran Yin, Qi Tian, Zhaoxiang Zhang

          代碼已開源在:https://github.com/GAIA-vision/GAIA-ssl



          04.?DINE:基于單個或多個黑盒預(yù)測模型的領(lǐng)域自適應(yīng)方法研究

          DINE: Domain Adaptation from Single and Multiple Black-box Predictors

          為了減輕標(biāo)注的負擔(dān),無監(jiān)督領(lǐng)域自適應(yīng)學(xué)習(xí)旨在將先前和相關(guān)的已標(biāo)注數(shù)據(jù)集(源域)中的知識轉(zhuǎn)移到新的無標(biāo)注數(shù)據(jù)集(目標(biāo)域)。盡管取得了令人印象深刻的進展,但現(xiàn)有的方法總是需要訪問原始的源域數(shù)據(jù)并依賴于此研發(fā)基于轉(zhuǎn)導(dǎo)學(xué)習(xí)的方式識別目標(biāo)樣本,這可能會引起源域個體的數(shù)據(jù)隱私問題。最近的一些研究求助于另一種解決方案,即利用源域的已訓(xùn)練白盒模型(模型參數(shù)可見),然而,它仍然可能通過生成對抗學(xué)習(xí)來泄露原始數(shù)據(jù)。

          本文研究了無監(jiān)督領(lǐng)域自適應(yīng)一種實用且有趣的場景,即在目標(biāo)域自適應(yīng)期間只提供黑盒源域模型(即只有網(wǎng)絡(luò)的預(yù)測可見)。為解決這一問題,我們提出了一種新的兩步知識自適應(yīng)框架(DINE)。考慮到目標(biāo)數(shù)據(jù)結(jié)構(gòu),DINE首先將源預(yù)測器中的知識提取到定制的目標(biāo)模型中,然后對提取的模型進行微調(diào)以進一步適應(yīng)目標(biāo)領(lǐng)域。此外,DINE不需要需要跨域的網(wǎng)絡(luò)結(jié)構(gòu)一致,甚至可以在低資源設(shè)備上進行有效的自適應(yīng)學(xué)習(xí)。在多個場景如單源、多源和部分集上的實驗結(jié)果證實,與最先進的數(shù)據(jù)依賴方法相比,DINE均獲得了極具競爭力的性能。


          圖. 基于黑盒模型的無監(jiān)督域自適應(yīng)學(xué)習(xí)問題


          作者:Jian Liang, Dapeng Hu, Jiashi Feng, Ran He



          05.?基于稀疏Transformer的單步長3D物體檢測器

          Embracing Single Stride 3D Object Detector with Sparse Transformer

          在自動駕駛場景中,相比于整個場景的尺度,單個物體的尺度通常很小。下圖展示了COCO數(shù)據(jù)集和Waymo數(shù)據(jù)集上物體相對尺度的分布情況

          圖. COCO和Waymo上物體相對尺度分布

          這一特性往往被基于Pillar或者體素的檢測器所忽略,它們通常借用了成熟的2D多尺度檢測器的結(jié)構(gòu)。基于這一考量,本文探索了單步長(無降采樣)的檢測器結(jié)構(gòu)。如果簡單地將卷積網(wǎng)絡(luò)提升為單步長網(wǎng)絡(luò),會取得一定的性能提升,但是會帶來感受野不足的問題以及巨大的計算量。為了得到一個高效高性能的單步長檢測器,我們借用了當(dāng)前流行的swin transformer的結(jié)構(gòu),舍棄了其多尺度的結(jié)構(gòu)并且針對點云數(shù)據(jù)的特點將其稀疏化,我們將其命名為單步長稀疏Transformer(Single-stride Sparse Transformer, SST)。我們在當(dāng)前最大的3D檢測數(shù)據(jù)集Waymo Open Dataset上做了詳盡的實驗,從各個方面探討了SST的特性,并取得了SoTA的性能,特別是在小物體上比之前的方法有了顯著的提升(達到了83.8的Level 1 AP)。

          圖. Sparse Attention結(jié)構(gòu)設(shè)計

          作者:Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang

          代碼已開源在:https://github.com/TuSimple/SST



          06.?基于夏普利值的少樣本后門防御

          Few-shot Backdoor Defense Using Shapley Estimation

          神經(jīng)網(wǎng)絡(luò)在諸多領(lǐng)域有著廣泛的應(yīng)用,但已有研究表明神經(jīng)網(wǎng)絡(luò)容易遭受后門攻擊,造成潛在安全威脅,因此后門防御是一個非常重要的問題。已有后門防御工作通常需要較多訓(xùn)練數(shù)據(jù)并剪除大量神經(jīng)元,這些防御算法容易破壞網(wǎng)絡(luò)原本結(jié)構(gòu)并依賴于來網(wǎng)絡(luò)微調(diào)操作。

          為了更高效準(zhǔn)確地去除神經(jīng)網(wǎng)絡(luò)中的后門攻擊,我們提出一種基于Shapley value的ShapPruning后門去除算法。ShapPruning利用觸發(fā)器逆合成估計后門觸發(fā)器,并通過蒙特卡洛采樣以及epsilon-greedy算法高效估計神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元與網(wǎng)絡(luò)后門攻擊行為的關(guān)聯(lián)程度,從而準(zhǔn)確定位后門感染神經(jīng)元,進而更精準(zhǔn)的指導(dǎo)后門去除。相較于之前研究,我們的工作可以在每一類只有一張圖片的情況下去除后門攻擊,同時印證了后門攻擊只通過感染神經(jīng)網(wǎng)絡(luò)中極少數(shù)神經(jīng)元(1%左右)實現(xiàn)網(wǎng)絡(luò)操縱。同時,我們采用data-inverse的方法,從感染模型中恢復(fù)訓(xùn)練數(shù)據(jù),提出了一種無數(shù)據(jù)的混合模式ShapPruning算法,實現(xiàn)了無數(shù)據(jù)的神經(jīng)后門去除。我們的方法在數(shù)據(jù)缺乏情況下,在CIIFAR10, GTSRB, YouTubeFace等數(shù)據(jù)集上針對已有后門攻擊方式均取得了很好的效果。

          圖. ShapPruning后門防御算法

          作者:Jiyang Guan, Zhuozhuo Tu, Ran He, Dacheng Tao



          07.?基于隱式樣本擴展的無監(jiān)督行人重識別

          Implicit Sample Extension for Unsupervised Person Re-Identification

          現(xiàn)有的無監(jiān)督行人重新識別(ReID)工作大都是通過聚類的方法來預(yù)測偽標(biāo)簽,其中同一聚類中的樣本被認為具有相同的身份。然而,聚類通常會將不同的真實身份混合在一起,或者將相同的身份分成兩個或多個子集群。毫無疑問,對這些有問題的集群進行訓(xùn)練會損害 Re-ID 的性能。

          基于這一觀察,我們假設(shè)現(xiàn)有數(shù)據(jù)分布中可能缺少一些基礎(chǔ)信息,這些信息對于產(chǎn)生理想的聚類結(jié)果很重要。為了發(fā)現(xiàn)這些信息,提出了一種隱式樣本擴展(ISE)方法來生成我們所說的圍繞集群邊界的支持樣本。具體來說,我們開發(fā)了一種漸進線性插值(PLI)策略來指導(dǎo)支持樣本生成的方向和程度。PLI控制支持從實際樣本到其 K-最近聚類生成的樣本。同時,決定了應(yīng)將多少來自 K-最近集群的上下文信息納入支持樣本。此外,為了提高支持樣本的可靠性,我們提出了一種保留標(biāo)簽的損失ISE,強制它們接近原始樣本。有趣的是,有了我們的 ISE,聚類質(zhì)量逐漸提高,上述子集群和混合集群的問題得到了很好的緩解。大量實驗表明,所提出的方法是有效的,并且在無監(jiān)督行人重識別 Re-ID 設(shè)置下實現(xiàn)了最先進的性能。

          圖. ISE方法說明

          圖. 模型結(jié)構(gòu)示意圖

          作者:Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang



          08.?基于變分圖信息瓶頸的子圖識別方法

          Improving Subgraph Recognition with Variational Graph Information Bottleneck

          子圖識別問題是指識別圖結(jié)構(gòu)數(shù)據(jù)中的與圖屬性有關(guān)的預(yù)測性子圖。該問題是圖神經(jīng)網(wǎng)絡(luò)可解釋性分析、組織病理學(xué)分析以及魯棒圖分類等任務(wù)中的關(guān)鍵性問題。針對該問題,現(xiàn)有的方法通過優(yōu)化圖信息瓶頸目標(biāo)函數(shù)來識別預(yù)測性子圖。然而,由于互信息估計過程十分繁瑣且難以準(zhǔn)確估計,現(xiàn)有的方法訓(xùn)練耗時且不穩(wěn)定,并極易得到退化解。因此,本文提出了變分圖信息瓶頸方法。該方法首先引入噪聲注入模塊,對圖數(shù)據(jù)中的節(jié)點依概率選擇性注入噪聲從而得到擾動圖。通過比較擾動圖與原始圖預(yù)測結(jié)果的差別來衡量注入噪聲節(jié)點的重要性。針對采樣過程不可導(dǎo),我們設(shè)計了基于重參數(shù)化技巧的噪聲注入方法。通過引入噪聲注入模塊,我們將原始圖信息瓶頸目標(biāo)函數(shù)轉(zhuǎn)化為變分圖信息目標(biāo)函數(shù),并利用變分技巧得到了目標(biāo)函數(shù)的變分上界。通過優(yōu)化該變分上界求解圖信息瓶頸問題,提高了優(yōu)化過程的穩(wěn)定性與速度。最后,將擾動圖中的噪聲節(jié)點去掉即得到了預(yù)測性子圖。我們在多種視覺任務(wù)和圖學(xué)習(xí)任務(wù)上測試了變分圖信息瓶頸方法。實驗結(jié)果表明該方法不僅易于優(yōu)化,且在多種任務(wù)上取得很好的效果。

          基于變分信息瓶頸的子圖識別框架

          作者:Junchi Yu, Jie Cao, Ran He



          09.?面向盲超分辨率的退化分布學(xué)習(xí)

          Learning the Degradation Distribution for Blind Image Super-Resolution

          當(dāng)前的超分方法大多采用合成的成對的高清-低清樣本來訓(xùn)練模型。為了避免合成數(shù)據(jù)與真實數(shù)據(jù)之間存在域差異,之前大部分方法采用可學(xué)習(xí)的退化模型去自適應(yīng)地生成合成數(shù)據(jù)。這些降質(zhì)模型通常是確定性的(deterministic),即一張高清圖片只能用來合成一張低清樣本。然而,真實場景中的退化方法通常是隨機的,比如相機抖動造成的模糊和隨機噪聲。確定性的退化模型很難模擬真實退化方法的隨機性。針對這一問題,本文提出一種概率(probabilistic)退化模型。該模型把退化當(dāng)作隨機變量進行研究,并通過學(xué)習(xí)從預(yù)定義的隨機變量到退化方法的映射來建模其分布。和以往的確定性退化模型相比,我們的概率退化模型可以模擬更加多樣的退化方法,從而生成更加豐富的高清-低清訓(xùn)練樣本對,來幫助訓(xùn)練更加魯棒的超分模型。在不同的數(shù)據(jù)集上的大量實驗表明,我們的方法可以幫助超分模型在復(fù)雜降質(zhì)環(huán)境中取得更好的結(jié)果。

          圖. 基于概率退化模型的盲超分模型結(jié)構(gòu)

          作者:Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan



          10.?種基于Meta-Memory的跨域小樣本語義分割方法

          Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

          小樣本語義分割旨在通過使用少量標(biāo)記數(shù)據(jù)來預(yù)測像素類別。現(xiàn)有小樣本語義分割研究主要關(guān)注于在同一分布中采樣基類和新類。然而,現(xiàn)實中數(shù)據(jù)分布并不能保證都在同一分布中,實際中顯著存在的域偏移問題降低了小樣本學(xué)習(xí)的性能。為了解決這個問題,我們引入了一個有趣且具有挑戰(zhàn)性的跨域小樣本語義分割任務(wù),其中訓(xùn)練任務(wù)和測試任務(wù)在不同的域上執(zhí)行。

          圖. 跨域小樣本學(xué)習(xí)

          在學(xué)習(xí)過程中,我們使用一個元知識庫來存儲源域?qū)嵗挠騼?nèi)樣式信息并將它們傳輸?shù)侥繕?biāo)域樣本,并且我們采用對比學(xué)習(xí)策略來約束遷移階段新類的判別信息,由于源域信息的載入,目標(biāo)域與源域的domain gap被有效降低。實驗表明,我們提出的方法在4個數(shù)據(jù)集上的跨域少樣本語義分割任務(wù)上取得了優(yōu)異的性能。

          圖. 模型結(jié)構(gòu)設(shè)計

          作者:Wenjian Wang, Lijuan Duan, Yuxi Wang, Qing En, Junsong Fan, Zhaoxiang Zhang


          11.?重新思考圖像裁切:從全局視角探索多樣化的構(gòu)圖

          Rethinking Image Cropping: Exploring Diverse Compositions from Global Views


          圖像裁切是一種簡單有效的可以提升圖像構(gòu)圖美感的方式。現(xiàn)有的兩類模型,候選裁切評估模型和裁切坐標(biāo)回歸模型,都有明顯的缺陷。候選裁切評估模型難以遍歷所有高質(zhì)量裁切,無法滿足全局性要求;而裁切坐標(biāo)回歸模型則只能輸出一個裁切結(jié)果,忽視了多樣性。針對全局性和多樣性不能兼得的問題,我們提出了一種基于軟標(biāo)簽集合預(yù)測的圖像裁切模型。模型使用一組固定數(shù)量的可學(xué)習(xí)錨通過條件Transformer網(wǎng)絡(luò)回歸多個裁切。回歸裁切與真實裁切進行二分圖匹配,匹配結(jié)果用于訓(xùn)練一個輔助的有效性分類器,使模型可以從所有預(yù)測中挑選有效子集。為了緩解有效性分類硬標(biāo)簽與無效裁切的真實質(zhì)量之間的不一致性,我們進一步提出了兩種標(biāo)簽平滑策略。第一種基于裁切的局部冗余性對質(zhì)量分?jǐn)?shù)進行直接估計并映射為軟標(biāo)簽;第二種使用自蒸餾策略進行自主平滑。兩種策略分別適用于密集標(biāo)注和稀疏標(biāo)注的數(shù)據(jù)集。我們的模型在兩個版本的GAIC數(shù)據(jù)集和FLMS數(shù)據(jù)集上均取得突出效果,同時克服了兩類傳統(tǒng)模型的缺陷,能夠?qū)D像進行全局遍歷并找出多個高質(zhì)量裁切。更加適用于真實場景的應(yīng)用。

          圖. 基于軟標(biāo)簽集合預(yù)測的圖像裁切模型

          作者:Gengyun Jia, Huaibo Huang, Chaoyou Fu, Ran He



          12.?自監(jiān)督預(yù)測學(xué)習(xí):一種用于視覺場景聲源定位的無負樣本方法

          Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

          視覺和聲音信號在物理世界常常相伴而生。一般而言,人可以“較為輕松地”將耳朵聽到的聲音和眼睛看到的物體一一對應(yīng)起來,從而根據(jù)聲音來定位發(fā)聲物體。為實現(xiàn)這一類人行為智能,現(xiàn)有方法大多基于對比學(xué)習(xí)策略來構(gòu)建圖像和聲音特征之間的對應(yīng)關(guān)系。但這類方法均以隨機采樣的方式形成對比學(xué)習(xí)的負樣本對,易引起不同模態(tài)特征之間的錯誤對齊,最終造成聲源定位結(jié)果的混淆。

          在本文中,我們提出了一種無需使用負樣本的自監(jiān)督學(xué)習(xí)方法,通過充分挖掘來自相同視頻的視頻幀圖像和聲音信號在特征水平上的相似性,來避免隨機采樣負樣本引起的定位混淆問題。

          為實現(xiàn)這一目的,我們首先設(shè)計了一個三分支深度網(wǎng)絡(luò),通過對同一視頻幀圖像進行數(shù)據(jù)增廣,來構(gòu)建聲音特征與不同視角下的視覺特征之間的語義相關(guān)性;然后利用SimSiam式的自監(jiān)督表示學(xué)習(xí)方法訓(xùn)練模型;最后,使用聲音特征與視覺特征之間的相似性圖確定聲源位置。值得強調(diào)的是,提出的預(yù)測編碼(Predictive Coding)模塊有效實現(xiàn)了視覺模態(tài)和聲音模態(tài)之間的特征對齊,有望拓展應(yīng)用到其它多模態(tài)學(xué)習(xí)任務(wù),如視覺-語言多模態(tài)。

          在兩個標(biāo)準(zhǔn)的聲源定位數(shù)據(jù)集(SoundNet-Flickr和VGG-Sound Source)上進行的定量和定性實驗表明,我們的方法在單聲源定位任務(wù)上表現(xiàn)最優(yōu),證明了所提方法的有效性。

          圖. SSPL結(jié)構(gòu)設(shè)計

          作者:Zengjie Song, Yuxi Wang, Junsong Fan, Zhaoxiang Zhang, Tieniu Tan



          13.?基于稀疏實例激活的實時實例分割方法

          Sparse Instance Activation for Real-Time Instance Segmentation

          在本文中,我們提出了一種新穎、高效的全卷積實時實例分割框架。以前,大多數(shù)實例分割方法嚴(yán)重依賴目標(biāo)檢測并基于邊界框或密集中心執(zhí)行掩碼預(yù)測。相比之下,我們提出了一組稀疏的實例激活圖,作為新的對象表示,以突出每個前景對象的信息區(qū)域。然后根據(jù)高亮區(qū)域聚合特征得到實例級特征,進行識別和分割。此外,基于二分匹配,實例激活圖可以以一對一的方式預(yù)測對象,從而避免后處理中的非極大值抑制(NMS)。由于具有實例激活圖的簡單而有效的設(shè)計,SparseInst 具有極快的推理速度,在 COCO 基準(zhǔn)測試中達到了 40.2 FPS 和 36.9 AP,在速度和準(zhǔn)確性方面明顯優(yōu)于現(xiàn)有方法。

          圖. 在速度和精度上與現(xiàn)有實時實例分割算法的比較

          圖. SparseInst框架結(jié)構(gòu)

          作者:Tianheng Cheng, Xinggang Wang, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang, Wenyu Liu



          14.?基于窗口注意力機制的深度圖像壓縮

          The Devil Is in the Details: Window-based Attention for Image Compression

          近年來,基于深度學(xué)習(xí)的圖像壓縮方法表現(xiàn)出比傳統(tǒng)圖像壓縮方法具有更好的RD Performance。目前基于深度學(xué)習(xí)的圖像壓縮模型大都基于CNN。其主要缺點是CNN結(jié)構(gòu)不是為捕捉局部細節(jié)而設(shè)計的,尤其是局部冗余信息,影響了重建質(zhì)量。因此,如何充分利用全局結(jié)構(gòu)和局部紋理成為基于深度學(xué)習(xí)圖像壓縮的核心問題。

          受到ViT和 Swin的啟發(fā),我們發(fā)現(xiàn)將局部感知注意力機制與全局相關(guān)特征學(xué)習(xí)相結(jié)合可以滿足圖像壓縮的預(yù)期。在本文中,我們首先廣泛研究了多種注意力機制對局部特征學(xué)習(xí)的影響,然后介紹了一種更直接有效的基于窗口的局部注意力塊。所提出的基于窗口的注意力非常靈活,可以作為即插即用組件來增強圖像壓縮模型。此外,本文提出了一種新穎的Symmetrical Transformer框架,是Transformer在圖像壓縮領(lǐng)域的第一次探索。

          基于本文設(shè)計的Symmetrical Transformer框架和CNN框架在基于PSNR和MS-SSIM的量化指標(biāo)上,均取得了新的SOTA性能。此外,在主觀質(zhì)量上,也有明顯的改善。

          圖. Symmetrical Transformer結(jié)構(gòu)設(shè)計

          作者:Renjie Zou, Chunfeng Song, Zhaoxiang Zhang

          代碼近期將開源:https://github.com/Googolxx/STF



          15.?可遷移稀疏對抗攻擊

          Transferable Sparse Adversarial Attack

          研究對抗攻擊對深度神經(jīng)網(wǎng)絡(luò)的魯棒性評估具有重要意義。在本文中,我們關(guān)注基于零范數(shù)約束的稀疏對抗攻擊,即修改圖像的少量像素點造成模型的錯誤輸出。已有稀疏對抗攻擊盡管取得了較高的白盒攻擊成功率,但由于過擬合目標(biāo)模型,在黑盒攻擊中可遷移性較差。我們引入了一種生成器框架來緩解過擬合問題,從而有效地生成可遷移的稀疏對抗樣本。具體地,我們所設(shè)計的生成器將稀疏擾動解耦為幅值和位置,使用所設(shè)計的隨機量化算子,以端到端的方式聯(lián)合優(yōu)化這兩個分量。實驗表明,與最先進的方法相比,我們的方法在相同的稀疏度下顯著提高了可遷移性和計算速度。

          圖. 可遷移稀疏對抗攻擊框架

          作者:Ziwen He, Wei Wang, Jing Dong, Tieniu Tan

          代碼已開源:

          https://github.com/shaguopohuaizhe/TSAA?



          16.?基于低噪聲物體輪廓的弱監(jiān)督語義分割

          Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

          得益于深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,語義分割研究在近年來取得了巨大進展。然而,生成像素級語義分割標(biāo)簽需要巨大的時間和經(jīng)濟投入。使用圖像類別、物體框、物體劃線、物體點標(biāo)記等弱標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)可以有效降低時間和經(jīng)濟成本。其中,圖像類別標(biāo)簽成本最低,相關(guān)的弱監(jiān)督分割研究最為活躍。這些方法通常會訓(xùn)練一個分類網(wǎng)絡(luò),基于分類網(wǎng)絡(luò)的類激活圖(CAM)生成分割偽標(biāo)簽L1,利用L1訓(xùn)練分割網(wǎng)絡(luò),這種偽標(biāo)簽通常不能覆蓋完整的前景物體。一些方法利用偽標(biāo)簽L1訓(xùn)練模型預(yù)測物體輪廓,并在輪廓約束下將CAM分?jǐn)?shù)從高置信度前景區(qū)域傳播到低置信度前景區(qū)域,使生成的偽標(biāo)簽L2包含更完整的前景物體。我們認為偽標(biāo)簽L1缺乏足夠的高層語義信息來監(jiān)督輪廓檢測網(wǎng)絡(luò),輪廓網(wǎng)絡(luò)輸出的噪聲邊界會阻礙CAM分?jǐn)?shù)傳播。為了得到低噪聲物體輪廓,我們訓(xùn)練了SANCE模型,它包含一個輔助語義分割分支,該輔助分支通過主干網(wǎng)絡(luò)特征共享和在線標(biāo)簽為輪廓檢測分支訓(xùn)練提供足夠的高層語義信息,輔助分支預(yù)測的分割結(jié)果也提供了比CAM更好的前景物體分布信息,進一步提高了偽標(biāo)簽質(zhì)量。我們在Pascal VOC 2012 和COCO 2014數(shù)據(jù)集上進行了實驗,偽標(biāo)簽訓(xùn)練的語義分割網(wǎng)絡(luò)取得了SOTA性能。

          圖. 模型結(jié)構(gòu)設(shè)計

          作者:Jing Li,Junsong Fan ,Zhaoxiang Zhang



          17.?基于代表性片段知識傳播的弱監(jiān)督時序行為定位

          Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation

          弱監(jiān)督時序行為定位的目的是僅通過視頻類別定位出視頻中的行為邊界。現(xiàn)有的許多方法大多基于分類的框架,并試圖生成偽標(biāo)簽以減小分類任務(wù)和定位任務(wù)之間的差異。現(xiàn)有的方法通常只利用有限的上下文信息來生成偽標(biāo)簽,導(dǎo)致生成的偽標(biāo)簽。為了解決這個問題,我們提出了一個提取出并傳播代表性的片段的弱監(jiān)督時序行為定位框架。我們的方法旨在挖掘每個視頻中的代表性片段,以便在視頻片段之間傳播信息,以生成更好的偽標(biāo)簽。對于每個視頻,我們的方法基于高斯混合模型生成其獨有的代表性片段,并將代表性片段根據(jù)分?jǐn)?shù)優(yōu)先的原則儲存在對應(yīng)類別的記憶庫中。在得到代表性片段后,我們的方法利用所提出的雙向隨機游走模塊更新原始的視頻特征,利用更新后的視頻特征生成視頻的偽標(biāo)簽,以在線的方式糾正主分支的預(yù)測結(jié)果。我們的方法在兩個基準(zhǔn)數(shù)據(jù)集THUMOS14和ActivityNet1.3上獲得了優(yōu)越的性能,在THUMOS14上的平均mAP高于最優(yōu)方法1.2%。

          圖. 代表性片段知識傳遞框架

          作者:Linjiang Huang, Liang Wang, Hongsheng Li


          點個在看 paper不斷!

          瀏覽 153
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  神马影音先锋无码视频 | 99热99re6国产在线播放 | 男女操逼视频网站入口免费观看1草溜 | 天天躁日日躁狠狠躁免费麻豆 | 欧美精品成人a在线观看hd |