點(diǎn)擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
來源:OpenCV中文網(wǎng)
ACCV 2020 會議正在召開,同時(shí)官方已經(jīng)公布了收錄其中的 255 篇論文。令人驚喜的是,大會有約一半的論文已開源,今日先來一波 Github 星標(biāo)前 10 的論文『截至2020 年 11 月 30 日』。
Visual Tracking by TridentAlign and Context Embedding
目標(biāo)對象和具有相似類別干擾物的大規(guī)模偏差是視覺跟蹤中的一大挑戰(zhàn),在本次工作中,來自韓國首爾大學(xué)和中央大學(xué)的學(xué)者提出全新的 TridentAlign 和上下文嵌入模塊,用于基于孿生網(wǎng)絡(luò)的視覺跟蹤。在多個(gè)基準(zhǔn)數(shù)據(jù)集上獲得的實(shí)驗(yàn)結(jié)果表明,所提出的跟蹤器的性能達(dá)到最先進(jìn)的行列,同時(shí)所提出的跟蹤器能以實(shí)時(shí)速度運(yùn)行。作者 |?Janghoon Choi,?Junseok Kwon,?Kyoung Mu Lee論文 |?https://arxiv.org/abs/2007.06887代碼 |?https://github.com/JanghoonChoi/TACT
Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses
百度研究員提出一個(gè)全新方法:Speech2Video,將給定音頻轉(zhuǎn)換為特定人物照片的逼真視頻,輸出視頻具有同步性、逼真以及豐富的身體動(dòng)態(tài)。作者 |?Miao Liao,?Sibo Zhang,?Peng Wang,?Hao Zhu,?Xinxin Zuo,?Ruigang Yang論文 |?https://arxiv.org/abs/2007.09198主頁 |?https://sites.google.com/view/sibozhang/代碼 |?https://github.com/sibozhang/
Regularizing Meta-Learning via Gradient Dropout
來自加州大學(xué)默塞德分校,美國NEC實(shí)驗(yàn)室;英偉達(dá);臺灣陽明交通大學(xué);谷歌的學(xué)者所提出的 DropGrad 方法緩解現(xiàn)有的基于梯度的元學(xué)習(xí)模型中的過擬合問題,提高跨域少樣本分類的性能。
作者 |?Hung-Yu Tseng,?Yi-Wen Chen,?Yi-Hsuan Tsai,?Sifei Liu,?Yen-Yu Lin,?Ming-Hsuan Yang論文 |?https://arxiv.org/abs/2004.05859代碼 |?https://github.com/hytseng0509/
Condensed Movies: Story Based Retrieval with Contextual Embeddings
牛津大學(xué) VGG 組學(xué)者創(chuàng)建了 Condensed Movies 數(shù)據(jù)集(CMD),由 3K 多部電影中的關(guān)鍵場景組成:每個(gè)關(guān)鍵場景都附有場景的高級語義描述、人物臉部軌跡和電影的元數(shù)據(jù)。該數(shù)據(jù)集是可擴(kuò)展的,從 YouTube 自動(dòng)獲取,任何人都可以免費(fèi)下載使用。它在電影數(shù)量上也比現(xiàn)有的電影數(shù)據(jù)集大一個(gè)數(shù)量級;在該數(shù)據(jù)集上提供了一個(gè)文本到視頻檢索的深度網(wǎng)絡(luò)基線,將字符、語音和視覺線索結(jié)合到一個(gè)單一的視頻嵌入中;同時(shí)該文還展示了如何從其他視頻剪輯中添加上下文來提高檢索性能。作者 |?Max Bain,?Arsha Nagrani,?Andrew Brown,?Andrew Zisserman論文 |?https://arxiv.org/abs/2005.04208主頁 |?https://www.robots.ox.ac.uk/~vgg/research/代碼 |?https://github.com/m-bain/CondensedMovies
A Sparse Gaussian Approach to Region-Based 6DoF Object Tracking
德國航空航天中心和慕尼黑工業(yè)大學(xué)學(xué)者提出一個(gè)全新的、高效的、稀疏的基于區(qū)域的 6DoF 目標(biāo)跟蹤方法,只需一個(gè)單目 RGB 相機(jī)和 3D 目標(biāo)模型。
在 RBOT 數(shù)據(jù)集上,所提出算法在跟蹤成功率和計(jì)算效率方面都以相當(dāng)大的優(yōu)勢優(yōu)于最先進(jìn)的基于區(qū)域的方法。
作者 |?Manuel Stoiber, Martin Pfanne , Klaus H. Strobl, Rudolph Triebel ,? Alin Albu-Sch論文 |?https://openaccess.thecvf.com/content/ACCV2020/papers/Stoiber_A_Sparse_Gaussian_Approach_to_Region-Based_6DoF_Object_Tracking_ACCV_2020_paper.pdf代碼 |?https://github.com/DLR-RM/RBGT
TinyGAN: Distilling BigGAN for Conditional Image Generation
GANs 雖然是生成式圖像建模的一種強(qiáng)大方法,但其訓(xùn)練的不穩(wěn)定性卻十分棘手,特別是在大規(guī)模的復(fù)雜數(shù)據(jù)集上。近期的 BigGAN 工作顯著提高了 ImageNet 的圖像生成質(zhì)量,但它需要一個(gè)巨大的模型,因此很難在資源有限的設(shè)備上部署。為了減小模型大小,中國臺灣中央研究院資訊科學(xué)研究所學(xué)者提出一種壓縮 GAN 的黑盒知識蒸餾框架,突出了穩(wěn)定高效的訓(xùn)練過程。給定 BigGAN 作為教師網(wǎng)絡(luò),設(shè)法訓(xùn)練一個(gè)小得多的學(xué)生網(wǎng)絡(luò)來模仿它的功能,在生成器的參數(shù)減少 16 倍的情況下,在Inception 和 FID 分?jǐn)?shù)上實(shí)現(xiàn)了有競爭力的性能。作者 |?Ting-Yun Chang,?Chi-Jen Lu論文 |?https://arxiv.org/abs/2009.13829代碼 |?https://github.com/terarachang/
Localize to Classify and Classify to Localize: Mutual Guidance in Object Detection來自法國雷恩第一大學(xué),法國南布列塔尼大學(xué),ATERMES公司等的學(xué)者對在 predefined anchor boxes 和 ground truth boxes 之間使用 IoU 作為目標(biāo)檢測中 anchor matching 的良好標(biāo)準(zhǔn)提出質(zhì)疑,并研究了檢測過程中涉及的兩個(gè)子任務(wù)(即定位和分類)的相互依賴性。
提出 Mutual Guidance 機(jī)制,通過根據(jù)一個(gè)任務(wù)的預(yù)測質(zhì)量為另一個(gè)任務(wù)分配錨標(biāo)簽,提供錨和目標(biāo)之間的自適應(yīng)匹配,反之亦然。在不同的架構(gòu)和不同的公共數(shù)據(jù)集上評估了所提出的方法,并與傳統(tǒng)的靜態(tài)錨匹配策略進(jìn)行了比較。報(bào)告的結(jié)果顯示了這種機(jī)制在目標(biāo)檢測中的有效性和通用性。
作者 |?Heng Zhang,?Elisa Fromont,?Sébastien Lefevre,?Bruno Avignon論文 |?https://arxiv.org/abs/2009.14085代碼 |?https://github.com/ZHANGHeng19931123/Patch SVDD: Patch-level SVDD for Anomaly Detection and Segmentation
來自韓國首爾大學(xué)的學(xué)者提出 Patch SVDD 方法,用于圖像異常檢測和分割的方法。與 Deep SVDD 不同的是,在 patch level 時(shí)檢查圖像,可以定位缺陷。額外的自監(jiān)督學(xué)習(xí)提高了檢測性能。因此,所提出的方法在MVTec AD工業(yè)異常檢測數(shù)據(jù)集上取得SOTA。
作者 |?Jihun Yi,?Sungroh Yoon論文 |?https://arxiv.org/abs/2006.16067代碼 |?https://github.com/nuclearboy95/Anomaly-Detection-PatchSVDD-PyTorch
DeepSEE: Deep Disentangled Semantic Explorative Extreme Super-Resolution
來自蘇黎世聯(lián)邦理工學(xué)院的計(jì)算機(jī)視覺實(shí)驗(yàn)室,作者稱 DeepSEE 是第一個(gè)利用語義圖探索超分辨率的方法,所提出模型大大超越了普通的放大系數(shù),可放大到 32 倍,對人臉的驗(yàn)證證明了高感知質(zhì)量的結(jié)果。作者還指出了一些進(jìn)一步可研究方向,如在隱風(fēng)格空間中確定有意義的方向(如年齡、性別、光照度、對比度等),或者將DeepSEE應(yīng)用到其他領(lǐng)域。作者 |?Marcel C. Bühler,?Andrés Romero,?Radu Timofte??論文 |?https://arxiv.org/abs/2004.04433主頁 |?https://mcbuehler.github.io/DeepSEE/代碼 | https://github.com/mcbuehler/DeepSEE
OpenTraj: Assessing Prediction Complexity in Human Trajectories Datasets來自法國雷恩第一大學(xué)、倫敦大學(xué)學(xué)院等的學(xué)者在本文中研究的內(nèi)容是人類軌跡預(yù)測(Human Trajectory Prediction (HTP)?)數(shù)據(jù)集的比較,并圍繞人類軌跡預(yù)測性、軌跡規(guī)律性、上下文復(fù)雜性這三個(gè)概念對不同數(shù)據(jù)集的復(fù)雜度進(jìn)行了評估。并根據(jù)這些指標(biāo)比較了 HTP 任務(wù)中最常見的數(shù)據(jù)集,以及討論了對 HTP 算法基準(zhǔn)測試的意義。在 Github 上介紹了現(xiàn)有的 HTP 數(shù)據(jù)集,并提供了加載、可視化和分析數(shù)據(jù)集的工具。作者 |?Javad Amirian,?Bingqing Zhang,?Francisco Valente Castro,?Juan Jose Baldelomar,?Jean-Bernard Hayet,?Julien Pettre論文 |?https://arxiv.org/abs/2010.00890代碼 |?https://github.com/crowdbotp/OpenTraj
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:leetcode?開源書
在「AI算法與圖像處理」公眾號后臺回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!

在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR2020,即可下載1467篇CVPR?2020論文請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱