深度學(xué)習(xí)領(lǐng)域,你心目中 idea 最驚艷的論文是哪篇?

極市導(dǎo)讀
?深度學(xué)習(xí)研究中,我們往往會讀到讓自己覺得想法很驚艷的論文,心中對不同的論文也會有一個排名,那么本文中的提名是你心中的No.1嗎?>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿
科研路上我們往往會讀到讓自己覺得想法很驚艷的論文,心中對不同的論文也會有一個排名,以下介紹了一些知乎作者心中白月光般存在的深度學(xué)習(xí)領(lǐng)域論文,看看是否你們擁有同樣心目中的The one。
提名一
ResNet和Transformer
提名二
DUT(視頻增穩(wěn))
作者:rainy
來分享一篇小眾方向(視頻增穩(wěn)/Video Stabilization)的論文,可能不是那種推動領(lǐng)域進(jìn)步的爆炸性工作,這篇論文我認(rèn)為是一篇比較不錯的把傳統(tǒng)方法deep化的工作。
DUT: Learning Video Stabilization by Simply Watching Unstable Videos
https://arxiv.org/pdf/2011.14574.pdf
看樣子應(yīng)該是投稿CVPR21,已開源。
https://github.com/Annbless/DUTCode
首先介紹一下視頻增穩(wěn)的定義,如名稱所示,視頻增穩(wěn)即為輸入一系列連續(xù)的,非平穩(wěn)(抖動較大)的視頻幀,輸出一系列連續(xù)的,平穩(wěn)的視頻幀。
由于方向有點略微小眾,因此該領(lǐng)域之前的工作(基于深度學(xué)習(xí))可以簡單分為基于GAN的直接生成,基于光流的warp,基于插幀(其實也是基于光流的warp)這么幾類。這些論文將視頻增穩(wěn)看做了“視頻幀生成問題”,但是理想的視頻增穩(wěn)工作應(yīng)該看做“軌跡平滑”問題更為合適。
而在深度學(xué)習(xí)之前劉帥成(http://www.liushuaicheng.org/)大神做了一系列的視頻增穩(wěn)的工作,其中work的即為meshflow。這里貼一個meshflow解讀的鏈接
https://www.yuque.com/u452427/ling/qs0inc
總結(jié)一下,meshflow主要的流程為“估計光流-->估計關(guān)鍵點并篩選出關(guān)鍵點的光流-->基于關(guān)鍵點光流得到mesh中每一個格點的motion/軌跡-->進(jìn)行軌跡平滑并得到平滑后的軌跡/每一個格點的motion-->基于motion得到滿足平滑軌跡的視頻幀”。
總結(jié)了meshflow之后,這篇DUT主要進(jìn)行的工作其實很簡單,在meshflow的框架下,將其中所有的模塊都deep化:
LK光流---->PWCNet
SIFT關(guān)鍵點----->RFNet
基于Median Filters的軌跡平滑------>可學(xué)習(xí)的1D卷積
除此之外,由于原始的meshflow是基于優(yōu)化的方法,因此DUT在替換了模塊之后依舊保留了原始的約束項,并且可以使用無監(jiān)督的方式完成訓(xùn)練,效果也好于一票supervised的方法。
提名三
可形變卷積(DCN)

提名四
深度學(xué)習(xí)框架、圖像識別、圖像生成、模型優(yōu)化 、自然語言處理
深度學(xué)習(xí)框架
論文名稱:Caffe: Convolutional Architecture for Fast Feature Embedding
論文鏈接:https://arxiv.org/abs/1408.5093
驚艷理由:在那個大家都用matlab和自己diy深度學(xué)習(xí)框架的年代,賈大神的Caffe橫空出世,為深度學(xué)習(xí)領(lǐng)域創(chuàng)立了一個通用、易拓展的框架,使復(fù)現(xiàn)、開發(fā)各種新型算法變得更加容易,可以說是開山鼻祖。
對標(biāo)武功:《天龍八部》內(nèi)的易筋經(jīng)。易筋鍛骨,重塑七經(jīng),這不正和caffe的效用不謀而合?caffe不就相當(dāng)于重塑了深度學(xué)習(xí)的筋骨,使得后續(xù)各種五花八門的算法變得可能實現(xiàn)?
圖像識別
論文名稱:Deep Residual Learning for Image Recognition
論文鏈接:https://arxiv.org/pdf/1512.03385.pdf
驚艷理由:一個簡簡單單的skip connection一招制敵,優(yōu)雅至極,直接將CNN的表現(xiàn)提升了一個大檔次。
對標(biāo)武功:《天涯明月刀》里傅紅雪的刀法。傅紅雪的武功就一招——拔刀收刀,簡單卻致命,正如resnet的skip connection. 這一刀是傅紅雪拔了千萬次刀后凝練的精魂,正與skip connection是作者做了無數(shù)實驗與分析后凝練的結(jié)構(gòu)如出一轍。
圖像生成
論文名稱:Generative Adversarial Networks
論文鏈接:https://arxiv.org/abs/1406.2661
驚艷理由:Encoder-decoder 出現(xiàn)已久, 分類器出現(xiàn)也很久,Goodfellow卻是真正意義上把這二者完美結(jié)合起來的第一人,是現(xiàn)如今圖像視頻模擬生成的鼻祖。
對標(biāo)武功:《射雕英雄傳》里的左右互博。老頑童讓左手和右手打架,結(jié)果兩只手突飛猛進(jìn),Goodfellow 讓generator 和discriminator 互相打架,結(jié)果兩個模型變得越來越強(qiáng),最后甚至可以以假亂真。
模型優(yōu)化
論文名稱:Distilling the Knowledge in a Neural Network
論文鏈接:https://arxiv.org/pdf/1503.02531.pdf
驚艷理由: ?知識蒸餾的開山之作,在不增加任何online inference資源的情況下,讓模型得到極大優(yōu)化。
對標(biāo)武功:《天龍八部》里的北冥神功。段譽(yù)吸各個高手的內(nèi)功變成了天龍三絕之一,student net吸取teacher net的知識變成了更robust的模型。
自然語言處理
論文名稱:Language Models are Few-Shot Learners(GPT-3)
論文鏈接:https://arxiv.org/pdf/2005.14165.pdf
驚艷理由:在看到這篇論文之前,我做夢也想不到一個NLP模型居然有175億個參數(shù),可以說是深度學(xué)習(xí)里的暴力美學(xué)的極致了。
對標(biāo)武功:降龍十八掌。降龍十八掌剛猛無雙,遇到強(qiáng)敵以剛勁的掌力與無所畏懼的氣勢壓倒對方。GPT-3龐大無比,遇到語言數(shù)據(jù)以175億的模型參數(shù)與超出想象的計算資源死磕硬剛。如果喬峰是個深度學(xué)習(xí)科學(xué)家,一定會愛死這個模型。
提名五
CAM,class activation map
作者:Ferenas
那就從我的研究領(lǐng)域中挑一個出來吧,我的研究方向是基于image-level的弱監(jiān)督語義分割,(貌似這個點近兩年趨勢漸淡),而其中令我最驚艷的就是CAM,class activation map
文章題目叫Learning Deep Features for Discriminative Localization,google百度一下都可以找到。這篇文章其實是想探究我們的CNN在學(xué)習(xí)圖像的時候到底重點關(guān)注在哪個部分。這里拋開論文里面的繁瑣的數(shù)學(xué)解釋啥的(大家可以看看原論文),最后論文用一張圖表示了這個大概是怎么樣的一個過程。

對你沒有看錯,圖像關(guān)注的部分就是將該類的fc層中的權(quán)重和feature maps對應(yīng)加權(quán)求和就行了。說實話我覺得這個真的是經(jīng)過很多實驗才發(fā)現(xiàn)的idea。因此通過這個CAM我們便可知這個網(wǎng)絡(luò)到底在學(xué)什么東西。
至于后面CAM變體例如grad-cam等大家可以去查閱了解。通過這個驚艷的CAM,我覺得是開了基于弱監(jiān)督圖像分割領(lǐng)域的先河,簡直是祖先級別的神工作。
為什么這么說呢,基于image-level的弱監(jiān)督分割旨在僅通過分類標(biāo)簽而生成對應(yīng)的分割標(biāo)簽圖,(畢竟手工標(biāo)記分割圖上的像素太燒錢了呀哈哈哈 )你看看CAM,如果通過閾值一下的話,那些熱點處的不就可以作為置信度高的前景像素標(biāo)簽了嘛?。?!
于是你便可以看到大量的弱監(jiān)督領(lǐng)域分割之作都是在這個CAM之上完成的。不僅如此,CAM也在可解釋領(lǐng)域中被作為一種基本的工具。這篇五年前的文章至今仍在視覺領(lǐng)域中放光發(fā)熱,讓很多的學(xué)者以此為基石展開研究。
我也是很感謝這篇工作讓我接觸到弱監(jiān)督領(lǐng)域。畢竟是我轉(zhuǎn)做計算機(jī)視覺讀的第一篇文章hhhh,所以,thank you, CAM!
你心目中 idea 最驚艷的論文是哪篇?歡迎在下方留言~
推薦閱讀
大盤點 | 2020年5篇目標(biāo)檢測算法最佳綜述
大盤點 | 2020年5篇圖像分割算法最佳綜述
2020 Top10 計算機(jī)視覺論文總結(jié):論文,代碼,解讀,還有demo視頻!

