<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)領(lǐng)域,你心目中 idea 最驚艷的論文是哪篇?

          共 4849字,需瀏覽 10分鐘

           ·

          2021-01-27 02:48

          ↑ 點擊藍(lán)字?關(guān)注極市平臺

          來源丨知乎問答(回答均已授權(quán))
          編輯丨極市平臺

          極市導(dǎo)讀

          ?

          深度學(xué)習(xí)研究中,我們往往會讀到讓自己覺得想法很驚艷的論文,心中對不同的論文也會有一個排名,那么本文中的提名是你心中的No.1嗎?>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿

          科研路上我們往往會讀到讓自己覺得想法很驚艷的論文,心中對不同的論文也會有一個排名,以下介紹了一些知乎作者心中白月光般存在的深度學(xué)習(xí)領(lǐng)域論文,看看是否你們擁有同樣心目中的The one。

          提名一

          ResNet和Transformer

          作者:王晉東不在家
          時至今日,許多大領(lǐng)域都離不開這兩種結(jié)構(gòu)。Transformer更是從NLP領(lǐng)域走入了CV領(lǐng)域,大有一統(tǒng)天下之勢。
          ResNet大道至簡,更傾向于從原來的CNN結(jié)構(gòu)設(shè)計出發(fā),通過大量的實驗和分析,添加了skip connection,一招封神。
          Transformer則另起爐灶,干脆完全拋棄了RNN的結(jié)構(gòu),從根本上嘗試self-attn加全連接層對于序列建模的能力。
          今日的你或許通過實驗可以大概搞出來ResNet的skip connection結(jié)構(gòu),但是能想出來跟transformer一樣完全不用RNN、并能讓這種當(dāng)時看來“非主流”的結(jié)構(gòu)work的比RNN還好,就能稱得上是天才了。
          這其中,固然要有科研的敏銳嗅覺,更多的還是源于超強(qiáng)的代碼能力,以及愿意為你這種嘗試提供資金和設(shè)備支持的大環(huán)境。
          所以說,要想取得絕對的成功,天時(CNN與NLP發(fā)展的大環(huán)境)、地利(所在單位的資源投入)、人和(老板與同事的支持),三者缺一不可。

          提名二

          DUT(視頻增穩(wěn))

          作者:rainy

          來分享一篇小眾方向(視頻增穩(wěn)/Video Stabilization)的論文,可能不是那種推動領(lǐng)域進(jìn)步的爆炸性工作,這篇論文我認(rèn)為是一篇比較不錯的把傳統(tǒng)方法deep化的工作。

          DUT: Learning Video Stabilization by Simply Watching Unstable Videos

          https://arxiv.org/pdf/2011.14574.pdf

          看樣子應(yīng)該是投稿CVPR21,已開源。

          https://github.com/Annbless/DUTCode

          首先介紹一下視頻增穩(wěn)的定義,如名稱所示,視頻增穩(wěn)即為輸入一系列連續(xù)的,非平穩(wěn)(抖動較大)的視頻幀,輸出一系列連續(xù)的,平穩(wěn)的視頻幀。

          由于方向有點略微小眾,因此該領(lǐng)域之前的工作(基于深度學(xué)習(xí))可以簡單分為基于GAN的直接生成,基于光流的warp,基于插幀(其實也是基于光流的warp)這么幾類。這些論文將視頻增穩(wěn)看做了“視頻幀生成問題”,但是理想的視頻增穩(wěn)工作應(yīng)該看做“軌跡平滑”問題更為合適。

          而在深度學(xué)習(xí)之前劉帥成(http://www.liushuaicheng.org/)大神做了一系列的視頻增穩(wěn)的工作,其中work的即為meshflow。這里貼一個meshflow解讀的鏈接

          https://www.yuque.com/u452427/ling/qs0inc

          總結(jié)一下,meshflow主要的流程為“估計光流-->估計關(guān)鍵點并篩選出關(guān)鍵點的光流-->基于關(guān)鍵點光流得到mesh中每一個格點的motion/軌跡-->進(jìn)行軌跡平滑并得到平滑后的軌跡/每一個格點的motion-->基于motion得到滿足平滑軌跡的視頻幀”。

          總結(jié)了meshflow之后,這篇DUT主要進(jìn)行的工作其實很簡單,在meshflow的框架下,將其中所有的模塊都deep化:

          LK光流---->PWCNet

          SIFT關(guān)鍵點----->RFNet

          基于Median Filters的軌跡平滑------>可學(xué)習(xí)的1D卷積

          除此之外,由于原始的meshflow是基于優(yōu)化的方法,因此DUT在替換了模塊之后依舊保留了原始的約束項,并且可以使用無監(jiān)督的方式完成訓(xùn)練,效果也好于一票supervised的方法。


          提名三

          可形變卷積(DCN)

          作者:陀飛輪


          當(dāng)年看Deformable Convolutional Networks(DCN)的時候最為驚艷,可能看過的文章少,這種打破固定尺寸和位置的卷積方式,讓我感覺非常驚嘆,網(wǎng)絡(luò)怎么能夠在沒有直接監(jiān)督的情況下,學(xué)習(xí)到不同位置的offset的,然后可視化出來,能夠使得offset后的位置能夠剛好捕捉到不同尺寸的物體,太精彩了!

          提名四

          深度學(xué)習(xí)框架、圖像識別、圖像生成、模型優(yōu)化 、自然語言處理

          作者:葉小飛
          我想從深度學(xué)習(xí)框架、圖像識別、圖像生成、模型優(yōu)化 、自然語言處理五個領(lǐng)域評選出一篇最驚艷的論文, 并且對每一篇論文都賦予一個武俠小說里對應(yīng)的絕頂武功,以此來表達(dá)我的膜拜與狂熱。

          深度學(xué)習(xí)框架

          • 論文名稱:Caffe: Convolutional Architecture for Fast Feature Embedding

          • 論文鏈接:https://arxiv.org/abs/1408.5093

          • 驚艷理由:在那個大家都用matlab和自己diy深度學(xué)習(xí)框架的年代,賈大神的Caffe橫空出世,為深度學(xué)習(xí)領(lǐng)域創(chuàng)立了一個通用、易拓展的框架,使復(fù)現(xiàn)、開發(fā)各種新型算法變得更加容易,可以說是開山鼻祖。

          • 對標(biāo)武功:《天龍八部》內(nèi)的易筋經(jīng)。易筋鍛骨,重塑七經(jīng),這不正和caffe的效用不謀而合?caffe不就相當(dāng)于重塑了深度學(xué)習(xí)的筋骨,使得后續(xù)各種五花八門的算法變得可能實現(xiàn)?


          圖像識別

          • 論文名稱:Deep Residual Learning for Image Recognition

          • 論文鏈接:https://arxiv.org/pdf/1512.03385.pdf

          • 驚艷理由:一個簡簡單單的skip connection一招制敵,優(yōu)雅至極,直接將CNN的表現(xiàn)提升了一個大檔次。

          • 對標(biāo)武功:《天涯明月刀》里傅紅雪的刀法。傅紅雪的武功就一招——拔刀收刀,簡單卻致命,正如resnet的skip connection. 這一刀是傅紅雪拔了千萬次刀后凝練的精魂,正與skip connection是作者做了無數(shù)實驗與分析后凝練的結(jié)構(gòu)如出一轍。


          圖像生成

          • 論文名稱:Generative Adversarial Networks

          • 論文鏈接:https://arxiv.org/abs/1406.2661

          • 驚艷理由:Encoder-decoder 出現(xiàn)已久, 分類器出現(xiàn)也很久,Goodfellow卻是真正意義上把這二者完美結(jié)合起來的第一人,是現(xiàn)如今圖像視頻模擬生成的鼻祖。

          • 對標(biāo)武功:《射雕英雄傳》里的左右互博。老頑童讓左手和右手打架,結(jié)果兩只手突飛猛進(jìn),Goodfellow 讓generator 和discriminator 互相打架,結(jié)果兩個模型變得越來越強(qiáng),最后甚至可以以假亂真。


          模型優(yōu)化

          • 論文名稱:Distilling the Knowledge in a Neural Network

          • 論文鏈接:https://arxiv.org/pdf/1503.02531.pdf

          • 驚艷理由: ?知識蒸餾的開山之作,在不增加任何online inference資源的情況下,讓模型得到極大優(yōu)化。

          • 對標(biāo)武功:《天龍八部》里的北冥神功。段譽(yù)吸各個高手的內(nèi)功變成了天龍三絕之一,student net吸取teacher net的知識變成了更robust的模型。


          自然語言處理

          • 論文名稱:Language Models are Few-Shot Learners(GPT-3)

          • 論文鏈接:https://arxiv.org/pdf/2005.14165.pdf

          • 驚艷理由:在看到這篇論文之前,我做夢也想不到一個NLP模型居然有175億個參數(shù),可以說是深度學(xué)習(xí)里的暴力美學(xué)的極致了。

          • 對標(biāo)武功:降龍十八掌。降龍十八掌剛猛無雙,遇到強(qiáng)敵以剛勁的掌力與無所畏懼的氣勢壓倒對方。GPT-3龐大無比,遇到語言數(shù)據(jù)以175億的模型參數(shù)與超出想象的計算資源死磕硬剛。如果喬峰是個深度學(xué)習(xí)科學(xué)家,一定會愛死這個模型。


          提名五

          CAM,class activation map

          作者:Ferenas

          那就從我的研究領(lǐng)域中挑一個出來吧,我的研究方向是基于image-level的弱監(jiān)督語義分割,(貌似這個點近兩年趨勢漸淡),而其中令我最驚艷的就是CAM,class activation map

          文章題目叫Learning Deep Features for Discriminative Localization,google百度一下都可以找到。這篇文章其實是想探究我們的CNN在學(xué)習(xí)圖像的時候到底重點關(guān)注在哪個部分。這里拋開論文里面的繁瑣的數(shù)學(xué)解釋啥的(大家可以看看原論文),最后論文用一張圖表示了這個大概是怎么樣的一個過程。

          對你沒有看錯,圖像關(guān)注的部分就是將該類的fc層中的權(quán)重和feature maps對應(yīng)加權(quán)求和就行了。說實話我覺得這個真的是經(jīng)過很多實驗才發(fā)現(xiàn)的idea。因此通過這個CAM我們便可知這個網(wǎng)絡(luò)到底在學(xué)什么東西。

          至于后面CAM變體例如grad-cam等大家可以去查閱了解。通過這個驚艷的CAM,我覺得是開了基于弱監(jiān)督圖像分割領(lǐng)域的先河,簡直是祖先級別的神工作。

          為什么這么說呢,基于image-level的弱監(jiān)督分割旨在僅通過分類標(biāo)簽而生成對應(yīng)的分割標(biāo)簽圖,(畢竟手工標(biāo)記分割圖上的像素太燒錢了呀哈哈哈 )你看看CAM,如果通過閾值一下的話,那些熱點處的不就可以作為置信度高的前景像素標(biāo)簽了嘛?。?!

          于是你便可以看到大量的弱監(jiān)督領(lǐng)域分割之作都是在這個CAM之上完成的。不僅如此,CAM也在可解釋領(lǐng)域中被作為一種基本的工具。這篇五年前的文章至今仍在視覺領(lǐng)域中放光發(fā)熱,讓很多的學(xué)者以此為基石展開研究。

          我也是很感謝這篇工作讓我接觸到弱監(jiān)督領(lǐng)域。畢竟是我轉(zhuǎn)做計算機(jī)視覺讀的第一篇文章hhhh,所以,thank you, CAM!

          參考鏈接:
          回答1-王晉東不在家:
          https://www.zhihu.com/question/440729199/answer/1697212235
          回答2-rainy:
          https://www.zhihu.com/question/440729199/answer/1693346011
          回答3-陀飛輪:
          https://www.zhihu.com/question/440729199/answer/1695810150
          回答4-葉小飛:
          https://www.zhihu.com/question/440729199/answer/1698687630
          回答5-Ferenas:
          https://www.zhihu.com/question/440729199/answer/1695809572

          你心目中 idea 最驚艷的論文是哪篇?歡迎在下方留言~


          推薦閱讀


          添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳),即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~
          △長按添加極市小助手

          △長按關(guān)注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~??
          瀏覽 24
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产无码做爱 | 国产色诱 | 在线小黄片 | daxiangjiaojiujiu | 日韩mv国产视频 |