深度學習和機器視覺top組都在研究什么?
點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文作者:胡國圣(Guosheng Hu)
https://zhuanlan.zhihu.com/p/341314767
本文已由原作者授權(quán),不得擅自二次轉(zhuǎn)載
圣誕新年長假接近尾聲,假期中我廣泛閱讀了top組最近做的研究,受益匪淺。在這里分享一些淺見。
1. top組都在研究什么?
各個組研究不盡相同,但top組重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。
2. 如何做有影響力的工作?每個組都有不同的創(chuàng)新思路以及偏好。
(1) 將CV的技術(shù)應用到其他領(lǐng)域。例如 Li Fei-Fei做了很多將CV用在medical領(lǐng)域的應用,她剛發(fā)了篇Nature, `Illuminating the dark spaces of healthcare with ambient intelligence'. 這篇文章極為廣泛地介紹了CV和ML可以在醫(yī)療領(lǐng)域的落地場景。文中介紹的很多場景,每一個都可以支撐起一家估值可觀的初創(chuàng)公司(看我安利論文后的投資人和創(chuàng)業(yè)者未來發(fā)達了別忘記請我吃飯)。
除了醫(yī)療領(lǐng)域,還有將CV/DL/ML用在藥物設(shè)計,洪災預測,通過谷歌街景地圖來識別車的牌子,來判斷當?shù)氐纳钏胶皖A測美國大選等等。
(2) 引入新的模態(tài)(modality)來解決經(jīng)典問題以實現(xiàn)降維打擊。比如把音樂的聲音信號自動轉(zhuǎn)化成譜子(transcription), 這是一個經(jīng)典的語音識別問題。Andrew Zisserman 發(fā)表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了圖像信息,在鋼琴上面放置攝像頭來識別演奏者手的位置,用這個信息來轉(zhuǎn)譜。這樣的好處是可以排除噪音對轉(zhuǎn)譜的影響。還有好多好多,比如用聲音信號輔助detection and segmentation;手語識別時不僅用手的姿態(tài)變換信息,引入了嘴型變化信息;學習如何給無聲電影/視頻片段配音配樂等。
(3) 仍然在CV的領(lǐng)域,但創(chuàng)造新的應用。MIT的William Freeman喜歡發(fā)這類論文,好多論文都是用現(xiàn)有的CV和語音技術(shù)發(fā)明一個嶄新的應用,比如Speech2Face (根據(jù)一段聲音重構(gòu)人臉,因為聲音會傳遞出性別,年齡,地域等很多信息)。他有好多新的應用,很多應用在提出的當時并沒有合適的落地場景,但多年后各種條件成熟后取得了成功的應用。
(4) 解決深度學習領(lǐng)域的一些fundamental的問題。比如,Hinton認為現(xiàn)在的CNN讀取的是像素,這跟人腦來識別物體天然不同,人腦處理整個物體 (object centric),而不是一個像素一個像素來處理像素。所以CNN天然對view, translation, small pixel perturbation (對抗樣本)不魯棒。他給的解決方案是膠囊網(wǎng)絡(luò)。他設(shè)計了很多版本的膠囊網(wǎng)絡(luò),自己也在不停地推翻自己,不停迭代前進。讓人尊敬。
雖然大家偏好不同,但是有一點是相同的,大家都不去做tricks類的研究,不去發(fā)明一些可以提高性能的tricks。大家通常是著眼于一個大的picture,各種刷庫技巧只是為一個大的picture服務。
3. 一個在西方國家逐漸興起,但我國還沒有太重視的研究方向: trustworthy AI, 包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 對這個方向感興趣,給大家推薦一篇大佬們合寫的論文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。
4. 深度學習時代,computer vision和graphics的橋梁(或者說是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快,效果逼真,必然對游戲,電影特效, AR產(chǎn)業(yè)帶來革命性的影響。(2) GAN, 主要用于對圖像和視頻的編輯。
5. 大家從基于2D靜態(tài)圖像的研究已經(jīng)過渡到了3D和視頻相關(guān)任務的研究。
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2020 在「AI算法與圖像處理」公眾號后臺回復:CVPR2020,即可下載1467篇CVPR?2020論文 個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
覺得不錯就點亮在看吧

