狠狠爱天天日,影音先锋成人AV资源,亚洲日韩一区二区无码,亚洲二级片,大香蕉在线网亚洲欧洲中文字,9久热,久久伊人视频,黄色一级国产

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

本文作者：胡國圣（Guosheng Hu）
https://zhuanlan.zhihu.com/p/341314767
本文已由原作者授權(quán)，不得擅自二次轉(zhuǎn)載

圣誕新年長假接近尾聲，假期中我廣泛閱讀了top組最近做的研究，受益匪淺。在這里分享一些淺見。

1. top組都在研究什么？

各個組研究不盡相同，但top組重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。

2. 如何做有影響力的工作？每個組都有不同的創(chuàng)新思路以及偏好。

(1) 將CV的技術(shù)應用到其他領(lǐng)域。例如 Li Fei-Fei做了很多將CV用在medical領(lǐng)域的應用，她剛發(fā)了篇Nature, `Illuminating the dark spaces of healthcare with ambient　intelligence'. 這篇文章極為廣泛地介紹了CV和ML可以在醫(yī)療領(lǐng)域的落地場景。文中介紹的很多場景，每一個都可以支撐起一家估值可觀的初創(chuàng)公司（看我安利論文后的投資人和創(chuàng)業(yè)者未來發(fā)達了別忘記請我吃飯）。

除了醫(yī)療領(lǐng)域，還有將CV/DL/ML用在藥物設(shè)計，洪災預測，通過谷歌街景地圖來識別車的牌子，來判斷當?shù)氐纳钏胶皖A測美國大選等等。

(2) 引入新的模態(tài)(modality)來解決經(jīng)典問題以實現(xiàn)降維打擊。比如把音樂的聲音信號自動轉(zhuǎn)化成譜子(transcription), 這是一個經(jīng)典的語音識別問題。Andrew Zisserman 發(fā)表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了圖像信息，在鋼琴上面放置攝像頭來識別演奏者手的位置，用這個信息來轉(zhuǎn)譜。這樣的好處是可以排除噪音對轉(zhuǎn)譜的影響。還有好多好多，比如用聲音信號輔助detection and segmentation；手語識別時不僅用手的姿態(tài)變換信息，引入了嘴型變化信息；學習如何給無聲電影/視頻片段配音配樂等。

(3) 仍然在CV的領(lǐng)域，但創(chuàng)造新的應用。MIT的William Freeman喜歡發(fā)這類論文，好多論文都是用現(xiàn)有的CV和語音技術(shù)發(fā)明一個嶄新的應用，比如Speech2Face (根據(jù)一段聲音重構(gòu)人臉，因為聲音會傳遞出性別，年齡，地域等很多信息)。他有好多新的應用，很多應用在提出的當時并沒有合適的落地場景，但多年后各種條件成熟后取得了成功的應用。

(4) 解決深度學習領(lǐng)域的一些fundamental的問題。比如，Hinton認為現(xiàn)在的CNN讀取的是像素，這跟人腦來識別物體天然不同，人腦處理整個物體 (object centric)，而不是一個像素一個像素來處理像素。所以CNN天然對view, translation, small pixel perturbation (對抗樣本)不魯棒。他給的解決方案是膠囊網(wǎng)絡(luò)。他設(shè)計了很多版本的膠囊網(wǎng)絡(luò)，自己也在不停地推翻自己，不停迭代前進。讓人尊敬。

雖然大家偏好不同，但是有一點是相同的，大家都不去做tricks類的研究，不去發(fā)明一些可以提高性能的tricks。大家通常是著眼于一個大的picture，各種刷庫技巧只是為一個大的picture服務。　

3. 一個在西方國家逐漸興起，但我國還沒有太重視的研究方向: trustworthy AI, 包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 對這個方向感興趣，給大家推薦一篇大佬們合寫的論文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。

4. 深度學習時代，computer vision和graphics的橋梁(或者說是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快，效果逼真，必然對游戲，電影特效, AR產(chǎn)業(yè)帶來革命性的影響。(2) GAN, 主要用于對圖像和視頻的編輯。

5. 大家從基于2D靜態(tài)圖像的研究已經(jīng)過渡到了3D和視頻相關(guān)任務的研究。

下載1：何愷明頂會分享

在「AI算法與圖像處理」公眾號后臺回復：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公眾號后臺回復：c++，即可下載。歷經(jīng)十年考驗，最權(quán)威的編程規(guī)范！

下載3 CVPR2020

在「AI算法與圖像處理」公眾號后臺回復：CVPR2020，即可下載1467篇CVPR?2020論文
個人微信（如果沒有備注不拉群！）
請注明：地區(qū)+學校/企業(yè)+研究方向+昵稱

覺得不錯就點亮在看吧

深度學習和機器視覺top組都在研究什么？