<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學習和機器視覺top組都在研究什么?

          共 2378字,需瀏覽 5分鐘

           ·

          2021-01-11 18:26

          點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          本文作者:胡國圣(Guosheng Hu

          https://zhuanlan.zhihu.com/p/341314767

          本文已由原作者授權(quán),不得擅自二次轉(zhuǎn)載

          圣誕新年長假接近尾聲,假期中我廣泛閱讀了top組最近做的研究,受益匪淺。在這里分享一些淺見。

          1. top組都在研究什么?

          各個組研究不盡相同,但top組重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。

          2. 如何做有影響力的工作?每個組都有不同的創(chuàng)新思路以及偏好。

          (1) 將CV的技術(shù)應用到其他領(lǐng)域。例如 Li Fei-Fei做了很多將CV用在medical領(lǐng)域的應用,她剛發(fā)了篇Nature, `Illuminating the dark spaces of healthcare with ambient intelligence'. 這篇文章極為廣泛地介紹了CV和ML可以在醫(yī)療領(lǐng)域的落地場景。文中介紹的很多場景,每一個都可以支撐起一家估值可觀的初創(chuàng)公司(看我安利論文后的投資人和創(chuàng)業(yè)者未來發(fā)達了別忘記請我吃飯)。

          除了醫(yī)療領(lǐng)域,還有將CV/DL/ML用在藥物設(shè)計,洪災預測,通過谷歌街景地圖來識別車的牌子,來判斷當?shù)氐纳钏胶皖A測美國大選等等。

          (2) 引入新的模態(tài)(modality)來解決經(jīng)典問題以實現(xiàn)降維打擊。比如把音樂的聲音信號自動轉(zhuǎn)化成譜子(transcription), 這是一個經(jīng)典的語音識別問題。Andrew Zisserman 發(fā)表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了圖像信息,在鋼琴上面放置攝像頭來識別演奏者手的位置,用這個信息來轉(zhuǎn)譜。這樣的好處是可以排除噪音對轉(zhuǎn)譜的影響。還有好多好多,比如用聲音信號輔助detection and segmentation;手語識別時不僅用手的姿態(tài)變換信息,引入了嘴型變化信息;學習如何給無聲電影/視頻片段配音配樂等。

          (3) 仍然在CV的領(lǐng)域,但創(chuàng)造新的應用。MIT的William Freeman喜歡發(fā)這類論文,好多論文都是用現(xiàn)有的CV和語音技術(shù)發(fā)明一個嶄新的應用,比如Speech2Face (根據(jù)一段聲音重構(gòu)人臉,因為聲音會傳遞出性別,年齡,地域等很多信息)。他有好多新的應用,很多應用在提出的當時并沒有合適的落地場景,但多年后各種條件成熟后取得了成功的應用。

          (4) 解決深度學習領(lǐng)域的一些fundamental的問題。比如,Hinton認為現(xiàn)在的CNN讀取的是像素,這跟人腦來識別物體天然不同,人腦處理整個物體 (object centric),而不是一個像素一個像素來處理像素。所以CNN天然對view, translation, small pixel perturbation (對抗樣本)不魯棒。他給的解決方案是膠囊網(wǎng)絡(luò)。他設(shè)計了很多版本的膠囊網(wǎng)絡(luò),自己也在不停地推翻自己,不停迭代前進。讓人尊敬。

          雖然大家偏好不同,但是有一點是相同的,大家都不去做tricks類的研究,不去發(fā)明一些可以提高性能的tricks。大家通常是著眼于一個大的picture,各種刷庫技巧只是為一個大的picture服務。 

          3. 一個在西方國家逐漸興起,但我國還沒有太重視的研究方向: trustworthy AI, 包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 對這個方向感興趣,給大家推薦一篇大佬們合寫的論文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。

          4. 深度學習時代,computer vision和graphics的橋梁(或者說是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快,效果逼真,必然對游戲,電影特效, AR產(chǎn)業(yè)帶來革命性的影響。(2) GAN, 主要用于對圖像和視頻的編輯。

          5. 大家從基于2D靜態(tài)圖像的研究已經(jīng)過渡到了3D和視頻相關(guān)任務的研究。



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2020

          AI算法與圖像處公眾號后臺回復:CVPR2020,即可下載1467篇CVPR?2020論文
          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱


          覺得不錯就點亮在看吧


          瀏覽 31
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91在线18 | 亚洲黄片在线免费观看 | 国产成人大香蕉在线免费 | 中文字幕日韩欧美 | 99大香蕉视频 |