計(jì)算機(jī)視覺是否已經(jīng)進(jìn)入瓶頸期?
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
本文轉(zhuǎn)自|新機(jī)器視覺
但CV領(lǐng)域自身的理論發(fā)展仿佛速度在放緩,那么未來CV的發(fā)展會不會因?yàn)樽陨戆l(fā)展的不足而只能依托其他領(lǐng)域發(fā)展的支持,計(jì)算機(jī)視覺領(lǐng)域是否會產(chǎn)生飽和甚至萎縮。不論興趣,單從時機(jī)考慮,現(xiàn)在進(jìn)入這個領(lǐng)域還來得及嗎?
周博磊:
謝邀, 其實(shí)這個問題也是我近段時間一直在思考的問題. 昨天剛在組里做了個ECCV'16 Recap, 整理一下思路, 來嘗試拋磚引玉.
我的觀點(diǎn)是:計(jì)算機(jī)視覺在人工智能和深度學(xué)習(xí)的大背景下方興未艾.
這里進(jìn)入瓶頸期的,可能是一些計(jì)算機(jī)視覺的經(jīng)典問題,如物體識別和檢測(人臉,行人,物體,場景 etc).但是如果能死磕這些經(jīng)典問題,往往能帶來質(zhì)的突破,比如說對于ImageNet物體識別GoogLeNet之后,大部分人應(yīng)該都不會想到還有ResNet這種牛逼網(wǎng)絡(luò)的出現(xiàn):).計(jì)算機(jī)視覺這個領(lǐng)域本身,我覺得是正在蓬勃發(fā)展, 經(jīng)典問題得到了更好的解決, 新的問題也不斷涌現(xiàn).
如果把Deep Learning進(jìn)入CV的2012年作為新時代的開始,我自己是從舊時代來的人.對于從舊時代過來的人,現(xiàn)在無疑是CV以及AI最好的時代.我自己當(dāng)年是看著Dahua Lin的blog,以及Filestorm和 田淵棟在SJTU飲水思源AI版的論戰(zhàn)進(jìn)入CV和AI研究圈子的(這里特別感謝三位師兄當(dāng)年的分享),那時候大家討論的東西都是graphical model, sparse coding, bag of SIFT, spatial pyramid 啥的,也沒有工作搶著放arXiv的傳統(tǒng),也沒有滿大街的open source libraries. 每年CVPR接收的論文到現(xiàn)在的1/2都不到. 每次開會前proceeding放出來的時候都會沐浴更衣把大部分感興趣的論文掃一遍.
現(xiàn)在的CV和AI研究其實(shí)是變得越來越扁平快了.隨手可得的open source libraries和pretrained models, 互聯(lián)網(wǎng)上各種分享的學(xué)習(xí)資料和經(jīng), 便宜的GPU計(jì)算資源, 以及百花齊放的研究方向,都使得新入行的生猛年輕人能很快倒騰出新東西. 發(fā)表CVPR, NIPS, AAAI等頂會文章也不再是難事. 論文數(shù)量和研究方向也是繁多. 已經(jīng)很難follow.
現(xiàn)在很多時候, 我覺得做CV的研究更像是在拼工程能力, 而不是拼insight和積累了. 后來的人也許并沒有多少動力和精力去學(xué)習(xí)和了解之前的經(jīng)典. 這也是我擔(dān)憂的地方. 但時代造人, 這些也是無可厚非的, 畢竟我們希望更多有闖勁的年輕人進(jìn)入CV和AI圈子, 一起大煉鋼:). 爭先放arXiv, 開源code等無疑加速了研究的迭代速度, 有更大的可能性激發(fā)出新的研究方向和成果. 大公司們(Google, Facebook, Amazon)以及諸多startup們, 也都虎視眈眈地渴望著更多更好的研究工作出現(xiàn).
另外, 如果硬要我說幾個CV目前有肉容易啃的方向, 那我就大致提提(注:這些方向大致都偏純學(xué)術(shù),有什么商業(yè)價值我并不是怎么關(guān)心):
Robotics (or Simulation Graphics)+Vision. Robotics那邊的人普遍比較保守, 更執(zhí)著于傳統(tǒng)template matching之類的傳統(tǒng)方法. 這里有個段子, 我們MIT機(jī)械工程系robotics方向的大牛教授John Leonard很久以前評論Computer vision, 直接說你們'CVPR'里面的各種論文, 就是Computer Vision and Precision Recall. 什么意思大家應(yīng)該能理解:). 不過在deep learning開始真正work的時代, 他這句話應(yīng)該不太適用了(笑). 回到正題, Robitics本身是塊非常大的餅, 很多問題和方法都可以用deep learning (CNN + Deep Reinforcement learning) 重新解決. 偏Robotics的話, 大家可以留意一下Berkeley的大紅人Sergey Levine最近的工作(Sergey Levine). 偏Vision的話,可以看看CMU的大紅人Abinav Gupta的ECCV paper Curious Robot (https://arxiv.org/pdf/1604.01360v2.pdf). Jianxiong Xiao之前主打的3D deep learning (http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf)也可以算在這個里面,他們團(tuán)隊(duì)和MIT團(tuán)隊(duì)最近搞了個Amazon Pick challenge, 模型和方法還有點(diǎn)意思(MIT-Princeton Vision Dataset for the APC 2016). 不過Xiao已經(jīng)下海經(jīng)商, 不知道還會不會actively publish. 現(xiàn)在各大公司和startup猛搞的autonomous drive, 也可以放在這個方向之下.
最近我還留意到一個非常有潛力的方向Simulation+Vision. 我覺得有兩個具體方向,一個是利用graphics里面的rendering仿真技術(shù),生成大量數(shù)據(jù).這些數(shù)據(jù)因?yàn)槭巧沙鰜淼?,任何ground-truth都有,而且要多少有多少, 是獲取訓(xùn)練數(shù)據(jù)的一個捷徑.CVPR'16有篇做synthetic image dataset for semantic segmentation of urban scene(http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf).另外一個方向是結(jié)合graphics中的simulation,利用deep reinforcement learning等active learning的算法可以無監(jiān)督/弱監(jiān)督訓(xùn)練出agent model,這里就不僅限于純CV了.DeepMind和OpenAI在猛搞這個方向.偏vision的話大家可以參考下Allen Institute這篇(https://arxiv.org/pdf/1609.05143v1.pdf).
Generative visual models. 目前大部分的模型都是discrminative model, 給定input, 然后識別label. 但這個故事的另外一半其實(shí)是generative model, 給定label, 然后生成圖片. generative models是一個很有潛力的大方向. 這里的最新進(jìn)展一方面是基于GAN (https://arxiv.org/pdf/1511.06434v2.pdf) 所帶來的一種訓(xùn)練圖片生成的新思路, 也包括一些基于傳統(tǒng)image model, 如MRF和CRF在deep learning的新思路下面進(jìn)行重新理解. DeepMind的這篇PixelCNN(https://arxiv.org/pdf/1606.05328v2.pdf), 最近Zhirong和Dahua的挺不錯的ECCV論文(http://dahua.me/papers/dhlin_deepmrf.pdf). 個人覺得Varionational Autoencoder也是個蠻漂亮的模型, 這里有篇關(guān)于VAE的最新的tutorial還不錯(https://arxiv.org/pdf/1606.05908v2.pdf). 以后deep learning跟bayesian model的結(jié)合也會是個頗具潛力的方向.
Multimedia Computer Vision. 其實(shí)人的感知系統(tǒng)本身就是多模態(tài)的, 視頻和聲音共同結(jié)合.Video analysis不再局限于action recognition, 對內(nèi)容本身有更深的理解. 比如說最近的MoiveQA (MovieQA), Visual Anticipation prediction (http://web.mit.edu/vondrick/prediction.pdf
). 另外, sound也是一個大家普遍忽略掉的一個東西. 大家可以看看我們組Andrew Owen的兩個蠻有意思的工作ECCV'16 Ambient Sound Provides Supervision for Visual Learning (https://arxiv.org/pdf/1608.07017.pdf), CVPR'16 Visually Indicated Sounds (Visually Indicated Sounds). 多模態(tài)來研究vision是個大趨勢.
微軟亞洲研究院:
謝邀。近幾十年來,計(jì)算機(jī)視覺技術(shù)從研究領(lǐng)域到工業(yè)應(yīng)用領(lǐng)域,已從最初的冷門發(fā)展到今天的炙手可熱。在微軟亞洲研究院建院之初,計(jì)算機(jī)視覺應(yīng)用非常少,很冷門,然而微軟亞洲研究院成立的第一個研究小組卻是視覺計(jì)算組。
視覺計(jì)算組由優(yōu)秀的研究員和工程師組成,他們的專長涵蓋了計(jì)算機(jī)視覺研究領(lǐng)域的整個范疇:從數(shù)學(xué)理論到現(xiàn)實(shí)應(yīng)用,從物理系統(tǒng)到軟件開發(fā),從低層次的圖像處理到高層次的圖像理解。該組的研究成果已經(jīng)對許多重要應(yīng)用產(chǎn)生了深刻影響,例如人臉檢測、追蹤、識別,圖像搜索,物體檢測、追蹤、識別,以及機(jī)器人避障和導(dǎo)航。
關(guān)于這個問題,我們很樂于給出自己的見解。
————這里是正式回答的分割線————
在一個網(wǎng)頁上上傳自己的照片,讓電腦判斷自己照片中看起來的年齡,這款名叫http://How-old.net的應(yīng)用在2015年紅爆了社交網(wǎng)絡(luò),一時間刷爆了各個社交網(wǎng)絡(luò)平臺,在全球風(fēng)靡,即使是平常對自己外貌再不關(guān)心的人也不介意花上一分鐘測測自己照片中顯示出來的年紀(jì),雖然結(jié)果并沒有百分之百的準(zhǔn)確,但是科技與詼諧結(jié)合帶來的新鮮感,讓眾多網(wǎng)友對這個簡單的應(yīng)用愛不釋手,也讓不少人對計(jì)算機(jī)視覺技術(shù)產(chǎn)生濃厚的興趣。
這款應(yīng)用是微軟Build 2015開發(fā)者大會的衍生品,據(jù)說是兩個技能爆表而又閑得無聊的工程師用了兩天的時間,基于Azure云里的微軟認(rèn)知服務(wù) Face API 等API識別照片中的人臉和特征,實(shí)現(xiàn)了整個應(yīng)用的功能。
1.從獲取圖像到讀懂圖像
計(jì)算機(jī)視覺是從圖像和視頻中提出數(shù)值或符號信息的計(jì)算系統(tǒng),更形象一點(diǎn)說,計(jì)算機(jī)視覺是讓計(jì)算機(jī)具備像人類一樣的眼睛,看到圖像,并理解圖像。
在計(jì)算機(jī)起步階段,就有人覺得計(jì)算機(jī)應(yīng)該具備“眼睛”,能夠看能夠理解。20世紀(jì)50年代末,圖像增強(qiáng)第一次應(yīng)用在對太空和航拍圖像進(jìn)行處理方面,人們開始發(fā)現(xiàn)計(jì)算機(jī)視覺真的可以應(yīng)用。60年代初,模式識別在計(jì)算機(jī)視覺領(lǐng)域得到廣泛的應(yīng)用,例如字符識別等應(yīng)用成了模式識別的經(jīng)典應(yīng)用。到了60年代末,有個麻省理工的博士生第一次從圖像中提取出三維信息,把一個實(shí)體的物體從二維圖像中提出來。隨后,麻省理工學(xué)院在70年代成立了機(jī)器視覺的研究組,并且開設(shè)了相關(guān)的課程。
從70年代到現(xiàn)在,40年間計(jì)算機(jī)視覺得到迅速地發(fā)展,許多計(jì)算機(jī)視覺的應(yīng)用出現(xiàn)在了生產(chǎn)生活領(lǐng)域,例如對道路交通等自然場景進(jìn)行數(shù)字化分析、OCR應(yīng)用在郵局分揀信件以及手寫體的支票、人臉識別的門禁……期間,多視圖幾何和圖像分割、視覺跟蹤和運(yùn)動分析、大型圖像和數(shù)據(jù)庫等研究對計(jì)算機(jī)視覺起了很大的推進(jìn)作用。到了2011年,人們才真正發(fā)現(xiàn)計(jì)算機(jī)視覺的巨大商業(yè)價值,這一年以Kinect為代表的3D攝像傳感器出現(xiàn)在公眾的視野內(nèi),人們發(fā)現(xiàn)計(jì)算機(jī)不僅能看見,能夠理解動作并實(shí)時做出反應(yīng)。
然而,計(jì)算機(jī)識別的準(zhǔn)確性始終是計(jì)算機(jī)視覺應(yīng)用的瓶頸,直至2012年,基于深度學(xué)習(xí)的圖像識別技術(shù)出現(xiàn),極大地提高了計(jì)算機(jī)視覺的識別精確度。這些算法的可靠性促進(jìn)了工業(yè)界的應(yīng)用,比如車牌識別、游戲中的動作追蹤、疾病監(jiān)測等。

2.深度學(xué)習(xí)變革圖像識別領(lǐng)域
在2012年深度學(xué)習(xí)技術(shù)出現(xiàn)后,識別的錯誤率有了突變性的改變,但是錯誤率降到一定階段之后,再降下去就非常困難了。而且,計(jì)算機(jī)難以跟上環(huán)境變化的節(jié)奏,一旦光線和角度等環(huán)境因素發(fā)生變化,就會誤識。以人臉為例,最初研究者試圖將人臉想象成一個模板,用機(jī)器學(xué)習(xí)的方法掌握模板的規(guī)律,然而人臉雖然看起來很固定,但角度、光線、打扮不同,樣子就有差別,令模板難以匹配所有人臉。人臉識別的核心問題在于,如何讓計(jì)算機(jī)忽略同一個人的不同時刻的差異,又能發(fā)現(xiàn)兩個人之間的差別。人工神經(jīng)網(wǎng)絡(luò)技術(shù)的引進(jìn)是計(jì)算機(jī)視覺超越模板識別的關(guān)鍵。

2006年,有研究者發(fā)現(xiàn)多隱層的人工神經(jīng)網(wǎng)絡(luò)一方面具備更優(yōu)異的特征學(xué)習(xí)能力,另一方面能通過逐層初始化克服機(jī)器學(xué)習(xí)的訓(xùn)練問題。但是,通常神經(jīng)網(wǎng)絡(luò)僅能做兩三層,深度越深越不穩(wěn)定,無法算出結(jié)果。2012年多倫多大學(xué)的研究者在神經(jīng)網(wǎng)絡(luò)研究有了一個新突破,將神經(jīng)網(wǎng)絡(luò)做到8層。2014年劍橋大學(xué)的研究者把深度升級到19層。2015年,微軟亞洲研究院的研究員們基于殘差學(xué)習(xí),將深度提升到152層,憑借深度神經(jīng)網(wǎng)絡(luò)帶來的準(zhǔn)確識別能力,微軟在2015的 ImageNet 大規(guī)模視覺挑戰(zhàn)賽中以絕對優(yōu)勢獲得圖像分類、圖像定位以及圖像檢測三個主要項(xiàng)目的冠軍。
3.物體檢測的新突破

在圖像識別中,物體檢測是人類從做計(jì)算機(jī)視覺開始便懷揣著的夢想——拿到一張圖可以辨別里面有什么東西、在哪里?在微軟的識別技術(shù)中,不僅能高準(zhǔn)確度判斷出有沒有某件物體,判斷出在什么位置,甚至還能達(dá)到像素級別的物體分割,將圖像中的每一個像素屬于哪個物體精確地識別出來。
物體檢測=定位+識別


視頻中的物體分割

4.未來:計(jì)算機(jī)視覺觸手可及
http://How-old.net應(yīng)用火爆社交網(wǎng)絡(luò)之后,微軟又推出了一款 “微軟我們”應(yīng)用,用戶只要登陸“微軟我們”網(wǎng)站,任意上傳兩張人物照片,就可以獲知人臉的相似度。與此同時,更多基于計(jì)算機(jī)視覺技術(shù)的有趣應(yīng)用也逐漸出現(xiàn)在公眾的視野中:可以幫你找到和你長得相似的明星的應(yīng)用CelebsLike、幫助你鑒別狗狗品種的應(yīng)用Fetch、識別你的表情并用相應(yīng)emoji表情代替的應(yīng)用FaceHero……尖端的計(jì)算機(jī)視覺技術(shù),正在以詼諧有趣的形象引起公眾的興趣,讓公眾輕松體驗(yàn)到其中的奇妙。計(jì)算機(jī)視覺不再是深藏樓閣的技術(shù),而將在生活中隨處可見,觸手可及。
2015年5月初,微軟正式公布了牛津計(jì)劃(如今已融入微軟認(rèn)知服務(wù)中),這是一系列基于云端的與計(jì)算機(jī)學(xué)習(xí)相關(guān)的智能API、SDK和相關(guān)的服務(wù)被提供給開發(fā)者,開發(fā)者不再需要擁有繁復(fù)的機(jī)器學(xué)習(xí)等背景也能輕松開發(fā)出智能的包括計(jì)算機(jī)視覺在內(nèi)的應(yīng)用,讓想法不再只是想法。微軟認(rèn)知服務(wù):Seeing AI應(yīng)用youku.com視頻薩基博·薩科(Saqib Shaikh)是微軟在英國團(tuán)隊(duì)的一位軟件工程師,7歲就不幸失明,他憑借著自己的不懈努力,成為一位軟件工程師。在微軟工作時,他參與了微軟正在研發(fā)階段的人工智能項(xiàng)目:Seeing AI,這個項(xiàng)目幫助薩科“看見”和“了解”他眼前的世界。在展示視頻中,當(dāng)薩科滑動鏡腿時,Seeing AI就可以識別出景象,并通過語音告訴薩科眼前是什么,例如公園中正在玩耍的人,會議室的空位,與會者的年齡、性別以及情緒,幫他讀懂餐館的菜單……這種科幻小說中才有的場景,正在逐漸被實(shí)現(xiàn)。這個充滿人文關(guān)懷的應(yīng)用,背后正是微軟認(rèn)知服務(wù)的開放API提供的強(qiáng)有力的支持。在詼諧之外,微軟亞洲研究院的計(jì)算機(jī)視覺技術(shù)數(shù)十年的技術(shù)積淀已經(jīng)在生活的方方面面展現(xiàn)出更加實(shí)在的價值,而這僅是開始。
盧策吾:
我很同意博磊的看法,計(jì)算機(jī)視覺在人工智能和深度學(xué)習(xí)的大背景下方興未艾。如果我們站在人工智能的big picture上看,在邁向強(qiáng)AI的路上,vision還有太多的東西可以去開拓了。
舉個例子:
博磊特別提到的Robotics (or Simulation)+Vision,我見到北美幾個組熱火朝天地搞起來了(比如我好朋友Yuke做的https://arxiv.org/pdf/1609.05143v1.pdf)。
我感覺這是往強(qiáng)AI方向的升級。以前,vision一直都在做“l(fā)et
machine see like human”。現(xiàn)在,開始思考“l(fā)et machine act like human”(大家想想,這顯然更AI,能干更多的事情啦)。
以前是 “see“這個基礎(chǔ)都沒有,機(jī)器就是一個瞎子,讓它“act
like human”就很不靠譜了?,F(xiàn)在因?yàn)樯疃葘W(xué)習(xí),基本具備“see”這個條件后,自然有一批visioner去琢磨這件事了。這對vision也就提出新的挑戰(zhàn),同時學(xué)習(xí)perception和how to
act。deep reinforcement learning 剛好就是干這個事的,所以關(guān)注的人也很多,也很work,我自己也在無人車仿真玩過,效果真不錯(當(dāng)然做到真正強(qiáng)AI, deep RL目前也有自己的缺陷)。
想想baby 的學(xué)習(xí)過程中 , 學(xué)習(xí)perception和how to act是相互伴隨,互相促進(jìn)的。這樣也會使perception的檔次提高,目前的object
detection and segmentation,對應(yīng)到人類語言語義大概是名詞級別的語義,是非常淺的,接下來還有動詞,短語級別,句子級別 ,故事級別。如果機(jī)器完全理解了how to act,會很大程度地幫助我們獲得更深層的perception。當(dāng)然,深語義的perception也幫助了how to
act。Deep
reinforcement learning 比傳統(tǒng)reinforcement learning好,就是因?yàn)閜erception 更好了。
為什么是simulation+vision呢?因?yàn)橐谡鎸?shí)世界里學(xué)習(xí)how to
act成本太高了(找個機(jī)器人來不停試錯不現(xiàn)實(shí))。所以一條路就是create
strong AI in virtual world, thus apply in real world。從研究角度來講,simulation+vision
to create stronger AI就是成為第一步,后面apply to real world還有一大堆問題可以探索的。要是做好了按在各種機(jī)器人上讓它自主干活,那就是威力巨大了(從AI角度看,無人車算是簡單的機(jī)器人吧),估計(jì)也是不小的產(chǎn)業(yè)。
以上只是一個例子而已(也是一個嘗試),我想說的我們在解detection和segmentation這些傳統(tǒng)問題同時,作為研究者,不妨也站在整個大AI的背景下看看,想想vision和DL如何面向強(qiáng)AI,邁一小步,再邁一下步,再邁一小步…….
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

