計算機視覺是否已經(jīng)進入瓶頸期?
鏈接:https://www.zhihu.com/question/51863955 編輯:深度學習與計算機視覺 聲明:僅做學術分享,侵刪

近些年來在機器學習(深度學習)的支持下,計算機視覺迅速發(fā)展,并且與ML的發(fā)展在圖像數(shù)據(jù)處理的交集上綁定在了一起。但CV領域自身的理論發(fā)展仿佛速度在放緩,那么未來CV的發(fā)展會不會因為自身發(fā)展的不足而只能依托其他領域發(fā)展的支持,計算機視覺領域是否會產(chǎn)生飽和甚至萎縮。不論興趣,單從時機考慮,現(xiàn)在進入這個領域還來得及嗎?

作者:HeptaAI
先說結(jié)論:不,能做的方向太多了,但是比起以前需要能力或者更多時間:圖像理解卷,但是是基礎,要學但是可以不作為研究方向,圖像理解的小樣本學習、持續(xù)學習、醫(yī)療影像理解倒是比較樂觀,3D也相對2D好一些;圖像生成在大實驗室,算力足,可以做;檢索不推薦;Robotics建議大佬做,很有前景;圖像序列的多目標跟蹤、步態(tài)識別等建議專業(yè)Lab做;跨學科多模態(tài)很適合做,但是要學多個學科的知識。我們來看一下細致的分析:
圖像理解(目標檢測、圖像分類、圖像分割)這邊,三個子領域都由于benchmark非常成熟,總體呈內(nèi)卷態(tài)勢,做的人很多,優(yōu)秀的工作很少。仔細調(diào)查發(fā)現(xiàn),這是行業(yè)的正常情況,因為這個領域和深度學習結(jié)合起來的發(fā)展時間是最長的,從李飛飛2009的ImageNet開始發(fā)展到現(xiàn)在,已經(jīng)有13年的歷史了,而ImageNet的benchmark已經(jīng)相當完善,所以缺乏活力。我們總結(jié)了圖像理解的突破口:一個是小樣本學習的benchmark,建立一個有規(guī)模的遷移學習數(shù)據(jù)集;另一個是持續(xù)學習的benchmark。這兩塊,最近的會議都開始大量征稿,屬于是熱點方向。還有一個是醫(yī)療圖像理解特別是MRI,這一塊屬于是造福人類的領域,世界各國給的Funding都很足。1個點在通用領域沒什么價值,但在手術臺上可能就直接決定一個人的生命。有研究指出多目標的工作還差點火候,可以繼續(xù)做;但我們自己調(diào)查了論文的數(shù)量和質(zhì)量,認為其實這也屬于卷的比較嚴重的一邊,厲害的模型像是YOLO,已經(jīng)做到了非常好的效果,之后基本沒有讓人耳目一新的模型出現(xiàn)。另外,3D領域相對2D會好一些。 圖像生成(超分辨率、文本to圖像、圖像去噪、風格遷移)這一塊,超分辨率基本已經(jīng)做爛了,而且因為本身就是個比較簡單的task,內(nèi)卷非常嚴重;文本to圖像這一塊卷倒是不卷,經(jīng)常有好的工作出來,問題是好的工作都是幾千億算力的大公司例如Google在做,例如前段時間的DALL-E,如果在一般的實驗室不建議入坑,很容易做完實驗寫paper的時候突然發(fā)現(xiàn)已經(jīng)被大廠做完了,淪成同期工作;圖像去噪是一個相對小眾的分支,想入門看這個綜述,主要與在MRI結(jié)合的方向比較有實用價值,所以可以預計這一塊前景不錯。風格遷移這邊談不上卷,但是跟藝術結(jié)合的領域Funding明顯不夠,就業(yè)面也窄,所以目前階段各種評價都偏娛樂向。 圖像檢索(以圖搜圖、以文搜圖)其實本質(zhì)還是圖像理解,而且算是一個已經(jīng)比較成熟的區(qū)域了,例如搜索引擎、相似度推薦等,10年左右開始技術飛躍就困難重重了。現(xiàn)在這一塊很少有Lab在做了,慎入。 Robotics(計算機視覺在無人車、無人機、機械臂上的應用)這一塊,能做的還有太多。這一塊用到深度學習(基于統(tǒng)計的方法)的還很少,基本都是基于規(guī)則的方法,其實計算機圖形學更多一些。最熱門的算法像是SLAM,都是被規(guī)則方法統(tǒng)治的。問題是,想要把計算機視覺用到這些科目上的難度非常大,改模型調(diào)參的結(jié)果沒有規(guī)則方法好。所以做這個方向數(shù)學一定要好,否則很容易變成做橫向,我們隔壁Lab就大量接橫向,研究性質(zhì)的paper發(fā)的不多。 圖像序列(目標跟蹤、圖像序列分類、步態(tài)識別)其實就是一串圖片拼起來,多了個時間維度,這塊總體就業(yè)面稍窄,無外乎安防監(jiān)控、無人駕駛兩個領域,這三個子領域相對更有前景。目標跟蹤推薦多目標跟蹤,應用價值最高,F(xiàn)unding也不錯;熱點在落地可行性,也就是實時監(jiān)測和降低算力門檻。序列分類最火的是事件監(jiān)測,在交通方面有比較大應用。步態(tài)識別屬于偏小眾的方向,但是圖像序列的Lab一般都會涉獵,如果Lab是專做圖像序列的,例如導師專門做這塊,可以考慮入坑。圖像序列工作總體上聚集程度高,在專業(yè)實驗室會比較吃香。 與NLP的組合(特別是視頻理解、視頻生成、視頻搜索,也就是上面三個經(jīng)典圖像命題的視頻版本)這一塊,基本上還在藍海期。視頻其實就是圖像序列加上音頻和文字信息。視頻理解像是概括視頻的內(nèi)容、提取視頻中的事件這些,跟圖像序列主要多一個音頻和文字,屬于圖像序列的超集。遠機位視頻理解的benchmark實在太少了,很缺苦干做數(shù)據(jù)集的人,現(xiàn)在風氣太浮躁。視頻理解里面,視頻分類現(xiàn)在是大瓶頸,兩三年了還是那個模型。視頻生成像是從一幅圖片生成一整個視頻,研究算是非?;鸨?,可以用作推理專家系統(tǒng),從一幅圖片里面進行有端聯(lián)想。視頻生成里面視頻質(zhì)量也是一個很值得做的方向,現(xiàn)在很多視頻內(nèi)容是優(yōu)質(zhì)的但分辨率太低,視頻超分效率感人,這邊的研究實在是少的可憐。視頻搜索可以用來做視頻推薦算法,作為視頻除了標題的一個文本參照,在標題黨越來越多的情況下提升推薦質(zhì)量。視頻這一塊總體來說難度都比較大,需要對CV和NLP都有涉獵,所以你光會CV還是容易陷入內(nèi)卷,博采眾長才是王道。 多模態(tài)。這個學科就是大量知識的雜糅,其實也是一個跨學科的方向,還是很容易出paper的。其實視頻方向也是一種多模態(tài),但是和NLP的關系最大,也是多模態(tài)里面最火的一個方向,所以放到上面一條單獨講。因為我們并不認為多模態(tài)是CV的一個部分,而是CV的超集,因此沒有做重點survey。
作者:陀飛輪
https://www.zhihu.com/question/51863955/answer/1879155038
先說結(jié)論:從2021年時間節(jié)點看,計算機視覺已經(jīng)進入了瓶頸期。
最近計算機視覺入了Transformer,熱度空前高漲,我覺得CV用Transformer我還能理解,這對于多模態(tài)統(tǒng)一架構(gòu)來說是有意義的。

在我的認知里,大組應該利用好自身的資源人才影響力做一些推動領域發(fā)展的工作,現(xiàn)在已經(jīng)淪落到把MLP翻出來炒冷飯的地步了嗎?
種種怪異的現(xiàn)象足以說明計算機視覺已經(jīng)進入了瓶頸期。
作者:鳳舞九天
https://www.zhihu.com/question/51863955/answer/1794052854
前面講得已經(jīng)挺好了,不過我作為一線的開發(fā)人員,我主要從工業(yè)界應用角度出發(fā),說下自己的看法。
作者:CW不要無聊的風格
https://www.zhihu.com/question/51863955/answer/1844945081
揭露一個事實:
最大的瓶頸就是人心,來自于該領域下的研究/工作者,而非領域本身。
一直以來,無論是哪個領域,在發(fā)展了一定程度之后,總會有大部分人理所當然地覺得到了瓶頸期而放棄,但仍會有一小部分善于發(fā)現(xiàn)問題、認真觀察與體驗生活并且堅持不懈地嘗試解決問題的人。
往期精彩:
講解視頻來了!機器學習 公式推導與代碼實現(xiàn)開錄!
完結(jié)!《機器學習 公式推導與代碼實現(xiàn)》全書1-26章PPT下載
時隔一年!深度學習語義分割理論與代碼實踐指南.pdf第二版來了!
新書首發(fā) | 《機器學習 公式推導與代碼實現(xiàn)》正式出版!
《機器學習公式推導與代碼實現(xiàn)》將會配套PPT和視頻講解!
