<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          計算機視覺是否已經(jīng)進入瓶頸期?

          共 4240字,需瀏覽 9分鐘

           ·

          2022-06-21 10:42

          鏈接:https://www.zhihu.com/question/51863955
          編輯:深度學習與計算機視覺
          聲明:僅做學術分享,侵刪

          近些年來在機器學習(深度學習)的支持下,計算機視覺迅速發(fā)展,并且與ML的發(fā)展在圖像數(shù)據(jù)處理的交集上綁定在了一起。但CV領域自身的理論發(fā)展仿佛速度在放緩,那么未來CV的發(fā)展會不會因為自身發(fā)展的不足而只能依托其他領域發(fā)展的支持,計算機視覺領域是否會產(chǎn)生飽和甚至萎縮。不論興趣,單從時機考慮,現(xiàn)在進入這個領域還來得及嗎?



          作者:HeptaAI

          https://www.zhihu.com/question/51863955/answer/2525216135

          先說結(jié)論:不,能做的方向太多了,但是比起以前需要能力或者更多時間:圖像理解卷,但是是基礎,要學但是可以不作為研究方向,圖像理解的小樣本學習、持續(xù)學習、醫(yī)療影像理解倒是比較樂觀,3D也相對2D好一些;圖像生成在大實驗室,算力足,可以做;檢索不推薦;Robotics建議大佬做,很有前景;圖像序列的多目標跟蹤、步態(tài)識別等建議專業(yè)Lab做;跨學科多模態(tài)很適合做,但是要學多個學科的知識。我們來看一下細致的分析:

          1. 圖像理解(目標檢測、圖像分類、圖像分割)這邊,三個子領域都由于benchmark非常成熟,總體呈內(nèi)卷態(tài)勢,做的人很多,優(yōu)秀的工作很少。仔細調(diào)查發(fā)現(xiàn),這是行業(yè)的正常情況,因為這個領域和深度學習結(jié)合起來的發(fā)展時間是最長的,從李飛飛2009的ImageNet開始發(fā)展到現(xiàn)在,已經(jīng)有13年的歷史了,而ImageNet的benchmark已經(jīng)相當完善,所以缺乏活力。我們總結(jié)了圖像理解的突破口:一個是小樣本學習的benchmark,建立一個有規(guī)模的遷移學習數(shù)據(jù)集;另一個是持續(xù)學習的benchmark。這兩塊,最近的會議都開始大量征稿,屬于是熱點方向。還有一個是醫(yī)療圖像理解特別是MRI,這一塊屬于是造福人類的領域,世界各國給的Funding都很足。1個點在通用領域沒什么價值,但在手術臺上可能就直接決定一個人的生命。有研究指出多目標的工作還差點火候,可以繼續(xù)做;但我們自己調(diào)查了論文的數(shù)量和質(zhì)量,認為其實這也屬于卷的比較嚴重的一邊,厲害的模型像是YOLO,已經(jīng)做到了非常好的效果,之后基本沒有讓人耳目一新的模型出現(xiàn)。另外,3D領域相對2D會好一些。
          2. 圖像生成(超分辨率、文本to圖像、圖像去噪、風格遷移)這一塊,超分辨率基本已經(jīng)做爛了,而且因為本身就是個比較簡單的task,內(nèi)卷非常嚴重;文本to圖像這一塊卷倒是不卷,經(jīng)常有好的工作出來,問題是好的工作都是幾千億算力的大公司例如Google在做,例如前段時間的DALL-E,如果在一般的實驗室不建議入坑,很容易做完實驗寫paper的時候突然發(fā)現(xiàn)已經(jīng)被大廠做完了,淪成同期工作;圖像去噪是一個相對小眾的分支,想入門看這個綜述,主要與在MRI結(jié)合的方向比較有實用價值,所以可以預計這一塊前景不錯。風格遷移這邊談不上卷,但是跟藝術結(jié)合的領域Funding明顯不夠,就業(yè)面也窄,所以目前階段各種評價都偏娛樂向。
          3. 圖像檢索(以圖搜圖、以文搜圖)其實本質(zhì)還是圖像理解,而且算是一個已經(jīng)比較成熟的區(qū)域了,例如搜索引擎、相似度推薦等,10年左右開始技術飛躍就困難重重了。現(xiàn)在這一塊很少有Lab在做了,慎入。
          4. Robotics(計算機視覺在無人車、無人機、機械臂上的應用)這一塊,能做的還有太多。這一塊用到深度學習(基于統(tǒng)計的方法)的還很少,基本都是基于規(guī)則的方法,其實計算機圖形學更多一些。最熱門的算法像是SLAM,都是被規(guī)則方法統(tǒng)治的。問題是,想要把計算機視覺用到這些科目上的難度非常大,改模型調(diào)參的結(jié)果沒有規(guī)則方法好。所以做這個方向數(shù)學一定要好,否則很容易變成做橫向,我們隔壁Lab就大量接橫向,研究性質(zhì)的paper發(fā)的不多。
          5. 圖像序列(目標跟蹤、圖像序列分類、步態(tài)識別)其實就是一串圖片拼起來,多了個時間維度,這塊總體就業(yè)面稍窄,無外乎安防監(jiān)控、無人駕駛兩個領域,這三個子領域相對更有前景。目標跟蹤推薦多目標跟蹤,應用價值最高,F(xiàn)unding也不錯;熱點在落地可行性,也就是實時監(jiān)測和降低算力門檻。序列分類最火的是事件監(jiān)測,在交通方面有比較大應用。步態(tài)識別屬于偏小眾的方向,但是圖像序列的Lab一般都會涉獵,如果Lab是專做圖像序列的,例如導師專門做這塊,可以考慮入坑。圖像序列工作總體上聚集程度高,在專業(yè)實驗室會比較吃香。
          6. 與NLP的組合(特別是視頻理解、視頻生成、視頻搜索,也就是上面三個經(jīng)典圖像命題的視頻版本)這一塊,基本上還在藍海期。視頻其實就是圖像序列加上音頻和文字信息。視頻理解像是概括視頻的內(nèi)容、提取視頻中的事件這些,跟圖像序列主要多一個音頻和文字,屬于圖像序列的超集。遠機位視頻理解的benchmark實在太少了,很缺苦干做數(shù)據(jù)集的人,現(xiàn)在風氣太浮躁。視頻理解里面,視頻分類現(xiàn)在是大瓶頸,兩三年了還是那個模型。視頻生成像是從一幅圖片生成一整個視頻,研究算是非?;鸨?,可以用作推理專家系統(tǒng),從一幅圖片里面進行有端聯(lián)想。視頻生成里面視頻質(zhì)量也是一個很值得做的方向,現(xiàn)在很多視頻內(nèi)容是優(yōu)質(zhì)的但分辨率太低,視頻超分效率感人,這邊的研究實在是少的可憐。視頻搜索可以用來做視頻推薦算法,作為視頻除了標題的一個文本參照,在標題黨越來越多的情況下提升推薦質(zhì)量。視頻這一塊總體來說難度都比較大,需要對CV和NLP都有涉獵,所以你光會CV還是容易陷入內(nèi)卷,博采眾長才是王道。
          7. 多模態(tài)。這個學科就是大量知識的雜糅,其實也是一個跨學科的方向,還是很容易出paper的。其實視頻方向也是一種多模態(tài),但是和NLP的關系最大,也是多模態(tài)里面最火的一個方向,所以放到上面一條單獨講。因為我們并不認為多模態(tài)是CV的一個部分,而是CV的超集,因此沒有做重點survey。


          作者:陀飛輪
          https://www.zhihu.com/question/51863955/answer/1879155038

          先說結(jié)論:從2021年時間節(jié)點看,計算機視覺已經(jīng)進入了瓶頸期。

          最近計算機視覺入了Transformer,熱度空前高漲,我覺得CV用Transformer我還能理解,這對于多模態(tài)統(tǒng)一架構(gòu)來說是有意義的。

          但是MLP-Mixer和ResMLP的出現(xiàn),我就看不懂了,說白了MLP-Mixer和ResMLP其實還是用的卷積,概念玩的6的,只有LeCun說了大實話。



          在我的認知里,大組應該利用好自身的資源人才影響力做一些推動領域發(fā)展的工作,現(xiàn)在已經(jīng)淪落到把MLP翻出來炒冷飯的地步了嗎?

          種種怪異的現(xiàn)象足以說明計算機視覺已經(jīng)進入了瓶頸期。


          作者:鳳舞九天
          https://www.zhihu.com/question/51863955/answer/1794052854

          前面講得已經(jīng)挺好了,不過我作為一線的開發(fā)人員,我主要從工業(yè)界應用角度出發(fā),說下自己的看法。

          確實人臉這個方向,工業(yè)上的問題也大多解的差不多了,而且無論共開的還是企業(yè)私人的,數(shù)據(jù)都非常多。但是目前在工業(yè)界,包括檢測、分割、視頻理解、生成模型、機器人、無人車等等都還沒有得到比較好的解。而且,在少量訓練數(shù)據(jù)、模型小型化、模型泛化、虛擬生成等等方向也需要技術上的突破。其實一線開發(fā)面臨的算法問題還有很多,只不過目前也沒有特別好的解決方案,新出的論文能有效解決這些實際問題的可能也不多。由于自己工作方向一直是做業(yè)務,所以比較關注實際問題的解決。從我的看法來看,目前無論是從算法技術本身還是從算法應用角度,計算機視覺都還大有可為。不過前幾年的資本大量涌入,導致大量人涌入CV圈,從一定程度上有人才飽和的趨勢,但是真正能解決問題而不是僅僅跑個demo的這種人才還是非常稀缺的。



          作者:CW不要無聊的風格
          https://www.zhihu.com/question/51863955/answer/1844945081

          揭露一個事實:

          最大的瓶頸就是人心,來自于該領域下的研究/工作者,而非領域本身。

          一直以來,無論是哪個領域,在發(fā)展了一定程度之后,總會有大部分人理所當然地覺得到了瓶頸期而放棄,但仍會有一小部分善于發(fā)現(xiàn)問題、認真觀察與體驗生活并且堅持不懈地嘗試解決問題的人。

          最終,那小部分人始終走在實現(xiàn)自我價值與追求奮斗目標的道路上,而那大部分放棄的人無論到哪個領域都始終會迷茫,被“自我淘汰”。
          事實上,所有領域始終在發(fā)展,只不過快慢程度不同罷了,而造就這發(fā)展程度的不同恰恰是領域研究/工作者。所以,如果你真心熱愛這個領域,就請不要給它設置瓶頸,謝謝!


          往期精彩:

           講解視頻來了!機器學習 公式推導與代碼實現(xiàn)開錄!

           完結(jié)!《機器學習 公式推導與代碼實現(xiàn)》全書1-26章PPT下載

          《機器學習 公式推導與代碼實現(xiàn)》隨書PPT示例

           時隔一年!深度學習語義分割理論與代碼實踐指南.pdf第二版來了!

           新書首發(fā) | 《機器學習 公式推導與代碼實現(xiàn)》正式出版!

          《機器學習公式推導與代碼實現(xiàn)》將會配套PPT和視頻講解!


          瀏覽 103
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲.无码.变态.欧美.中文 | 国产精品九九九 | 啪啪啪的网站 | 亚洲啪啪啪网站 | 天天干天天干素人 |