中文字幕视频2023,男人天堂国产精品,亚洲激情区,亚洲动漫精品一区,97www,黑人大操逼,91啦丨九色丨刺激中文,天堂极品mv

鏈接：https://www.zhihu.com/question/51863955
編輯：深度學習與計算機視覺
聲明：僅做學術分享，侵刪

近些年來在機器學習(深度學習)的支持下，計算機視覺迅速發(fā)展，并且與ML的發(fā)展在圖像數(shù)據(jù)處理的交集上綁定在了一起。但CV領域自身的理論發(fā)展仿佛速度在放緩，那么未來CV的發(fā)展會不會因為自身發(fā)展的不足而只能依托其他領域發(fā)展的支持，計算機視覺領域是否會產(chǎn)生飽和甚至萎縮。不論興趣，單從時機考慮，現(xiàn)在進入這個領域還來得及嗎？

作者：HeptaAI

https://www.zhihu.com/question/51863955/answer/2525216135

先說結(jié)論：不，能做的方向太多了，但是比起以前需要能力或者更多時間：圖像理解卷，但是是基礎，要學但是可以不作為研究方向，圖像理解的小樣本學習、持續(xù)學習、醫(yī)療影像理解倒是比較樂觀，3D也相對2D好一些；圖像生成在大實驗室，算力足，可以做；檢索不推薦；Robotics建議大佬做，很有前景；圖像序列的多目標跟蹤、步態(tài)識別等建議專業(yè)Lab做；跨學科多模態(tài)很適合做，但是要學多個學科的知識。我們來看一下細致的分析：

圖像理解（目標檢測、圖像分類、圖像分割）這邊，三個子領域都由于benchmark非常成熟，總體呈內(nèi)卷態(tài)勢，做的人很多，優(yōu)秀的工作很少。仔細調(diào)查發(fā)現(xiàn)，這是行業(yè)的正常情況，因為這個領域和深度學習結(jié)合起來的發(fā)展時間是最長的，從李飛飛2009的ImageNet開始發(fā)展到現(xiàn)在，已經(jīng)有13年的歷史了，而ImageNet的benchmark已經(jīng)相當完善，所以缺乏活力。我們總結(jié)了圖像理解的突破口：一個是小樣本學習的benchmark，建立一個有規(guī)模的遷移學習數(shù)據(jù)集；另一個是持續(xù)學習的benchmark。這兩塊，最近的會議都開始大量征稿，屬于是熱點方向。還有一個是醫(yī)療圖像理解特別是MRI，這一塊屬于是造福人類的領域，世界各國給的Funding都很足。1個點在通用領域沒什么價值，但在手術臺上可能就直接決定一個人的生命。有研究指出多目標的工作還差點火候，可以繼續(xù)做；但我們自己調(diào)查了論文的數(shù)量和質(zhì)量，認為其實這也屬于卷的比較嚴重的一邊，厲害的模型像是YOLO，已經(jīng)做到了非常好的效果，之后基本沒有讓人耳目一新的模型出現(xiàn)。另外，3D領域相對2D會好一些。
圖像生成（超分辨率、文本to圖像、圖像去噪、風格遷移）這一塊，超分辨率基本已經(jīng)做爛了，而且因為本身就是個比較簡單的task，內(nèi)卷非常嚴重；文本to圖像這一塊卷倒是不卷，經(jīng)常有好的工作出來，問題是好的工作都是幾千億算力的大公司例如Google在做，例如前段時間的DALL-E，如果在一般的實驗室不建議入坑，很容易做完實驗寫paper的時候突然發(fā)現(xiàn)已經(jīng)被大廠做完了，淪成同期工作；圖像去噪是一個相對小眾的分支，想入門看這個綜述，主要與在MRI結(jié)合的方向比較有實用價值，所以可以預計這一塊前景不錯。風格遷移這邊談不上卷，但是跟藝術結(jié)合的領域Funding明顯不夠，就業(yè)面也窄，所以目前階段各種評價都偏娛樂向。
圖像檢索（以圖搜圖、以文搜圖）其實本質(zhì)還是圖像理解，而且算是一個已經(jīng)比較成熟的區(qū)域了，例如搜索引擎、相似度推薦等，10年左右開始技術飛躍就困難重重了。現(xiàn)在這一塊很少有Lab在做了，慎入。
Robotics（計算機視覺在無人車、無人機、機械臂上的應用）這一塊，能做的還有太多。這一塊用到深度學習（基于統(tǒng)計的方法）的還很少，基本都是基于規(guī)則的方法，其實計算機圖形學更多一些。最熱門的算法像是SLAM，都是被規(guī)則方法統(tǒng)治的。問題是，想要把計算機視覺用到這些科目上的難度非常大，改模型調(diào)參的結(jié)果沒有規(guī)則方法好。所以做這個方向數(shù)學一定要好，否則很容易變成做橫向，我們隔壁Lab就大量接橫向，研究性質(zhì)的paper發(fā)的不多。
圖像序列（目標跟蹤、圖像序列分類、步態(tài)識別）其實就是一串圖片拼起來，多了個時間維度，這塊總體就業(yè)面稍窄，無外乎安防監(jiān)控、無人駕駛兩個領域，這三個子領域相對更有前景。目標跟蹤推薦多目標跟蹤，應用價值最高，F(xiàn)unding也不錯；熱點在落地可行性，也就是實時監(jiān)測和降低算力門檻。序列分類最火的是事件監(jiān)測，在交通方面有比較大應用。步態(tài)識別屬于偏小眾的方向，但是圖像序列的Lab一般都會涉獵，如果Lab是專做圖像序列的，例如導師專門做這塊，可以考慮入坑。圖像序列工作總體上聚集程度高，在專業(yè)實驗室會比較吃香。
與NLP的組合（特別是視頻理解、視頻生成、視頻搜索，也就是上面三個經(jīng)典圖像命題的視頻版本）這一塊，基本上還在藍海期。視頻其實就是圖像序列加上音頻和文字信息。視頻理解像是概括視頻的內(nèi)容、提取視頻中的事件這些，跟圖像序列主要多一個音頻和文字，屬于圖像序列的超集。遠機位視頻理解的benchmark實在太少了，很缺苦干做數(shù)據(jù)集的人，現(xiàn)在風氣太浮躁。視頻理解里面，視頻分類現(xiàn)在是大瓶頸，兩三年了還是那個模型。視頻生成像是從一幅圖片生成一整個視頻，研究算是非?；鸨?，可以用作推理專家系統(tǒng)，從一幅圖片里面進行有端聯(lián)想。視頻生成里面視頻質(zhì)量也是一個很值得做的方向，現(xiàn)在很多視頻內(nèi)容是優(yōu)質(zhì)的但分辨率太低，視頻超分效率感人，這邊的研究實在是少的可憐。視頻搜索可以用來做視頻推薦算法，作為視頻除了標題的一個文本參照，在標題黨越來越多的情況下提升推薦質(zhì)量。視頻這一塊總體來說難度都比較大，需要對CV和NLP都有涉獵，所以你光會CV還是容易陷入內(nèi)卷，博采眾長才是王道。
多模態(tài)。這個學科就是大量知識的雜糅，其實也是一個跨學科的方向，還是很容易出paper的。其實視頻方向也是一種多模態(tài)，但是和NLP的關系最大，也是多模態(tài)里面最火的一個方向，所以放到上面一條單獨講。因為我們并不認為多模態(tài)是CV的一個部分，而是CV的超集，因此沒有做重點survey。

作者：陀飛輪
https://www.zhihu.com/question/51863955/answer/1879155038

先說結(jié)論：從2021年時間節(jié)點看，計算機視覺已經(jīng)進入了瓶頸期。

最近計算機視覺入了Transformer，熱度空前高漲，我覺得CV用Transformer我還能理解，這對于多模態(tài)統(tǒng)一架構(gòu)來說是有意義的。

但是MLP-Mixer和ResMLP的出現(xiàn)，我就看不懂了，說白了MLP-Mixer和ResMLP其實還是用的卷積，概念玩的6的，只有LeCun說了大實話。

在我的認知里，大組應該利用好自身的資源人才影響力做一些推動領域發(fā)展的工作，現(xiàn)在已經(jīng)淪落到把MLP翻出來炒冷飯的地步了嗎？

種種怪異的現(xiàn)象足以說明計算機視覺已經(jīng)進入了瓶頸期。

作者：鳳舞九天
https://www.zhihu.com/question/51863955/answer/1794052854

前面講得已經(jīng)挺好了，不過我作為一線的開發(fā)人員，我主要從工業(yè)界應用角度出發(fā)，說下自己的看法。

確實人臉這個方向，工業(yè)上的問題也大多解的差不多了，而且無論共開的還是企業(yè)私人的，數(shù)據(jù)都非常多。但是目前在工業(yè)界，包括檢測、分割、視頻理解、生成模型、機器人、無人車等等都還沒有得到比較好的解。而且，在少量訓練數(shù)據(jù)、模型小型化、模型泛化、虛擬生成等等方向也需要技術上的突破。其實一線開發(fā)面臨的算法問題還有很多，只不過目前也沒有特別好的解決方案，新出的論文能有效解決這些實際問題的可能也不多。由于自己工作方向一直是做業(yè)務，所以比較關注實際問題的解決。從我的看法來看，目前無論是從算法技術本身還是從算法應用角度，計算機視覺都還大有可為。不過前幾年的資本大量涌入，導致大量人涌入CV圈，從一定程度上有人才飽和的趨勢，但是真正能解決問題而不是僅僅跑個demo的這種人才還是非常稀缺的。

作者：CW不要無聊的風格
https://www.zhihu.com/question/51863955/answer/1844945081

揭露一個事實：

最大的瓶頸就是人心，來自于該領域下的研究/工作者，而非領域本身。

一直以來，無論是哪個領域，在發(fā)展了一定程度之后，總會有大部分人理所當然地覺得到了瓶頸期而放棄，但仍會有一小部分善于發(fā)現(xiàn)問題、認真觀察與體驗生活并且堅持不懈地嘗試解決問題的人。

最終，那小部分人始終走在實現(xiàn)自我價值與追求奮斗目標的道路上，而那大部分放棄的人無論到哪個領域都始終會迷茫，被“自我淘汰”。

事實上，所有領域始終在發(fā)展，只不過快慢程度不同罷了，而造就這發(fā)展程度的不同恰恰是領域研究/工作者。所以，如果你真心熱愛這個領域，就請不要給它設置瓶頸，謝謝！

往期精彩：

講解視頻來了！機器學習公式推導與代碼實現(xiàn)開錄！

完結(jié)！《機器學習公式推導與代碼實現(xiàn)》全書1-26章PPT下載

《機器學習公式推導與代碼實現(xiàn)》隨書PPT示例

時隔一年！深度學習語義分割理論與代碼實踐指南.pdf第二版來了！

新書首發(fā) | 《機器學習公式推導與代碼實現(xiàn)》正式出版！