為什么現(xiàn)在不看好 CV 方向了呢?
共 3291字,需瀏覽 7分鐘
·
2024-05-26 18:25
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
鏈接:https://www.zhihu.com/question/383486199/answer/3049588800 編輯:深度學習與計算機視覺 聲明:僅做學術分享,侵刪
作者:王云鶴
https://www.zhihu.com/question/383486199/answer/3049588800
我估計好多人覺得CV沒啥意思,除了精度難刷,另外就是被LLM卷的,在AI領域的熱度都被ChatGPT相關的討論帶走了,尤其現(xiàn)在有很多AI相關的媒體導致AI相關的討論門檻越來越低。但其實CV確確實實還有很多技術問題沒有被解決,雖然沒有“涌現(xiàn)”的那么魔幻,但很多工作也都在持續(xù)革新領域內的技術。最近CV方向也有很多人開始討論“大模型”,好像除了“大模型”之外,都沒有什么可值得討論的東西了,在去年11月初的時候寫過一個思考,那時候的觀點現(xiàn)在看起來也還ok。
王云鶴:關于AI大模型的一點思考和討論https://zhuanlan.zhihu.com/p/580745171
CV到底有沒有大模型?我認為像GPT那種大模型短期是沒有的,這個觀點在跟不同的人討論中都有一定的共識,CV缺乏像GPT那種大一統(tǒng)的學習任務。除了底層視覺,目前這個事情還不太可能。其實,CV里面用到的最貼近大模型的反而是Backbone,Backbone里面用的最多的還是ResNet-50系列,因為性能和效率仍然是比較不錯的trade-off。在ImageNet上預訓練好的骨干網(wǎng)絡模型就可以在很多檢測、分割、重識別、細粒度分類等任務上獲得不錯的精度,這反而更貼近foundation model的初衷。最近我們做了一個比較有意思的工作,也可以推薦大家用一用。
6層的VanillaNet結構圖,沒有Shortcut,致敬LeNet、AlexNet和VGGNet6層的VanillaNet(樸素網(wǎng)絡)可以超過ResNet-34,13層的VanillaNet在ImageNet達到83%的top1精度,超過幾百層網(wǎng)絡的性能,并展現(xiàn)了非凡的硬件效率優(yōu)勢。
作者:謝流遠
https://www.zhihu.com/question/383486199/answer/1568812291
因為cv入行最容易,所以最內卷。
nlp還要學點分字分詞語法分析啥的,數(shù)據(jù)清洗里面一堆trick。
語音更是mfcc怎么算都要學半天,完事一堆decoding。
RL先要學一堆policy value q啥的概念,然后里面一堆不足為外人道的trick,你不懂你的模型根本就不收斂。
只有cv會rgb就行了,lab都不需要的。。。
作者:黑夜的眼睛
https://www.zhihu.com/question/383486199/answer/2272587312
早兩三年的話,真沒那么卷,有個好點的想法,配合簡單的網(wǎng)絡結構就能出篇不錯的論文。現(xiàn)在要產(chǎn)出高質量的論文,網(wǎng)絡復雜度是原來的好幾倍。
下載1:OpenCV-Contrib擴展模塊中文版教程
在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。
下載2:Python視覺實戰(zhàn)項目52講 在「小白學視覺」公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。
下載3:OpenCV實戰(zhàn)項目20講 在「小白學視覺」公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~
