<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么現(xiàn)在不看好 CV 方向了呢?

          共 3291字,需瀏覽 7分鐘

           ·

          2024-05-26 18:25

          點擊上方小白學視覺”,選擇加"星標"或“置頂”

          重磅干貨,第一時間送達

          鏈接:https://www.zhihu.com/question/383486199/answer/3049588800
          編輯:深度學習與計算機視覺
          聲明:僅做學術分享,侵刪

          作者:王云鶴

          https://www.zhihu.com/question/383486199/answer/3049588800

          我估計好多人覺得CV沒啥意思,除了精度難刷,另外就是被LLM卷的,在AI領域的熱度都被ChatGPT相關的討論帶走了,尤其現(xiàn)在有很多AI相關的媒體導致AI相關的討論門檻越來越低。但其實CV確確實實還有很多技術問題沒有被解決,雖然沒有“涌現(xiàn)”的那么魔幻,但很多工作也都在持續(xù)革新領域內的技術。最近CV方向也有很多人開始討論“大模型”,好像除了“大模型”之外,都沒有什么可值得討論的東西了,在去年11月初的時候寫過一個思考,那時候的觀點現(xiàn)在看起來也還ok。

          王云鶴:關于AI大模型的一點思考和討論https://zhuanlan.zhihu.com/p/580745171

          CV到底有沒有大模型?我認為像GPT那種大模型短期是沒有的,這個觀點在跟不同的人討論中都有一定的共識,CV缺乏像GPT那種大一統(tǒng)的學習任務。除了底層視覺,目前這個事情還不太可能。其實,CV里面用到的最貼近大模型的反而是Backbone,Backbone里面用的最多的還是ResNet-50系列,因為性能和效率仍然是比較不錯的trade-off。在ImageNet上預訓練好的骨干網(wǎng)絡模型就可以在很多檢測、分割、重識別、細粒度分類等任務上獲得不錯的精度,這反而更貼近foundation model的初衷。最近我們做了一個比較有意思的工作,也可以推薦大家用一用。

          6層的VanillaNet結構圖,沒有Shortcut,致敬LeNet、AlexNet和VGGNet6層的VanillaNet(樸素網(wǎng)絡)可以超過ResNet-34,13層的VanillaNet在ImageNet達到83%的top1精度,超過幾百層網(wǎng)絡的性能,并展現(xiàn)了非凡的硬件效率優(yōu)勢。

          王云鶴:卷積的盡頭不是Transformer,極簡架構潛力無限https://zhuanlan.zhihu.com/p/632685158
          我們也把相關的代碼和預訓練模型都開源了,收到了不少同學的反饋和建議,VanillaNet主要發(fā)揮的是GPU對矩陣乘法密集計算的效率優(yōu)勢,所以雖然有更多的parameter和flops,latency反而是由于其他模型的,后續(xù)我們也有很多持續(xù)提升的計劃:加預訓練,加蒸餾,這也是現(xiàn)在基于vision transformer的骨干網(wǎng)絡的常用策略;加分辨率,參考EfficeintNet系列,進一步優(yōu)化網(wǎng)絡結構;與模型壓縮聯(lián)動,與其他模型融合,爭取獲得更好的trade-off。


          作者:謝流遠
          https://www.zhihu.com/question/383486199/answer/1568812291

          因為cv入行最容易,所以最內卷。

          nlp還要學點分字分詞語法分析啥的,數(shù)據(jù)清洗里面一堆trick。

          語音更是mfcc怎么算都要學半天,完事一堆decoding。

          RL先要學一堆policy value q啥的概念,然后里面一堆不足為外人道的trick,你不懂你的模型根本就不收斂。

          只有cv會rgb就行了,lab都不需要的。。。


          作者:黑夜的眼睛
          https://www.zhihu.com/question/383486199/answer/2272587312

          早兩三年的話,真沒那么卷,有個好點的想法,配合簡單的網(wǎng)絡結構就能出篇不錯的論文。現(xiàn)在要產(chǎn)出高質量的論文,網(wǎng)絡復雜度是原來的好幾倍。

          至于現(xiàn)在,除非你是在頭部的實驗室或者公司,不讓我基本覺得沒啥機會卷出頭,其他直接無腦大模型加微調,除非你的問題分解思路領先一整個版本,不然沒啥機會。
          現(xiàn)在我倒是覺得部分cv的更加回歸本質了,深度學習不是銀彈,一部分的領域已經(jīng)開始研究問題建模了,最典型的就是nerf系列的論文。我覺得圖形結構的隱式表示真的是很有趣的想法,合成結果依靠的是對問題的思考,對數(shù)學模型的構建而不是靠算力堆上去,如果看懂了nerf的思路,就真的會覺得這東西就是人的智慧的體現(xiàn)。21年cvprbest paper giraffe當之無愧。
          (另一方面,我對輿論鼓吹transformer非常反感,個人非常不喜歡transformer一類的工作,過分強調網(wǎng)絡性能結果導致忽略對問題的分析。在大部分cv任務里,transformer完全就可以視為加強版的backbone,很少有類似detr這種從底層改變的成果。實在很難想象一些學校的導師會視這些東西為創(chuàng)新點。另外補充,自回歸生成也是很優(yōu)秀的思路,transformer的作用也被體現(xiàn)了出來。我真正不喜歡的是類似于xxformer這種東西)
          補:2022 年末的時候,diffusion 火了, 不過我個人傾向于將它分成兩部分,純diffusion和 大模型。純 diffusion 的話是中全新的建模方式,可惜我數(shù)學不夠好,本來2021 就偶然看到相關論文了,但是當前完全沒辦法理解里面描述的過程和實現(xiàn)原理。至于大模型,我覺得某種意義上來說類似stable diffusion 是一種類似 vq gan 的替代,先驗分布從原來的 gpt 或者 transformer生成 變成了diffusion 生成。驚艷的效果背后,同時也需要海量的計算資源,更令我驚訝的是開源的代碼,需要頂級算法和同樣頂級的工程能力。
          最近也看到了不少通過微調預訓練模型實現(xiàn)微調的圖像生成論文,hugging face 上的api 也確實好用,但是大模型大行其道的同時,普通學校的學生可能也得重新審視未來的方向了。

             
          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 537
          1點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          1點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩久久久性爱 | 美臀av | 3344gc在线观看免费下载视频 | 五情丁香先锋视 | 操女网|