<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學習的多個loss如何平衡?

          共 3917字,需瀏覽 8分鐘

           ·

          2024-04-17 10:04

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          鏈接: https://www.zhihu.com/question/361846939
          編輯: 深度學習與計算機視覺
          目前計算機視覺領(lǐng)域相對于目前硬件和技術(shù)水平來說目標檢測,追蹤,分割,VQA到底發(fā)展到了什么地步,未來有哪些可以走下去的方向? 多模態(tài)融合? 你怎么看?



          作者: 鳳舞九天
          https://www.zhihu.com/question/361846939/answer/1763892634
          簡單說下吧,在計算機視覺領(lǐng)域內(nèi)也算是摸爬滾打三四年了。 自己或組里其他同事檢測,分類,OCR,視頻,動作都接觸過。 不過這里更多偏向做業(yè)務,不是做學術(shù)。

          直觀的感覺就是現(xiàn)在各個問題算法效果都能出一個baseline,但是調(diào)優(yōu)的空間并不大,更多的時候是靠苦力,比如標數(shù)據(jù),清洗數(shù)據(jù),badcase分析,寫一些保護邏輯,前后處理等。 就像學術(shù)界幾篇無監(jiān)督MOCO,CLIP等新作,確實很驚艷,但是,比不上我用業(yè)務數(shù)據(jù)訓練出來的backbone模型,這個沒辦法。 再說NLP里面bert大火,無論檢測,識別,GAN,還是多模態(tài)都有論文,也不乏一些驚艷的論文。 其中多模態(tài)bert我有試,單模型提升也不大,說起來很心塞。 辛辛苦苦試了新模型,調(diào)整,調(diào)優(yōu),不一定搞得過寫點策略,清洗下數(shù)據(jù),說起來后者省時省力,一周就出效果去匯報。

          最后談點看法吧,主要是兩點。 一個是說技術(shù)是技術(shù),產(chǎn)品是產(chǎn)品,技術(shù)要依賴產(chǎn)品,而不是我的產(chǎn)品厲害是因為我的視覺算法厲害,這個太難了。 技術(shù)還是要依賴產(chǎn)品做出口,未必技術(shù)登峰造極,這里不單單是計算機視覺了。 大家可以看看自己用的最多的軟件,有多少是說哪個功能別人做不了呢。 還有一點是我剛還是關(guān)注的產(chǎn)業(yè)AI,不過這塊了解不多,希望能做起來吧,感覺是AI最后的希望了。


          作者: 匿名用戶
          https://www.zhihu.com/question/361846939/answer/945007433
          今年視覺找工作都已經(jīng)諸神黃昏了,頭條官方勸退。 好在我們組的幾個碩士找的工作都還可以,可是我們組無論找算法,開發(fā),還是游戲工作都可以呀, 這和組內(nèi)氛圍有關(guān),和方向關(guān)系不大。 另外視覺方面基本上已到天花板, 很少有新東西了。 比如超分,基本上大家都在改結(jié)構(gòu),畫電路圖,一年大概只能出來三、五篇有價值的文章。 分類,檢測,分割也很少有新東西了,而且對卡要求比較高,沒卡不推薦玩。 行人重定位和圖神經(jīng)網(wǎng)絡是新的灌水方向。 跟蹤代碼很少有開源的,復現(xiàn)成本較高。 多模態(tài)融合我們組沒有做, 不發(fā)表評論。

          總體而言,大家基本上都在公開數(shù)據(jù)集上刷指標。 真實情況是,指標刷的再歡,到非限制性場景中分分鐘被教做人。


          作者: 知乎用戶
          https://www.zhihu.com/question/361846939/answer/1907996410
          自己畢業(yè)工作了也有幾年了(在這個行業(yè)內(nèi)也摸爬滾打至少六年了),這里側(cè)重分析一下算法在工業(yè)界的應用前景和落地瓶頸。 雖然對于過去幾年行業(yè)內(nèi)的大事件(顯著的技術(shù)突破或者巨量的資金流入)如數(shù)家珍,但是對于 計算機視覺 行業(yè)的發(fā)展仍不敢妄言。

          計算機視覺(Computer Vision,簡稱CV)行業(yè)的快速發(fā)展的確得益于人工智能概念的火熱,當然這背后又有著計算機硬件算力的提升和深度學習理論的發(fā)展等諸多原因。

          目前CV技術(shù)可以“不嚴謹”地分為這么幾類: 1、目標檢測; 2、圖像分割; 3、圖像增強(圖像修復,超分); 4、圖像生成(風格遷移); 5、人臉(寵物,屬性)分類識別; 6、姿態(tài)估計; 7、立體視覺; 8、其他……  他們或多或少的應用于安防、智能駕駛、物聯(lián)網(wǎng)、手機拍照、工業(yè)自動化等領(lǐng)域。 其中每一個細分類都至少是一個千億市值的市場。

          盡管如此,刷榜方面工業(yè)界CV算法并沒有和學術(shù)界拉開差距。 換句話說,工業(yè)界CV算法會比較偏重于業(yè)務,而且僅僅偏重于業(yè)務。 對于CV中每個具體的問題,學術(shù)界都存在一個baseline實現(xiàn)了基本的或者可以接受的算法效果,但是在此基礎(chǔ)上繼續(xù)調(diào)優(yōu)的空間并不大。

          這一點上CV領(lǐng)域的發(fā)展類同于 機器學習 。 聽說這是機器學習論文現(xiàn)狀? 為了一點點的精確率或準確度提升而掙扎  
          剛才提到每個細分領(lǐng)域都有千億級的市場,所以工業(yè)界CV算法值錢的地方在哪兒呢? 在于基于業(yè)務理解的基礎(chǔ)上對客戶需求的定制。 說白了就是為了能夠緊貼客戶的需求,工業(yè)界為了算法落地所做的努力。 為了能夠?qū)⑺惴涞兀簿褪菫榱四軌驖M足客戶需求,所做的努力包括不限于: 網(wǎng)絡架構(gòu)實驗,訓練方法試驗,造數(shù)據(jù),清洗數(shù)據(jù),badcase分析,打補丁,底層性能優(yōu)化……每一點都要耗費巨大的人力物力。

          另外提一點,數(shù)據(jù)在算法效果上的影響比你想象地要大。 一般情況,我們會將數(shù)據(jù)放在與網(wǎng)絡框架訓練細節(jié)同等重要的位置; 但是更常見的情況,數(shù)據(jù)會比其他算法細節(jié)更重要(數(shù)據(jù)是產(chǎn)生業(yè)務壁壘的重要原因)。 所以工業(yè)界發(fā)展遇到的一些問題與學術(shù)界相似,學術(shù)界方法有所突破后工業(yè)界才可能產(chǎn)生更多的新應用。

          不負責任地講一下,目前能看得見的、可以落地、值得研究的研究方向有,視頻處理方面的(包括視頻檢索,視頻分類等等),端側(cè)CV算法應用(例如視頻實時換臉),多模態(tài)融合(語言、文字、視覺)等等……

          長遠來看,CV技術(shù)必然能在未來科技樹中占有一席之地; 但短期來看,AlphaGo在16年掀起的一陣人工智能熱潮漸漸平息了下去,市場也漸漸回歸了冷靜。 啰嗦一句,CV還在發(fā)展,還在前進,不要俯視,也沒必要仰望。


          作者: yy18dlz
          https://www.zhihu.com/question/361846939/answer/1773780107
          某安防行業(yè)算法工程師
          日常工作最多的就是清理數(shù)據(jù),提交標注,增加數(shù)據(jù)優(yōu)化模型。

          學術(shù)界很多的東西幾乎很難用的上,因為不僅僅是訓練模型,你增加新的結(jié)構(gòu),例如空洞卷積,得看移植的設(shè)備平臺是否支持,一個模型要轉(zhuǎn)換到各種平臺,所以大部分的時候,為了減少不必要的麻煩,模型都是用最基本的卷積池化和激活操作堆積起來。

          而且公司大部分都是業(yè)務驅(qū)動,安防行業(yè)最大的特點就是業(yè)務需求雜,碎片化。

          基線不是基線,定制滿天飛。

          今天檢測人機非,明天檢測雞鴨狗,這些玩意你說你用什么transformer, detr來解決嗎? 不現(xiàn)實,還不如我整理數(shù)據(jù)來的快。

          cv工業(yè)界80%的問題都是數(shù)據(jù)問題,還有10%是策略問題,最后10%是學術(shù)界也解決不了的問題。

          所以,工業(yè)界的算法可能和你想象的做研究不太一樣,尤其是落地的算法。 純算法研究刷比賽水論文可能比較接近學校的狀態(tài)。 但是又有幾個公司能花閑錢養(yǎng)這樣的機構(gòu)。
             
          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 140
          10點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          10點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久久久黄色片 | se色在线| 免费黄网在线观看 | 黄视频网站在线观看 | 骚逼久久|