深度學習的多個loss如何平衡?
共 3917字,需瀏覽 8分鐘
·
2024-04-17 10:04
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
鏈接: https://www.zhihu.com/question/361846939 編輯: 深度學習與計算機視覺
https://www.zhihu.com/question/361846939/answer/1763892634
直觀的感覺就是現(xiàn)在各個問題算法效果都能出一個baseline,但是調(diào)優(yōu)的空間并不大,更多的時候是靠苦力,比如標數(shù)據(jù),清洗數(shù)據(jù),badcase分析,寫一些保護邏輯,前后處理等。 就像學術(shù)界幾篇無監(jiān)督MOCO,CLIP等新作,確實很驚艷,但是,比不上我用業(yè)務數(shù)據(jù)訓練出來的backbone模型,這個沒辦法。 再說NLP里面bert大火,無論檢測,識別,GAN,還是多模態(tài)都有論文,也不乏一些驚艷的論文。 其中多模態(tài)bert我有試,單模型提升也不大,說起來很心塞。 辛辛苦苦試了新模型,調(diào)整,調(diào)優(yōu),不一定搞得過寫點策略,清洗下數(shù)據(jù),說起來后者省時省力,一周就出效果去匯報。
最后談點看法吧,主要是兩點。 一個是說技術(shù)是技術(shù),產(chǎn)品是產(chǎn)品,技術(shù)要依賴產(chǎn)品,而不是我的產(chǎn)品厲害是因為我的視覺算法厲害,這個太難了。 技術(shù)還是要依賴產(chǎn)品做出口,未必技術(shù)登峰造極,這里不單單是計算機視覺了。 大家可以看看自己用的最多的軟件,有多少是說哪個功能別人做不了呢。 還有一點是我剛還是關(guān)注的產(chǎn)業(yè)AI,不過這塊了解不多,希望能做起來吧,感覺是AI最后的希望了。
https://www.zhihu.com/question/361846939/answer/945007433
總體而言,大家基本上都在公開數(shù)據(jù)集上刷指標。 真實情況是,指標刷的再歡,到非限制性場景中分分鐘被教做人。
https://www.zhihu.com/question/361846939/answer/1907996410
計算機視覺(Computer Vision,簡稱CV)行業(yè)的快速發(fā)展的確得益于人工智能概念的火熱,當然這背后又有著計算機硬件算力的提升和深度學習理論的發(fā)展等諸多原因。
目前CV技術(shù)可以“不嚴謹”地分為這么幾類: 1、目標檢測; 2、圖像分割; 3、圖像增強(圖像修復,超分); 4、圖像生成(風格遷移); 5、人臉(寵物,屬性)分類識別; 6、姿態(tài)估計; 7、立體視覺; 8、其他…… 他們或多或少的應用于安防、智能駕駛、物聯(lián)網(wǎng)、手機拍照、工業(yè)自動化等領(lǐng)域。 其中每一個細分類都至少是一個千億市值的市場。
盡管如此,刷榜方面工業(yè)界CV算法并沒有和學術(shù)界拉開差距。 換句話說,工業(yè)界CV算法會比較偏重于業(yè)務,而且僅僅偏重于業(yè)務。 對于CV中每個具體的問題,學術(shù)界都存在一個baseline實現(xiàn)了基本的或者可以接受的算法效果,但是在此基礎(chǔ)上繼續(xù)調(diào)優(yōu)的空間并不大。
另外提一點,數(shù)據(jù)在算法效果上的影響比你想象地要大。 一般情況,我們會將數(shù)據(jù)放在與網(wǎng)絡框架訓練細節(jié)同等重要的位置; 但是更常見的情況,數(shù)據(jù)會比其他算法細節(jié)更重要(數(shù)據(jù)是產(chǎn)生業(yè)務壁壘的重要原因)。 所以工業(yè)界發(fā)展遇到的一些問題與學術(shù)界相似,學術(shù)界方法有所突破后工業(yè)界才可能產(chǎn)生更多的新應用。
不負責任地講一下,目前能看得見的、可以落地、值得研究的研究方向有,視頻處理方面的(包括視頻檢索,視頻分類等等),端側(cè)CV算法應用(例如視頻實時換臉),多模態(tài)融合(語言、文字、視覺)等等……
長遠來看,CV技術(shù)必然能在未來科技樹中占有一席之地; 但短期來看,AlphaGo在16年掀起的一陣人工智能熱潮漸漸平息了下去,市場也漸漸回歸了冷靜。 啰嗦一句,CV還在發(fā)展,還在前進,不要俯視,也沒必要仰望。
https://www.zhihu.com/question/361846939/answer/1773780107
學術(shù)界很多的東西幾乎很難用的上,因為不僅僅是訓練模型,你增加新的結(jié)構(gòu),例如空洞卷積,得看移植的設(shè)備平臺是否支持,一個模型要轉(zhuǎn)換到各種平臺,所以大部分的時候,為了減少不必要的麻煩,模型都是用最基本的卷積池化和激活操作堆積起來。
而且公司大部分都是業(yè)務驅(qū)動,安防行業(yè)最大的特點就是業(yè)務需求雜,碎片化。
基線不是基線,定制滿天飛。
今天檢測人機非,明天檢測雞鴨狗,這些玩意你說你用什么transformer, detr來解決嗎? 不現(xiàn)實,還不如我整理數(shù)據(jù)來的快。
cv工業(yè)界80%的問題都是數(shù)據(jù)問題,還有10%是策略問題,最后10%是學術(shù)界也解決不了的問題。
下載1:OpenCV-Contrib擴展模塊中文版教程
在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。
下載2:Python視覺實戰(zhàn)項目52講 在「小白學視覺」公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。
下載3:OpenCV實戰(zhàn)項目20講 在「小白學視覺」公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~
