2021年,作為算法工程師的你們會在CV業(yè)務(wù)落地上用Transformer嗎?
鏈接:https://www.zhihu.com/answer/1927466979 編輯:深度學(xué)習(xí)與計算機(jī)視覺 聲明:僅做學(xué)術(shù)分享,侵刪

https://www.zhihu.com/question/463585564/answer/1927466979
檢測任務(wù):說完分類再來考慮檢測,目前兩套思路,一種是換掉backbone,以pretrain的方式進(jìn)行下游任務(wù),部署難度和分類任務(wù)一樣;另一種是類似DETR這種訓(xùn)練方式,想要取得較好的精度需要更大量的數(shù)據(jù),對于實際項目并不容易獲取,且訓(xùn)練相較于普通檢測方法多了5到10倍的時間,在沒有取得很明顯的提升的情況下,也不太適合盲目進(jìn)行落地。
值得一提的幾點:
1. 在public dataset 上殺瘋了并不代表在實際業(yè)務(wù)數(shù)據(jù)上就能很好的work,這點就不展開了,做過落地的都明白。
2. 當(dāng)前另外一個方向是自監(jiān)督+transformer(SSL+Transformer),個人認(rèn)為非常有潛力,包括微軟的swin-ssl,F(xiàn)acebook的dino等,都是這方面的嘗試
3. 落地場景不同,情況就不同,人臉上億量級的數(shù)據(jù)如果要train from scratch,要直接硬上transformer,計算資源是非常非??捎^的。
個人一點不成熟的觀點,輕噴:
我認(rèn)為現(xiàn)在transformer還處于不成熟的階段,大部分的工作都在分類任務(wù)上進(jìn)行嘗試,因為訓(xùn)練成本較高,部分paper的實驗結(jié)果并不solid,提點也有限,雖然百花齊放但還沒有一個較為統(tǒng)一的認(rèn)知和共識,下游任務(wù)(detection,segmentation)的驗證也不是很solid。同時底層硬件,CUDA,訓(xùn)練框架對transformer的優(yōu)化也不夠完善。
類比CNN的發(fā)展歷程,我認(rèn)為目前transformer在CV領(lǐng)域應(yīng)該還處于AlexNet階段,距ResNet階段還有一定的距離,一方面是research這條線繼續(xù)推陳出新,另一方面是工程部署這條線的持續(xù)跟進(jìn)(可以看到很多社區(qū)的框架也在多分布式訓(xùn)練,transformer訓(xùn)練進(jìn)行優(yōu)化和加速)。
需要另一個里程碑來統(tǒng)一大家的認(rèn)知 落地是肯定要落地的,大家一起加油。
https://www.zhihu.com/question/463585564/answer/1930140253
只有工程人才關(guān)心落地,說實話刷榜的模型那么幾個點的提升在實際業(yè)務(wù)中差異不大,有這點精力還不如洗好高質(zhì)量的數(shù)據(jù);
工程落地最重要的是性價比,君不見目前視覺主流的落地依舊是mobilenet,ssd,yolo,unet,fcn這種經(jīng)典的模型;19年之后視覺領(lǐng)域模型絕大部分都是“妖艷的貨色”,落地價值不大;
最好一個模型算子種類越簡單越好,計算密度越高越好。npu便宜,速度快,功耗低,可惜適配性差,就是把芯片架構(gòu)師皮扒了,也適配不了算法人腦袋里花里胡哨的“騷”算子。
要是能出一個模型只用gemm,relu就能達(dá)到18年的效果,瞬時會風(fēng)靡工業(yè)界;甚至最近開始“返祖”MLP-Mixer,我就挺看好它;再進(jìn)一步看看這位答主,要是liner+norm兩個算子都能橫掃18年之前的模型,我覺得就很完美了,還要啥自行車啊!
https://www.zhihu.com/question/463585564/answer/1936988298
其次是bert模型,在多模態(tài)模型中作為nlp模態(tài)。
作者:匿名用戶
https://www.zhihu.com/question/463585564/answer/1927529137
應(yīng)用近期就開始落地。唯獨可惜的是做得太拖拉,CV in Transformer都爛大街了才投。文章公布看開獎結(jié)果了。
作者:匿名用戶
https://www.zhihu.com/question/463585564/answer/1928601091
https://www.zhihu.com/question/463585564/answer/1928938833
應(yīng)該來說看解決的業(yè)務(wù)是什么,分類相關(guān)這塊性能還是不錯的,雖然計算計算資源多消耗50%,不過提高也還算明顯。這里22k的模型效果還不如1k的模型。分類以外的其他業(yè)務(wù)比如分割檢測就參差不齊了,而且計算損耗也大幅度提高(這個和transformer本身特性有關(guān)系),目前應(yīng)該不會落地。
往期精彩:
【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實戰(zhàn)指南.pdf
求個在看
