<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2021年,作為算法工程師的你們會在CV業(yè)務(wù)落地上用Transformer嗎?

          共 3153字,需瀏覽 7分鐘

           ·

          2021-06-18 10:33

          鏈接:https://www.zhihu.com/answer/1927466979
          編輯:深度學(xué)習(xí)與計算機(jī)視覺
          聲明:僅做學(xué)術(shù)分享,侵刪
          眾所周知,Transformer 已經(jīng)日常在CV學(xué)術(shù)領(lǐng)域“殺瘋了”,那么在工業(yè)領(lǐng)域情況如何呢?

          作者:花花
          https://www.zhihu.com/question/463585564/answer/1927466979

          分類任務(wù):transformer在分類任務(wù)上超過cnn讓大家欣喜若狂,用pretrain進(jìn)行finetune是一件合理的事情,但可能大家也有意識到,imagenet-1k, imagenet-21k等pretrain的跨domain問題。
          其次,實際項目中,包括模型轉(zhuǎn)化,量化,SDK集成直到模型上線仍然有很大量的工作,鏈條不完善的情況下,不太容易落地,同時在inference速度上當(dāng)前沒有足夠好的優(yōu)化,也是一個劣勢。

          檢測任務(wù):說完分類再來考慮檢測,目前兩套思路,一種是換掉backbone,以pretrain的方式進(jìn)行下游任務(wù),部署難度和分類任務(wù)一樣;另一種是類似DETR這種訓(xùn)練方式,想要取得較好的精度需要更大量的數(shù)據(jù),對于實際項目并不容易獲取,且訓(xùn)練相較于普通檢測方法多了5到10倍的時間,在沒有取得很明顯的提升的情況下,也不太適合盲目進(jìn)行落地。

          值得一提的幾點:
          1. 在public dataset 上殺瘋了并不代表在實際業(yè)務(wù)數(shù)據(jù)上就能很好的work,這點就不展開了,做過落地的都明白。
          2. 當(dāng)前另外一個方向是自監(jiān)督+transformer(SSL+Transformer),個人認(rèn)為非常有潛力,包括微軟的
          swin-ssl,F(xiàn)acebook的dino等,都是這方面的嘗試
          3. 落地場景不同,情況就不同,人臉上億量級的數(shù)據(jù)如果要train from scratch,要直接硬上transformer,計算資源是非常非??捎^的。

          個人一點不成熟的觀點,輕噴:
          我認(rèn)為現(xiàn)在transformer還處于不成熟的階段,大部分的工作都在分類任務(wù)上進(jìn)行嘗試,因為訓(xùn)練成本較高,部分paper的實驗結(jié)果并不solid,提點也有限,雖然百花齊放但還沒有一個較為統(tǒng)一的認(rèn)知和共識,下游任務(wù)(detection,segmentation)的驗證也不是很solid。同時底層硬件,CUDA,訓(xùn)練框架對transformer的優(yōu)化也不夠完善。

          類比CNN的發(fā)展歷程,我認(rèn)為目前transformer在CV領(lǐng)域應(yīng)該還處于AlexNet階段,距ResNet階段還有一定的距離,一方面是research這條線繼續(xù)推陳出新,另一方面是工程部署這條線的持續(xù)跟進(jìn)(可以看到很多社區(qū)的框架也在多分布式訓(xùn)練,transformer訓(xùn)練進(jìn)行優(yōu)化和加速)。

          1. 需要另一個里程碑來統(tǒng)一大家的認(rèn)知
          2. 落地是肯定要落地的,大家一起加油。

          作者:匿名用戶
          https://www.zhihu.com/question/463585564/answer/1930140253
          這不應(yīng)該問算法工程師。算法人看中的是效果,是創(chuàng)新,是刷榜。

          只有工程人才關(guān)心落地,說實話刷榜的模型那么幾個點的提升在實際業(yè)務(wù)中差異不大,有這點精力還不如洗好高質(zhì)量的數(shù)據(jù);

          工程落地最重要的是性價比,君不見目前視覺主流的落地依舊是mobilenet,ssd,yolo,unet,fcn這種經(jīng)典的模型;19年之后視覺領(lǐng)域模型絕大部分都是“妖艷的貨色”,落地價值不大;

          最好一個模型算子種類越簡單越好,計算密度越高越好。npu便宜,速度快,功耗低,可惜適配性差,就是把芯片架構(gòu)師皮扒了,也適配不了算法人腦袋里花里胡哨的“騷”算子。

          要是能出一個模型只用gemm,relu就能達(dá)到18年的效果,瞬時會風(fēng)靡工業(yè)界;甚至最近開始“返祖”MLP-Mixer,我就挺看好它;再進(jìn)一步看看這位答主,要是liner+norm兩個算子都能橫掃18年之前的模型,我覺得就很完美了,還要啥自行車啊!

          NmTwo:如何評價Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上達(dá)到SOTA?https://www.zhihu.com/answer/1871097669
          在另一個層面上如何看待算法:
          匿名用戶:人工智能是當(dāng)前最好的計算機(jī)專業(yè)嗎?https://www.zhihu.com/answer/1932228657

          作者:鳳舞九天
          https://www.zhihu.com/question/463585564/answer/1936988298
          vision transformer早就已經(jīng)落地了。說下自這邊相關(guān)的模型吧。首先是VIT,變種很多,自己也都試了下做backbone,相當(dāng)一部分模型比resnet,resnest系列效果要好,速度也快一些(顯存大一些),直接上了線。

          其次是bert模型,在多模態(tài)模型中作為nlp模態(tài)。

          很早之前做OCR的時候也有嘗試transformer,不過當(dāng)時比較早,模型收益并不大,感覺最近的一些模型很有落地空間。

          作者:匿名用戶
          https://www.zhihu.com/question/463585564/answer/1927529137
          startup
          幾個視覺相關(guān)的核心模型都是Transformer做的。
          與圖像生成和匹配等任務(wù)有關(guān),比較細(xì)分的領(lǐng)域,效果很好。好到以至于不能用CNN的像素級損失衡量。按傳統(tǒng)衡量,CNN大約只有Transformer性能的10~25%。

          應(yīng)用近期就開始落地。唯獨可惜的是做得太拖拉,CV in Transformer都爛大街了才投。文章公布看開獎結(jié)果了。

          一點微小的經(jīng)驗,數(shù)據(jù)小的話,Transformer不太合適。

          作者:匿名用戶
          https://www.zhihu.com/question/463585564/answer/1928601091
          個人覺得現(xiàn)在transformer完全沒用。在多個自有數(shù)據(jù)集跑過實驗,小于imagenet規(guī)模的數(shù)據(jù)集基本沒法用。大于imagenet規(guī)模的數(shù)據(jù)集,看數(shù)據(jù)多樣性程度和臟數(shù)據(jù)占比,多樣性小或者臟數(shù)據(jù)多完全沒用。多樣性大且標(biāo)注準(zhǔn)確,transformer直接過擬合場景,效果極好。但是transformer耗費資源也太高了,所以工業(yè)界也不愛用這東西,感覺這幫搞深度學(xué)習(xí)的十有九騙,現(xiàn)在這個東西完全沒用,就是瘋狂過擬合數(shù)據(jù)。

          作者:大白楊
          https://www.zhihu.com/question/463585564/answer/1928938833
          不同場景性能測試的table我這邊是有的,而且肯定各個廠早就做過了,但是除了幾個大廠肯定不會release出來的。

          應(yīng)該來說看解決的業(yè)務(wù)是什么,分類相關(guān)這塊性能還是不錯的,雖然計算計算資源多消耗50%,不過提高也還算明顯。這里22k的模型效果還不如1k的模型。分類以外的其他業(yè)務(wù)比如分割檢測就參差不齊了,而且計算損耗也大幅度提高(這個和transformer本身特性有關(guān)系),目前應(yīng)該不會落地。


          往期精彩:

          【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實現(xiàn)30講.pdf

          【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實戰(zhàn)指南.pdf

           談中小企業(yè)算法崗面試

           算法工程師研發(fā)技能表

           真正想做算法的,不要害怕內(nèi)卷

           算法工程師的日常,一定不能脫離產(chǎn)業(yè)實踐

           技術(shù)學(xué)習(xí)不能眼高手低

           技術(shù)人要學(xué)會自我營銷

           做人不能過擬合

          求個在看

          瀏覽 56
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本综合久久 | 国产足交在线播放 | 中国美女一级毛片 | 综合大香蕉| 北条麻妃在线观看一区二区 |