成人毛片18女人毛片免费看麻豆,18禁免费网站,亚洲一级免费黄色电影,日本1234区在线观看,69精品自拍,国产一级在线,日韩欧美色图,91AV在线观看2011

鏈接：https://www.zhihu.com/answer/1927466979
編輯：深度學(xué)習(xí)與計算機(jī)視覺
聲明：僅做學(xué)術(shù)分享，侵刪

眾所周知，Transformer 已經(jīng)日常在CV學(xué)術(shù)領(lǐng)域“殺瘋了”，那么在工業(yè)領(lǐng)域情況如何呢？

作者：花花
https://www.zhihu.com/question/463585564/answer/1927466979

分類任務(wù)：transformer在分類任務(wù)上超過cnn讓大家欣喜若狂，用pretrain進(jìn)行finetune是一件合理的事情，但可能大家也有意識到，imagenet-1k, imagenet-21k等pretrain的跨domain問題。

其次，實際項目中，包括模型轉(zhuǎn)化，量化，SDK集成直到模型上線仍然有很大量的工作，鏈條不完善的情況下，不太容易落地，同時在inference速度上當(dāng)前沒有足夠好的優(yōu)化，也是一個劣勢。

檢測任務(wù)：說完分類再來考慮檢測，目前兩套思路，一種是換掉backbone，以pretrain的方式進(jìn)行下游任務(wù)，部署難度和分類任務(wù)一樣；另一種是類似DETR這種訓(xùn)練方式，想要取得較好的精度需要更大量的數(shù)據(jù)，對于實際項目并不容易獲取，且訓(xùn)練相較于普通檢測方法多了5到10倍的時間，在沒有取得很明顯的提升的情況下，也不太適合盲目進(jìn)行落地。

值得一提的幾點：
1. 在public dataset 上殺瘋了并不代表在實際業(yè)務(wù)數(shù)據(jù)上就能很好的work，這點就不展開了，做過落地的都明白。
2. 當(dāng)前另外一個方向是自監(jiān)督+transformer(SSL+Transformer)，個人認(rèn)為非常有潛力,包括微軟的swin-ssl，F(xiàn)acebook的dino等，都是這方面的嘗試
3. 落地場景不同，情況就不同，人臉上億量級的數(shù)據(jù)如果要train from scratch，要直接硬上transformer，計算資源是非常非?？捎^的。

個人一點不成熟的觀點，輕噴：
我認(rèn)為現(xiàn)在transformer還處于不成熟的階段，大部分的工作都在分類任務(wù)上進(jìn)行嘗試，因為訓(xùn)練成本較高，部分paper的實驗結(jié)果并不solid，提點也有限，雖然百花齊放但還沒有一個較為統(tǒng)一的認(rèn)知和共識，下游任務(wù)(detection，segmentation)的驗證也不是很solid。同時底層硬件，CUDA，訓(xùn)練框架對transformer的優(yōu)化也不夠完善。

類比CNN的發(fā)展歷程，我認(rèn)為目前transformer在CV領(lǐng)域應(yīng)該還處于AlexNet階段，距ResNet階段還有一定的距離，一方面是research這條線繼續(xù)推陳出新，另一方面是工程部署這條線的持續(xù)跟進(jìn)(可以看到很多社區(qū)的框架也在多分布式訓(xùn)練，transformer訓(xùn)練進(jìn)行優(yōu)化和加速)。

需要另一個里程碑來統(tǒng)一大家的認(rèn)知
落地是肯定要落地的，大家一起加油。

作者：匿名用戶
https://www.zhihu.com/question/463585564/answer/1930140253

這不應(yīng)該問算法工程師。算法人看中的是效果，是創(chuàng)新，是刷榜。

只有工程人才關(guān)心落地，說實話刷榜的模型那么幾個點的提升在實際業(yè)務(wù)中差異不大，有這點精力還不如洗好高質(zhì)量的數(shù)據(jù)；

工程落地最重要的是性價比，君不見目前視覺主流的落地依舊是mobilenet，ssd，yolo，unet，fcn這種經(jīng)典的模型；19年之后視覺領(lǐng)域模型絕大部分都是“妖艷的貨色”，落地價值不大；

最好一個模型算子種類越簡單越好，計算密度越高越好。npu便宜，速度快，功耗低，可惜適配性差，就是把芯片架構(gòu)師皮扒了，也適配不了算法人腦袋里花里胡哨的“騷”算子。

要是能出一個模型只用gemm，relu就能達(dá)到18年的效果，瞬時會風(fēng)靡工業(yè)界；甚至最近開始“返祖”MLP-Mixer，我就挺看好它；再進(jìn)一步看看這位答主，要是liner+norm兩個算子都能橫掃18年之前的模型，我覺得就很完美了，還要啥自行車啊！

NmTwo：如何評價Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上達(dá)到SOTA？https://www.zhihu.com/answer/1871097669

在另一個層面上如何看待算法：

匿名用戶：人工智能是當(dāng)前最好的計算機(jī)專業(yè)嗎？https://www.zhihu.com/answer/1932228657

作者：鳳舞九天
https://www.zhihu.com/question/463585564/answer/1936988298

vision transformer早就已經(jīng)落地了。說下自這邊相關(guān)的模型吧。首先是VIT，變種很多，自己也都試了下做backbone，相當(dāng)一部分模型比resnet，resnest系列效果要好，速度也快一些(顯存大一些)，直接上了線。

其次是bert模型，在多模態(tài)模型中作為nlp模態(tài)。

很早之前做OCR的時候也有嘗試transformer，不過當(dāng)時比較早，模型收益并不大，感覺最近的一些模型很有落地空間。

作者：匿名用戶
https://www.zhihu.com/question/463585564/answer/1927529137

startup

幾個視覺相關(guān)的核心模型都是Transformer做的。

與圖像生成和匹配等任務(wù)有關(guān)，比較細(xì)分的領(lǐng)域，效果很好。好到以至于不能用CNN的像素級損失衡量。按傳統(tǒng)衡量，CNN大約只有Transformer性能的10～25%。

應(yīng)用近期就開始落地。唯獨可惜的是做得太拖拉，CV in Transformer都爛大街了才投。文章公布看開獎結(jié)果了。

一點微小的經(jīng)驗，數(shù)據(jù)小的話，Transformer不太合適。

作者：匿名用戶
https://www.zhihu.com/question/463585564/answer/1928601091

個人覺得現(xiàn)在transformer完全沒用。在多個自有數(shù)據(jù)集跑過實驗，小于imagenet規(guī)模的數(shù)據(jù)集基本沒法用。大于imagenet規(guī)模的數(shù)據(jù)集，看數(shù)據(jù)多樣性程度和臟數(shù)據(jù)占比，多樣性小或者臟數(shù)據(jù)多完全沒用。多樣性大且標(biāo)注準(zhǔn)確，transformer直接過擬合場景，效果極好。但是transformer耗費資源也太高了，所以工業(yè)界也不愛用這東西，感覺這幫搞深度學(xué)習(xí)的十有九騙，現(xiàn)在這個東西完全沒用，就是瘋狂過擬合數(shù)據(jù)。

作者：大白楊
https://www.zhihu.com/question/463585564/answer/1928938833

不同場景性能測試的table我這邊是有的，而且肯定各個廠早就做過了，但是除了幾個大廠肯定不會release出來的。

應(yīng)該來說看解決的業(yè)務(wù)是什么，分類相關(guān)這塊性能還是不錯的，雖然計算計算資源多消耗50%，不過提高也還算明顯。這里22k的模型效果還不如1k的模型。分類以外的其他業(yè)務(wù)比如分割檢測就參差不齊了，而且計算損耗也大幅度提高（這個和transformer本身特性有關(guān)系），目前應(yīng)該不會落地。

往期精彩：
【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實戰(zhàn)指南.pdf
 談中小企業(yè)算法崗面試
 算法工程師研發(fā)技能表
 真正想做算法的，不要害怕內(nèi)卷
 算法工程師的日常，一定不能脫離產(chǎn)業(yè)實踐
 技術(shù)學(xué)習(xí)不能眼高手低
 技術(shù)人要學(xué)會自我營銷
 做人不能過擬合
求個在看

2021年，作為算法工程師的你們會在CV業(yè)務(wù)落地上用Transformer嗎？

求個在看

2021年，作為算法工程師的你們會在CV業(yè)務(wù)落地上用Transformer嗎？