FastViT快速卷積 Transformer 的混合視覺架構(gòu)
FastViT 有機地結(jié)合了 CNN 和 Transformer 的優(yōu)勢,無論在精度或者運行效率上均有了穩(wěn)定的提升。FastViT 引入了一種新的 Token 混合算子,命名為 RepMixer。從名字來看,它結(jié)合了結(jié)構(gòu)重新參數(shù)化技術(shù)。該算子的作用原理是通過消除網(wǎng)絡(luò)中的 skip connection 來降低內(nèi)存訪問成本。
FastViT 整體框架圖:
實驗結(jié)果表明,F(xiàn)astViT:
- 在移動設(shè)備上的速度比混合 Transformer 架構(gòu) CMT 快 3.5 倍
- 在 ImageNet 數(shù)據(jù)集上的精度相同,但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
- 在相似的延遲下,F(xiàn)astViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2%
評論
圖片
表情
