Transformer有可能替代CNN嗎?未來有哪些研究方向?聽聽大家都怎么說

來源:邁微AI研習(xí)社
Transformer 有可能替代 CNN 嗎?現(xiàn)在下結(jié)論還為時過早。





現(xiàn)有的 Visual Transformer 都還是將 NLP 中 Transformer 的結(jié)構(gòu)套到視覺任務(wù)做了一些初步探索,未來針對 CV 的特性設(shè)計更適配視覺特性的 Transformer 將會帶來更好的性能提升。
現(xiàn)有的 Visual Transformer 一般是一個模型做單個任務(wù),近來有一些模型可以單模型做多任務(wù),比如 IPT,未來是否可以有一個世界模型,處理所有任務(wù)?
現(xiàn)有的 Visual Transformer 參數(shù)量和計算量多大,比如 ViT 需要 18B FLOPs 在 ImageNet 達(dá)到 78% 左右 Top1,但是 CNN 模型如 GhostNet 只需 600M FLOPs 可以達(dá)到 79% 以上 Top1,所以高效 Transformer for CV 亟需開發(fā)以媲美 CNN。(引自 @kai.han)


增強(qiáng)推薦
(計算機(jī)視覺:實(shí)戰(zhàn)才有效果)
我最近剛發(fā)布的一項(xiàng)GitHub開源《計算機(jī)視覺實(shí)戰(zhàn)演練:算法與應(yīng)用》動手學(xué)計算機(jī)視覺項(xiàng)目,repo中不僅有全書的電子文檔,更為特別的是每章節(jié)都給出了算法簡明講解和對應(yīng)代碼實(shí)現(xiàn)。

考慮到讀者各自運(yùn)行環(huán)境的差異,在本書中給出的代碼有兩種運(yùn)行方式,本地 set up 和在線colab Google notebook運(yùn)行。
- 通過requirements.txt將所需版本軟件安裝,可在code/文件夾下運(yùn)行各章節(jié)代碼;
- 通過colab免費(fèi)的在線gpu資源,也提供了對應(yīng)章節(jié)的notebook運(yùn)行代碼,“傻瓜式”運(yùn)行,查看代碼執(zhí)行過程和最終結(jié)果。

個人認(rèn)為計算機(jī)視覺或者算法工程師,本質(zhì)上還是一名軟件工程師,所以工程實(shí)戰(zhàn)性能力在實(shí)際項(xiàng)目中顯得尤為重要。與此同時,對于剛?cè)腴T或者初學(xué)者來講,自己親自動手實(shí)踐,編寫、調(diào)試代碼,最終看到理想的結(jié)果顯示出來,這是一種很好的激勵和增強(qiáng)學(xué)習(xí)動力的方式,這也是我在編寫這份資料時的初心。
與現(xiàn)有市場上同類書籍的差別,更在于,全書分為基礎(chǔ)理論篇、項(xiàng)目實(shí)戰(zhàn)篇、進(jìn)階篇撰寫,各自章節(jié)既相互獨(dú)立,又保持上下文銜接。
這樣的做法,可以幫助讀者更好的選取適合自己的學(xué)習(xí)方式。
- 對于初學(xué)者來說,可以按照本書的編寫順序逐章閱讀并動手實(shí)踐;
- 對于有一定基礎(chǔ)的讀者來講,本書更好的食用方式是當(dāng)作一本實(shí)踐手冊,根據(jù)自己所需相關(guān)內(nèi)容,選擇對應(yīng)章節(jié)進(jìn)行學(xué)習(xí)。
隨著近年來算法屆,更為突出的是計算機(jī)視覺領(lǐng)域在學(xué)界和工業(yè)界的熱潮,不斷涌現(xiàn)出一些性能更好的模型和算法。在本書中,作者也盡自己所能,對新出現(xiàn)的并且在工程上或?qū)W術(shù)界得到良好反饋的模型進(jìn)行講解,盡可能給出其模型的最簡代碼實(shí)現(xiàn),例如:跨界模型transformer、差分自編碼器vac、生成對抗模型、注意力機(jī)制等方法。


更多細(xì)節(jié)可參考GitHub全書,https://github.com/Charmve/computer-vision-in-action


