GPU底層優(yōu)化 | 如何讓Transformer在GPU上跑得更快?
來(lái)源:計(jì)算機(jī)視覺研究院

計(jì)算機(jī)視覺研究院專欄
作者:Edison_G
Transformer 對(duì)計(jì)算和存儲(chǔ)的高要求阻礙了其在 GPU 上的大規(guī)模部署。在本文中,來(lái)自快手異構(gòu)計(jì)算團(tuán)隊(duì)的研究者分享了如何在 GPU 上實(shí)現(xiàn)基于 Transformer 架構(gòu)的 AI 模型的極限加速,介紹了算子融合重構(gòu)、混合精度量化、先進(jìn)內(nèi)存管理、Input Padding 移除以及 GEMM 配置等優(yōu)化方法。



























??THE END?
推薦閱讀
PyTorch深度學(xué)習(xí)技術(shù)生態(tài)
麻省理工喊你來(lái)上課,深度學(xué)習(xí)課程,關(guān)鍵還是免費(fèi)資源!
如何看待Transformer在CV上的應(yīng)用前景,未來(lái)有可能替代CNN嗎?



評(píng)論
圖片
表情
