Transformer稀疏模型:?將文本、圖像、聲音一網(wǎng)打盡
Transformer是一種強大的序列模型,但是它所需的時間和內(nèi)存會隨著序列長度出現(xiàn)二階增長。而OpenAI研究人員開發(fā)出了一種深度神經(jīng)網(wǎng)絡(luò)Sparse Transformer,該網(wǎng)絡(luò)在預(yù)測長序列方面創(chuàng)造了新紀錄——無論預(yù)測的是文本、圖像還是聲音。該神經(jīng)網(wǎng)絡(luò)利用注意力機制中的一種改進算法,可以從長度可能是之前30倍的序列中提取模式。
OpenAI提出的模型可以使用數(shù)百個層對數(shù)萬個元素的序列進行建模,在多個域中實現(xiàn)最先進的性能。稀疏Transformer能夠幫助我們構(gòu)建具有更強的理解世界能力的AI系統(tǒng)。

Sparese Transformer 項目說明文檔

一 、項目介紹
Transformer 中 Self-attention的計算時間和顯存占用量都是 的(表示序列長度),隨著序列長度的增加,計算時間和顯存占用也都成二次方增長。因此當序列長度足夠大時,計算時間和顯存帶來的問題也會很大。Sparse Transformer 引入了注意力矩陣的稀疏分解將計算時間和顯存占用減小至,同時不會降低性能。
項目所需環(huán)境:

項目目錄:

二、數(shù)據(jù)集介紹

三、算法原理
Sparse Transformer 主要介紹了strided attention和fixed attention,并與full attention進行了對比,結(jié)構(gòu)如下:


四 、數(shù)據(jù)訓練測試
訓練結(jié)果如下:

回顧精品內(nèi)容
推薦系統(tǒng)
1、干貨 | 基于用戶的協(xié)同過濾推薦算法原理和實現(xiàn)
2、超詳細丨推薦系統(tǒng)架構(gòu)與算法流程詳解
機器學習
自然語言處理(NLP)
1、AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下Transformer論文
2、Transformer強勢闖入CV界秒殺CNN,靠的到底是什么"基因"
計算機視覺(CV)
1、9個小技巧讓您的PyTorch模型訓練裝上“渦輪增壓”...
GitHub開源項目:
1、火爆GitHub!3.6k Star,中文版可視化神器現(xiàn)身
2、兩次霸榜GitHub!這個神器不寫代碼也可以完成AI算法訓練
3、登頂GitHub大熱項目 | 非監(jiān)督GAN算法U-GAT-IT大幅改進圖像轉(zhuǎn)換
每周推薦:
1、本周優(yōu)秀開源項目分享:無腦套用格式、開源模板最高10萬贊
2、本周優(yōu)秀開源項目分享:YOLOv4的Pytorch存儲庫、用pytorch增強圖像數(shù)據(jù)等7大項目
七月在線學員面經(jīng)分享:
1、 雙非應(yīng)屆生拿下大廠NLP崗40萬offer:面試經(jīng)驗與路線圖分享
