“大模型”根基—Transformer的360篇論文大盤(pán)點(diǎn)
共 3911字,需瀏覽 8分鐘
·
2024-04-16 12:00
2017年,來(lái)自谷歌的幾個(gè)研究員寫(xiě)下《Attention is All you need》的題目,給世界帶來(lái)了Transformer模型架構(gòu),它成為了今天“大模型”繁榮背后無(wú)可爭(zhēng)議的根基。
OpenAI的GPT,Meta的Llama以及一眾最主流大語(yǔ)言模型都是在Transformer的基礎(chǔ)上生長(zhǎng)起來(lái),某種程度上,今天所有AI模型層面的研究都在圍繞對(duì)Transformer的掌控與超越展開(kāi)。
如何快速發(fā)一篇這一領(lǐng)域的論文呢,我給大家整理了135篇Transformer魔改方案論文,包括最新的idea頂會(huì)等,希望對(duì)大家的學(xué)習(xí)有多幫助。
掃碼回復(fù)"transformer"
領(lǐng)取135篇魔改論文合集
另外我還邀請(qǐng)了常年擔(dān)任NeurIPS,ICML,ICLR,KDD,IJCAI等國(guó)際會(huì)議審稿人一林老師在4月17日晚20:00給大家?guī)?lái)《Graph Transformer for GraphRepresentation Learning》。
直播大綱:
1.圖表示學(xué)習(xí)
2. Graph Transformer
Transformer簡(jiǎn)介
Graph Transformer簡(jiǎn)介
Graph Transformer經(jīng)典模型之Graphormer (NeurlPS 2021)
Graph Transformer經(jīng)典模型之NAGphormer (ICLR 2023)
3.Graph Transformer的末來(lái)方向
另外還邀請(qǐng)多位頂會(huì)大咖,做了最全Transformer系列課程,帶你吃透理論和代碼,了解未來(lái)應(yīng)用,掃清學(xué)習(xí)難點(diǎn)。本次課程有兩大亮點(diǎn):
亮點(diǎn)一:精講論文+代碼
亮點(diǎn)二:詳解Transformer的多方向應(yīng)用
精講VIT、PVT、Swin Transformer、DETR論文和代碼,扎實(shí)理論+吃透代碼。
詳解預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用/基于VIT的語(yǔ)義分割算法/在視覺(jué)任務(wù)中的應(yīng)用與高效部署。
0.01元解鎖Transfoemer系列課
帶你吃透理論和代碼
加課程回復(fù)“Transformer"獲取360篇transform頂會(huì)論文合集
Transtormer系列課程目錄
階段一:吃透論文和代碼,牢牢掌握Transformer基礎(chǔ)
1:CV-transformer 概述
2:CV-transformer VIT論文講解
3:CV-transformer PVT論文詳解
4:CV-transformer PVT代碼詳解
5:CV-transformer Swin Transformer論文詳解
6:CV-transformer Swin Transformer代碼詳解
7:CV-transformer DETR 論文詳解
8:CV-transformer DETR代碼講解
9:CV-transformer——VIT
10:CV-transformer——MAE
11:CV中的transformer專題MAE詳解
階段二:掌握Transformer多方向應(yīng)用
1:Transformer簡(jiǎn)介和預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用
2:基于Vision Transformer的語(yǔ)義分割算法
3:Transformer在視覺(jué)任務(wù)中的應(yīng)用與高效部署
ViT為的主圖像分類網(wǎng)絡(luò)
Segformer為主的圖像分割網(wǎng)絡(luò)
常用輕量化方法介紹
以Transformer為主的視覺(jué)任務(wù)設(shè)計(jì)高效的輕量化方法
未來(lái)挑戰(zhàn)與研究方向
0.01元解鎖22節(jié)系列課
帶你吃透理論和代碼
Transtormer系列論文
另外我還整理了通用ViT、高效ViT、訓(xùn)練transformer、卷積transformer等細(xì)分領(lǐng)域的226篇頂會(huì)論文,帶你從「Transformer的前世」速通到大模型。
論文目錄:(因篇幅有限,僅展示前十篇)
1. Neural Machine Translation by Jointly Learning to Align and Translate(2014)
2. Attention is All you need (2017)
3. On Layer Normalization in the Transformer Architecture (2020)
4. Universal Language Model Fine-tuning for Text Classification (2018)
5. Harnessing the Power of LLMs in Practice (2023)
6. Cramming: Training a Language Model on a Single GPU in One Day (2022)
7. LoRA: Low-Rank Adaptation of Large Language Models (2021)
8. Training Compute-Optimal Large Language Models (2022)
9. Constitutional AI: Harmlessness from AI Feedback (2022)
10. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (2023)
掃碼回復(fù)“Transformer"獲取226篇transform頂會(huì)論文合集
帶你從「Transformer的前世」速通到大模型
