LLM與多模態(tài)必讀論文100篇
2月最后幾天讀的更多是英文paper,正是2月底這最后幾天對(duì)ChatGPT背后技術(shù)原理的研究才真正進(jìn)入狀態(tài)(后還組建了一個(gè)“ChatGPT之100篇論文閱讀組”,我和10來位博士、業(yè)界大佬從23年2.27日起讀完ChatGPT相關(guān)技術(shù)的100篇論文,如果你想加入100篇論文閱讀組,可以下方掃碼加入
↓↓↓掃碼搶購↓↓↓
讀的論文越多,你會(huì)發(fā)現(xiàn)大 部分人對(duì)ChatGPT的技術(shù)解讀都是不夠準(zhǔn)確或全面的,畢竟很多人沒有那個(gè)工作需要或研究需要,去深入了解各種細(xì)節(jié)。
因?yàn)榘肽陜?nèi)100篇這個(gè)任務(wù),讓自己有史以來一篇一篇一行一行讀100篇,之前看的比較散 不系統(tǒng) 摳的也不細(xì), 比如回顧“Attention is all you need”這篇后,對(duì)優(yōu)化博客內(nèi)的Transformer筆記便有了很多心得。 總之,讀的論文越多,博客內(nèi)相關(guān)筆記的質(zhì)量將飛速提升 自己的技術(shù)研究能力也能有巨大飛躍。 考慮 到為避免 上篇 文章篇 幅太長而影響完讀率,故把這100篇(后增至150篇)論文的清單抽取出來獨(dú)立成 本文: 第一部分 OpenAI/Google的基礎(chǔ)語言大模型(11篇,總11篇)-
Improving Language Understanding by Generative Pre-Training
GPT原始論文
-
Language Models are Unsupervised Multitask Learners
GPT2原始論文
- Language Models are Few-Shot Learners GPT3原始論文
- Training language models to follow instructions with human feedback InstructGPT原始論文
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 19年10月,Google發(fā)布T5模型(transfer text to text transformer),雖也基于transformer,但區(qū)別于BERT的編碼器架構(gòu)與GPT的解碼器架構(gòu),T5是transformer的encoder-decoder架構(gòu),這是解讀之一 的 用的750G的訓(xùn)練數(shù)據(jù),其訓(xùn)練方法則為:BERT-style的MASK法/replace span(小段替換)/Drop法,以及類似BERT對(duì)文本的15%做破壞、且replace span時(shí)對(duì)3的小段破壞
- LaMDA: Language Models for Dialog Applications 論文發(fā)布于22年1月,顯示LaMDA的參數(shù)高達(dá)137B,用的transformer decoder架構(gòu),這是簡要解讀之一 21年5月,Google對(duì)外宣布內(nèi)部正在研發(fā)對(duì)話模型LaMDA,基于transformer decoder架構(gòu),在微調(diào)階段 使用58K的對(duì)話數(shù)據(jù),過程類似真人的對(duì)話過程,給定一個(gè)Query,比如 How old is Rafael Nadal? ,如果人知道答案,那么直接回答35歲即可,如果不知道,則需要去 Research 一下,借助搜索引擎找到答案,然后再回答35歲
- 《Finetuned Language Models Are Zero-Shot Learners》 21年9月,Google提出FLAN大模型,其基于LaMDA-PT做Instruction Fine-Tuning FLAN is the instruction-tuned version of LaMDA-PT
- PaLM: Scaling Language Modeling with Pathways 22年3月,Google的Barham等人發(fā)布了Pathways系統(tǒng),用于更高效地訓(xùn)練大型模型 Pathways 的愿景 —— 一個(gè)很接近人腦的框架:一個(gè)模型,可以做多任務(wù),多模態(tài) 且在做任務(wù)時(shí),只是 sparsely activated,只使用一部分的參數(shù) 22年4月,Google發(fā)布PaLM模型,基于Transformer decoder架構(gòu),參數(shù)規(guī)模最大的版本達(dá)到驚人的5400億參數(shù)(8B 62B 540B),使用multi-query注意力、SwiGLU激活函數(shù)以及RoPE位置嵌入,這是翻譯之一 且在每個(gè)Transformer塊中使用 "平行 "表述(Wang & Komatsuzaki,2021) 是Google的Pathways架構(gòu)或OpenAI GPT2/3提出的小樣本學(xué)習(xí)的進(jìn)一步擴(kuò)展 PaLM首次展示了Pathways的大規(guī)模使用——能夠以高效的方式在數(shù)千或數(shù)萬個(gè)加速器芯片上訓(xùn)練一個(gè)模型 具體來說,通過Pathways,PaLM 540B在兩個(gè)通過數(shù)據(jù)中心網(wǎng)絡(luò)連接的TPU v4 Pod上訓(xùn)練,使用模型和數(shù)據(jù)并行的組合,在每個(gè)Pod中使用3072個(gè)TPU v4芯片,連接到768臺(tái)主機(jī),能夠有效地將訓(xùn)練擴(kuò)展到6144個(gè)芯片,而不需要使用任何pipeline并行,其效率水平是以前這種規(guī)模的模型所不能達(dá)到的 以前的大多數(shù)大型語言模型 要么是在單個(gè)TPU系統(tǒng)上訓(xùn)練的(比如GLaM by Du等人2021年,LaMDA by Thopilan等人) 要么是使用由Huang等人在2019年提出的pipeline并行,從而在GPU集群(Megatron-Turing NLG 530B by Smith等人2022年),或多個(gè)TPU v3 pod(Gopher by Rae等人2021年)上擴(kuò)展,最大規(guī)模為4096個(gè)TPU v3芯片 另,在自然語言、代碼和數(shù)學(xué)推理等任務(wù)中表現(xiàn)的都很不錯(cuò) 此外,預(yù)訓(xùn)練數(shù)據(jù)集由一個(gè)7800億個(gè)token組成的語料庫,該數(shù)據(jù)集是由過濾過的網(wǎng)頁(占比27%)、書籍(占比13%)、Wikipedia(占比4%)、新聞文章(占比1%)、Github源代碼(占比5%,包括Java、HTML、Javascript、Python、PHP、C#、XML、C++和C,總計(jì)196GB的源代碼),和社交媒體對(duì)話(占比50%)組成的,這個(gè)數(shù)據(jù)集是也用于訓(xùn)練LaMDA和GLaM
- Constitutional AI: Harmlessness from AI Feedback OpenAI之前一副總裁離職搞了個(gè)ChatGPT的競品,ChatGPT用人類偏好訓(xùn)練RM再RL(即RLHF),Claude則基于AI偏好模型訓(xùn)練RM再RL(即RLAIF)
- Improving alignment of dialogue agents via targeted human judgements DeepMind的Sparrow,這個(gè)工作發(fā)表時(shí)間稍晚于instructGPT,其大致的技術(shù)思路和框架與 instructGPT 的三階段基本類似,但Sparrow 中把獎(jiǎng)勵(lì)模型分為兩個(gè)不同 RM 的思路
- GPT-4 Technical Report
增加了多模態(tài)能力的GPT4的技術(shù)報(bào)告
第二部分 LLM的關(guān)鍵技術(shù):ICL/CoT/RLHF/詞嵌入/位置編碼/加速/與KG結(jié)合等(38篇,總49篇)-
Attention Is All You Need
Transformer原始論文 -
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
-
Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
這篇文章則將ICL看作是一種隱式的Fine-tuning -
A Survey on In-context Learning
-
Noisy Channel Language Model Prompting for Few-Shot Text Classification
-
MetaICL: Learning to Learn In Context
-
https://github.com/dqxiu/ICL_PaperList in-context learning
研究梳理In-Context Learning到底有沒有Learning? -
Meta-learning via Language Model In-context Tuning
-
Evaluating Large Language Models Trained on Code
Codex原始論文 -
Chain-of-Thought Prompting Elicits Reasoning in Large Language
CoT原始論文,也從側(cè)面印證,instructGPT從22年1月份之前 就開始迭代了 -
Large Language Models are Zero-Shot Reasoners
來自東京大學(xué)和谷歌的工作,關(guān)于預(yù)訓(xùn)練大型語言模型的推理能力的探究,“Let's think step by step”的梗即來源于此篇論文 -
Emergent Abilities of Large Language Models
Google 22年8月份發(fā)的,探討大語言模型的涌現(xiàn)能力 -
Multimodal Chain-of-Thought Reasoning in Language Models
23年2月,亞馬遜的研究者則在這篇論文里提出了基于多模態(tài)思維鏈技術(shù)改進(jìn)語言模型復(fù)雜推理能力的思想 -
TRPO論文
-
Proximal Policy Optimization Algorithms
2017年,OpenAI發(fā)布的PPO原始論文 -
RLHF原始論文
-
Scaling Instruction-Finetuned Language Models
微調(diào)PaLM-540B(2022年10月)
從三個(gè)方面改變指令微調(diào),一是改變模型參數(shù),提升到了540B,二是增加到了1836個(gè)微調(diào)任務(wù),三是加上Chain of thought微調(diào)的數(shù)據(jù) -
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
-
Fine-Tuning Language Models from Human Preferences
-
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
LoRA論文 -
Prefix-Tuning: Optimizing Continuous Prompts for Generation
新增Prefix Tuning論文 -
P-Tuning微調(diào)論文
-
Distributed Representations of Sentences and Documents
Mikolov首次提出 Word2vec
Efficient estimation of word representations in vector space
Mikolov專門講訓(xùn)練 Word2vec 中的兩個(gè)trick:hierarchical softmax 和 negative sampling -
word2vec Explained- Deriving Mikolov et al.’s Negative-Sampling
Word-Embedding Method
Yoav Goldberg關(guān)于word2vec的論文,對(duì) negative-sampling 的公式推導(dǎo)非常完備
word2vec Parameter Learning Explained
Xin Rong關(guān)于word2vec的論文,非常不錯(cuò) -
ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
旋轉(zhuǎn)位置嵌入(RoPE)論文 -
Linearized Relative Positional Encoding
統(tǒng)一了適用于linear transformer的相對(duì)位置編碼 -
SEARCHING FOR ACTIVATION FUNCTIONS
SwiGLU的原始論文 -
《The Natural Language Decathlon:Multitask Learning as Question Answering》
GPT-1、GPT-2論文的引用文獻(xiàn),Salesforce發(fā)表的一篇文章,寫出了多任務(wù)單模型的根本思想 -
Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022
-
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
ZeRO是微軟deepspeed的核心 -
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
Megatron-LM 論文原始論文 -
Efficient sequence modeling綜述
包含sparse transformer、linear transformer(cosformer,transnormer)RNN(RWKV、S4),Long Conv(TNN、H3) -
Vicuna tackle the memory pressure by utilizing gradient checkpointing and flash attention
Training Deep Nets with Sublinear Memory Cost -
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
-
Unifying Large Language Models and Knowledge Graphs: A Roadmap
LLM與知識(shí)圖譜的結(jié)合實(shí)戰(zhàn) -
Fast Transformer Decoding: One Write-Head is All You Need
Muti Query Attention論文,MQA 是 19 年提出的一種新的 Attention 機(jī)制,其能夠在保證模型效果的同時(shí)加快 decoder 生成 token 的速度 -
GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints
Grouped-Query Attention論文 -
Flashattention: Fast and memory-efficient exact attention with io-awareness
Flash Attention論文
第三部分 Meta等公司發(fā)布的類ChatGPT開源模型和各種微調(diào)(7篇,總56篇)
-
LLaMA: Open and Efficient Foundation Language Models
2023年2月24日Meta發(fā)布了全新的65B參數(shù)大語言模型LLaMA,開源,大部分任務(wù)的效果好于2020年的GPT-3 -
SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
23年3月中旬,斯坦福發(fā)布Alpaca:只花100美元,人人都可微調(diào)Meta家70億參數(shù)的LLaMA大模型,而斯坦福團(tuán)隊(duì)微調(diào)LLaMA的方法,便是來自華盛頓大學(xué)Yizhong Wang等去年底提出的這個(gè)Self-Instruct -
Alpaca: A Strong Open-Source Instruction-Following Model
-
Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022
-
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
-
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
2022年5月,正式提出了GLM框架 -
GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
GLM-130B便是基于的GLM框架的大語言模型
第四部分 具備多模態(tài)能力的大語言模型(11篇,總67篇)
-
BEiT: BERT Pre-Training of Image Transformers
-
BEiT-2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
-
Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
2022年8月,微軟提出的多模態(tài)預(yù)訓(xùn)練模型BEiT-3 -
Language Is Not All You Need: Aligning Perception with Language Models
微軟23年3月1日發(fā)布的多模態(tài)大語言模型Kosmos-1的論文 -
PaLM-E: An Embodied Multimodal Language Model(論文地址)
Google于23年3月6日發(fā)布的關(guān)于多模態(tài)LLM:PaLM-E,可讓能聽懂人類指令且具備視覺能力的機(jī)器人干活 -
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
微軟于23年3月8日推出visual ChatGPT -
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
-
Flamingo: a visual language model for few-shot learning
-
Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022
-
Language models are unsupervised multitask learners. 2019
-
Improving language understanding by generative pre-training. 2018
第五部分 AI繪畫與多模態(tài)能力背后的核心技術(shù)(21篇,總88篇)
-
End-to-End Object Detection with Transformers
DETR by 2020年5月 -
AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
發(fā)表于2020年10月的Vision Transformer原始論文,代表Transformer正式殺入CV界 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
發(fā)表于21年3月 -
Swin Transformer V2: Scaling Up Capacity and Resolution
-
Auto-Encoding Variational Bayes
-
Denoising Diffusion Probabilistic Models
2020年6月提出DDPM,即眾人口中常說的diffusion model -
Diffusion Models Beat GANs on Image Synthesis
使用classifier guidance的方法,引導(dǎo)模型進(jìn)行采樣和生成 -
High-Resolution Image Synthesis with Latent Diffusion Models
2022年8月發(fā)布的Stable Diffusion基于Latent Diffusion Models,專門用于文圖生成任務(wù) -
Aligning Text-to-Image Models using Human Feedback
ChatGPT的主要成功要?dú)w結(jié)于采用RLHF來精調(diào)LLM,近日谷歌AI團(tuán)隊(duì)將類似的思路用于文生圖大模型:基于人類反饋(Human Feedback)來精調(diào)Stable Diffusion模型來提升生成效果 -
CLIP: Connecting Text and Images - OpenAI
這是針對(duì)CLIP論文的解讀之一 CLIP由OpenAI在2021年1月發(fā)布,超大規(guī)模模型預(yù)訓(xùn)練提取視覺特征,圖片和文本之間的對(duì)比學(xué)習(xí) -
Zero-Shot Text-to-Image Generation
DALL·E原始論文 -
Hierarchical Text-Conditional Image Generation with CLIP Latents
DALL·E 2論文2022年4月發(fā)布(至于第一代發(fā)布于2021年初),通過CLIP + Diffusion models,達(dá)到文本生成圖像新高度 -
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi.
-
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models by Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi.
-
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
23年5月發(fā)布的InstructBLIP論文 -
LAVIS: A Library for Language-Vision Intelligence
Salesforce開源一站式視覺語言學(xué)習(xí)框架LAVIS,這是其GitHub地址:https://github.com/salesforce/LAVIS -
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
對(duì)各種多模態(tài)模型的評(píng)測(cè) -
Segment Anything
23年4.6日,Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型SAM,將NLP領(lǐng)域的prompt范式引進(jìn)CV,讓模型可以通過prompt一鍵摳圖。網(wǎng)友直呼:CV不存在了! -
A Comprehensive Survey on Segment Anything Model for Vision and Beyond
對(duì)分割一切模型SAM的首篇全面綜述:28頁、200+篇參考文獻(xiàn) -
Fast Segment Anything
中科院版的分割一切 -
MobileSAM
比SAM小60倍,比FastSAM快4倍,速度和效果雙贏
第六部分 預(yù)訓(xùn)練模型的發(fā)展演變史(3篇,總91篇)
-
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
預(yù)訓(xùn)練基礎(chǔ)模型的演變史 -
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
-
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
第七部分 垂域版類ChatGPT(比如醫(yī)療GPT)和其它(10篇,總100篇)
-
Large Language Models Encode Clinical Knowledge
-
Towards Expert-Level Medical Question Answering with Large Language Models
繼上篇論文提出medpalm之后,5月16日,Google Research和DeepMind發(fā)布了Med-PaLM 2,相比第一代最顯著的改進(jìn)是基座模型換成了Google的最新大模型PaLM2(據(jù)說有著340b參數(shù),用于訓(xùn)練的token數(shù)達(dá)3.6萬億)
-
ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
醫(yī)療ChatDoctor論文 -
BloombergGPT: A Large Language Model for Finance
金融BloombergGPT論文 -
Deep Residual Learning for Image Recognition
ResNet論文,短短9頁,Google學(xué)術(shù)被引現(xiàn)15萬多 -
WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS
-
Transformer-XL: Attentive language models beyond a fixed-length context
-
An empirical analysis of compute-optimal large language model training
-
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
-
COLT5: Faster Long-Range Transformers with Conditional Computation
?
新課開班
帶你 提升研究能力,突破職業(yè)瓶頸

↓↓↓掃碼搶購↓↓↓
點(diǎn)擊“ 閱讀原文 ”了解 課程詳情 ~

