<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LLM與多模態(tài)必讀論文100篇

          共 12238字,需瀏覽 25分鐘

           ·

          2023-08-27 17:15

          為了寫本ChatGPT筆記,過去兩個(gè)月翻了大量中英文資料/paper(中間一度花了大量時(shí)間去深入RL),大部分時(shí)間讀的更多是中文資料。

          2月最后幾天讀的更多是英文paper,正是2月底這最后幾天對(duì)ChatGPT背后技術(shù)原理的研究才真正進(jìn)入狀態(tài)(后還組建了一個(gè)“ChatGPT之100篇論文閱讀組”,我和10來位博士、業(yè)界大佬從23年2.27日起讀完ChatGPT相關(guān)技術(shù)的100篇論文,如果你想加入100篇論文閱讀組,可以下方掃碼加入

          0c89fd9ecfa95aa2514610a269808679.webp

          ↓↓↓掃碼搶購↓↓↓

          讀的論文越多,你會(huì)發(fā)現(xiàn)大 部分人對(duì)ChatGPT的技術(shù)解讀都是不夠準(zhǔn)確或全面的,畢竟很多人沒有那個(gè)工作需要或研究需要,去深入了解各種細(xì)節(jié)。

          因?yàn)榘肽陜?nèi)100篇這個(gè)任務(wù),讓自己有史以來一篇一篇一行一行讀100篇,之前看的比較散 不系統(tǒng) 摳的也不細(xì), 比如回顧“Attention is all you need”這篇后,對(duì)優(yōu)化博客內(nèi)的Transformer筆記便有了很多心得。 總之,讀的論文越多,博客內(nèi)相關(guān)筆記的質(zhì)量將飛速提升 自己的技術(shù)研究能力也能有巨大飛躍。 考慮 到為避免 上篇 文章篇 幅太長而影響完讀率,故把這100篇(后增至150篇)論文的清單抽取出來獨(dú)立成 本文: 第一部分 OpenAI/Google的基礎(chǔ)語言大模型(11篇,總11篇)
          1. Improving Language Understanding by Generative Pre-Training

            GPT原始論文

          2. Language Models are Unsupervised Multitask Learners

            GPT2原始論文

          3. Language Models are Few-Shot Learners GPT3原始論文
          4. Training language models to follow instructions with human feedback InstructGPT原始論文
          5.  Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 19年10月,Google發(fā)布T5模型(transfer text to text transformer),雖也基于transformer,但區(qū)別于BERT的編碼器架構(gòu)與GPT的解碼器架構(gòu),T5是transformer的encoder-decoder架構(gòu),這是解讀之一 的 用的750G的訓(xùn)練數(shù)據(jù),其訓(xùn)練方法則為:BERT-style的MASK法/replace span(小段替換)/Drop法,以及類似BERT對(duì)文本的15%做破壞、且replace span時(shí)對(duì)3的小段破壞
          6. LaMDA: Language Models for Dialog Applications 論文發(fā)布于22年1月,顯示LaMDA的參數(shù)高達(dá)137B,用的transformer decoder架構(gòu),這是簡要解讀之一 21年5月,Google對(duì)外宣布內(nèi)部正在研發(fā)對(duì)話模型LaMDA,基于transformer decoder架構(gòu),在微調(diào)階段 使用58K的對(duì)話數(shù)據(jù),過程類似真人的對(duì)話過程,給定一個(gè)Query,比如 How old is Rafael Nadal? ,如果人知道答案,那么直接回答35歲即可,如果不知道,則需要去 Research 一下,借助搜索引擎找到答案,然后再回答35歲
          7. 《Finetuned Language Models Are Zero-Shot Learners》 21年9月,Google提出FLAN大模型,其基于LaMDA-PT做Instruction Fine-Tuning FLAN is the instruction-tuned version of LaMDA-PT
          8. PaLM: Scaling Language Modeling with Pathways 22年3月,Google的Barham等人發(fā)布了Pathways系統(tǒng),用于更高效地訓(xùn)練大型模型 Pathways 的愿景 —— 一個(gè)很接近人腦的框架:一個(gè)模型,可以做多任務(wù),多模態(tài) 且在做任務(wù)時(shí),只是 sparsely activated,只使用一部分的參數(shù) 22年4月,Google發(fā)布PaLM模型,基于Transformer decoder架構(gòu),參數(shù)規(guī)模最大的版本達(dá)到驚人的5400億參數(shù)(8B 62B 540B),使用multi-query注意力、SwiGLU激活函數(shù)以及RoPE位置嵌入,這是翻譯之一 且在每個(gè)Transformer塊中使用 "平行 "表述(Wang & Komatsuzaki,2021) 是Google的Pathways架構(gòu)或OpenAI GPT2/3提出的小樣本學(xué)習(xí)的進(jìn)一步擴(kuò)展 PaLM首次展示了Pathways的大規(guī)模使用——能夠以高效的方式在數(shù)千或數(shù)萬個(gè)加速器芯片上訓(xùn)練一個(gè)模型 具體來說,通過Pathways,PaLM 540B在兩個(gè)通過數(shù)據(jù)中心網(wǎng)絡(luò)連接的TPU v4 Pod上訓(xùn)練,使用模型和數(shù)據(jù)并行的組合,在每個(gè)Pod中使用3072個(gè)TPU v4芯片,連接到768臺(tái)主機(jī),能夠有效地將訓(xùn)練擴(kuò)展到6144個(gè)芯片,而不需要使用任何pipeline并行,其效率水平是以前這種規(guī)模的模型所不能達(dá)到的 以前的大多數(shù)大型語言模型   要么是在單個(gè)TPU系統(tǒng)上訓(xùn)練的(比如GLaM by Du等人2021年,LaMDA by Thopilan等人)   要么是使用由Huang等人在2019年提出的pipeline并行,從而在GPU集群(Megatron-Turing NLG 530B by Smith等人2022年),或多個(gè)TPU v3 pod(Gopher by Rae等人2021年)上擴(kuò)展,最大規(guī)模為4096個(gè)TPU v3芯片 另,在自然語言、代碼和數(shù)學(xué)推理等任務(wù)中表現(xiàn)的都很不錯(cuò) 此外,預(yù)訓(xùn)練數(shù)據(jù)集由一個(gè)7800億個(gè)token組成的語料庫,該數(shù)據(jù)集是由過濾過的網(wǎng)頁(占比27%)、書籍(占比13%)、Wikipedia(占比4%)、新聞文章(占比1%)、Github源代碼(占比5%,包括Java、HTML、Javascript、Python、PHP、C#、XML、C++和C,總計(jì)196GB的源代碼),和社交媒體對(duì)話(占比50%)組成的,這個(gè)數(shù)據(jù)集是也用于訓(xùn)練LaMDA和GLaM
          9.  Constitutional AI: Harmlessness from AI Feedback OpenAI之前一副總裁離職搞了個(gè)ChatGPT的競品,ChatGPT用人類偏好訓(xùn)練RM再RL(即RLHF),Claude則基于AI偏好模型訓(xùn)練RM再RL(即RLAIF) 
          10. Improving alignment of dialogue agents via targeted human judgements DeepMind的Sparrow,這個(gè)工作發(fā)表時(shí)間稍晚于instructGPT,其大致的技術(shù)思路和框架與 instructGPT 的三階段基本類似,但Sparrow 中把獎(jiǎng)勵(lì)模型分為兩個(gè)不同 RM 的思路
          11. GPT-4 Technical Report

          增加了多模態(tài)能力的GPT4的技術(shù)報(bào)告

          第二部分 LLM的關(guān)鍵技術(shù):ICL/CoT/RLHF/詞嵌入/位置編碼/加速/與KG結(jié)合等(38篇,總49篇)
          1. Attention Is All You Need
            Transformer原始論文  

          2. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

          3. Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
            這篇文章則將ICL看作是一種隱式的Fine-tuning

          4. A Survey on In-context Learning

          5. Noisy Channel Language Model Prompting for Few-Shot Text Classification

          6. MetaICL: Learning to Learn In Context

          7. https://github.com/dqxiu/ICL_PaperList in-context learning
            研究梳理In-Context Learning到底有沒有Learning?

          8. Meta-learning via Language Model In-context Tuning

          9. Evaluating Large Language Models Trained on Code
            Codex原始論文

          10. Chain-of-Thought Prompting Elicits Reasoning in Large Language
            CoT原始論文,也從側(cè)面印證,instructGPT從22年1月份之前 就開始迭代了

          11. Large Language Models are Zero-Shot Reasoners
            來自東京大學(xué)和谷歌的工作,關(guān)于預(yù)訓(xùn)練大型語言模型的推理能力的探究,“Let's think step by step”的梗即來源于此篇論文

          12. Emergent Abilities of Large Language Models
            Google 22年8月份發(fā)的,探討大語言模型的涌現(xiàn)能力

          13. Multimodal Chain-of-Thought Reasoning in Language Models
            23年2月,亞馬遜的研究者則在這篇論文里提出了基于多模態(tài)思維鏈技術(shù)改進(jìn)語言模型復(fù)雜推理能力的思想

          14. TRPO論文

          15. Proximal Policy Optimization Algorithms
            2017年,OpenAI發(fā)布的PPO原始論文

          16. RLHF原始論文

          17. Scaling Instruction-Finetuned Language Models
            微調(diào)PaLM-540B(2022年10月)
            從三個(gè)方面改變指令微調(diào),一是改變模型參數(shù),提升到了540B,二是增加到了1836個(gè)微調(diào)任務(wù),三是加上Chain of thought微調(diào)的數(shù)據(jù)

          18. The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

          19. Fine-Tuning Language Models from Human Preferences

          20. LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
            LoRA論文

          21. Prefix-Tuning: Optimizing Continuous Prompts for Generation
            新增Prefix Tuning論文

          22. P-Tuning微調(diào)論文

          23. Distributed Representations of Sentences and Documents
            Mikolov首次提出 Word2vec

            Efficient estimation of word representations in vector space
            Mikolov專門講訓(xùn)練 Word2vec 中的兩個(gè)trick:hierarchical softmax 和 negative sampling

          24. word2vec Explained- Deriving Mikolov et al.’s Negative-Sampling
            Word-Embedding Method
            Yoav Goldberg關(guān)于word2vec的論文,對(duì) negative-sampling 的公式推導(dǎo)非常完備

            word2vec Parameter Learning Explained
            Xin Rong關(guān)于word2vec的論文,非常不錯(cuò)

          25. ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
            旋轉(zhuǎn)位置嵌入(RoPE)論文

          26. Linearized Relative Positional Encoding
            統(tǒng)一了適用于linear transformer的相對(duì)位置編碼

          27. SEARCHING FOR ACTIVATION FUNCTIONS
            SwiGLU的原始論文

          28. 《The Natural Language Decathlon:Multitask Learning as Question Answering》
            GPT-1、GPT-2論文的引用文獻(xiàn),Salesforce發(fā)表的一篇文章,寫出了多任務(wù)單模型的根本思想

          29. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022

          30. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
            ZeRO是微軟deepspeed的核心

          31. Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
            Megatron-LM 論文原始論文

          32. Efficient sequence modeling綜述
            包含sparse transformer、linear transformer(cosformer,transnormer)RNN(RWKV、S4),Long Conv(TNN、H3)

          33. Vicuna tackle the memory pressure by utilizing gradient checkpointing and flash attention
            Training Deep Nets with Sublinear Memory Cost

          34. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

          35. Unifying Large Language Models and Knowledge Graphs: A Roadmap
            LLM與知識(shí)圖譜的結(jié)合實(shí)戰(zhàn)

          36. Fast Transformer Decoding: One Write-Head is All You Need
            Muti Query Attention論文,MQA 是 19 年提出的一種新的 Attention 機(jī)制,其能夠在保證模型效果的同時(shí)加快 decoder 生成 token 的速度

          37. GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints
            Grouped-Query Attention論文

          38. Flashattention: Fast and memory-efficient exact attention with io-awareness
            Flash Attention論文

          第三部分 Meta等公司發(fā)布的類ChatGPT開源模型和各種微調(diào)(7篇,總56篇)

          1. LLaMA: Open and Efficient Foundation Language Models
            2023年2月24日Meta發(fā)布了全新的65B參數(shù)大語言模型LLaMA,開源,大部分任務(wù)的效果好于2020年的GPT-3

          2. SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
            23年3月中旬,斯坦福發(fā)布Alpaca:只花100美元,人人都可微調(diào)Meta家70億參數(shù)的LLaMA大模型,而斯坦福團(tuán)隊(duì)微調(diào)LLaMA的方法,便是來自華盛頓大學(xué)Yizhong Wang等去年底提出的這個(gè)Self-Instruct

          3. Alpaca: A Strong Open-Source Instruction-Following Model

          4. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022

          5. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

          6. GLM: General Language Model Pretraining with Autoregressive Blank Infilling
            2022年5月,正式提出了GLM框架

          7. GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
            GLM-130B便是基于的GLM框架的大語言模型

          第四部分 具備多模態(tài)能力的大語言模型(11篇,總67篇)

          1. BEiT: BERT Pre-Training of Image Transformers

          2. BEiT-2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

          3. Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
            2022年8月,微軟提出的多模態(tài)預(yù)訓(xùn)練模型BEiT-3

          4. Language Is Not All You Need: Aligning Perception with Language Models
            微軟23年3月1日發(fā)布的多模態(tài)大語言模型Kosmos-1的論文

          5. PaLM-E: An Embodied Multimodal Language Model(論文地址)
            Google于23年3月6日發(fā)布的關(guān)于多模態(tài)LLM:PaLM-E,可讓能聽懂人類指令且具備視覺能力的機(jī)器人干活

          6. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
            微軟于23年3月8日推出visual ChatGPT

          7. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

          8. Flamingo: a visual language model for few-shot learning

          9. Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022

          10. Language models are unsupervised multitask learners. 2019

          11. Improving language understanding by generative pre-training. 2018

           

          第五部分 AI繪畫與多模態(tài)能力背后的核心技術(shù)(21篇,總88篇)

          1. End-to-End Object Detection with Transformers
            DETR by 2020年5月

          2. AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
            發(fā)表于2020年10月的Vision Transformer原始論文,代表Transformer正式殺入CV界

          3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
            發(fā)表于21年3月

          4. Swin Transformer V2: Scaling Up Capacity and Resolution

          5. Auto-Encoding Variational Bayes

          6. Denoising Diffusion Probabilistic Models
            2020年6月提出DDPM,即眾人口中常說的diffusion model

          7. Diffusion Models Beat GANs on Image Synthesis
            使用classifier guidance的方法,引導(dǎo)模型進(jìn)行采樣和生成

          8. High-Resolution Image Synthesis with Latent Diffusion Models
            2022年8月發(fā)布的Stable Diffusion基于Latent Diffusion Models,專門用于文圖生成任務(wù)

          9. Aligning Text-to-Image Models using Human Feedback
            ChatGPT的主要成功要?dú)w結(jié)于采用RLHF來精調(diào)LLM,近日谷歌AI團(tuán)隊(duì)將類似的思路用于文生圖大模型:基于人類反饋(Human Feedback)來精調(diào)Stable Diffusion模型來提升生成效果

          10. CLIP: Connecting Text and Images - OpenAI
            這是針對(duì)CLIP論文的解讀之一  CLIP由OpenAI在2021年1月發(fā)布,超大規(guī)模模型預(yù)訓(xùn)練提取視覺特征,圖片和文本之間的對(duì)比學(xué)習(xí)

          11. Zero-Shot Text-to-Image Generation
            DALL·E原始論文

          12. Hierarchical Text-Conditional Image Generation with CLIP Latents
            DALL·E 2論文2022年4月發(fā)布(至于第一代發(fā)布于2021年初),通過CLIP + Diffusion models,達(dá)到文本生成圖像新高度

          13. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi.

          14. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models by Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi.  

          15. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
            23年5月發(fā)布的InstructBLIP論文

          16. LAVIS: A Library for Language-Vision Intelligence
            Salesforce開源一站式視覺語言學(xué)習(xí)框架LAVIS,這是其GitHub地址:https://github.com/salesforce/LAVIS

          17. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
            對(duì)各種多模態(tài)模型的評(píng)測(cè)

          18. Segment Anything
            23年4.6日,Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型SAM,將NLP領(lǐng)域的prompt范式引進(jìn)CV,讓模型可以通過prompt一鍵摳圖。網(wǎng)友直呼:CV不存在了!  

          19. A Comprehensive Survey on Segment Anything Model for Vision and Beyond
            對(duì)分割一切模型SAM的首篇全面綜述:28頁、200+篇參考文獻(xiàn)

          20. Fast Segment Anything
            中科院版的分割一切

          21. MobileSAM
            比SAM小60倍,比FastSAM快4倍,速度和效果雙贏

          第六部分 預(yù)訓(xùn)練模型的發(fā)展演變史(3篇,總91篇)

          1. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
            預(yù)訓(xùn)練基礎(chǔ)模型的演變史

          2. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

          3. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

           

          第七部分 垂域版類ChatGPT(比如醫(yī)療GPT)和其它(10篇,總100篇)

          1. Large Language Models Encode Clinical Knowledge

          2. Towards Expert-Level Medical Question Answering with Large Language Models
            繼上篇論文提出medpalm之后,5月16日,Google Research和DeepMind發(fā)布了Med-PaLM 2,相比第一代最顯著的改進(jìn)是基座模型換成了Google的最新大模型PaLM2(據(jù)說有著340b參數(shù),用于訓(xùn)練的token數(shù)達(dá)3.6萬億)

            6f82df2d24e3b9cc7210823000bc4e02.webp


          3. ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
            醫(yī)療ChatDoctor論文

          4. BloombergGPT: A Large Language Model for Finance
            金融BloombergGPT論文

          5. Deep Residual Learning for Image Recognition
            ResNet論文,短短9頁,Google學(xué)術(shù)被引現(xiàn)15萬多

          6. WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS

          7. Transformer-XL: Attentive language models beyond a fixed-length context

          8. An empirical analysis of compute-optimal large language model training

          9. Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

          10. COLT5: Faster Long-Range Transformers with Conditional Computation

          ?

          新課開班

          七月在線【LLM與多模態(tài)必讀論文100篇帶讀】,9月7日(周四)晚8點(diǎn)半開班

          帶你 提升研究能力,突破職業(yè)瓶頸

          425488483b016e03ff29a99370d39c7d.webp

          e0566047bb79f382a39f60aee8c935a7.webp

          ↓↓↓掃碼搶購↓↓↓

          點(diǎn)擊 閱讀原文 ”了解 課程詳情 ~

          d04287ece13db8865f34d1b9a59f8914.webp

          瀏覽 78
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄片毛片电影 | 天堂无码视频在线播放 | 波多野结衣av一区 | 黄页无码视频 | 操逼黄色视频 |