[LLM推理優(yōu)化] 100+篇: 大模型推理各方向新發(fā)展整理
共 1113字,需瀏覽 3分鐘
·
2024-05-30 20:10
0x01 前言
從事大模型推理的工作有段時間了,業(yè)余有空的時候也會關(guān)注一下LLM近期發(fā)展的方向,以及一些新的paper。說實話,這些論文沒法一一看完,大部分都只是看了摘要和結(jié)論,了解一下相關(guān)的技術(shù)對自己當前所做的業(yè)務(wù)是否有助益。整理和歸納是自己長期以來的習慣,對于LLM推理的發(fā)展也是如此,雖然無法一一深入到所有細節(jié),但至少讓自己保持一下對業(yè)界發(fā)展的敏感度應(yīng)該還是可以的。
0x02 目錄
半年多時間,大概收錄了100多篇LLM推理相關(guān)的論文(paper with codes),既包括了常用的Attention優(yōu)化、權(quán)重量化、KV Cache優(yōu)化等技術(shù),也涵蓋了一些新方向,比如Early Exit、Long Context/Prompt KV Cache優(yōu)化、Parallel Decoding/Sampling等。
0x03 內(nèi)容
整理的內(nèi)容都放在了GitHub:
這里不打算重復(fù)粘貼了,感興趣的歡迎來GitHub閱讀。
0x04 總結(jié)
TIPS: 歡迎大家提交PR增加LLM推理最新動向~
- The End -
長按二維碼關(guān)注我們
本公眾號專注:
1. 技術(shù)分享;
2. 學術(shù)交流;
3. 資料共享。
歡迎關(guān)注我們,一起成長!
評論
圖片
表情
