從零訓練1B以下小模型,梳理匯總
共 3709字,需瀏覽 8分鐘
·
2024-07-10 21:23
以下文章來源于微信公眾號:Angry Bugs
作者:Angry Bugs
鏈接:https://zhuanlan.zhihu.com/p/693252663
本文僅用于學術分享,如有侵權,請聯(lián)系后臺作刪文處理
-
https://www.kaggle.com/code/pritishmishra/gpt-training-on-wikipedia-dataset-from-scratch -
https://zhuanlan.zhihu.com/p/79714797 -
https://zhuanlan.zhihu.com/p/606339093 -
https://finisky.github.io/2020/05/01/pretrainchinesegpt/ -
https://zhuanlan.zhihu.com/p/656758138 -
https://github.com/minimalist-nlp/gpt2-text-generation
OpenELM
-
https://github.com/charent/ChatLM-mini-Chinese 從零開始訓練的一個 0.2B 中文模型,用的 T5,可能比較早了。 -
https://github.com/jiahe7ay/MINI_LLM 從零開始訓練的一個 1.4B 中文模型,基于 Qwen。可以參考作者的知乎文章:https://zhuanlan.zhihu.com/p/684946331 -
https://github.com/DLLXW/baby-llama2-chinese 基于 llama2 的中文模型,作者目標是 0.5B,但是貌似受硬件限制,只訓練到了 0.2B 的模型。 -
https://github.com/OpenBMB/MiniCPM 2.7B 的參數(shù),號稱能跟 Mistral-7B 不相上下,感覺有點吹得過了…… -
https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM 一個 2B 的模型,貌似還沒訓練完。 -
https://github.com/keeeeenw/MicroLlama 又一個 0.3B 版 llama,相當于 TinyLlama 的再縮小版 -
https://github.com/zhanshijinwat/Steel-LLM 網(wǎng)友的又一個預訓練計劃,貌似還沒開始
-
一本書《Build a LLM from scrath》,還沒寫完,但是 GitHub 上已經有 13k star 了,可能是不錯吧。 -
這個 Awesome Chinese LLM 羅列了一些數(shù)據(jù)集,也值得參考。 -
還有一篇叫做 MobileLLM 的 paper,介紹了一些訓練小模型的 trick。 -
Llama from scratch,這篇文章介紹了 Llama 中一些關鍵的組件的影響。 -
Rethinking Optimization and Architecture for Tiny Language Models,解讀:https://zhuanlan.zhihu.com/p/681614203 -
MNBVC:Massive Never-ending BT Vast Chinese corpus 超大規(guī)模中文語料集 -
RedPajama,Llama 的 dataset 重現(xiàn)
評論
圖片
表情
