國(guó)內(nèi)外30個(gè)熱門大模型架構(gòu)的信息匯總
共 818字,需瀏覽 2分鐘
·
2024-05-08 08:00
LLM 架構(gòu)配置
注意
1.RoPE指的是RoPE家族的位置編碼,經(jīng)過(guò)了XPos,線性內(nèi)插,NTK-Aware Scaled RoPE和dynamic NTK等若干次進(jìn)化,故上表中提及的RoPE并不一定是完全相同的位置編碼方法。
2.模型類型中若含有MoE,表示該系列的模型中存在使用MoE架構(gòu)的模型,而并非是所有模型使用MoE架構(gòu)。
3.所有的模型架構(gòu)配置信息來(lái)源于 Hugging Face,Model Scope 以及 GitHub 的具體實(shí)現(xiàn),具體鏈接已在表格中提供,于2024年4月收集,若不符合相關(guān)論文中的描述,請(qǐng)讀者諒解。
4.即使某些LLM使用了相同的配置信息,其內(nèi)部架構(gòu)也可能不同。
統(tǒng)計(jì)圖表
模型架構(gòu)
注意力機(jī)制
位置編碼
激活函數(shù)
歸一化
??帥哥美女們,請(qǐng)高抬貴手,你們的點(diǎn)贊、收藏和關(guān)注是我更新的最大動(dòng)力!??
其他資源
AGIDreamFactory 項(xiàng)目:https://github.com/mannaandpoem/AGIDreamFactory
知識(shí)星球:https://articles.zsxq.com/id_0dwcztn0ceri.html
參考
1. Models - Hugging Face
2. 模型庫(kù)首頁(yè) · 魔搭社區(qū) (modelscope.cn)
3. huggingface/transformers: ?? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)
