Baichuan-13B大規(guī)模語言模型
Baichuan-13B 是由百川智能繼 Baichuan-7B 之后開發(fā)的包含 130 億參數(shù)的開源可商用的大規(guī)模語言模型,在權(quán)威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次發(fā)布包含有預(yù)訓(xùn)練 (Baichuan-13B-Base) 和對(duì)齊 (Baichuan-13B-Chat) 兩個(gè)版本。Baichuan-13B 有如下幾個(gè)特點(diǎn):
- 更大尺寸、更多數(shù)據(jù):Baichuan-13B 在 Baichuan-7B 的基礎(chǔ)上進(jìn)一步擴(kuò)大參數(shù)量到 130 億,并且在高質(zhì)量的語料上訓(xùn)練了 1.4 萬億 tokens,超過 LLaMA-13B 40%,是當(dāng)前開源 13B 尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。支持中英雙語,使用 ALiBi 位置編碼,上下文窗口長(zhǎng)度為 4096。
- 同時(shí)開源預(yù)訓(xùn)練和對(duì)齊模型:預(yù)訓(xùn)練模型是適用開發(fā)者的『 基座 』,而廣大普通用戶對(duì)有對(duì)話功能的對(duì)齊模型具有更強(qiáng)的需求。因此本次開源同時(shí)發(fā)布了對(duì)齊模型(Baichuan-13B-Chat),具有很強(qiáng)的對(duì)話能力,開箱即用,幾行代碼即可簡(jiǎn)單的部署。
- 更高效的推理:為了支持更廣大用戶的使用,本次同時(shí)開源了 int8 和 int4 的量化版本,相對(duì)非量化版本在幾乎沒有效果損失的情況下大大降低了部署的機(jī)器資源門檻,可以部署在如 Nvidia 3090 這樣的消費(fèi)級(jí)顯卡上。
- 開源免費(fèi)可商用:Baichuan-13B 不僅對(duì)學(xué)術(shù)研究完全開放,開發(fā)者也僅需郵件申請(qǐng)并獲得官方商用許可后,即可以免費(fèi)商用。
Benchmark結(jié)果
在各個(gè)權(quán)威大語言模型的中英文 benchmark 上進(jìn)行了5-shot評(píng)測(cè)。結(jié)果如下:
C-Eval
| Model 5-shot | STEM | Social Sciences | Humanities | Others | Average |
|---|---|---|---|---|---|
| Baichuan-7B | 38.2 | 52.0 | 46.2 | 39.3 | 42.8 |
| Chinese-Alpaca-Plus-13B | 35.2 | 45.6 | 40.0 | 38.2 | 38.8 |
| Vicuna-13B | 30.5 | 38.2 | 32.5 | 32.5 | 32.8 |
| Chinese-LLaMA-Plus-13B | 30.3 | 38.0 | 32.9 | 29.1 | 32.1 |
| Ziya-LLaMA-13B-Pretrain | 27.6 | 34.4 | 32.0 | 28.6 | 30.0 |
| LLaMA-13B | 27.0 | 33.6 | 27.7 | 27.6 | 28.5 |
| moss-moon-003-base (16B) | 27.0 | 29.1 | 27.2 | 26.9 | 27.4 |
| Baichuan-13B-Base | 45.9 | 63.5 | 57.2 | 49.3 | 52.4 |
| Baichuan-13B-Chat | 43.7 | 64.6 | 56.2 | 49.2 | 51.5 |
MMLU
| Model 5-shot | STEM | Social Sciences | Humanities | Others | Average |
|---|---|---|---|---|---|
| Vicuna-13B | 40.4 | 60.5 | 49.5 | 58.4 | 52.0 |
| LLaMA-13B | 36.1 | 53.0 | 44.0 | 52.8 | 46.3 |
| Chinese-Alpaca-Plus-13B | 36.9 | 48.9 | 40.5 | 50.5 | 43.9 |
| Ziya-LLaMA-13B-Pretrain | 35.6 | 47.6 | 40.1 | 49.4 | 42.9 |
| Baichuan-7B | 35.6 | 48.9 | 38.4 | 48.1 | 42.3 |
| Chinese-LLaMA-Plus-13B | 33.1 | 42.8 | 37.0 | 44.6 | 39.2 |
| moss-moon-003-base (16B) | 22.4 | 22.8 | 24.2 | 24.4 | 23.6 |
| Baichuan-13B-Base | 41.6 | 60.9 | 47.4 | 58.5 | 51.6 |
| Baichuan-13B-Chat | 40.9 | 60.9 | 48.8 | 59.0 | 52.1 |
說明:采用了 MMLU 官方的評(píng)測(cè)方案。
CMMLU
| Model 5-shot | STEM | Humanities | Social Sciences | Others | China Specific | Average |
|---|---|---|---|---|---|---|
| Baichuan-7B | 34.4 | 47.5 | 47.6 | 46.6 | 44.3 | 44.0 |
| Vicuna-13B | 31.8 | 36.2 | 37.6 | 39.5 | 34.3 | 36.3 |
| Chinese-Alpaca-Plus-13B | 29.8 | 33.4 | 33.2 | 37.9 | 32.1 | 33.4 |
| Chinese-LLaMA-Plus-13B | 28.1 | 33.1 | 35.4 | 35.1 | 33.5 | 33.0 |
| Ziya-LLaMA-13B-Pretrain | 29.0 | 30.7 | 33.8 | 34.4 | 31.9 | 32.1 |
| LLaMA-13B | 29.2 | 30.8 | 31.6 | 33.0 | 30.5 | 31.2 |
| moss-moon-003-base (16B) | 27.2 | 30.4 | 28.8 | 32.6 | 28.7 | 29.6 |
| Baichuan-13B-Base | 41.7 | 61.1 | 59.8 | 59.0 | 56.4 | 55.3 |
| Baichuan-13B-Chat | 42.8 | 62.6 | 59.7 | 59.0 | 56.1 | 55.8 |
說明:CMMLU 是一個(gè)綜合性的中文評(píng)估基準(zhǔn),專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。采用了其官方的評(píng)測(cè)方案。
模型細(xì)節(jié)
| 模型名稱 | 隱藏層維度 | 層數(shù) | 注意力頭數(shù) | 詞表大小 | 總參數(shù)量 | 訓(xùn)練數(shù)據(jù)(tokens) | 位置編碼 | 最大長(zhǎng)度 |
|---|---|---|---|---|---|---|---|---|
| Baichuan-7B | 4,096 | 32 | 32 | 64,000 | 7,000,559,616 | 1.2 萬億 | RoPE | 4,096 |
| Baichuan-13B | 5,120 | 40 | 40 | 64,000 | 13,264,901,120 | 1.4 萬億 | ALiBi | 4,096 |
評(píng)論
圖片
表情
