XVERSE-13B支持多語言的大語言模型
XVERSE-13B 是由深圳元象科技自主研發(fā)的支持多語言的大語言模型(Large Language Model),主要特點(diǎn)如下:
- 模型結(jié)構(gòu):XVERSE-13B 使用主流 Decoder-only 的標(biāo)準(zhǔn) Transformer 網(wǎng)絡(luò)結(jié)構(gòu),支持 8K 的上下文長度(Context Length),為同尺寸模型中最長,能滿足更長的多輪對話、知識問答與摘要等需求,模型應(yīng)用場景更廣泛。
- 訓(xùn)練數(shù)據(jù):構(gòu)建了 1.4 萬億 token 的高質(zhì)量、多樣化的數(shù)據(jù)對模型進(jìn)行充分訓(xùn)練,包含中、英、俄、西等 40 多種語言,通過精細(xì)化設(shè)置不同類型數(shù)據(jù)的采樣比例,使得中英兩種語言表現(xiàn)優(yōu)異,也能兼顧其他語言效果。
- 分詞:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 語料訓(xùn)練了一個詞表大小為 100,278 的分詞器,能夠同時支持多語言,而無需額外擴(kuò)展詞表。
- 訓(xùn)練框架:自主研發(fā)多項(xiàng)關(guān)鍵技術(shù),包括高效算子、顯存優(yōu)化、并行調(diào)度策略、數(shù)據(jù)-計(jì)算-通信重疊、平臺和框架協(xié)同等,讓訓(xùn)練效率更高,模型穩(wěn)定性強(qiáng),在千卡集群上的峰值算力利用率可達(dá)到 58.5%,位居業(yè)界前列。
評測結(jié)果
為驗(yàn)證模型的各項(xiàng)能力,選取了多個學(xué)科綜合能力評測集,包括 MMLU(英文)、 C-Eval(中文)、AGIEval(中英) 、GAOKAO-Bench(中英)、GAOKAO-English(英文),評測結(jié)果如下:
| 模型\數(shù)據(jù)集 | MMLU | C-Eval | AGIEval1 | GAOKAO-Bench1 | GAOKAO-English1 |
|---|---|---|---|---|---|
| Baichuan-13B | 51.62 | 53.63 | 40.5 | 45.9 | 56.9 |
| Llama-1-13B | 46.94 | 28.8 | 27.3 | 26.4 | 38.1 |
| Llama-2-13B | 54.84 | 35.6 | 33.4 | 35.4 | 60.6 |
| moss-moon-003-base (16B) | 24.7 | 33.13 | 26.8 | 28.5 | 34.7 |
| OpenLLaMA-13B | 42.4 | 24.7 | 24.0 | 25.6 | 33.3 |
| OPT-13B | 25.2 | 25.0 | 24.2 | 24.4 | 31.1 |
| Pythia-12B | 25.1 | 26.2 | 25.3 | 25.3 | 26.8 |
| Ziya-LLaMA-13B-Pretrain-v1 | 43.9 | 30.2 | 27.2 | 26.4 | 37.6 |
| XVERSE-13B | 55.1 | 54.7 | 41.4 | 53.9 | 66.5 |
1:只針對其中的單項(xiàng)選擇題進(jìn)行測試,即排除了填空題、開放性問題和多項(xiàng)選擇題
2:來源于 Baichuan-13B 的匯報(bào)結(jié)果
3:來源于 C-Eval 的匯報(bào)結(jié)果
4:來源于Llama 2 論文的匯報(bào)結(jié)果對于 MMLU ,采用作者提供的評測工具,C-Eval、AGIEval、GAOKAO-Bench、GAOKAO-English 與 MMLU 的評測方式相同,且統(tǒng)一采用 5-shot 構(gòu)造測試樣本。
MMLU 各類別指標(biāo)
| 模型\類別 | Average | STEM | Social Science | Humanities | Others |
|---|---|---|---|---|---|
| Baichuan-13B | 51.6 | 41.6 | 60.9 | 47.4 | 58.5 |
| Llama-1-13B | 46.9 | 35.8 | 53.8 | 45.0 | 53.3 |
| Llama-2-13B | 54.8 | 44.1 | 62.6 | 52.8 | 61.1 |
| moss-moon-003-base (16B) | 24.7 | 23.0 | 24.0 | 25.2 | 26.3 |
| OpenLLaMA-13B | 42.4 | 34.7 | 48.6 | 40.0 | 47.1 |
| OPT-13B | 25.2 | 23.9 | 24.1 | 25.9 | 26.3 |
| Pythia-12B | 25.1 | 24.8 | 23.0 | 26.1 | 26.0 |
| Ziya-LLaMA-13B-Pretrain-v1 | 43.9 | 36.3 | 48.8 | 41.1 | 50.3 |
| XVERSE-13B | 55.1 | 44.5 | 64.4 | 50.5 | 62.9 |
C-Eval 各類別指標(biāo)
| 模型\類別 | Average | STEM | Social Science | Humanities | Others |
|---|---|---|---|---|---|
| Baichuan-13B | 53.6 | 47.0 | 66.8 | 57.3 | 49.8 |
| Llama-1-13B | 28.8 | 27.5 | 33.9 | 27.7 | 27.7 |
| Llama-2-13B | 35.6 | 34.5 | 39.8 | 36.2 | 33.2 |
| moss-moon-003-base (16B) | 33.1 | 31.6 | 37.0 | 33.4 | 32.1 |
| OpenLLaMA-13B | 24.7 | 25.5 | 23.5 | 24.2 | 24.7 |
| OPT-13B | 25.0 | 24.4 | 24.6 | 25.9 | 25.4 |
| Pythia-12B | 26.2 | 26.8 | 25.1 | 26.7 | 25.4 |
| Ziya-LLaMA-13B-Pretrain-v1 | 30.2 | 27.8 | 34.3 | 32.0 | 29.0 |
| XVERSE-13B | 54.7 | 45.6 | 66.2 | 58.3 | 56.9 |
評論
圖片
表情
