Baichuan 2百川智能推出的新一代開源大語言模型
Baichuan 2 是百川智能推出的新一代開源大語言模型,采用 2.6 萬億 Tokens 的高質(zhì)量語料訓(xùn)練。在多個權(quán)威的中文、英文和多語言的通用、領(lǐng)域 benchmark 上取得同尺寸最佳的效果。
本次發(fā)布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本對學(xué)術(shù)研究完全開放。同時,開發(fā)者通過郵件申請并獲得官方商用許可后,即可免費(fèi)商用,參考協(xié)議章節(jié)。
可閱讀技術(shù)報(bào)告 Baichuan 2: Open Large-scale Language Models 獲取更多信息。
本次發(fā)布版本和下載鏈接見下表:
| 基座模型 | 對齊模型 | 對齊模型 4bits 量化 | |
|---|---|---|---|
| 7B | Baichuan2-7B-Base | Baichuan2-7B-Chat | Baichuan2-7B-Chat-4bits |
| 13B | Baichuan2-13B-Base | Baichuan2-13B-Chat | Baichuan2-13B-Chat-4bits |
Benchmark 結(jié)果
在通用、法律、醫(yī)療、數(shù)學(xué)、代碼和多語言翻譯六個領(lǐng)域的中英文和多語言權(quán)威數(shù)據(jù)集上對模型進(jìn)行了廣泛測試。
通用領(lǐng)域
在通用領(lǐng)域在以下數(shù)據(jù)集上進(jìn)行了 5-shot 測試。
- C-Eval 是一個全面的中文基礎(chǔ)模型評測數(shù)據(jù)集,涵蓋了 52 個學(xué)科和四個難度的級別。使用該數(shù)據(jù)集的 dev 集作為 few-shot 的來源,在 test 集上進(jìn)行測試。采用了 Baichuan-7B 的評測方案。
- MMLU 是包含 57 個任務(wù)的英文評測數(shù)據(jù)集,涵蓋了初等數(shù)學(xué)、美國歷史、計(jì)算機(jī)科學(xué)、法律等,難度覆蓋高中水平到專家水平,是目前主流的 LLM 評測數(shù)據(jù)集。采用了開源的評測方案。
- CMMLU 是一個包含 67 個主題的綜合性性中文評估基準(zhǔn),專門用于評估語言模型在中文語境下的知識和推理能力。采用了其官方的評測方案。
- Gaokao 是一個以中國高考題作為評測大語言模型能力的數(shù)據(jù)集,用以評估模型的語言能力和邏輯推理能力。 只保留了其中的單項(xiàng)選擇題,并進(jìn)行了隨機(jī)劃分。采用了與 C-Eval 類似的評測方案。
- AGIEval 旨在評估模型的認(rèn)知和解決問題相關(guān)的任務(wù)中的一般能力。 只保留了其中的四選一單項(xiàng)選擇題,并進(jìn)行了隨機(jī)劃分。采用了與 C-Eval 類似的評測方案。
- BBH 是一個挑戰(zhàn)性任務(wù) Big-Bench 的子集。Big-Bench 目前包括 204 項(xiàng)任務(wù)。任務(wù)主題涉及語言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識推理、生物學(xué)、物理學(xué)、社會偏見、軟件開發(fā)等方面。BBH 是從 204 項(xiàng) Big-Bench 評測基準(zhǔn)任務(wù)中大模型表現(xiàn)不好的任務(wù)單獨(dú)拿出來形成的評測基準(zhǔn)。
7B 模型結(jié)果
| C-Eval | MMLU | CMMLU | Gaokao | AGIEval | BBH | |
|---|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 5-shot | 5-shot | 3-shot | |
| GPT-4 | 68.40 | 83.93 | 70.33 | 66.15 | 63.27 | 75.12 |
| GPT-3.5 Turbo | 51.10 | 68.54 | 54.06 | 47.07 | 46.13 | 61.59 |
| LLaMA-7B | 27.10 | 35.10 | 26.75 | 27.81 | 28.17 | 32.38 |
| LLaMA2-7B | 28.90 | 45.73 | 31.38 | 25.97 | 26.53 | 39.16 |
| MPT-7B | 27.15 | 27.93 | 26.00 | 26.54 | 24.83 | 35.20 |
| Falcon-7B | 24.23 | 26.03 | 25.66 | 24.24 | 24.10 | 28.77 |
| ChatGLM2-6B | 50.20 | 45.90 | 49.00 | 49.44 | 45.28 | 31.65 |
| Baichuan-7B | 42.80 | 42.30 | 44.02 | 36.34 | 34.44 | 32.48 |
| Baichuan2-7B-Base | 54.00 | 54.16 | 57.07 | 47.47 | 42.73 | 41.56 |
13B 模型結(jié)果
| C-Eval | MMLU | CMMLU | Gaokao | AGIEval | BBH | |
|---|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 5-shot | 5-shot | 3-shot | |
| GPT-4 | 68.40 | 83.93 | 70.33 | 66.15 | 63.27 | 75.12 |
| GPT-3.5 Turbo | 51.10 | 68.54 | 54.06 | 47.07 | 46.13 | 61.59 |
| LLaMA-13B | 28.50 | 46.30 | 31.15 | 28.23 | 28.22 | 37.89 |
| LLaMA2-13B | 35.80 | 55.09 | 37.99 | 30.83 | 32.29 | 46.98 |
| Vicuna-13B | 32.80 | 52.00 | 36.28 | 30.11 | 31.55 | 43.04 |
| Chinese-Alpaca-Plus-13B | 38.80 | 43.90 | 33.43 | 34.78 | 35.46 | 28.94 |
| XVERSE-13B | 53.70 | 55.21 | 58.44 | 44.69 | 42.54 | 38.06 |
| Baichuan-13B-Base | 52.40 | 51.60 | 55.30 | 49.69 | 43.20 | 43.01 |
| Baichuan2-13B-Base | 58.10 | 59.17 | 61.97 | 54.33 | 48.17 | 48.78 |
法律、醫(yī)療
法律領(lǐng)域使用了 JEC-QA 數(shù)據(jù)集。JEC-QA 數(shù)據(jù)集來源于中國國家司法考試。只保留了其中的單選題。采用了與 C-Eval 類似的評測方案。
醫(yī)療領(lǐng)域則使用通用領(lǐng)域數(shù)據(jù)集(C-Eval、MMLU、CMMLU)中的醫(yī)學(xué)相關(guān)學(xué)科、MedQA 和 MedMCQA。采用了與 C-Eval 類似的評測方案。
- 為了測試方便,使用了 C-Eval 的 val 集進(jìn)行測試。
- MedQA 數(shù)據(jù)集來源于美國、中國的醫(yī)學(xué)考試。測試了 MedQA數(shù)據(jù)集 中的 USMLE 和 MCMLE 兩個子集,并采用了五個候選的版本。
- MedMCQA 數(shù)據(jù)集來源于印度醫(yī)學(xué)院的入學(xué)考試。只保留了其中的單選題。由于 test 集沒有答案,使用 dev 集進(jìn)行測試。
- 通用領(lǐng)域數(shù)據(jù)集包含的醫(yī)學(xué)相關(guān)學(xué)科如下:
- C-Eval: clinical_medicine, basic_medicine
- MMLU: clinical_knowledge, anatomy, college_medicine, college_biology, nutrition, virology, medical_genetics, professional_medicine
- CMMLU: anatomy, clinical_knowledge, college_medicine, genetics, nutrition, traditional_chinese_medicine, virology
對以上數(shù)據(jù)集進(jìn)行了 5-shot 測試。
7B 模型結(jié)果
| JEC-QA | CEval-MMLU-CMMLU | MedQA-USMLE | MedQA-MCMLE | MedMCQA | |
|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 5-shot | 5-shot | |
| GPT-4 | 59.32 | 77.16 | 80.28 | 74.58 | 72.51 |
| GPT-3.5 Turbo | 42.31 | 61.17 | 53.81 | 52.92 | 56.25 |
| LLaMA-7B | 27.45 | 33.34 | 24.12 | 21.72 | 27.45 |
| LLaMA2-7B | 29.20 | 36.75 | 27.49 | 24.78 | 37.93 |
| MPT-7B | 27.45 | 26.67 | 16.97 | 19.79 | 31.96 |
| Falcon-7B | 23.66 | 25.33 | 21.29 | 18.07 | 33.88 |
| ChatGLM2-6B | 40.76 | 44.54 | 26.24 | 45.53 | 30.22 |
| Baichuan-7B | 34.64 | 42.37 | 27.42 | 39.46 | 31.39 |
| Baichuan2-7B-Base | 44.46 | 56.39 | 32.68 | 54.93 | 41.73 |
13B 模型結(jié)果
| JEC-QA | CEval-MMLU-CMMLU | MedQA-USMLE | MedQA-MCMLE | MedMCQA | |
|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 5-shot | 5-shot | |
| GPT-4 | 59.32 | 77.16 | 80.28 | 74.58 | 72.51 |
| GPT-3.5 Turbo | 42.31 | 61.17 | 53.81 | 52.92 | 56.25 |
| LLaMA-13B | 27.54 | 35.14 | 28.83 | 23.38 | 39.52 |
| LLaMA2-13B | 34.08 | 47.42 | 35.04 | 29.74 | 42.12 |
| Vicuna-13B | 28.38 | 40.99 | 34.80 | 27.67 | 40.66 |
| Chinese-Alpaca-Plus-13B | 35.32 | 46.31 | 27.49 | 32.66 | 35.87 |
| XVERSE-13B | 46.42 | 58.08 | 32.99 | 58.76 | 41.34 |
| Baichuan-13B-Base | 41.34 | 51.77 | 29.07 | 43.67 | 39.60 |
| Baichuan2-13B-Base | 47.40 | 59.33 | 40.38 | 61.62 | 42.86 |
數(shù)學(xué)、代碼
數(shù)學(xué)領(lǐng)域使用 OpenCompass 評估框架,對 GSM8K 和 MATH 數(shù)據(jù)集進(jìn)行了 4-shot 測試。
- GSM8K 是由 OpenAI 發(fā)布的一個由 8.5K 高質(zhì)量的語言多樣化的小學(xué)數(shù)學(xué)應(yīng)用題組成的數(shù)據(jù)集,要求根據(jù)給定的場景和兩個可能的解決方案,選擇最合理的方案。
- MATH 數(shù)據(jù)集包含 12,500 個數(shù)學(xué)問題(其中 7500 個屬于訓(xùn)練集,5000 個屬于測試集),這些問題收集自 AMC 10、AMC 12、AIME 等數(shù)學(xué)競賽。
代碼領(lǐng)域則采用了 HumanEval 和 MBPP 數(shù)據(jù)集。使用 OpenCompass,對 HumanEval 進(jìn)行了 0-shot 測試,MBPP 數(shù)據(jù)集進(jìn)行了 3-shot 測試。
- HumanEval 中的編程任務(wù)包括模型語言理解、推理、算法和簡單數(shù)學(xué),以評估模型功能正確性,并衡量模型的問題解決能力。
- MBPP 包括 974 個 Python 短函數(shù)、程序的文字描述以及用于檢查功能正確性的測試用例的數(shù)據(jù)集。
7B 模型結(jié)果
| GSM8K | MATH | HumanEval | MBPP | |
|---|---|---|---|---|
| 4-shot | 4-shot | 0-shot | 3-shot | |
| GPT-4 | 89.99 | 40.20 | 69.51 | 63.60 |
| GPT-3.5 Turbo | 57.77 | 13.96 | 52.44 | 61.40 |
| LLaMA-7B | 9.78 | 3.02 | 11.59 | 14.00 |
| LLaMA2-7B | 16.22 | 3.24 | 12.80 | 14.80 |
| MPT-7B | 8.64 | 2.90 | 14.02 | 23.40 |
| Falcon-7B | 5.46 | 1.68 | - | 10.20 |
| ChatGLM2-6B | 28.89 | 6.40 | 9.15 | 9.00 |
| Baichuan-7B | 9.17 | 2.54 | 9.20 | 6.60 |
| Baichuan2-7B-Base | 24.49 | 5.58 | 18.29 | 24.20 |
13B 模型結(jié)果
| GSM8K | MATH | HumanEval | MBPP | |
|---|---|---|---|---|
| 4-shot | 4-shot | 0-shot | 3-shot | |
| GPT-4 | 89.99 | 40.20 | 69.51 | 63.60 |
| GPT-3.5 Turbo | 57.77 | 13.96 | 52.44 | 61.40 |
| LLaMA-13B | 20.55 | 3.68 | 15.24 | 21.40 |
| LLaMA2-13B | 28.89 | 4.96 | 15.24 | 27.00 |
| Vicuna-13B | 28.13 | 4.36 | 16.46 | 15.00 |
| Chinese-Alpaca-Plus-13B | 11.98 | 2.50 | 16.46 | 20.00 |
| XVERSE-13B | 18.20 | 2.18 | 15.85 | 16.80 |
| Baichuan-13B-Base | 26.76 | 4.84 | 11.59 | 22.80 |
| Baichuan2-13B-Base | 52.77 | 10.08 | 17.07 | 30.20 |
多語言翻譯
采用了 Flores-101 數(shù)據(jù)集來評估模型的多語言能力。Flores-101 涵蓋了世界各地的 101 種語言。它的數(shù)據(jù)來源于新聞、旅游指南和書籍等多個不同領(lǐng)域。選擇了聯(lián)合國官方語言(阿拉伯文、中文、英文、法文、俄文和西班牙文)以及德文和日文作為測試語種。使用 OpenCompass 對 Flores-101 中的中-英、中-法、中-西班牙、中-阿拉伯、中-俄、中-日、中-德等七個子任務(wù)分別進(jìn)行了 8-shot 測試。
7B 模型結(jié)果
| CN-EN | CN-FR | CN-ES | CN-AR | CN-RU | CN-JP | CN-DE | Average | |
|---|---|---|---|---|---|---|---|---|
| GPT-4 | 29.94 | 29.56 | 20.01 | 10.76 | 18.62 | 13.26 | 20.83 | 20.43 |
| GPT-3.5 Turbo | 27.67 | 26.15 | 19.58 | 10.73 | 17.45 | 1.82 | 19.70 | 17.59 |
| LLaMA-7B | 17.27 | 12.02 | 9.54 | 0.00 | 4.47 | 1.41 | 8.73 | 7.63 |
| LLaMA2-7B | 25.76 | 15.14 | 11.92 | 0.79 | 4.99 | 2.20 | 10.15 | 10.14 |
| MPT-7B | 20.77 | 9.53 | 8.96 | 0.10 | 3.54 | 2.91 | 6.54 | 7.48 |
| Falcon-7B | 22.13 | 15.67 | 9.28 | 0.11 | 1.35 | 0.41 | 6.41 | 7.91 |
| ChatGLM2-6B | 22.28 | 9.42 | 7.77 | 0.64 | 1.78 | 0.26 | 4.61 | 6.68 |
| Baichuan-7B | 25.07 | 16.51 | 12.72 | 0.41 | 6.66 | 2.24 | 9.86 | 10.50 |
| Baichuan2-7B-Base | 27.27 | 20.87 | 16.17 | 1.39 | 11.21 | 3.11 | 12.76 | 13.25 |
13B 模型結(jié)果
| CN-EN | CN-FR | CN-ES | CN-AR | CN-RU | CN-JP | CN-DE | Average | |
|---|---|---|---|---|---|---|---|---|
| GPT-4 | 29.94 | 29.56 | 20.01 | 10.76 | 18.62 | 13.26 | 20.83 | 20.43 |
| GPT-3.5 Turbo | 27.67 | 26.15 | 19.58 | 10.73 | 17.45 | 1.82 | 19.70 | 17.59 |
| LLaMA-13B | 21.75 | 16.16 | 13.29 | 0.58 | 7.61 | 0.41 | 10.66 | 10.07 |
| LLaMA2-13B | 25.44 | 19.25 | 17.49 | 1.38 | 10.34 | 0.13 | 11.13 | 12.17 |
| Vicuna-13B | 22.63 | 18.04 | 14.67 | 0.70 | 9.27 | 3.59 | 10.25 | 11.31 |
| Chinese-Alpaca-Plus-13B | 22.53 | 13.82 | 11.29 | 0.28 | 1.52 | 0.31 | 8.13 | 8.27 |
| XVERSE-13B | 29.26 | 24.03 | 16.67 | 2.78 | 11.61 | 3.08 | 14.26 | 14.53 |
| Baichuan-13B-Base | 30.24 | 20.90 | 15.92 | 0.98 | 9.65 | 2.64 | 12.00 | 13.19 |
| Baichuan2-13B-Base | 30.61 | 22.11 | 17.27 | 2.39 | 14.17 | 11.58 | 14.53 | 16.09 |
