<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Baichuan 2百川智能推出的新一代開源大語言模型

          聯(lián)合創(chuàng)作 · 2023-09-26 00:10

          Baichuan 2 是百川智能推出的新一代開源大語言模型,采用 2.6 萬億 Tokens 的高質(zhì)量語料訓(xùn)練。在多個權(quán)威的中文、英文和多語言的通用、領(lǐng)域 benchmark 上取得同尺寸最佳的效果。

          本次發(fā)布包含有 7B13B  Base  Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本對學(xué)術(shù)研究完全開放。同時,開發(fā)者通過郵件申請并獲得官方商用許可后,即可免費(fèi)商用,參考協(xié)議章節(jié)。

          可閱讀技術(shù)報(bào)告 Baichuan 2: Open Large-scale Language Models 獲取更多信息。

          本次發(fā)布版本和下載鏈接見下表:

            基座模型 對齊模型 對齊模型 4bits 量化
          7B Baichuan2-7B-Base Baichuan2-7B-Chat Baichuan2-7B-Chat-4bits
          13B Baichuan2-13B-Base Baichuan2-13B-Chat Baichuan2-13B-Chat-4bits

          Benchmark 結(jié)果

          通用法律醫(yī)療數(shù)學(xué)代碼多語言翻譯六個領(lǐng)域的中英文和多語言權(quán)威數(shù)據(jù)集上對模型進(jìn)行了廣泛測試。

          通用領(lǐng)域

          在通用領(lǐng)域在以下數(shù)據(jù)集上進(jìn)行了 5-shot 測試。

          • C-Eval 是一個全面的中文基礎(chǔ)模型評測數(shù)據(jù)集,涵蓋了 52 個學(xué)科和四個難度的級別。使用該數(shù)據(jù)集的 dev 集作為 few-shot 的來源,在 test 集上進(jìn)行測試。采用了 Baichuan-7B 的評測方案。
          • MMLU 是包含 57 個任務(wù)的英文評測數(shù)據(jù)集,涵蓋了初等數(shù)學(xué)、美國歷史、計(jì)算機(jī)科學(xué)、法律等,難度覆蓋高中水平到專家水平,是目前主流的 LLM 評測數(shù)據(jù)集。采用了開源的評測方案。
          • CMMLU 是一個包含 67 個主題的綜合性性中文評估基準(zhǔn),專門用于評估語言模型在中文語境下的知識和推理能力。采用了其官方的評測方案。
          • Gaokao 是一個以中國高考題作為評測大語言模型能力的數(shù)據(jù)集,用以評估模型的語言能力和邏輯推理能力。 只保留了其中的單項(xiàng)選擇題,并進(jìn)行了隨機(jī)劃分。采用了與 C-Eval 類似的評測方案。
          • AGIEval 旨在評估模型的認(rèn)知和解決問題相關(guān)的任務(wù)中的一般能力。 只保留了其中的四選一單項(xiàng)選擇題,并進(jìn)行了隨機(jī)劃分。采用了與 C-Eval 類似的評測方案。
          • BBH 是一個挑戰(zhàn)性任務(wù) Big-Bench 的子集。Big-Bench 目前包括 204 項(xiàng)任務(wù)。任務(wù)主題涉及語言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識推理、生物學(xué)、物理學(xué)、社會偏見、軟件開發(fā)等方面。BBH 是從 204 項(xiàng) Big-Bench 評測基準(zhǔn)任務(wù)中大模型表現(xiàn)不好的任務(wù)單獨(dú)拿出來形成的評測基準(zhǔn)。

          7B 模型結(jié)果

            C-Eval MMLU CMMLU Gaokao AGIEval BBH
            5-shot 5-shot 5-shot 5-shot 5-shot 3-shot
          GPT-4 68.40 83.93 70.33 66.15 63.27 75.12
          GPT-3.5 Turbo 51.10 68.54 54.06 47.07 46.13 61.59
          LLaMA-7B 27.10 35.10 26.75 27.81 28.17 32.38
          LLaMA2-7B 28.90 45.73 31.38 25.97 26.53 39.16
          MPT-7B 27.15 27.93 26.00 26.54 24.83 35.20
          Falcon-7B 24.23 26.03 25.66 24.24 24.10 28.77
          ChatGLM2-6B 50.20 45.90 49.00 49.44 45.28 31.65
          Baichuan-7B 42.80 42.30 44.02 36.34 34.44 32.48
          Baichuan2-7B-Base 54.00 54.16 57.07 47.47 42.73 41.56

          13B 模型結(jié)果

            C-Eval MMLU CMMLU Gaokao AGIEval BBH
            5-shot 5-shot 5-shot 5-shot 5-shot 3-shot
          GPT-4 68.40 83.93 70.33 66.15 63.27 75.12
          GPT-3.5 Turbo 51.10 68.54 54.06 47.07 46.13 61.59
          LLaMA-13B 28.50 46.30 31.15 28.23 28.22 37.89
          LLaMA2-13B 35.80 55.09 37.99 30.83 32.29 46.98
          Vicuna-13B 32.80 52.00 36.28 30.11 31.55 43.04
          Chinese-Alpaca-Plus-13B 38.80 43.90 33.43 34.78 35.46 28.94
          XVERSE-13B 53.70 55.21 58.44 44.69 42.54 38.06
          Baichuan-13B-Base 52.40 51.60 55.30 49.69 43.20 43.01
          Baichuan2-13B-Base 58.10 59.17 61.97 54.33 48.17 48.78

          法律、醫(yī)療

          法律領(lǐng)域使用了 JEC-QA 數(shù)據(jù)集。JEC-QA 數(shù)據(jù)集來源于中國國家司法考試。只保留了其中的單選題。采用了與 C-Eval 類似的評測方案。

          醫(yī)療領(lǐng)域則使用通用領(lǐng)域數(shù)據(jù)集(C-Eval、MMLU、CMMLU)中的醫(yī)學(xué)相關(guān)學(xué)科、MedQA  MedMCQA。采用了與 C-Eval 類似的評測方案。

          • 為了測試方便,使用了 C-Eval 的 val 集進(jìn)行測試。
          • MedQA 數(shù)據(jù)集來源于美國、中國的醫(yī)學(xué)考試。測試了 MedQA數(shù)據(jù)集 中的 USMLE 和 MCMLE 兩個子集,并采用了五個候選的版本。
          • MedMCQA 數(shù)據(jù)集來源于印度醫(yī)學(xué)院的入學(xué)考試。只保留了其中的單選題。由于 test 集沒有答案,使用 dev 集進(jìn)行測試。
          • 通用領(lǐng)域數(shù)據(jù)集包含的醫(yī)學(xué)相關(guān)學(xué)科如下:
            • C-Eval: clinical_medicine, basic_medicine
            • MMLU: clinical_knowledge, anatomy, college_medicine, college_biology, nutrition, virology, medical_genetics, professional_medicine
            • CMMLU: anatomy, clinical_knowledge, college_medicine, genetics, nutrition, traditional_chinese_medicine, virology

          對以上數(shù)據(jù)集進(jìn)行了 5-shot 測試。

          7B 模型結(jié)果

            JEC-QA CEval-MMLU-CMMLU MedQA-USMLE MedQA-MCMLE MedMCQA
            5-shot 5-shot 5-shot 5-shot 5-shot
          GPT-4 59.32 77.16 80.28 74.58 72.51
          GPT-3.5 Turbo 42.31 61.17 53.81 52.92 56.25
          LLaMA-7B 27.45 33.34 24.12 21.72 27.45
          LLaMA2-7B 29.20 36.75 27.49 24.78 37.93
          MPT-7B 27.45 26.67 16.97 19.79 31.96
          Falcon-7B 23.66 25.33 21.29 18.07 33.88
          ChatGLM2-6B 40.76 44.54 26.24 45.53 30.22
          Baichuan-7B 34.64 42.37 27.42 39.46 31.39
          Baichuan2-7B-Base 44.46 56.39 32.68 54.93 41.73

          13B 模型結(jié)果

            JEC-QA CEval-MMLU-CMMLU MedQA-USMLE MedQA-MCMLE MedMCQA
            5-shot 5-shot 5-shot 5-shot 5-shot
          GPT-4 59.32 77.16 80.28 74.58 72.51
          GPT-3.5 Turbo 42.31 61.17 53.81 52.92 56.25
          LLaMA-13B 27.54 35.14 28.83 23.38 39.52
          LLaMA2-13B 34.08 47.42 35.04 29.74 42.12
          Vicuna-13B 28.38 40.99 34.80 27.67 40.66
          Chinese-Alpaca-Plus-13B 35.32 46.31 27.49 32.66 35.87
          XVERSE-13B 46.42 58.08 32.99 58.76 41.34
          Baichuan-13B-Base 41.34 51.77 29.07 43.67 39.60
          Baichuan2-13B-Base 47.40 59.33 40.38 61.62 42.86

          數(shù)學(xué)、代碼

          數(shù)學(xué)領(lǐng)域使用 OpenCompass 評估框架,對 GSM8K  MATH 數(shù)據(jù)集進(jìn)行了 4-shot 測試。

          • GSM8K 是由 OpenAI 發(fā)布的一個由 8.5K 高質(zhì)量的語言多樣化的小學(xué)數(shù)學(xué)應(yīng)用題組成的數(shù)據(jù)集,要求根據(jù)給定的場景和兩個可能的解決方案,選擇最合理的方案。
          • MATH 數(shù)據(jù)集包含 12,500 個數(shù)學(xué)問題(其中 7500 個屬于訓(xùn)練集,5000 個屬于測試集),這些問題收集自 AMC 10、AMC 12、AIME 等數(shù)學(xué)競賽。

          代碼領(lǐng)域則采用了 HumanEval  MBPP 數(shù)據(jù)集。使用 OpenCompass,對 HumanEval 進(jìn)行了 0-shot 測試,MBPP 數(shù)據(jù)集進(jìn)行了 3-shot 測試。

          • HumanEval 中的編程任務(wù)包括模型語言理解、推理、算法和簡單數(shù)學(xué),以評估模型功能正確性,并衡量模型的問題解決能力。
          • MBPP 包括 974 個 Python 短函數(shù)、程序的文字描述以及用于檢查功能正確性的測試用例的數(shù)據(jù)集。

          7B 模型結(jié)果

            GSM8K MATH HumanEval MBPP
            4-shot 4-shot 0-shot 3-shot
          GPT-4 89.99 40.20 69.51 63.60
          GPT-3.5 Turbo 57.77 13.96 52.44 61.40
          LLaMA-7B 9.78 3.02 11.59 14.00
          LLaMA2-7B 16.22 3.24 12.80 14.80
          MPT-7B 8.64 2.90 14.02 23.40
          Falcon-7B 5.46 1.68 - 10.20
          ChatGLM2-6B 28.89 6.40 9.15 9.00
          Baichuan-7B 9.17 2.54 9.20 6.60
          Baichuan2-7B-Base 24.49 5.58 18.29 24.20

          13B 模型結(jié)果

            GSM8K MATH HumanEval MBPP
            4-shot 4-shot 0-shot 3-shot
          GPT-4 89.99 40.20 69.51 63.60
          GPT-3.5 Turbo 57.77 13.96 52.44 61.40
          LLaMA-13B 20.55 3.68 15.24 21.40
          LLaMA2-13B 28.89 4.96 15.24 27.00
          Vicuna-13B 28.13 4.36 16.46 15.00
          Chinese-Alpaca-Plus-13B 11.98 2.50 16.46 20.00
          XVERSE-13B 18.20 2.18 15.85 16.80
          Baichuan-13B-Base 26.76 4.84 11.59 22.80
          Baichuan2-13B-Base 52.77 10.08 17.07 30.20

          多語言翻譯

          采用了 Flores-101 數(shù)據(jù)集來評估模型的多語言能力。Flores-101 涵蓋了世界各地的 101 種語言。它的數(shù)據(jù)來源于新聞、旅游指南和書籍等多個不同領(lǐng)域。選擇了聯(lián)合國官方語言(阿拉伯文、中文、英文、法文、俄文和西班牙文)以及德文和日文作為測試語種。使用 OpenCompass 對 Flores-101 中的中-英、中-法、中-西班牙、中-阿拉伯、中-俄、中-日、中-德等七個子任務(wù)分別進(jìn)行了 8-shot 測試。

          7B 模型結(jié)果

            CN-EN CN-FR CN-ES CN-AR CN-RU CN-JP CN-DE Average
          GPT-4 29.94 29.56 20.01 10.76 18.62 13.26 20.83 20.43
          GPT-3.5 Turbo 27.67 26.15 19.58 10.73 17.45 1.82 19.70 17.59
          LLaMA-7B 17.27 12.02 9.54 0.00 4.47 1.41 8.73 7.63
          LLaMA2-7B 25.76 15.14 11.92 0.79 4.99 2.20 10.15 10.14
          MPT-7B 20.77 9.53 8.96 0.10 3.54 2.91 6.54 7.48
          Falcon-7B 22.13 15.67 9.28 0.11 1.35 0.41 6.41 7.91
          ChatGLM2-6B 22.28 9.42 7.77 0.64 1.78 0.26 4.61 6.68
          Baichuan-7B 25.07 16.51 12.72 0.41 6.66 2.24 9.86 10.50
          Baichuan2-7B-Base 27.27 20.87 16.17 1.39 11.21 3.11 12.76 13.25

          13B 模型結(jié)果

            CN-EN CN-FR CN-ES CN-AR CN-RU CN-JP CN-DE Average
          GPT-4 29.94 29.56 20.01 10.76 18.62 13.26 20.83 20.43
          GPT-3.5 Turbo 27.67 26.15 19.58 10.73 17.45 1.82 19.70 17.59
          LLaMA-13B 21.75 16.16 13.29 0.58 7.61 0.41 10.66 10.07
          LLaMA2-13B 25.44 19.25 17.49 1.38 10.34 0.13 11.13 12.17
          Vicuna-13B 22.63 18.04 14.67 0.70 9.27 3.59 10.25 11.31
          Chinese-Alpaca-Plus-13B 22.53 13.82 11.29 0.28 1.52 0.31 8.13 8.27
          XVERSE-13B 29.26 24.03 16.67 2.78 11.61 3.08 14.26 14.53
          Baichuan-13B-Base 30.24 20.90 15.92 0.98 9.65 2.64 12.00 13.19
          Baichuan2-13B-Base 30.61 22.11 17.27 2.39 14.17 11.58 14.53 16.09
          瀏覽 22
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人毛片视频在线观看 | 玖玖视频网站 | 韩国毛片 | 91香蕉国产 | 午夜性爱福利视频 |