<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Baichuan-13B大規(guī)模語言模型

          聯(lián)合創(chuàng)作 · 2023-09-25 23:53

          Baichuan-13B 是由百川智能繼 Baichuan-7B 之后開發(fā)的包含 130 億參數(shù)的開源可商用的大規(guī)模語言模型,在權(quán)威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次發(fā)布包含有預(yù)訓(xùn)練 (Baichuan-13B-Base) 和對(duì)齊 (Baichuan-13B-Chat) 兩個(gè)版本。Baichuan-13B 有如下幾個(gè)特點(diǎn):

          1. 更大尺寸、更多數(shù)據(jù):Baichuan-13B 在 Baichuan-7B 的基礎(chǔ)上進(jìn)一步擴(kuò)大參數(shù)量到 130 億,并且在高質(zhì)量的語料上訓(xùn)練了 1.4 萬億 tokens,超過 LLaMA-13B 40%,是當(dāng)前開源 13B 尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。支持中英雙語,使用 ALiBi 位置編碼,上下文窗口長(zhǎng)度為 4096。
          2. 同時(shí)開源預(yù)訓(xùn)練和對(duì)齊模型:預(yù)訓(xùn)練模型是適用開發(fā)者的『 基座 』,而廣大普通用戶對(duì)有對(duì)話功能的對(duì)齊模型具有更強(qiáng)的需求。因此本次開源同時(shí)發(fā)布了對(duì)齊模型(Baichuan-13B-Chat),具有很強(qiáng)的對(duì)話能力,開箱即用,幾行代碼即可簡(jiǎn)單的部署。
          3. 更高效的推理:為了支持更廣大用戶的使用,本次同時(shí)開源了 int8 和 int4 的量化版本,相對(duì)非量化版本在幾乎沒有效果損失的情況下大大降低了部署的機(jī)器資源門檻,可以部署在如 Nvidia 3090 這樣的消費(fèi)級(jí)顯卡上。
          4. 開源免費(fèi)可商用:Baichuan-13B 不僅對(duì)學(xué)術(shù)研究完全開放,開發(fā)者也僅需郵件申請(qǐng)并獲得官方商用許可后,即可以免費(fèi)商用。

          Benchmark結(jié)果

          在各個(gè)權(quán)威大語言模型的中英文 benchmark 上進(jìn)行了5-shot評(píng)測(cè)。結(jié)果如下:

          C-Eval

          Model 5-shot STEM Social Sciences Humanities Others Average
          Baichuan-7B 38.2 52.0 46.2 39.3 42.8
          Chinese-Alpaca-Plus-13B 35.2 45.6 40.0 38.2 38.8
          Vicuna-13B 30.5 38.2 32.5 32.5 32.8
          Chinese-LLaMA-Plus-13B 30.3 38.0 32.9 29.1 32.1
          Ziya-LLaMA-13B-Pretrain 27.6 34.4 32.0 28.6 30.0
          LLaMA-13B 27.0 33.6 27.7 27.6 28.5
          moss-moon-003-base (16B) 27.0 29.1 27.2 26.9 27.4
          Baichuan-13B-Base 45.9 63.5 57.2 49.3 52.4
          Baichuan-13B-Chat 43.7 64.6 56.2 49.2 51.5

          MMLU

          Model 5-shot STEM Social Sciences Humanities Others Average
          Vicuna-13B 40.4 60.5 49.5 58.4 52.0
          LLaMA-13B 36.1 53.0 44.0 52.8 46.3
          Chinese-Alpaca-Plus-13B 36.9 48.9 40.5 50.5 43.9
          Ziya-LLaMA-13B-Pretrain 35.6 47.6 40.1 49.4 42.9
          Baichuan-7B 35.6 48.9 38.4 48.1 42.3
          Chinese-LLaMA-Plus-13B 33.1 42.8 37.0 44.6 39.2
          moss-moon-003-base (16B) 22.4 22.8 24.2 24.4 23.6
          Baichuan-13B-Base 41.6 60.9 47.4 58.5 51.6
          Baichuan-13B-Chat 40.9 60.9 48.8 59.0 52.1

          說明:采用了 MMLU 官方的評(píng)測(cè)方案

          CMMLU

          Model 5-shot STEM Humanities Social Sciences Others China Specific Average
          Baichuan-7B 34.4 47.5 47.6 46.6 44.3 44.0
          Vicuna-13B 31.8 36.2 37.6 39.5 34.3 36.3
          Chinese-Alpaca-Plus-13B 29.8 33.4 33.2 37.9 32.1 33.4
          Chinese-LLaMA-Plus-13B 28.1 33.1 35.4 35.1 33.5 33.0
          Ziya-LLaMA-13B-Pretrain 29.0 30.7 33.8 34.4 31.9 32.1
          LLaMA-13B 29.2 30.8 31.6 33.0 30.5 31.2
          moss-moon-003-base (16B) 27.2 30.4 28.8 32.6 28.7 29.6
          Baichuan-13B-Base 41.7 61.1 59.8 59.0 56.4 55.3
          Baichuan-13B-Chat 42.8 62.6 59.7 59.0 56.1 55.8

          說明:CMMLU 是一個(gè)綜合性的中文評(píng)估基準(zhǔn),專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。采用了其官方的評(píng)測(cè)方案。

          模型細(xì)節(jié)

          模型名稱 隱藏層維度 層數(shù) 注意力頭數(shù) 詞表大小 總參數(shù)量 訓(xùn)練數(shù)據(jù)(tokens) 位置編碼 最大長(zhǎng)度
          Baichuan-7B 4,096 32 32 64,000 7,000,559,616 1.2 萬億 RoPE 4,096
          Baichuan-13B 5,120 40 40 64,000 13,264,901,120 1.4 萬億 ALiBi 4,096
          瀏覽 79
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  自拍偷拍1 | 午夜综合网 | 国外十八禁香蕉 | 一本无码在线观看 | 亚洲无圣光豆花 |