<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ChatGLM2-6B開源雙語對話語言模型

          聯(lián)合創(chuàng)作 · 2023-09-25 23:51

          ChatGLM2-6B 是開源中英雙語對話模型 ChatGLM-6B 的第二代版本,在保留了初代模型對話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)之上,ChatGLM2-6B 引入了如下新特性:

          1. 更強(qiáng)大的性能:基于 ChatGLM 初代模型的開發(fā)經(jīng)驗(yàn),全面升級了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目標(biāo)函數(shù),經(jīng)過了 1.4T 中英標(biāo)識符的預(yù)訓(xùn)練與人類偏好對齊訓(xùn)練,評測結(jié)果顯示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等數(shù)據(jù)集上的性能取得了大幅度的提升,在同尺寸開源模型中具有較強(qiáng)的競爭力。
          2. 更長的上下文:基于 FlashAttention 技術(shù),將基座模型的上下文長度(Context Length)由 ChatGLM-6B 的 2K 擴(kuò)展到了 32K,并在對話階段使用 8K 的上下文長度訓(xùn)練,允許更多輪次的對話。但當(dāng)前版本的 ChatGLM2-6B 對單輪超長文檔的理解能力有限,會(huì)在后續(xù)迭代升級中著重進(jìn)行優(yōu)化。
          3. 更高效的推理:基于 Multi-Query Attention 技術(shù),ChatGLM2-6B 有更高效的推理速度和更低的顯存占用:在官方的模型實(shí)現(xiàn)下,推理速度相比初代提升了 42%,INT4 量化下,6G 顯存支持的對話長度由 1K 提升到了 8K。
          4. 更開放的協(xié)議:ChatGLM2-6B 權(quán)重對學(xué)術(shù)研究完全開放,在獲得官方的書面許可后,亦允許商業(yè)使用

          ChatGLM2-6B 開源模型旨在與開源社區(qū)一起推動(dòng)大模型技術(shù)發(fā)展,懇請開發(fā)者和大家遵守開源協(xié)議,勿將開源模型和代碼及基于開源項(xiàng)目產(chǎn)生的衍生物用于任何可能給國家和社會(huì)帶來危害的用途以及用于任何未經(jīng)過安全評估和備案的服務(wù)。目前,本項(xiàng)目團(tuán)隊(duì)未基于 ChatGLM2-6B 開發(fā)任何應(yīng)用,包括網(wǎng)頁端、安卓、蘋果 iOS 及 Windows App 等應(yīng)用。

          盡管模型在訓(xùn)練的各個(gè)階段都盡力確保數(shù)據(jù)的合規(guī)性和準(zhǔn)確性,但由于 ChatGLM2-6B 模型規(guī)模較小,且模型受概率隨機(jī)性因素影響,無法保證輸出內(nèi)容的準(zhǔn)確性,且模型易被誤導(dǎo)。本項(xiàng)目不承擔(dān)開源模型和代碼導(dǎo)致的數(shù)據(jù)安全、輿情風(fēng)險(xiǎn)或發(fā)生任何模型被誤導(dǎo)、濫用、傳播、不當(dāng)利用而產(chǎn)生的風(fēng)險(xiǎn)和責(zé)任。

          評測結(jié)果

          以下為 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(數(shù)學(xué))、BBH(英文) 上的測評結(jié)果。

          MMLU

          Model Average STEM Social Sciences Humanities Others
          ChatGLM-6B 40.63 33.89 44.84 39.02 45.71
          ChatGLM2-6B (base) 47.86 41.20 54.44 43.66 54.46
          ChatGLM2-6B 45.46 40.06 51.61 41.23 51.24

          Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法測試,Base 模型使用 few-shot answer-only 的方法測試

          C-Eval

          Model Average STEM Social Sciences Humanities Others
          ChatGLM-6B 38.9 33.3 48.3 41.3 38.0
          ChatGLM2-6B (base) 51.7 48.6 60.5 51.3 49.8
          ChatGLM2-6B 50.1 46.4 60.4 50.6 46.9

          Chat 模型使用 zero-shot CoT 的方法測試,Base 模型使用 few-shot answer only 的方法測試

          GSM8K

          Model Accuracy Accuracy (Chinese)*
          ChatGLM-6B 4.82 5.85
          ChatGLM2-6B (base) 32.37 28.95
          ChatGLM2-6B 28.05 20.45

          所有模型均使用 few-shot CoT 的方法測試,CoT prompt 來自 http://arxiv.org/abs/2201.11903

          * 我們使用翻譯 API 翻譯了 GSM8K 中的 500 道題目和 CoT prompt 并進(jìn)行了人工校對

          BBH

          Model Accuracy
          ChatGLM-6B 18.73
          ChatGLM2-6B (base) 33.68
          ChatGLM2-6B 30.00

          所有模型均使用 few-shot CoT 的方法測試,CoT prompt 來自 https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompt

          瀏覽 24
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费做爱视频动漫 | 免费看又色又爽又黄的成人用品 | 操操操操操操操操操操操操逼 | a片無限資源 | 天天操夜夜操狠狠 |