ChatGLM2-6B開源雙語對話語言模型
ChatGLM2-6B 是開源中英雙語對話模型 ChatGLM-6B 的第二代版本,在保留了初代模型對話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)之上,ChatGLM2-6B 引入了如下新特性:
- 更強(qiáng)大的性能:基于 ChatGLM 初代模型的開發(fā)經(jīng)驗(yàn),全面升級了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目標(biāo)函數(shù),經(jīng)過了 1.4T 中英標(biāo)識符的預(yù)訓(xùn)練與人類偏好對齊訓(xùn)練,評測結(jié)果顯示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等數(shù)據(jù)集上的性能取得了大幅度的提升,在同尺寸開源模型中具有較強(qiáng)的競爭力。
- 更長的上下文:基于 FlashAttention 技術(shù),將基座模型的上下文長度(Context Length)由 ChatGLM-6B 的 2K 擴(kuò)展到了 32K,并在對話階段使用 8K 的上下文長度訓(xùn)練,允許更多輪次的對話。但當(dāng)前版本的 ChatGLM2-6B 對單輪超長文檔的理解能力有限,會(huì)在后續(xù)迭代升級中著重進(jìn)行優(yōu)化。
- 更高效的推理:基于 Multi-Query Attention 技術(shù),ChatGLM2-6B 有更高效的推理速度和更低的顯存占用:在官方的模型實(shí)現(xiàn)下,推理速度相比初代提升了 42%,INT4 量化下,6G 顯存支持的對話長度由 1K 提升到了 8K。
- 更開放的協(xié)議:ChatGLM2-6B 權(quán)重對學(xué)術(shù)研究完全開放,在獲得官方的書面許可后,亦允許商業(yè)使用。
ChatGLM2-6B 開源模型旨在與開源社區(qū)一起推動(dòng)大模型技術(shù)發(fā)展,懇請開發(fā)者和大家遵守開源協(xié)議,勿將開源模型和代碼及基于開源項(xiàng)目產(chǎn)生的衍生物用于任何可能給國家和社會(huì)帶來危害的用途以及用于任何未經(jīng)過安全評估和備案的服務(wù)。目前,本項(xiàng)目團(tuán)隊(duì)未基于 ChatGLM2-6B 開發(fā)任何應(yīng)用,包括網(wǎng)頁端、安卓、蘋果 iOS 及 Windows App 等應(yīng)用。
盡管模型在訓(xùn)練的各個(gè)階段都盡力確保數(shù)據(jù)的合規(guī)性和準(zhǔn)確性,但由于 ChatGLM2-6B 模型規(guī)模較小,且模型受概率隨機(jī)性因素影響,無法保證輸出內(nèi)容的準(zhǔn)確性,且模型易被誤導(dǎo)。本項(xiàng)目不承擔(dān)開源模型和代碼導(dǎo)致的數(shù)據(jù)安全、輿情風(fēng)險(xiǎn)或發(fā)生任何模型被誤導(dǎo)、濫用、傳播、不當(dāng)利用而產(chǎn)生的風(fēng)險(xiǎn)和責(zé)任。
評測結(jié)果
以下為 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(數(shù)學(xué))、BBH(英文) 上的測評結(jié)果。
MMLU
| Model | Average | STEM | Social Sciences | Humanities | Others |
|---|---|---|---|---|---|
| ChatGLM-6B | 40.63 | 33.89 | 44.84 | 39.02 | 45.71 |
| ChatGLM2-6B (base) | 47.86 | 41.20 | 54.44 | 43.66 | 54.46 |
| ChatGLM2-6B | 45.46 | 40.06 | 51.61 | 41.23 | 51.24 |
Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法測試,Base 模型使用 few-shot answer-only 的方法測試
C-Eval
| Model | Average | STEM | Social Sciences | Humanities | Others |
|---|---|---|---|---|---|
| ChatGLM-6B | 38.9 | 33.3 | 48.3 | 41.3 | 38.0 |
| ChatGLM2-6B (base) | 51.7 | 48.6 | 60.5 | 51.3 | 49.8 |
| ChatGLM2-6B | 50.1 | 46.4 | 60.4 | 50.6 | 46.9 |
Chat 模型使用 zero-shot CoT 的方法測試,Base 模型使用 few-shot answer only 的方法測試
GSM8K
| Model | Accuracy | Accuracy (Chinese)* |
|---|---|---|
| ChatGLM-6B | 4.82 | 5.85 |
| ChatGLM2-6B (base) | 32.37 | 28.95 |
| ChatGLM2-6B | 28.05 | 20.45 |
所有模型均使用 few-shot CoT 的方法測試,CoT prompt 來自 http://arxiv.org/abs/2201.11903
* 我們使用翻譯 API 翻譯了 GSM8K 中的 500 道題目和 CoT prompt 并進(jìn)行了人工校對
BBH
| Model | Accuracy |
|---|---|
| ChatGLM-6B | 18.73 |
| ChatGLM2-6B (base) | 33.68 |
| ChatGLM2-6B | 30.00 |
所有模型均使用 few-shot CoT 的方法測試,CoT prompt 來自 https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompt
