書(shū)生·浦語(yǔ)多語(yǔ)言大型語(yǔ)言模型
InternLM(書(shū)生·浦語(yǔ))是在過(guò)萬(wàn)億 token 數(shù)據(jù)上訓(xùn)練的多語(yǔ)千億參數(shù)基座模型。通過(guò)多階段的漸進(jìn)式訓(xùn)練,InternLM 基座模型具有較高的知識(shí)水平,在中英文閱讀理解、推理任務(wù)等需要較強(qiáng)思維能力的場(chǎng)景下性能優(yōu)秀,在多種面向人類(lèi)設(shè)計(jì)的綜合性考試中表現(xiàn)突出。在此基礎(chǔ)上,通過(guò)高質(zhì)量的人類(lèi)標(biāo)注對(duì)話(huà)數(shù)據(jù)結(jié)合 RLHF 等技術(shù),使得 InternLM 可以在與人類(lèi)對(duì)話(huà)時(shí)響應(yīng)復(fù)雜指令,并且表現(xiàn)出符合人類(lèi)道德與價(jià)值觀(guān)的回復(fù)。
基于 InternLM 訓(xùn)練框架,發(fā)布了兩個(gè)開(kāi)源預(yù)訓(xùn)練模型 InternLM-7B 和 InternLM-20B。
模型亮點(diǎn)
-
多語(yǔ)。InternLM 具備多種語(yǔ)言的理解和表達(dá)能力,尤其能熟練使用中英雙語(yǔ),在中文和英文的多種客觀(guān)評(píng)測(cè)上都強(qiáng)于社區(qū)開(kāi)源模型
-
推理。通過(guò)在不同來(lái)源的數(shù)據(jù)以及精選高質(zhì)量數(shù)據(jù)上進(jìn)行訓(xùn)練,InternLM 在邏輯推理、代碼生成以及復(fù)雜指令跟隨等方面表現(xiàn)出色
-
考試。使用人類(lèi)考試數(shù)據(jù)作為驗(yàn)證模型能力的試金石。InternLM 在 MMLU、C-Eval 等考試評(píng)測(cè)集上性能優(yōu)異,特別是在各項(xiàng)中文考試中獲得了超越ChatGPT的分?jǐn)?shù)
評(píng)測(cè)結(jié)果
InternLM 可以在 MMLU、AGIEval、C-Eval 以及 GAOKAO-bench 等涵蓋了不同語(yǔ)言以及學(xué)科的考試基準(zhǔn)集上取得不錯(cuò)的分?jǐn)?shù),在多個(gè)基準(zhǔn)集得分超過(guò) ChatGPT
MMLU
AGIEval
C-Eval
GAOKAO-bench
英文測(cè)評(píng)
在來(lái)源廣泛的英語(yǔ)語(yǔ)料上進(jìn)行預(yù)訓(xùn)練后,InternLM 在多種不同的英文學(xué)術(shù)評(píng)測(cè)集上性能優(yōu)異,例如知識(shí)性問(wèn)答、閱讀理解以及數(shù)學(xué)推理等
中文測(cè)評(píng)
通過(guò)在各種中文語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,InternLM 不但可以熟練使用中文,同時(shí)在中文俗語(yǔ)理解、閱讀理解、關(guān)鍵詞抽取等客觀(guān)評(píng)測(cè)任務(wù)上也取得非常不錯(cuò)的性能
