經(jīng)歷「大煉模型」后,人工智能領域正進入「煉大模型」時代。自去年 OpenAI 發(fā)布英文領域超大規(guī)模預訓練語言模型 GPT-3 后,中文領域同類模型的訓練進程備受關注。今日,阿里達摩院發(fā)布了 270 億參數(shù)、1TB + 訓練數(shù)據(jù)的全球最大中文預訓練語言模型 PLUG,并以 80.614 的分數(shù)刷新了中文語言理解評測基準 CLUE 分類榜單歷史紀錄。
自 2018 年谷歌發(fā)布 BERT 以來,預訓練模型(Pre-trained Models, PTMs)逐漸成為自然語言處理領域的主流。2020 年 5 月,OpenAI 發(fā)布了擁有 1750 億參數(shù)量的預訓練模型 GPT-3。作為一個語言生成模型,GPT-3 不僅能夠生成流暢自然的文本,還能完成問答、翻譯、創(chuàng)作小說等一系列 NLP 任務,甚至進行簡單的算術運算,并且其性能在很多任務上都超越相關領域的專有模型,達到 SOTA 水平。在這樣的發(fā)展態(tài)勢下,構建以中文為核心的超大規(guī)模預訓練模型及生態(tài)勢在必行。4 月 19 日,阿里達摩院發(fā)布了中文社區(qū)最大規(guī)模預訓練語言模型 PLUG(Pre-training for Language Understanding and Generation)。該模型參數(shù)規(guī)模達 270 億,集語言理解與生成能力于一身,在小說創(chuàng)作、詩歌生成、智能問答等長文本生成領域表現(xiàn)突出,其目標是通過超大模型的能力,大幅提升中文 NLP 各類任務的表現(xiàn),取得超越人類表現(xiàn)的性能。從技術上來看,阿里達摩院的 PLUG 與 GPT-3 類似,有望廣泛應用于文本生成領域,成為「萬能寫作神器」。較 GPT-3 改進的是,PLUG 設計了一個簡潔的模型框架,集成了達摩院自研的語言理解及語言生成雙模型,通過構建輸入文本雙向理解能力,顯著提升了輸出文本的相關性。在語言理解任務上,PLUG 以 80.614 的分數(shù)刷新了 CLUE 分類榜單記錄;在語言生成任務上,PLUG 多項應用數(shù)據(jù)較業(yè)內(nèi)最優(yōu)水平提升了 8% 以上。
4 月 19 日,PLUG 刷新 CLUE 分類榜單紀錄,排名僅次于「人類」。
據(jù)了解,PLUG 采用了 1TB 以上高質量中文文本訓練數(shù)據(jù),涵蓋新聞、小說、詩歌、問答等廣泛類型及領域,其模型訓練依托了阿里云 EFLOPS 高性能 AI 計算集群。接下來,PLUG 將擴大參數(shù)規(guī)模至 2000 億級,并進一步提升文本生成質量。在超大規(guī)模預訓練模型領域,除了以中文為核心的 PLUG 外,達摩院、阿里云計算平臺團隊還聯(lián)合智源研究院、清華大學發(fā)布了面向認知的超大規(guī)模新型預訓練模型「文匯」,以及聯(lián)合清華大學發(fā)布了超大規(guī)模多模態(tài)預訓練模型「M6」。此外,達摩院宣布近期將開源阿里巴巴語言模型體系部分重要模型。阿里達摩院語言技術實驗室負責人司羅表示:「達摩院 NLP 團隊將進一步攻克 NLP 領域科研難題,完善中文及跨語言人工智能基礎設施,讓 AI 沒有難懂的語言,并探索通用人工智能之路。」270 億參數(shù)、1TB + 訓練數(shù)據(jù),全球最大中文預訓練模型 PLUGPLUG 超大規(guī)模預訓練中文理解 & 生成統(tǒng)一模型,是目前中文社區(qū)最大規(guī)模的純文本預訓練語言模型,集語言理解與生成能力于一身。旨在通過超大模型的能力,大幅度提升中文 NLP 在各大任務的表現(xiàn),其性能超越人類。相較于 Open AI 的 GPT-3 等其他大規(guī)模生成模型,PLUG 具備以下獨特優(yōu)勢:PLUG 是目前中文社區(qū)最大規(guī)模的純文本預訓練語言模型;
PLUG 集語言理解與生成能力于一身,在語言理解(NLU)任務上,以 80.614 的得分刷新了 Chinese GLUE 分類榜單的新記錄排名第一;在語言生成(NLG)任務上,在多項業(yè)務數(shù)據(jù)上較 SOTA 平均提升 8% 以上;
PLUG 可為目標任務做針對性優(yōu)化,通過利用下游訓練數(shù)據(jù)微調模型使其在特定任務上生成質量達到最優(yōu),彌補之前其它大規(guī)模生成模型 few-shot inference 的生成效果不足,可應用于實際生成任務上;
PLUG 采用了大規(guī)模的高質量中文訓練數(shù)據(jù)(1TB 以上),同時,PLUG 采用 encoder-decoder 的雙向建模方式,因此,在傳統(tǒng)的 zero-shot 生成的表現(xiàn)上,無論是生成的多樣性、領域的廣泛程度,還是生成長文本的表現(xiàn),較此前的模型均有明顯的優(yōu)勢。
目前,PLUG 已經(jīng)開放了體驗功能供學術領域試用。測試地址:https://nlp.aliyun.com/portal#/BigText_chinese此前,達摩院機器智能實驗室自研的 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 均在各自領域取得了 SOTA 的效果。簡單來說,StructBERT 模型通過加強句子級別(Sentence Structural Objective)和詞級別(Word Structural Objective)兩個層次的訓練目標對語言結構信息的建模,加強模型對語法的學習能力。PALM 模型則結合了 Autoencoding 和 Autoregression 兩種預訓練方式,引入 Masked LM 目標來提升 encoder 的表征能力,同時通過預測文本后半部分來提升 decoder 的生成能力。此次大規(guī)模語言模型的訓練,達摩院團隊汲取二者所長,提出了一個簡單的框架,用來進行 NLU&NLG 聯(lián)合訓練。相比于 GPT 系列模型,該大規(guī)模生成模型以 StructBERT 作為 encoder,具有很強的輸入文本雙向理解能力,從而可以生成和輸入更相關的內(nèi)容。首先在第一階段,達摩院團隊訓練了一個 24 layers/8192 hidden size 的標準 StructBERT 模型作為 encoder。這個過程共計訓練了 300B tokens 的訓練數(shù)據(jù),規(guī)模與 GPT-3 的訓練規(guī)模相當;
在第二階段,達摩院團隊將這個 encoder 用于生成模型的初始化,并外掛了一個 6 layers / 8192 hidden size 的 decoder,在訓練生成模型的過程中,在 encoder 端和 decoder 端均隨機確定長度 [32, 512] 進行數(shù)據(jù)采樣,確保適應下游廣泛的生成任務。這一階段共計訓練了 100B tokens 的訓練數(shù)據(jù),前 90% 的訓練中,團隊保留了 Masked LM 任務以保持模型的 NLU 能力,后 10% 的訓練中,去掉 MLM 任務進行微調,以使得生成的 PPL 降到更低,能取得更好的生成效果。
PLUG 生成模型有著很強的長文本生成和建模能力,相比于 GPT 系列模型的單向建模,PLUG 對輸入的理解是雙向建模的,因此能夠在給定小段輸入的條件下,生成和輸入內(nèi)容相關且信息量豐富的長文本。
在小說散文續(xù)寫、詩歌生成、自由創(chuàng)作等多場景下的生成結果顯示出了 PLUG 模型的強大性能。此前,阿里巴巴深度語言模型體系已經(jīng)覆蓋了多模態(tài)語言模型 StructVBERT、多語言模型 VECO、生成式語言模型 PALM 等 6 大自研模型,并登頂了多個國際賽事和榜單。達摩院此次發(fā)布的 PLUG 模型,為阿里巴巴深度語言模型體系又增添了一員大將。? THE END
轉載請聯(lián)系原公眾號獲得授權
投稿或尋求報道:[email protected]