悟道雙語多模態(tài)大語言模型
“悟道”是雙語多模態(tài)預(yù)訓練模型,規(guī)模達到 1.75 萬億參數(shù)。項目現(xiàn)有 7 個開源模型成果,模型參數(shù)文件需到悟道平臺進行下載申請。
圖文類
-
CogView參數(shù)量為40億,模型可實現(xiàn)文本生成圖像,經(jīng)過微調(diào)后可實現(xiàn)國畫、油畫、水彩畫、輪廓畫等圖像生成。目前在公認MS COCO文生圖任務(wù)上取得了超過OpenAI DALL·E的成績,獲得世界第一。
-
BriVL (Bridging Vision and Language Model) 是首個中文通用圖文多模態(tài)大規(guī)模預(yù)訓練模型。BriVL模型在圖文檢索任務(wù)上有著優(yōu)異的效果,超過了同期其他常見的多模態(tài)預(yù)訓練模型(例如UNITER、CLIP)。
文本類
-
GLM是以英文為核心的預(yù)訓練語言模型系列,基于新的預(yù)訓練范式實現(xiàn)單一模型在語言理解和生成任務(wù)方面取得了最佳結(jié)果,并且超過了在相同數(shù)據(jù)量進行訓練的常見預(yù)訓練模型(例如BERT,RoBERTa和T5),目前已開源1.1億、3.35億、4.10億、5.15億、100億參數(shù)規(guī)模的模型。
-
CPM系列模型是兼顧理解與生成能力的預(yù)訓練語言模型系列,涵蓋中文、中英雙語多類模型,目前已開源26億、110億和1980億參數(shù)規(guī)模的模型。
-
Transformer-XL是以中文為核心的預(yù)訓練語言生成模型,參數(shù)規(guī)模為29億,目前可支持包括文章生成、智能作詩、評論/摘要生成等主流NLG任務(wù)。
-
EVA是一個開放領(lǐng)域的中文對話預(yù)訓練模型,是目前最大的漢語對話模型,參數(shù)量達到28億,并且在包括不同領(lǐng)域14億漢語的悟道對話數(shù)據(jù)集(WDC)上進行預(yù)訓練。
-
Lawformer是世界首創(chuàng)法律領(lǐng)域長文本中文預(yù)訓練模型,參數(shù)規(guī)模達到1億。
蛋白質(zhì)類
-
ProtTrans是國內(nèi)最大的蛋白質(zhì)預(yù)訓練模型,參數(shù)總量達到30億。
