VisualGLM-6B多模態(tài)對(duì)話語(yǔ)言模型
VisualGLM-6B 是一個(gè)開源的,支持圖像、中文和英文的多模態(tài)對(duì)話語(yǔ)言模型,語(yǔ)言模型基于 ChatGLM-6B,具有 62 億參數(shù);圖像部分通過(guò)訓(xùn)練 BLIP2-Qformer 構(gòu)建起視覺模型與語(yǔ)言模型的橋梁,整體模型共 78 億參數(shù)。
VisualGLM-6B 依靠來(lái)自于 CogView 數(shù)據(jù)集的 30M 高質(zhì)量中文圖文對(duì),與 300M 經(jīng)過(guò)篩選的英文圖文對(duì)進(jìn)行預(yù)訓(xùn)練,中英文權(quán)重相同。該訓(xùn)練方式較好地將視覺信息對(duì)齊到 ChatGLM 的語(yǔ)義空間;之后的微調(diào)階段,模型在長(zhǎng)視覺問答數(shù)據(jù)上訓(xùn)練,以生成符合人類偏好的答案。
評(píng)論
圖片
表情
