通義千問-VL大規(guī)模視覺語言模型
通義千問-VL (Qwen-VL)是阿里云研發(fā)的大規(guī)模視覺語言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以圖像、文本、檢測框作為輸入,并以文本和檢測框作為輸出。
Qwen-VL 系列模型的特點包括:
- 強大的性能:在四大類多模態(tài)任務(wù)的標(biāo)準(zhǔn)英文測評中(Zero-shot Captioning/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;
- 多語言對話模型:天然支持英文、中文等多語言對話,端到端支持圖片里中英雙語的長文本識別;
- 多圖交錯對話:支持多圖輸入和比較,指定圖片問答,多圖文學(xué)創(chuàng)作等;
- 首個支持中文開放域定位的通用模型:通過中文開放域語言表達進行檢測框標(biāo)注;
- 細粒度識別和理解:相比于目前其它開源LVLM使用的224分辨率,Qwen-VL是首個開源的448分辨率的LVLM模型。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標(biāo)注。
目前提供了 Qwen-VL 系列的兩個模型:
- Qwen-VL: Qwen-VL 以 Qwen-7B 的預(yù)訓(xùn)練模型作為語言模型的初始化,并以Openclip ViT-bigG作為視覺編碼器的初始化,中間加入單層隨機初始化的 cross-attention,經(jīng)過約1.5B的圖文數(shù)據(jù)訓(xùn)練得到。最終圖像輸入分辨率為448。
- Qwen-VL-Chat: 在 Qwen-VL 的基礎(chǔ)上,我們使用對齊機制打造了基于大語言模型的視覺AI助手Qwen-VL-Chat,它支持更靈活的交互方式,包括多圖、多輪問答、創(chuàng)作等能力。
相較于此前的 VL 模型,Qwen-VL 除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字理解等能力。
Qwen-VL 以通義千問 70 億參數(shù)模型 Qwen-7B 為基座語言模型研發(fā),支持圖文輸入,具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中,Qwen-VL 取得了遠超同等規(guī)模通用模型的表現(xiàn)。
評論
圖片
表情
