91牛服务入口,千百撸日夜夜,亚洲三区视频,黄色高清网站,国产精品v欧美精品v日韩精品 ,青草久久视频,葵司视频在线观看,亚洲高清视频在线

通義千問-VL大規(guī)模視覺語言模型

聯(lián)合創(chuàng)作 · 2023-09-26 00:04

通義千問-VL (Qwen-VL)是阿里云研發(fā)的大規(guī)模視覺語言模型（Large Vision Language Model, LVLM）。Qwen-VL 可以以圖像、文本、檢測框作為輸入，并以文本和檢測框作為輸出。

Qwen-VL 系列模型的特點包括：

強大的性能：在四大類多模態(tài)任務(wù)的標(biāo)準(zhǔn)英文測評中（Zero-shot Captioning/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；
多語言對話模型：天然支持英文、中文等多語言對話，端到端支持圖片里中英雙語的長文本識別；
多圖交錯對話：支持多圖輸入和比較，指定圖片問答，多圖文學(xué)創(chuàng)作等；
首個支持中文開放域定位的通用模型：通過中文開放域語言表達進行檢測框標(biāo)注；
細粒度識別和理解：相比于目前其它開源LVLM使用的224分辨率，Qwen-VL是首個開源的448分辨率的LVLM模型。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標(biāo)注。

目前提供了 Qwen-VL 系列的兩個模型：

Qwen-VL: Qwen-VL 以 Qwen-7B 的預(yù)訓(xùn)練模型作為語言模型的初始化，并以Openclip ViT-bigG作為視覺編碼器的初始化，中間加入單層隨機初始化的 cross-attention，經(jīng)過約1.5B的圖文數(shù)據(jù)訓(xùn)練得到。最終圖像輸入分辨率為448。
Qwen-VL-Chat: 在 Qwen-VL 的基礎(chǔ)上，我們使用對齊機制打造了基于大語言模型的視覺AI助手Qwen-VL-Chat，它支持更靈活的交互方式，包括多圖、多輪問答、創(chuàng)作等能力。

相較于此前的 VL 模型，Qwen-VL 除了具備基本的圖文識別、描述、問答及對話能力之外，還新增了視覺定位、圖像中文字理解等能力。

Qwen-VL 以通義千問 70 億參數(shù)模型 Qwen-7B 為基座語言模型研發(fā)，支持圖文輸入，具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中，Qwen-VL 取得了遠超同等規(guī)模通用模型的表現(xiàn)。

點贊

舉報