<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Qwen-VL:最新國產(chǎn)多模態(tài)大模型,基于通義千問-7B

          共 3039字,需瀏覽 7分鐘

           ·

          2023-08-30 17:49

          魚羊 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI

          阿里開源大模型,又上新了~

          繼通義千問-7B(Qwen-7B)之后,阿里云又推出了大規(guī)模視覺語言模型Qwen-VL,并且一上線就直接開源。

          具體來說,Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型,支持圖像、文本、檢測(cè)框等多種輸入,并且在文本之外,也支持檢測(cè)框的輸出。

          舉個(gè)??,我們輸入一張阿尼亞的圖片,通過問答的形式,Qwen-VL-Chat既能概括圖片內(nèi)容,也能定位到圖片中的阿尼亞。

          測(cè)試任務(wù)中,Qwen-VL展現(xiàn)出了“六邊形戰(zhàn)士”的實(shí)力,在四大類多模態(tài)任務(wù)的標(biāo)準(zhǔn)英文測(cè)評(píng)中(Zero-shot Caption/VQA/DocVQA/Grounding)上,都取得了SOTA。

          開源消息一出,就引發(fā)了不少關(guān)注。

          具體表現(xiàn)如何,咱們一起來看看~

          首個(gè)支持中文開放域定位的通用模型

          先來整體看一下Qwen-VL系列模型的特點(diǎn):

          • 多語言對(duì)話:支持多語言對(duì)話,端到端支持圖片里中英雙語的長文本識(shí)別;

          • 多圖交錯(cuò)對(duì)話:支持多圖輸入和比較,指定圖片問答,多圖文學(xué)創(chuàng)作等;

          • 首個(gè)支持中文開放域定位的通用模型:通過中文開放域語言表達(dá)進(jìn)行檢測(cè)框標(biāo)注,也就是能在畫面中精準(zhǔn)地找到目標(biāo)物體;

          • 細(xì)粒度識(shí)別和理解:相比于目前其它開源LVLM(大規(guī)模視覺語言模型)使用的224分辨率,Qwen-VL是首個(gè)開源的448分辨率LVLM模型。更高分辨率可以提升細(xì)粒度的文字識(shí)別、文檔問答和檢測(cè)框標(biāo)注。

          按場(chǎng)景來說,Qwen-VL可以用于知識(shí)問答、圖像問答、文檔問答、細(xì)粒度視覺定位等場(chǎng)景。

          比如,有一位看不懂中文的外國友人去醫(yī)院看病,對(duì)著導(dǎo)覽圖一個(gè)頭兩個(gè)大,不知道怎么去往對(duì)應(yīng)科室,就可以直接把圖和問題丟給Qwen-VL,讓它根據(jù)圖片信息擔(dān)當(dāng)翻譯。

          再來測(cè)試一下多圖輸入和比較:

          雖然沒認(rèn)出來阿尼亞,不過情緒判斷確實(shí)挺準(zhǔn)確的(手動(dòng)狗頭)。

          視覺定位能力方面,即使圖片非常復(fù)雜人物繁多,Qwen-VL也能精準(zhǔn)地根據(jù)要求找出綠巨人和蜘蛛俠。

          技術(shù)細(xì)節(jié)上,Qwen-VL是以Qwen-7B為基座語言模型,在模型架構(gòu)上引入了視覺編碼器ViT,并通過位置感知的視覺語言適配器連接二者,使得模型支持視覺信號(hào)輸入。

          具體的訓(xùn)練過程分為三步:

          • 預(yù)訓(xùn)練:只優(yōu)化視覺編碼器和視覺語言適配器,凍結(jié)語言模型。使用大規(guī)模圖像-文本配對(duì)數(shù)據(jù),輸入圖像分辨率為224x224。

          • 多任務(wù)預(yù)訓(xùn)練:引入更高分辨率(448x448)的多任務(wù)視覺語言數(shù)據(jù),如VQA、文本VQA、指稱理解等,進(jìn)行多任務(wù)聯(lián)合預(yù)訓(xùn)練。

          • 監(jiān)督微調(diào):凍結(jié)視覺編碼器,優(yōu)化語言模型和適配器。使用對(duì)話交互數(shù)據(jù)進(jìn)行提示調(diào)優(yōu),得到最終的帶交互能力的Qwen-VL-Chat模型。

          研究人員在四大類多模態(tài)任務(wù)(Zero-shot Caption/VQA/DocVQA/Grounding)的標(biāo)準(zhǔn)英文測(cè)評(píng)中測(cè)試了Qwen-VL。

          結(jié)果顯示,Qwen-VL取得了同等尺寸開源LVLM的最好效果。

          另外,研究人員構(gòu)建了一套基于GPT-4打分機(jī)制的測(cè)試集TouchStone。

          在這一對(duì)比測(cè)試中,Qwen-VL-Chat取得了SOTA。

          如果你對(duì)Qwen-VL感興趣,現(xiàn)在在魔搭社區(qū)和huggingface上都有demo可以直接試玩,鏈接文末奉上~

          Qwen-VL支持研究人員和開發(fā)者進(jìn)行二次開發(fā),也允許商用,不過需要注意的是,商用的話需要先填寫問卷申請(qǐng)。

          項(xiàng)目鏈接:
          https://modelscope.cn/models/qwen/Qwen-VL/summary
          https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
          https://huggingface.co/Qwen/Qwen-VL
          https://huggingface.co/Qwen/Qwen-VL-Chat
          https://github.com/QwenLM/Qwen-VL

          論文地址:
          https://arxiv.org/abs/2308.12966


          關(guān)注公眾號(hào)【機(jī)器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來讀

          臥剿,6萬字!30個(gè)方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完

          深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀

          深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法! 

          經(jīng)典GAN不得不讀:StyleGAN

           戳我,查看GAN的系列專輯~!
          一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!
          最新最全100篇匯總!生成擴(kuò)散模型Diffusion Models
          ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
          CVPR 2022 | 25+方向、最新50篇GAN論文
           ICCV 2021 | 35個(gè)主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理

          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成

          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

          《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


          《禮記·學(xué)記》有云:獨(dú)學(xué)而無友,則孤陋而寡聞

          點(diǎn)擊一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!,加入 AI生成創(chuàng)作與計(jì)算機(jī)視覺 知識(shí)星球!

          瀏覽 177
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品999www | 国产精品一级淫荡精品录像 | 精品在线观看视频 | 日韩V高清| 狗爷寒冷夜城中村150 |