<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Shikra:新一代多模態(tài)大語(yǔ)言模型,理解指向,說(shuō)出坐標(biāo)

          共 8225字,需瀏覽 17分鐘

           ·

          2023-07-18 00:34

          本文來(lái)源??arXiv每日學(xué)術(shù)速遞 侵刪


          臥剿,6萬(wàn)字!30個(gè)方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完


          ?Shikra:解鎖多模態(tài)語(yǔ)言模型參考對(duì)話的魔法 ??


          8406d5e00f336f7d2c61ac9675873908.webp

          Shikra和用戶的對(duì)話案例


          • 在人類的日常交流中,經(jīng)常會(huì)關(guān)注場(chǎng)景中的不同區(qū)域或物體, 雙方 都可以通過(guò)說(shuō)話并 指向 這些區(qū)域來(lái)進(jìn)行高效的信息交換。我們將這種對(duì)話模式稱為 參考對(duì)話(Referential Dialogue)??

          • 如果多模態(tài)大語(yǔ)言模型(MLLM) 擅長(zhǎng)這項(xiàng)技能,它將帶來(lái)許多令人興奮的應(yīng)用。例如,將其應(yīng)用到 Apple Vision Pro 等混合現(xiàn)實(shí) (XR) 眼鏡中,用戶可以使用 視線注視 指示任何內(nèi)容與AI對(duì)話。同時(shí)AI也可以通過(guò) 高亮等形式來(lái)提示某些區(qū)域 ,實(shí)現(xiàn)與用戶的高效交流;

          • 本工作提出了? Shikra ? 模型,賦予了MLLM這樣的參考對(duì)話的魔法,既可以理解 位置輸入 ,也可以產(chǎn)生 位置輸出



          bf8d7579e2953412435981b7fabf21cd.webp

          ??論文鏈接:http://arxiv.org/abs/2306.15195

          ??代碼鏈接:https://github.com/shikras/shikra?


          01


          工作亮點(diǎn)


          1. Shikra?能夠理解用戶 輸入 的 Point/Box,并支持 Point/Box 的 輸出 ,可以和人類無(wú)縫地進(jìn)行參考對(duì)話;
          2. Shikra?設(shè)計(jì)簡(jiǎn)單統(tǒng)一,采用非拼接式設(shè)計(jì),直接使用 數(shù)字 表示坐標(biāo), 不需要 額外的位置編碼器、前/后目標(biāo)檢測(cè)器或外部插件模塊,甚至 不需要 額外的詞匯表。



          02


          模型效果


          bc3b7781520296c6600ea5b59788b240.webp


          比如上圖,用戶指著右邊的女生問(wèn) Shikra:“這個(gè)人[bbox]的感受如何?”?Shikra?回復(fù)說(shuō):“這個(gè)人[bbox]感覺到驚喜和高興。我們可以根據(jù):她用手[bbox]捂著臉,看著這個(gè)男人[bbox]送她一束花[bbox]推斷出來(lái)”?Shikra?不僅推理正確,并且在提到關(guān)鍵視覺線索的時(shí)候還會(huì)提供在圖上的坐標(biāo),這讓溝通更加準(zhǔn)確高效;


          9125f6d9f171d19b0a2b7d47d601c8b7.webp


          我們來(lái)看來(lái)自GPT4論文中的網(wǎng)紅圖片。相比GPT4的回復(fù),Shikra?的回復(fù)不光 Get 到了圖片的詼諧之處,還更確切指出了每個(gè)需要被關(guān)注的目標(biāo)的具體位置。作為對(duì)比,下面是GPT4的回答:

          60302300cc8ee0a041b157dc4c2baa24.webp


          我們?cè)谙旅嬖僬故編讉€(gè)例子,更多的例子可以查閱 Paper


          983ec9eeb18740e3ef36adb4924b2ce1.webp比如?Shikra?會(huì)拼拼圖,知道用戶指出的拼圖塊應(yīng)該拼到哪里。


          ff7650ecbe0a9367e86758101cb5ab2a.webp

          用戶指出兩個(gè)區(qū)域,?Shikra?會(huì)分辨出哪一個(gè)是鏡像,哪一個(gè)是真身。

          1a35cd84e10e7eaa00ed9b7f42f8d590.webp

          問(wèn)?Shikra?這是不是兔兔??,她也不會(huì)上當(dāng),會(huì)指出這是一個(gè)小柴,只是穿著帶著兔兔耳朵的衣服,在反駁時(shí),Shikra?會(huì)一個(gè)一個(gè)指給你看290698e3f61d9c0d16be058ad1d7e02e.webp

          03


          Box/Point 都行


          對(duì)于輸入輸出模型還支持使用點(diǎn)(Point) 的形式,無(wú)論是電腦上的鼠標(biāo)點(diǎn)擊,還是Vision Pro的注視點(diǎn),都用起來(lái)更加方便。下面是在 PointQA數(shù)據(jù)集上的例子:

          5548cd54bb8e93445e53c1df5a1c0378.webp

          當(dāng)然?Shikra?也支持Point的輸出,比如Visual-7W中的例子,從諸多框中選擇一個(gè)作為答案:
          126e8ef9a9c88a3cd5a113cc25bf3861.webp


          04


          傳統(tǒng)任務(wù)


          參考對(duì)話(RD)是很多視覺-語(yǔ)言(VL)跨模態(tài)任務(wù)的超集,因此?Shikra?天然可以適配到不同的任務(wù)上,比如下面的表達(dá)式生成任務(wù)(REG) 要為用戶指定的區(qū)域生成圖片中圖一無(wú)二的描述:

          d12fc9f3810c033031933459a056d21d.webp

          這難不倒?Shikra,她正確地說(shuō)出了這是一個(gè)坐著三個(gè)人的長(zhǎng)凳。 另外我們可以看下VL領(lǐng)域經(jīng)典的表達(dá)式定位任務(wù)(REC),要求模型定位出用戶給出的表達(dá)式:

          b253198677facb07baee124fde8505dc.webp

          93d5aac85c343f708de28267b4aaecba.webp

          定位出背景中的人,定位出風(fēng)箏的線,都沒有問(wèn)題。示例看的不過(guò)癮?可以看看的在REC上的定量指標(biāo)Shikra?取得了很不錯(cuò)的成績(jī):

          75e7e0dceb13b48be5ace14e5a52db7b.webp

          Shikra?也有一定的OCR能力,盡管沒有專門在相關(guān)的數(shù)據(jù)上訓(xùn)練:

          3dc10932867b2f72640bb98a7bb0a4e0.webp

          還有本工作定義的任務(wù),Spotting Captioning 任務(wù),模型需要邊描述圖片邊寫出提到的物體的坐標(biāo),效果就像這樣:

          417d75be9b622be6400b13358e1dc1ad.webp

          在最經(jīng)典的 VQA 和 Image Captioning 的定量評(píng)價(jià)上,Shikra也取得了 promising 的結(jié)果:

          23c47705a1da8d3f204e24cdd25be212.webp

          在最新的POPE評(píng)價(jià)指標(biāo)上,Shikra?也表現(xiàn)不錯(cuò),取得和InstrcutBLIP相當(dāng)?shù)慕Y(jié)果,并遠(yuǎn)超近期其他MLLMs:

          c84923d6e13d79cca74f0e2ec98a10e3.webp


          05


          Shikra 原理


          模型架構(gòu)采用CLIP ViT-L/14 作為視覺主干,Vicuna-7/13B 作為語(yǔ)言基模型,使用一層線性映射連接CLIP和Vicuna的特征空間。

          Shikra? 直接使用自然語(yǔ)言中的 數(shù)字 來(lái)表示物體位置 ,使用[xmin, ymin, xmax, ymax] 表示邊界框,使用[xcenter, ycenter]表示中心點(diǎn),xy 坐標(biāo)根據(jù)圖像大小進(jìn)行 歸一化 每個(gè)數(shù)字默認(rèn)保留 3 位小數(shù) 這些坐標(biāo)可以出現(xiàn)在模型的輸入和輸出序列中的任何位置,記錄坐標(biāo)的方括號(hào)也自然地出現(xiàn)在句子中。在論文中,本工作也嘗試使用其他方式進(jìn)行數(shù)值表示,并做了定量的對(duì)比實(shí)驗(yàn),感興趣的朋友可以查看論文。


          06


          新思維鏈形式


          思想鏈(CoT),旨在通過(guò)在最終答案前添加推理過(guò)程以幫助LLM回答復(fù)雜的QA問(wèn)題。這一技術(shù)已被廣泛應(yīng)用到自然語(yǔ)言處理的各種任務(wù)中。目前的MLLM還存在嚴(yán)重的幻視問(wèn)題,CoT也經(jīng)常會(huì)產(chǎn)生幻覺,影響最終答案的正確性。通過(guò)在合成數(shù)據(jù)集CLEVR上的實(shí)驗(yàn),本工作發(fā)現(xiàn),使用帶有位置信息的CoT時(shí),可以提升模型回答的準(zhǔn)確率。

          672312edc37d59769159cc64d68889a8.webp

          如果只用純文本的CoT,模型性能反而會(huì)降低,甚至不如不用CoT的結(jié)果。但是在CoT中包含坐標(biāo)信息,性能得到了提升,我們將這種新的 CoT 方式稱為? Grounding-CoT(GCoT) 。不過(guò)該探究仍然比較初步,仍是值得去論證的方向。

          07


          總結(jié)


          本工作介紹了一種名為?Shikra?的簡(jiǎn)單且統(tǒng)一的多模態(tài)大語(yǔ)言模型,以自然語(yǔ)言的方式理解與輸出空間坐標(biāo),為MLLM增加了類似于人類的參考對(duì)話能力,無(wú)需引入額外的詞匯表、位置編碼器或外部插件; 代碼、模型、數(shù)據(jù)均開源在: https://github.com/shikras/shikra?


          關(guān)注公眾號(hào)【機(jī)器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來(lái)讀

          深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀

          深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法!?

          經(jīng)典GAN不得不讀:StyleGAN

          70a11d08cebb86d315cd30c578205603.webp? 戳我,查看GAN的系列專輯~! 一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!
          最新最全100篇匯總!生成擴(kuò)散模型Diffusion Models ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
          CVPR 2022 | 25+方向、最新50篇GAN論文
          ?ICCV 2021 | 35個(gè)主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理

          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成

          附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

          《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


          《禮記·學(xué)記》有云:獨(dú)學(xué)而無(wú)友,則孤陋而寡聞

          點(diǎn)擊 一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒! ,加入? AI生成創(chuàng)作與計(jì)算機(jī)視覺 ?知識(shí)星球!

          瀏覽 85
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  波多野结衣国产42区 | 国产无码AV毛片 | 女人18片毛片90视频 | 好屌淫视频 | 亚洲人妻精品导航 |