Shikra:新一代多模態(tài)大語(yǔ)言模型,理解指向,說(shuō)出坐標(biāo)
本文來(lái)源??arXiv每日學(xué)術(shù)速遞 侵刪
臥剿,6萬(wàn)字!30個(gè)方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完
“
?Shikra:解鎖多模態(tài)語(yǔ)言模型參考對(duì)話的魔法 ?? ”

Shikra和用戶的對(duì)話案例
-
在人類的日常交流中,經(jīng)常會(huì)關(guān)注場(chǎng)景中的不同區(qū)域或物體, 雙方 都可以通過(guò)說(shuō)話并 指向 這些區(qū)域來(lái)進(jìn)行高效的信息交換。我們將這種對(duì)話模式稱為 參考對(duì)話(Referential Dialogue)?? ;
-
如果多模態(tài)大語(yǔ)言模型(MLLM) 擅長(zhǎng)這項(xiàng)技能,它將帶來(lái)許多令人興奮的應(yīng)用。例如,將其應(yīng)用到 Apple Vision Pro 等混合現(xiàn)實(shí) (XR) 眼鏡中,用戶可以使用 視線注視 指示任何內(nèi)容與AI對(duì)話。同時(shí)AI也可以通過(guò) 高亮等形式來(lái)提示某些區(qū)域 ,實(shí)現(xiàn)與用戶的高效交流;
-
本工作提出了? Shikra ? 模型,賦予了MLLM這樣的參考對(duì)話的魔法,既可以理解 位置輸入 ,也可以產(chǎn)生 位置輸出 。

??論文鏈接:http://arxiv.org/abs/2306.15195
??代碼鏈接:https://github.com/shikras/shikra?
01
—
工作亮點(diǎn)
- Shikra?能夠理解用戶 輸入 的 Point/Box,并支持 Point/Box 的 輸出 ,可以和人類無(wú)縫地進(jìn)行參考對(duì)話;
- Shikra?設(shè)計(jì)簡(jiǎn)單統(tǒng)一,采用非拼接式設(shè)計(jì),直接使用 數(shù)字 表示坐標(biāo), 不需要 額外的位置編碼器、前/后目標(biāo)檢測(cè)器或外部插件模塊,甚至 不需要 額外的詞匯表。
02
—
模型效果

比如上圖,用戶指著右邊的女生問(wèn) Shikra:“這個(gè)人[bbox]的感受如何?”?Shikra?回復(fù)說(shuō):“這個(gè)人[bbox]感覺到驚喜和高興。我們可以根據(jù):她用手[bbox]捂著臉,看著這個(gè)男人[bbox]送她一束花[bbox]推斷出來(lái)。”?Shikra?不僅推理正確,并且在提到關(guān)鍵視覺線索的時(shí)候還會(huì)提供在圖上的坐標(biāo),這讓溝通更加準(zhǔn)確高效;

我們來(lái)看來(lái)自GPT4論文中的網(wǎng)紅圖片。相比GPT4的回復(fù),Shikra?的回復(fù)不光 Get 到了圖片的詼諧之處,還更確切地指出了每個(gè)需要被關(guān)注的目標(biāo)的具體位置。作為對(duì)比,下面是GPT4的回答:

我們?cè)谙旅嬖僬故編讉€(gè)例子,更多的例子可以查閱 Paper。
比如?Shikra?會(huì)拼拼圖,知道用戶指出的拼圖塊應(yīng)該拼到哪里。


03
—
Box/Point 都行


04
—
傳統(tǒng)任務(wù)



定位出背景中的人,定位出風(fēng)箏的線,都沒有問(wèn)題。示例看的不過(guò)癮?可以看看的在REC上的定量指標(biāo),Shikra?取得了很不錯(cuò)的成績(jī):

Shikra?也有一定的OCR能力,盡管沒有專門在相關(guān)的數(shù)據(jù)上訓(xùn)練:

還有本工作定義的新任務(wù),Spotting Captioning 任務(wù),模型需要邊描述圖片邊寫出提到的物體的坐標(biāo),效果就像這樣:

在最經(jīng)典的 VQA 和 Image Captioning 的定量評(píng)價(jià)上,Shikra也取得了 promising 的結(jié)果:


05
—
Shikra 原理
模型架構(gòu)采用CLIP ViT-L/14 作為視覺主干,Vicuna-7/13B 作為語(yǔ)言基模型,使用一層線性映射連接CLIP和Vicuna的特征空間。
Shikra? 直接使用自然語(yǔ)言中的 數(shù)字 來(lái)表示物體位置 ,使用[xmin, ymin, xmax, ymax] 表示邊界框,使用[xcenter, ycenter]表示中心點(diǎn),xy 坐標(biāo)根據(jù)圖像大小進(jìn)行 歸一化 , 每個(gè)數(shù)字默認(rèn)保留 3 位小數(shù) , 這些坐標(biāo)可以出現(xiàn)在模型的輸入和輸出序列中的任何位置,記錄坐標(biāo)的方括號(hào)也自然地出現(xiàn)在句子中。在論文中,本工作也嘗試使用其他方式進(jìn)行數(shù)值表示,并做了定量的對(duì)比實(shí)驗(yàn),感興趣的朋友可以查看論文。
06
—
新思維鏈形式
思想鏈(CoT),旨在通過(guò)在最終答案前添加推理過(guò)程以幫助LLM回答復(fù)雜的QA問(wèn)題。這一技術(shù)已被廣泛應(yīng)用到自然語(yǔ)言處理的各種任務(wù)中。目前的MLLM還存在嚴(yán)重的幻視問(wèn)題,CoT也經(jīng)常會(huì)產(chǎn)生幻覺,影響最終答案的正確性。通過(guò)在合成數(shù)據(jù)集CLEVR上的實(shí)驗(yàn),本工作發(fā)現(xiàn),使用帶有位置信息的CoT時(shí),可以提升模型回答的準(zhǔn)確率。

如果只用純文本的CoT,模型性能反而會(huì)降低,甚至不如不用CoT的結(jié)果。但是在CoT中包含坐標(biāo)信息,性能得到了提升,我們將這種新的 CoT 方式稱為? Grounding-CoT(GCoT) 。不過(guò)該探究仍然比較初步,仍是值得去論證的方向。
07
—
總結(jié)
關(guān)注公眾號(hào)【機(jī)器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來(lái)讀
深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀
深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法!?
?
戳我,查看GAN的系列專輯~!
一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!
最新最全100篇匯總!生成擴(kuò)散模型Diffusion Models ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
CVPR 2022 | 25+方向、最新50篇GAN論文
?ICCV 2021 | 35個(gè)主題GAN論文匯總
超110篇!CVPR 2021最全GAN論文梳理
超100篇!CVPR 2020最全GAN論文梳理
附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享
《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
《禮記·學(xué)記》有云:獨(dú)學(xué)而無(wú)友,則孤陋而寡聞
點(diǎn)擊 一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒! ,加入? AI生成創(chuàng)作與計(jì)算機(jī)視覺 ?知識(shí)星球!
