<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多模態(tài)模型GILL:生成+理解,CMU華人博士新作

          共 4720字,需瀏覽 10分鐘

           ·

          2023-08-30 17:54




          本文  新智元  編輯:桃子
          【新智元導(dǎo)讀】CMU全新多模態(tài)模型GILL,能夠生成圖像、檢索圖像,還能進行多模態(tài)對話。

          近日,來自CMU的研究人員全新提出了一種多模態(tài)模型GILL。

          論文地址:https://arxiv.org/pdf/2305.17216.pdf
          它可以將文本或圖像作為prompt,完成多模態(tài)對話。具體來說,可以實現(xiàn)生成文本、檢索圖像、生成新圖像。
          甚至,GILL還能從預(yù)先指定的數(shù)據(jù)集中進行圖像檢索,并在推理時決定是檢索還是生成。
          值得一提的是,通過嵌入空間之間的映射,CMU團隊將凍結(jié)的大模型,與預(yù)訓(xùn)練的文生圖模型相結(jié)合。
          這樣一來,GILL就能夠?qū)崿F(xiàn)廣泛的應(yīng)用,并且在多個文本到圖像任務(wù)中優(yōu)于基于Stable Diffusion等生成模型。
          先來看一波演示。

          演示


          GILL能夠?qū)LM預(yù)訓(xùn)練和凍結(jié)能力推廣到許多不同任務(wù)中。具體包括:

          https://huggingface.co/spaces/jykoh/gill
          多模態(tài)對話生成
          你可以提示GILL生成類似對話的文本,可以做到圖像檢索、圖像生成,甚至多模態(tài)對話。
          比如,你可以問它如何做拉面更有營養(yǎng)?GILL給出了加入蔬菜的建議。
          我想要一款紋身。GILL瞬間就給你生成了符合要求的圖案。
          如何在市場上宣傳這些蛋糕?GILL建議用一個簡單的標(biāo)牌,上面附上企業(yè)名稱和小蛋糕的圖片。
          從視覺故事生成圖像
          另外,GILL還可以根據(jù)交錯的圖像和文本輸入來生成更相關(guān)的圖像。

          多模態(tài)大模型GILL


          GILL的全稱是:Generating Images with Large Language Models,即用大型語言模型生成圖像。
          它能夠處理任意交錯的圖像和文本輸入,以生成文本、檢索圖像,和生成新圖像。
          GILL模型架構(gòu)概覽。通過描述損失進行訓(xùn)練,以學(xué)習(xí)處理圖像(左),并通過圖像檢索和圖像生成損失進行訓(xùn)練,以學(xué)習(xí)生成圖像(右)
          研究表明,盡管2種模型使用完全不同的文本編碼器,但可以有效地將凍結(jié)的純文本LLM的輸出嵌入空間,映射到凍結(jié)文本-圖像生成模型,即Stable Diffusion的嵌入空間。
          與其他需要交錯圖像-文本訓(xùn)練數(shù)據(jù)的方法相比,研究人員通過微調(diào)圖像-描述對上的少量參數(shù)來實現(xiàn)這一點。
          這個方法計算高效,并且不需要在訓(xùn)練時運行圖像生成模型。
          GILL的推理時間過程。該模型接受圖像和文本輸入,并生成與圖像嵌入交錯的文本。在決定是否檢索或生成特定的token集后,并返回適當(dāng)?shù)膱D像輸出
          在推理過程中,模型接受任意交錯的圖像和文本輸入,并產(chǎn)生與圖像嵌入交錯的文本。在決定是檢索還是生成一組特定的標(biāo)記后,它返回適當(dāng)?shù)膱D像輸出(檢索或生成)
          在推理過程中,該模型接收任意交錯的圖像和文本輸入,并生成交錯圖像嵌入的文本。在決定是檢索還是生成一組特定的標(biāo)記后,它會返回相應(yīng)的圖像輸出(檢索或生成)。

          實驗結(jié)果


          上下文圖像生成
          為了測試模型在全新圖像生成的基線方法的能力,研究人員在VIST和VisDial數(shù)據(jù)集上進行了實驗。
          這些數(shù)據(jù)集與之前的研究中使用的數(shù)據(jù)集相同,用于對多模態(tài)文本和圖像上下文條件下的圖像檢索進行基準(zhǔn)測試。
          GILL模型組合了多模態(tài)信息以產(chǎn)生相關(guān)的圖像和文本輸出,性能優(yōu)于僅限于圖像檢索的基線模型。
          評估指標(biāo)
          評估的重點是生成模型處理復(fù)雜語言描述的能力。因此,研究人員計算了衡量生成圖像內(nèi)容相關(guān)性的指標(biāo)。
          這里,有2個指標(biāo)來評估模型:
          1. CLIP相似度:使用CLIP ViT-L圖像編碼器來生成生成圖像和相應(yīng)真實圖像的合并表示,并得出它們的余弦相似度。分?jǐn)?shù)越高表示生成的圖像與真實圖像越相似。
          2.學(xué)習(xí)感知圖像塊相似度(LPIPS):LPIPS評估圖像塊之間的距離。測量真實圖像和生成圖像之間的LPIPS。較低的值表示2個圖像在感知空間中更接近,而較高的值表示2個圖像更不相似。
          從視覺故事生成
          VIST是一個用于順序視覺和語言任務(wù)的數(shù)據(jù)集,其中包含構(gòu)成故事的5個圖像和文本序列的示例。
          評估結(jié)果顯示,將GILL與文本到圖像生成基線進行比較。
          當(dāng)2個模型都輸入一個故事描述時,性能相當(dāng),SD獲得了比較好的CLIP相似度得分,并且兩個模型獲得了相似的 LPIPS。
          然而,當(dāng)所有5個故事描述都作為輸入提供時,GILL優(yōu)于SD,將CLIP相似度從0.598提高到0.612,將LPIPS從0.704 提高到0.6。
          有趣的是,當(dāng)進一步提供完整的多模態(tài)上下文時,GILL得到了顯著改進,獲得了0.641的CLIP相似度和0.3的LPIPS。
          從視覺對話生成
          研究人員還在VisDial數(shù)據(jù)集上測試了模型。
          與VIST類似,評估模型準(zhǔn)確合成所描述圖像的能力,并提供越來越多的問答對話上下文作為輸入。
          評估結(jié)果顯示,輸入長度較短時,SD優(yōu)于GILL。
          然而,當(dāng)輸入上下文增加時,GILL逐漸改進,并且可以合成與真實圖像更相似的圖像。
          當(dāng)提供完整的10輪對話時,GILL的性能顯著優(yōu)于SD,比CLIP相似度(0.622-0.645)和LPIPS(0.723-0.714)都有所提高。
          這些結(jié)果,進一步凸顯了GILL在處理類似對話的長文本輸入方面的有效性。
          研究人員還引入了GILLMapper模塊,允許模型有效地映射到Stable Diffusion圖像生成骨干網(wǎng),在PartiPrompts的許多示例中優(yōu)于或匹配SD。
          GILLMapper模型架構(gòu)以隱藏的 [IMG] 表示和學(xué)習(xí)的查詢嵌入向量序列為條件。
          局限性
          雖然GILL引入了許多令人興奮的功能,但它是一個早期的研究原型,有幾個局限性。
          - GILL的許多功能依賴于LLM主架構(gòu)。因此,它也繼承了LLM典型的許多問題:
          - GILL并不總是在提示時產(chǎn)生圖像,或者當(dāng)它對對話有用時。
          - GILL的局限性在于它有限的視覺處理。目前,研究只使用4個視覺向量來表示每個輸入圖像(由于計算限制),這可能無法捕獲下游任務(wù)所需的所有相關(guān)視覺信息。
          - GILL繼承了LLM的一些意外行為,例如潛在的幻覺,它生成的內(nèi)容是錯誤的,或者與輸入數(shù)據(jù)無關(guān)。它有時還會生成重復(fù)的文本,并且并不總是生成連貫的對話文本。

          作者介紹


          Jing Yu Koh
          Jing Yu Koh是CMU機器學(xué)習(xí)系的二年級博士生,導(dǎo)師是Daniel Fried和Ruslan Salakhutdinov。
          目前,他主要的研究方向是基礎(chǔ)語言理解。
          丹尼爾·弗里德和魯斯蘭·薩拉庫蒂諾夫為我提供建議。我致力于基礎(chǔ)語言理解,通常是在視覺和語言問題的背景下。
          在此之前,他是谷歌研究中心的一名研究工程師,在那里研究視覺和語言問題以及生成模型。


          參考資料:

          https://www.cxs.cmu.edu/news/2023/gill

          https://jykoh.com/gill


          關(guān)注公眾號【機器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來讀

          臥剿,6萬字!30個方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完

          深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴散模型論文解讀

          深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法! 

          經(jīng)典GAN不得不讀:StyleGAN

           戳我,查看GAN的系列專輯~!
          一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!
          最新最全100篇匯總!生成擴散模型Diffusion Models
          ECCV2022 | 生成對抗網(wǎng)絡(luò)GAN部分論文匯總
          CVPR 2022 | 25+方向、最新50篇GAN論文
           ICCV 2021 | 35個主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理

          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成

          附下載 | 《可解釋的機器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》

          附下載 |《計算機視覺中的數(shù)學(xué)方法》分享

          《基于深度學(xué)習(xí)的表面缺陷檢測方法綜述》

          《零樣本圖像分類綜述: 十年進展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


          《禮記·學(xué)記》有云:獨學(xué)而無友,則孤陋而寡聞

          點擊一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!,加入 AI生成創(chuàng)作與計算機視覺 知識星球!

          瀏覽 277
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕无码视频在线观看 | 久久精品综合 | 中文字幕视频免费 | 久久久亚洲天堂 | 免费操逼视频网站 |