<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          近一年,多模態(tài)視覺&語言大模型架構(gòu)演進(jìn)匯總梳理

          共 6343字,需瀏覽 13分鐘

           ·

          2024-07-15 22:00

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺
          作者丨Dreamweaver
          來源丨吃果凍不吐果凍皮
          編輯丨極市平臺

          極市導(dǎo)讀

           

          本文回顧了多模態(tài)LLM (視覺-語言模型) 近一年來的模型架構(gòu)演進(jìn),對其中有代表性的工作進(jìn)行了精煉總結(jié),截止2024.06。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          這篇綜述一張圖總結(jié)了多模態(tài)LLM的典型架構(gòu):

          BLIP

          【2022.01發(fā)布】[1]

          統(tǒng)一視覺-語言理解和生成,使用captioner+filter高效利用互聯(lián)網(wǎng)有噪數(shù)據(jù)

          模型架構(gòu):

          ? Image/text encoder: ITC loss對齊視覺和語言表征,基于ALBEF提出的momentum distillation

          ? Image-grounded text encoder: ITM loss建模視覺-語言交互,區(qū)分positive/negative圖文對,使用hard negative mining挖掘更高相似度的負(fù)例優(yōu)化模型

          ? Image-grounded text decoder: LM loss實(shí)現(xiàn)基于圖像的文本解碼,將雙向self-attention替換為causal self-attention

          BLIP的bootstrapping訓(xùn)練過程:

          BLIP-2

          【2023.01發(fā)布】[2]

          使用相對輕量的Q-Former連接視覺-語言模態(tài),通過兩階段訓(xùn)練:第1階段基于凍住的視覺編碼器,第2階段基于凍住的LLM

          第1階段:同樣優(yōu)化ITC/ITM/LM loss,使用不同的self-attention mask,query和text端共享self-attention參數(shù),使得可學(xué)習(xí)的query embedding提取與text語義最相關(guān)的視覺表征;使用BERT-base初始化,32個768維的query作為信息瓶頸

          ? ITC:計(jì)算每個query與text的相似度,取最大的;使用batch內(nèi)negatives,不再使用momentum queue

          ? ITM:對每個query與text的分類logits取平均,使用hard negatives mining挖掘難負(fù)例

          ? LM:text token和frozen image encoder不能直接交互,要求query能提取有益的視覺特征

          第2階段:可基于decoder-only/encoder-decoder LLM進(jìn)行適配,F(xiàn)C層對齊維度

          LLaVA

          【2023.04發(fā)布】[3]

          ? 使用僅文本模態(tài)的GPT-4生成視覺-語言指令遵循數(shù)據(jù),用于微調(diào)多模態(tài)LLM

          ? 使用圖片的dense captions和bounding boxes作為prompt,可以生成對話、細(xì)節(jié)描述、復(fù)雜推理等指令

          ? CLIP ViT-L/14 + Vicuna,使用簡單的線性層進(jìn)行映射

          ? 更復(fù)雜的:Flamingo中g(shù)ated cross-attention,BLIP-2中的Q-former

          ? LLaVA模型的兩階段訓(xùn)練

          ? stage1. 預(yù)訓(xùn)練特征對齊:凍住vision encoder和LLM,只訓(xùn)練projection,學(xué)習(xí)一個兼容的visual tokenizer

          ? stage2. 端到端微調(diào):凍住vision encoder,在單輪/多輪對話數(shù)據(jù)上微調(diào)projection和LLM

          MiniGPT-4

          【2023.04發(fā)布】[4]

          stage1. 預(yù)訓(xùn)練:使用image-text pair微調(diào)linear projection layer,vision encoder和LLM保持凍住

          stage2. 指令微調(diào):指令格式為:###Human: ###Assistant:

          InstructBLIP

          【2023.05發(fā)布】[5]

          stage1. 預(yù)訓(xùn)練:BLIP-2(使用image-text pairs進(jìn)行兩階段訓(xùn)練)

          stage2. 指令微調(diào):只微調(diào)instruction-aware Q-former,凍住vision encoder和LLM

          支持FlanT5(encoder-decoder)和Vicuna(decoder-only)

          Qwen-VL

          【2023.08發(fā)布】[6]

          支持中英雙語、多圖像輸入

          Qwen-7B + OpenCLIP ViT-bigG,輸入圖像直接resize到視覺編碼器輸入

          位置感知的VL adapter:使用基于Q-former的單層的cross-attention,將圖像特征維度壓縮到256,在query-key pairs中引入2D絕對位置編碼增強(qiáng)位置信息

          圖像輸入:256-dim圖像特征

          bounding box輸入輸出: (X_topleft, Y_topleft), (X_bottomright, Y_bottomright) , 標(biāo)記box所指內(nèi)容

          三階段訓(xùn)練:

          stage1. 預(yù)訓(xùn)練:基于大規(guī)模、弱標(biāo)注、網(wǎng)絡(luò)爬取的圖像-文本對,輸入分辨率224x224,凍住LLM,訓(xùn)練ViT和Q-former,主要目的是模態(tài)對齊

          stage2. 多任務(wù)預(yù)訓(xùn)練:基于7種下游視覺-語言理解任務(wù)的高質(zhì)量、細(xì)粒度標(biāo)注數(shù)據(jù)訓(xùn)練,輸入分辨率448x448,圖像/文本數(shù)據(jù)交錯,訓(xùn)練整個模型

          stage3. 指令微調(diào):提升指令遵循和多輪對話能力,凍住ViT,訓(xùn)練LLM和Q-former

          Qwen-VL-Plus和Qwen-VL-Max提升了視覺推理能力、圖像細(xì)節(jié)的識別/提取/分析能力(尤其是文本導(dǎo)向的任務(wù))、支持高分辨率和極端縱橫比的輸入圖像;在部分中文場景超過了GPT-4V和Gemini

          InternLM-XComposer

          【2023.09發(fā)布】[7]

          交錯圖文構(gòu)成:自動在輸出文本中插入合適的圖片

          EVA-CLIP ViT + InternLM-7B + Q-former (將圖像特征壓縮到64個embedding)

          兩階段訓(xùn)練:

          stage1. 預(yù)訓(xùn)練:凍住ViT,訓(xùn)練LLM和Q-former

          stage2. 監(jiān)督微調(diào):包括多任務(wù)訓(xùn)練和指令微調(diào),凍住ViT和LLM,訓(xùn)練Q-former,對LLM進(jìn)行LoRA微調(diào),增強(qiáng)指令遵循和圖文混排能力

          Fuyu-8B

          【2023.10發(fā)布】[8]

          模型架構(gòu)和訓(xùn)練過程簡單,易于scaling;支持任意圖像分辨率;推理速度快

          decoder-only的transformer,沒有專門的圖像編碼器;image patch直接線性映射到transformer第一層

          LLaVA-1.5

          【2023.10發(fā)布】[9]

          仍使用MLP作為模態(tài)連接,突出了訓(xùn)練的數(shù)據(jù)高效性

          CogVLM

          【2023.11發(fā)布】[10]

          深度視覺-語言模態(tài)融合,而不影響LLM原有的語言能力:凍住LLM和ViT,在attention和FFN層訓(xùn)練一份視覺專家模塊

          CogAgent

          【2023.12發(fā)布】[11]

          針對GUI場景的多模態(tài)理解和導(dǎo)引,使用高分辨率-低分辨率雙編碼器,支持1120x1120的屏幕輸入

          高分辨率分支使用更輕量的ViT,基于cross-attention將高分辨率圖像特征與LLM每層進(jìn)行融合

          VILA

          【2023.12發(fā)布】[12]

          探索了視覺-語言模型訓(xùn)練的設(shè)計(jì)選擇:

          ? 預(yù)訓(xùn)練階段凍住LLM雖然能取得較好的zero-shot性能,但上下文學(xué)習(xí)能力依賴對LLM的微調(diào)

          ? 圖文交錯的預(yù)訓(xùn)練數(shù)據(jù)是有益的,只用圖文數(shù)據(jù)對效果不夠好

          ? 將純文本的指令微調(diào)數(shù)據(jù)加入SFT階段有助于緩解純文本任務(wù)的能力退化,同時也能夠增強(qiáng)視覺-語言任務(wù)的準(zhǔn)確性

          LLaVA-Next

          【2024.01發(fā)布】[13]

          相對于LLaVA-1.5,保持了極簡的設(shè)計(jì)和數(shù)據(jù)高效性:

          ? 提高了輸入圖像的分辨率 (4x),支持3種縱橫比:672x672, 336x1344, 1344x336

          ? 更好的視覺推理和OCR能力:更好的指令微調(diào)數(shù)據(jù)配比

          ? 更好的多場景視覺對話:更好的世界知識和邏輯推理

          ? 更高效的部署和推理:SGLang

          動態(tài)高分辨率:視覺編碼器支持336x336的圖像輸入,對于672x672的圖像,按照{(diào)2,2}的grid split成4個圖像patch過encoder,downsample到336x336也過encoder,特征拼接作為visual tokens輸入到LLM中

          收集高質(zhì)量用戶數(shù)據(jù),包括真實(shí)場景中反映用戶更廣泛意圖的指令數(shù)據(jù),利用GPT-4V進(jìn)行數(shù)據(jù)構(gòu)造

          多模態(tài)文檔/圖表數(shù)據(jù),增強(qiáng)文檔OCR和圖表理解能力

          InternLM-XComposer2

          【2024.01發(fā)布】[14]

          提出了新的模態(tài)對齊方法partial LoRA:只在image token上添加LoRA參數(shù),保證預(yù)訓(xùn)練語言知識的完整性,這樣一個更輕量的視覺編碼器同樣有效

          OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

          兩階段訓(xùn)練:

          stage1. 預(yù)訓(xùn)練:凍住LLM,微調(diào)ViT和partial LoRA模塊,包括通用語義對齊(理解圖像基本內(nèi)容)、世界知識對齊(進(jìn)行復(fù)雜的知識推理)、視覺能力增強(qiáng)(OCR、物體定位、圖表理解)

          stage2. 監(jiān)督微調(diào):微調(diào)整個模型,包括多任務(wù)訓(xùn)練、自由形式圖文排布

          InternLM-XComposer2-4KHD

          2024.04發(fā)布了4KHD版本:https://arxiv.org/abs/2404.06512

          支持動態(tài)分辨率(336px → 4K (3840x1600)):改進(jìn)了patch division范式,保持訓(xùn)練圖像原有的縱橫比,自動變化patch數(shù)目,基于336x336的ViT配置layout

          動態(tài)圖像劃分:將輸入圖像resize and pad到336的整數(shù)倍寬高

          結(jié)合圖像的global和local視角:global視角由輸入直接resize到336x336,使用sep token分隔兩種視角的token

          圖像2D結(jié)構(gòu)的換行符:可學(xué)習(xí)的\n token分隔圖像token行

          Mini-Gemini

          【2024.03發(fā)布】[15]

          使用雙視覺編碼器提取低分辨率embedding作為query,高分辨率特征區(qū)域作為key/value,兩者之間做cross-attention,輸出挖掘的tokens作為prompt前綴,輸入到LLM做推理,外接圖像解碼器生成圖像(SDXL)

          引用鏈接

          [1] 【2022.01發(fā)布】: https://arxiv.org/abs/2201.12086

          [2] 【2023.01發(fā)布】: https://arxiv.org/abs/2301.12597

          [3] 【2023.04發(fā)布】: https://arxiv.org/abs/2304.08485

          [4] 【2023.04發(fā)布】: https://arxiv.org/abs/2304.10592

          [5] 【2023.05發(fā)布】: https://arxiv.org/abs/2305.06500

          [6] 【2023.08發(fā)布】: https://arxiv.org/abs/2308.12966

          [7] 【2023.09發(fā)布】: https://arxiv.org/abs/2309.15112

          [8] 【2023.10發(fā)布】: https://huggingface.co/adept/fuyu-8b

          [9] 【2023.10發(fā)布】: https://arxiv.org/abs/2310.03744

          [10] 【2023.11發(fā)布】: https://arxiv.org/abs/2311.03079

          [11] 【2023.12發(fā)布】: https://arxiv.org/abs/2312.08914

          [12] 【2023.12發(fā)布】: https://arxiv.org/abs/2312.07533

          [13] 【2024.01發(fā)布】: https://llava-vl.github.io/blog/2024-01-30-llava-next/

          [14] 【2024.01發(fā)布】: https://arxiv.org/abs/2401.16420

          [15] 【2024.03發(fā)布】: https://arxiv.org/abs/2403.18814


          公眾號后臺回復(fù)“數(shù)據(jù)集”獲取100+深度學(xué)習(xí)各方向資源整理

          極市干貨

          技術(shù)專欄:多模態(tài)大模型超詳細(xì)解讀專欄搞懂Tranformer系列ICCV2023論文解讀極市直播
          極視角動態(tài)歡迎高校師生申報極視角2023年教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目新視野+智慧腦,「無人機(jī)+AI」成為道路智能巡檢好幫手!
          技術(shù)綜述:四萬字詳解Neural ODE:用神經(jīng)網(wǎng)絡(luò)去刻畫非離散的狀態(tài)變化transformer的細(xì)節(jié)到底是怎么樣的?Transformer 連環(huán)18問!

          點(diǎn)擊閱讀原文進(jìn)入CV社區(qū)

          收獲更多技術(shù)干貨

          瀏覽 148
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美精品黄色 | 色大A在线 | 欧美乱伦一区二区三区 | 日本香蕉色 | 国产在线拍揄自揄拍无码福利 |