亚洲一区高清无码,91av在线麻豆,亚洲第一中文字幕网,色综合久久夜色精品国产,大鸡巴综合网站,亚洲做受 69,中国十大黄色操逼网站,操逼视频动漫

LLaVA端到端訓練的大型多模態(tài)模型

聯(lián)合創(chuàng)作 · 2023-09-25 23:18

LLaVA 是一個面向多模態(tài) GPT-4 級別功能構(gòu)建的大型語言和視覺助手。代表了一種端到端訓練的大型多模態(tài)模型，連接視覺編碼器和 LLM 以實現(xiàn)通用視覺和語言理解。

早期實驗表明，LLaVA 展示了優(yōu)秀的多模型聊天能力，有時在看不見的圖像/指令上表現(xiàn)出多模型 GPT-4 的行為，與GPT-4相比，在合成的多模態(tài)指令跟隨數(shù)據(jù)集中產(chǎn)生了 85.1% 的相對得分。當在 Science QA 上進行微調(diào)時，LLaVA 和 GPT-4 的協(xié)同作用達到了 92.53% 的新的最先進的準確率。LLaVA 團隊公開了 GPT-4 生成的視覺指令調(diào)整數(shù)據(jù)、以及其模型和代碼庫。

更多詳情可查看論文。

使用和許可聲明：數(shù)據(jù)、代碼和 checkpoin 僅供研究使用并獲得許可。它們也僅限于遵循 LLaMA、Vicuna 和 GPT-4 許可協(xié)議的用途。該數(shù)據(jù)集是 CC BY NC 4.0（僅允許非商業(yè)用途），使用該數(shù)據(jù)集訓練的模型不應(yīng)用于研究目的之外。

Data Donwnload

Data file name	Size
conversation_58k.json	126 MB
detail_23k.json	20.5 MB
complex_reasoning_77k.json	79.6 MB

要下載語言圖像多模態(tài)指令遵循數(shù)據(jù)集LLaVA-Instruct-150K，可運行以下腳本：

sh download_data.sh

LLaVA Weights

開發(fā)團隊發(fā)布了 LLaVA weights 作為 delta weights 以符合 LLaMA 模型許可。用戶可以將其 delta 添加到原始 LLaMA weights 以獲得 LLaVA weights。說明：

按照此處的說明獲取 huggingface 格式的原始 LLaMA weights。
使用以下腳本通過應(yīng)用該 delta 來獲取 LLaVA weights。它會自動從 LLaVA 的 Hugging Face 帳戶下載 delta weights。

LLaVA-13B

此轉(zhuǎn)換命令需要大約 60 GB 的 CPU RAM。

python3 -m llava.model.apply_delta \
    --base /path/to/llama-13b \
    --target /output/path/to/LLaVA-13B-v0 \
    --delta liuhaotian/LLaVA-13b-delta-v0

LLaVA-7B

即將推出。

點贊

評論

編輯分享

舉報

LLaVA端到端訓練的大型多模態(tài)模型

相關(guān)內(nèi)容：

Data Donwnload

LLaVA Weights