LLaVA端到端訓練的大型多模態(tài)模型
LLaVA 是一個面向多模態(tài) GPT-4 級別功能構(gòu)建的大型語言和視覺助手。代表了一種端到端訓練的大型多模態(tài)模型,連接視覺編碼器和 LLM 以實現(xiàn)通用視覺和語言理解。
早期實驗表明,LLaVA 展示了優(yōu)秀的多模型聊天能力,有時在看不見的圖像/指令上表現(xiàn)出多模型 GPT-4 的行為,與GPT-4相比,在合成的多模態(tài)指令跟隨數(shù)據(jù)集中產(chǎn)生了 85.1% 的相對得分。當在 Science QA 上進行微調(diào)時,LLaVA 和 GPT-4 的協(xié)同作用達到了 92.53% 的新的最先進的準確率。LLaVA 團隊公開了 GPT-4 生成的視覺指令調(diào)整數(shù)據(jù)、以及其模型和代碼庫。
更多詳情可查看論文。
使用和許可聲明:數(shù)據(jù)、代碼和 checkpoin 僅供研究使用并獲得許可。它們也僅限于遵循 LLaMA、Vicuna 和 GPT-4 許可協(xié)議的用途。該數(shù)據(jù)集是 CC BY NC 4.0(僅允許非商業(yè)用途),使用該數(shù)據(jù)集訓練的模型不應(yīng)用于研究目的之外。
相關(guān)內(nèi)容:
Data Donwnload
| Data file name | Size |
|---|---|
| conversation_58k.json | 126 MB |
| detail_23k.json | 20.5 MB |
| complex_reasoning_77k.json | 79.6 MB |
要下載語言圖像多模態(tài)指令遵循數(shù)據(jù)集LLaVA-Instruct-150K,可運行以下腳本:
sh download_data.sh
LLaVA Weights
開發(fā)團隊發(fā)布了 LLaVA weights 作為 delta weights 以符合 LLaMA 模型許可。用戶可以將其 delta 添加到原始 LLaMA weights 以獲得 LLaVA weights。說明:
- 按照此處的說明獲取 huggingface 格式的原始 LLaMA weights。
- 使用以下腳本通過應(yīng)用該 delta 來獲取 LLaVA weights。它會自動從 LLaVA 的 Hugging Face 帳戶下載 delta weights。
LLaVA-13B
此轉(zhuǎn)換命令需要大約 60 GB 的 CPU RAM。
python3 -m llava.model.apply_delta \
--base /path/to/llama-13b \
--target /output/path/to/LLaVA-13B-v0 \
--delta liuhaotian/LLaVA-13b-delta-v0
LLaVA-7B
即將推出。
