mPLUG-Owl多模態(tài)大語言模型
阿里達(dá)摩院提出的多模態(tài)GPT的模型:mPLUG-Owl,基于 mPLUG 模塊化的多模態(tài)大語言模型。它不僅能理解推理文本的內(nèi)容,還可以理解視覺信息,并且具備優(yōu)秀的跨模態(tài)對(duì)齊能力。
示例
亮點(diǎn)特色
- 一種面向多模態(tài)語言模型的模塊化的訓(xùn)練范式。
- 能學(xué)習(xí)與語言空間相適應(yīng)的視覺知識(shí),并支持在多模態(tài)場(chǎng)景下進(jìn)行多輪對(duì)話。
- 涌現(xiàn)多圖關(guān)系理解,場(chǎng)景文本理解和基于視覺的文檔理解等能力。
- 提出了針對(duì)視覺相關(guān)指令的測(cè)評(píng)集OwlEval,用以評(píng)估多模態(tài)語言模型的對(duì)帶有視覺信息上下文的理解能力。
- 我們?cè)谀K化上的一些探索:
- 即將發(fā)布
- 在HuggingFace Hub上發(fā)布。
- 多語言支持(中文、日文等)。
- 在多圖片/視頻數(shù)據(jù)上訓(xùn)練的模型
- Huggingface 在線 Demo (done)
- 指令微調(diào)代碼(done)
- 視覺相關(guān)指令的測(cè)評(píng)集OwlEval(done)
預(yù)訓(xùn)練參數(shù)
| Model | Phase | Download link |
|---|---|---|
| mPLUG-Owl 7B | Pre-training | 下載鏈接 |
| mPLUG-Owl 7B | Instruction tuning | 下載鏈接 |
| Tokenizer model | N/A | 下載鏈接 |
評(píng)論
圖片
表情
