多模態(tài)視覺語言模型 Mini-Gemini
共 1459字,需瀏覽 3分鐘
·
2024-05-15 19:30
大家好,又見面了,我是 GitHub 精選君!
背景介紹
隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,多模態(tài)視覺語言模型(Multi-modality Vision Language Models)已成為近年來研究的熱點(diǎn)。這類模型通過融合圖像和文本信息,能夠更好地理解和生成復(fù)雜的視覺語言內(nèi)容,廣泛應(yīng)用于圖像標(biāo)注、視覺問答、內(nèi)容生成等領(lǐng)域。然而,開發(fā)和訓(xùn)練這類高效、精確且可擴(kuò)展的多模態(tài)模型仍面臨巨大挑戰(zhàn),包括如何處理不同模態(tài)間的復(fù)雜交互、如何提高模型的理解和生成能力、以及如何處理巨大的模型尺寸和計(jì)算成本等問題。
今天要給大家推薦一個(gè) GitHub 開源項(xiàng)目 dvlab-research/MiniGemini,該項(xiàng)目在 GitHub 有超過 2.5k Star,一句話介紹該項(xiàng)目:Official implementation for Mini-Gemini
項(xiàng)目介紹
Mini-Gemini 項(xiàng)目提供了一系列從 2B 到 34B 的密集型和 MoE 大型語言模型(LLMs),這些模型能夠同時(shí)處理圖像理解、推理和生成。Mini-Gemini 基于 LLaVA 構(gòu)建,采用雙重視覺編碼器,提供低分辨率視覺嵌入和高分辨率候選;提出了補(bǔ)丁信息挖掘,以執(zhí)行高分辨率區(qū)域與低分辨率視覺查詢之間的補(bǔ)丁級(jí)挖掘;并使用 LLM 將文本與圖像結(jié)合起來,同時(shí)進(jìn)行理解和生成。該項(xiàng)目已經(jīng)公開了論文、在線演示、代碼、模型和數(shù)據(jù),為研究人員和開發(fā)者提供了寶貴的資源。
以下是模型的構(gòu)成:
如何使用
1、克隆倉庫:
git clone https://github.com/dvlab-research/MiniGemini.git
2、安裝所需包:
conda create -n minigemini python=3.10 -y
conda activate minigemini
cd MiniGemini
pip install --upgrade pip
pip install -e .
3、若進(jìn)行訓(xùn)練案例,需安裝額外包:
pip install ninja
pip install flash-attn --no-build-isolation
以下是一些命令行使用示例:
項(xiàng)目推介
Mini-Gemini 是多模態(tài)視覺語言模型領(lǐng)域的一次重要突破,它不僅涵蓋了從語言到圖像的綜合理解和生成能力,而且通過提供預(yù)訓(xùn)練和微調(diào)模型,極大地簡(jiǎn)化了多模態(tài)任務(wù)的開發(fā)流程。
以下是該項(xiàng)目 Star 趨勢(shì)圖(代表項(xiàng)目的活躍程度):
更多項(xiàng)目詳情請(qǐng)查看如下鏈接。
開源項(xiàng)目地址:https://github.com/dvlab-research/MiniGemini
開源項(xiàng)目作者:dvlab-research
關(guān)注我們,一起探索有意思的開源項(xiàng)目。
點(diǎn)擊如下卡片后臺(tái)回復(fù):加群,與技術(shù)極客們一起交流人工智能、開源項(xiàng)目,一起成長(zhǎng)。如果你正在尋求開源項(xiàng)目推廣、DevOps、AIGC 大模型、軟件開發(fā)等領(lǐng)域的付費(fèi)服務(wù),可參考推文了解詳情。
