<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多模態(tài)視覺語言模型 Mini-Gemini

          共 1459字,需瀏覽 3分鐘

           ·

          2024-05-15 19:30

          大家好,又見面了,我是 GitHub 精選君!

          背景介紹

          隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,多模態(tài)視覺語言模型(Multi-modality Vision Language Models)已成為近年來研究的熱點(diǎn)。這類模型通過融合圖像和文本信息,能夠更好地理解和生成復(fù)雜的視覺語言內(nèi)容,廣泛應(yīng)用于圖像標(biāo)注、視覺問答、內(nèi)容生成等領(lǐng)域。然而,開發(fā)和訓(xùn)練這類高效、精確且可擴(kuò)展的多模態(tài)模型仍面臨巨大挑戰(zhàn),包括如何處理不同模態(tài)間的復(fù)雜交互、如何提高模型的理解和生成能力、以及如何處理巨大的模型尺寸和計(jì)算成本等問題。

          今天要給大家推薦一個(gè) GitHub 開源項(xiàng)目 dvlab-research/MiniGemini,該項(xiàng)目在 GitHub 有超過 2.5k Star,一句話介紹該項(xiàng)目:Official implementation for Mini-Gemini

          項(xiàng)目介紹

          Mini-Gemini 項(xiàng)目提供了一系列從 2B 到 34B 的密集型和 MoE 大型語言模型(LLMs),這些模型能夠同時(shí)處理圖像理解、推理和生成。Mini-Gemini 基于 LLaVA 構(gòu)建,采用雙重視覺編碼器,提供低分辨率視覺嵌入和高分辨率候選;提出了補(bǔ)丁信息挖掘,以執(zhí)行高分辨率區(qū)域與低分辨率視覺查詢之間的補(bǔ)丁級(jí)挖掘;并使用 LLM 將文本與圖像結(jié)合起來,同時(shí)進(jìn)行理解和生成。該項(xiàng)目已經(jīng)公開了論文、在線演示、代碼、模型和數(shù)據(jù),為研究人員和開發(fā)者提供了寶貴的資源。

          以下是模型的構(gòu)成:

          如何使用

          1、克隆倉庫:

          git clone https://github.com/dvlab-research/MiniGemini.git

          2、安裝所需包:

          conda create -n minigemini python=3.10 -y
          conda activate minigemini
          cd MiniGemini
          pip install --upgrade pip
          pip install -e .

          3、若進(jìn)行訓(xùn)練案例,需安裝額外包:

          pip install ninja
          pip install flash-attn --no-build-isolation

          以下是一些命令行使用示例:

          項(xiàng)目推介

          Mini-Gemini 是多模態(tài)視覺語言模型領(lǐng)域的一次重要突破,它不僅涵蓋了從語言到圖像的綜合理解和生成能力,而且通過提供預(yù)訓(xùn)練和微調(diào)模型,極大地簡(jiǎn)化了多模態(tài)任務(wù)的開發(fā)流程。

          以下是該項(xiàng)目 Star 趨勢(shì)圖(代表項(xiàng)目的活躍程度):

          更多項(xiàng)目詳情請(qǐng)查看如下鏈接。

          開源項(xiàng)目地址:https://github.com/dvlab-research/MiniGemini

          開源項(xiàng)目作者:dvlab-research

          關(guān)注我們,一起探索有意思的開源項(xiàng)目。

          點(diǎn)擊如下卡片后臺(tái)回復(fù):加群與技術(shù)極客們一起交流人工智能、開源項(xiàng)目,一起成長(zhǎng)。如果你正在尋求開源項(xiàng)目推廣、DevOps、AIGC 大模型、軟件開發(fā)等領(lǐng)域的付費(fèi)服務(wù),可參考推文了解詳情。

          瀏覽 40
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩中文亚洲 | 福利一区二区视频 | 蜜桃av久久久亚洲精品 | 欧美三级成人 | 操逼视频免费网站 |