最新開源:智源BGE登頂Hugging Face月度榜!北大&快手開源Pyramid Flow!Rhymes AI開源Aria!
共 3938字,需瀏覽 8分鐘
·
2024-10-16 07:00
近日,Hugging Face更新了月度榜單,智源研究院的 BGE 模型登頂榜首,這是中國國產(chǎn)AI模型首次成為Hugging Face月榜冠軍。BGE 在短短一年時間內(nèi),總下載量已超數(shù)億次,是目前下載量最多的國產(chǎn)AI系列模型。
BGE,全稱BAAI General Embedding,是北京智源人工智能研究院研發(fā)的開源通用向量模型,該系列模型專為各類信息檢索及大語言模型檢索增強應(yīng)用而打造。
自2023年8月發(fā)布首款模型 BGE v1,歷經(jīng)數(shù)次迭代,BGE 已發(fā)展為全面支持“多場景”、“多語言”、“多功能”、“多模態(tài)”的技術(shù)生態(tài)體系。
BGE 不僅性能綜合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等領(lǐng)域內(nèi)主流評測榜單,而且始終秉持徹底的開源開放的精神,“模型、代碼、數(shù)據(jù)” 向社區(qū)完全公開。BGE 在開源社區(qū)廣受歡迎,許多 RAG 開發(fā)者將其比作信息檢索的“瑞士軍刀”。
10月11日,北京大學(xué)、北京郵電大學(xué)和快手科技聯(lián)合開源了一款名為Pyramid Flow的高清視頻生成模型。用戶在輸入文本之后,即可生成最長 10 秒、分辨率高達 1280x768、幀率 24fps 的高質(zhì)量視頻。
項目地址:https://pyramid-flow.github.io
論文地址:https://arxiv.org/pdf/2410.05954
Demo地址:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
Pyramid Flow 的核心特點如下:
高效生成:Pyramid Flow 采用新技術(shù),通過統(tǒng)一 AI 模型分階段生成視頻,大多數(shù)階段為低分辨率,只有最后階段為全分辨率。這種“金字塔流匹配”方法保持了視頻的高視覺質(zhì)量前提下,大幅降低了計算成本,tokens 數(shù)量是傳統(tǒng) diffusion 模型的四分之一。
圖:金字塔流匹配算法:視頻的生成是在不同的分辨率層次上逐步進行的
-
快速推理:在推理過程中,該模型可以在 56 秒內(nèi)生成一個 5 秒、384p 的視頻,速度媲美許多全序列 diffusion 模型,甚至更快。
-
開源和商業(yè)使用:Pyramid Flow 在 MIT 許可證下發(fā)布,允許廣泛的使用,包括商業(yè)應(yīng)用、修改和再分發(fā),吸引了希望將模型集成到專有系統(tǒng)中的開發(fā)者和公司。
近日,日本初創(chuàng)公司 Rhymes AI 發(fā)布首款開源多模態(tài)AI模型 Aria。
Aria 是一個多模態(tài)本地混合專家模型,能夠在多種多模態(tài)、語言和編碼任務(wù)中表現(xiàn)出色,尤其在視頻和文檔理解方面具有優(yōu)勢。它支持長達 64K 個 token 的多模態(tài)輸入,并能在 10 秒內(nèi)為 256 幀視頻生成字幕。
Aria 的設(shè)計輕量且快速,能夠高效編碼不同大小和縱橫比的視覺輸入。
論文地址: https://arxiv.org/abs/2410.05993
Code地址: https://github.com/rhymes-ai/Aria
官網(wǎng)地址: https://rhymes.ai/
Aria 的設(shè)計理念是希望能夠在文本、代碼、圖像和視頻等多種輸入形式上,提供卓越的理解和處理能力。
在訓(xùn)練方面,Rhymes AI 共分為四個階段,先用文本數(shù)據(jù)進行預(yù)訓(xùn)練,再引入多模態(tài)數(shù)據(jù),接著是長序列的訓(xùn)練,最后進行微調(diào)。
根據(jù)相關(guān)基準測試,Aria 在多個多模態(tài)、語言和編程任務(wù)中表現(xiàn)優(yōu)于 Pixtral-12B 和 Llama-3.2-11B 等模型,并且因激活參數(shù)較少,推理成本也較低。
此外,Aria 在處理帶有字幕的視頻或多頁文檔時表現(xiàn)良好,其理解長視頻和文檔的能力超過了 GPT-4o mini 和 Gemini1.5Flash 等其他開源模型。
9 月 12 日,法國 AI 初創(chuàng)公司 Mistral 發(fā)布 Pixtral-12B,是該公司首款能夠同時處理圖像和文本的多模態(tài) AI 大語音模型。
近日,Mistral AI 發(fā)布 Pixtral-12B 技術(shù)報告。
Pixtral-12B 是一個 120 億參數(shù)的多模態(tài)語言模型。經(jīng)過訓(xùn)練,Pixtral-12B 既能理解自然圖像,也能理解文檔,在各種多模態(tài)基準測試中取得了領(lǐng)先的性能,超越了許多大模型。
論文地址:https://arxiv.org/pdf/2410.07073
官網(wǎng)地址: https://mistral.ai/news/pixtral-12b/
Inference code: https://github.com/mistralai/mistral-inference/
Evaluation code: https://github.com/mistralai/mistral-evals/
Pixtral 使用從零開始訓(xùn)練的全新視覺編碼器,可按自然分辨率和長寬比攝取圖像。這樣,用戶就能靈活處理圖像中使用的 token 數(shù)量。Pixtral 還能在 128K token 的長上下文窗口中處理任意數(shù)量的圖像。
Mistral 還貢獻了一個開源基準 —— MM-MT-Bench,用于評估實際場景中的視覺語言模型,并為多模態(tài) LLM 的標準化評估協(xié)議提供了詳細的分析和代碼。
參考:
https://huggingface.co/BAAI
https://pyramid-flow.github.io/
