馬斯克旗下xAI發(fā)布首個多模態(tài)大模型!
共 2737字,需瀏覽 6分鐘
·
2024-04-19 03:02
3月中旬,馬斯克旗下的 xAI 剛剛宣布開源 Grok-1 大模型!
一個月過去,xAI 又掏出了 Grok-1.5V。
Grok-1.5V是xAI開發(fā)的第一款多模態(tài)模型。
除了強大的文本處理能力,Grok現(xiàn)在還可以處理包括文檔、圖表、截圖和照片在內(nèi)的多種視覺信息。
xAI宣稱Grok-1.5V能在多個領(lǐng)域與現(xiàn)有的前沿多模態(tài)模型競爭,包括跨學(xué)科推理、理解文檔、科學(xué)圖表、圖表、截圖和照片。特別強調(diào)了Grok在理解物理世界方面的能力。
而且所有數(shù)據(jù)集都是在零樣本設(shè)置下評估的,沒有使用思維鏈提示。這意味著在評估這些多模態(tài)模型的性能時,模型沒有接受過任何特定于測試任務(wù)的訓(xùn)練或示例(即零樣本),也沒有通過一系列的邏輯推理步驟(即思維鏈提示)來輔助解決問題,完全依靠自身的能力來處理和回答問題,展示了它們的真實性能和泛化能力。
從這張圖表中可以看出,Grok-1.5V在MMMU多學(xué)科、Mathvista數(shù)學(xué)、AI2D圖表、TextVQA文本閱讀、ChartQA圖表、DocVQA文檔等多項基準測試中,表現(xiàn)已經(jīng)逼近頭部模型。
淺試一下讓Grok把這張圖翻譯成 Python 代碼。
Grok讀懂了這個流程圖是描述一個簡單的競猜游戲:計算機生成一個隨機數(shù),用戶必須猜出它。
并給出了流程圖邏輯的 Python 代碼:
為了評估模型對于真實世界的空間理解,xAI此次還推出了RealWorldQA基準測試。RealWorldQA由700多張圖片組成,主要用于評估人工智能模型在現(xiàn)實世界場景中的空間理解能力。
在RealWorldQA 基準測試中,Grok-1.5V表現(xiàn)甚至超過了同類產(chǎn)品。
接下來看看Grok-1.5V在理解物理世界方面的能力如何?xAI表示,雖然當(dāng)前基準中的許多示例對人類來說相對容易,但它們往往對前沿模型構(gòu)成挑戰(zhàn)。
被問到披薩刀和剪刀哪個更大?Grok-1.5V判斷它們的大小大致相同。
A. 披薩刀更大 B. 剪刀較大 C. 它們的大小大致相同
從當(dāng)前車道我們可以去哪里?Grok-1.5V判斷左轉(zhuǎn)。因為圖中標志的意思是左車道,必須左轉(zhuǎn)。
A. 左轉(zhuǎn) B、直走 C. 左轉(zhuǎn)并直行 D、右轉(zhuǎn)
鑒于轎車的前置攝像頭拍攝的畫面,是否有足夠的空間圍繞前面的灰色汽車行駛?
A、是的 B、不
根據(jù)圖片,恐龍面向哪個基本方向?Grok-1.5V判斷恐龍面朝東。
A、北 B、南 C、東 D、西
這道題看起來比較有難度,用它來考考前段時間爆火的Kimi ChatGPT 以及 Claude 3 Sonnet 和 Google Gemini 1.5 Pro。
Kimi Chat 雖然可以提取圖片上的文字關(guān)系,但是沒有辦法弄清恐龍和指南針的位置關(guān)系,直接審錯題,導(dǎo)致判斷失誤。
Claude 3 Sonnet 和 Google Gemini 1.5 Pro的判斷一致,都是西。
但是我們只需要把這張圖旋轉(zhuǎn)一下,就可以得到它的位置關(guān)系。
xAI表示,Grok-1.5V 很快就會向早期測試者和現(xiàn)有 Grok 用戶推出。
今年3月底,在Grok-1.5V之前,馬斯克就官宣了 Grok-1.5。
這款新模型在長文本理解和高級推理方面取得了顯著進步。
Grok-1.5的核心亮點之一是其對長文本的處理能力,其上下文長度擴展到了128000個token,這比之前的模型提高了16倍。這使得Grok-1.5能夠處理更長、更復(fù)雜的提示詞,同時保持其出色的指令遵循能力。
在“針堆”(Needle In A Haystack, NIAH)評估中,Grok-1.5展示了其在長達128000個token的上下文中檢索嵌入文本的強大能力,取得了完美的檢索結(jié)果。
在推理和問題解決方面,Grok-1.5在編碼和數(shù)學(xué)相關(guān)任務(wù)上的表現(xiàn)尤為突出。在MATH基準測試中,Grok-1.5取得了50.6%的得分,在GSM8K基準測試中取得了90%的高分,這兩個基準測試涵蓋了從小學(xué)到高中競賽問題的廣泛范圍。
此外,Grok-1.5在HumanEval基準測試中也取得了74.1%的得分,該測試評估了代碼生成和問題解決能力。
自 2023 年 11 月馬斯克的聊天機器人首次亮相以來,馬斯克的人工智能公司不斷取得進步,從Grok-1到Grok-1.5再到Grok-1.5V,xAI努力追趕 OpenAI 和其他AI公司。
盡管如此,xAI 仍需繼續(xù)努力,畢竟馬斯克最初成立它的目的是為了試圖理解宇宙的本質(zhì)。xAI透露,未來幾個月,Grok 的多模態(tài)理解和生成能力將有 "重大 "更新。
參考資料:
1、https://x.ai/blog/grok-1.5
2、https://x.ai/blog/grok-1.5v
3、https://venturebeat.com/ai/elon-musks-xai-previews-grok-1-5v-its-firs
