777性爱,丝袜足交一区二区,懂色av懂色av粉嫩av-百度,99视频在线精品免费看,台湾中文无码娱乐网,人人色在线视频播放,国产大鸡巴免费视频,毛片成人网

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨Congerry

3月中旬，馬斯克旗下的 xAI 剛剛宣布開源 Grok-1 大模型！

一個月過去，xAI 又掏出了 Grok-1.5V。

Grok-1.5V是xAI開發(fā)的第一款多模態(tài)模型。

除了強大的文本處理能力，Grok現(xiàn)在還可以處理包括文檔、圖表、截圖和照片在內(nèi)的多種視覺信息。

xAI宣稱Grok-1.5V能在多個領(lǐng)域與現(xiàn)有的前沿多模態(tài)模型競爭，包括跨學(xué)科推理、理解文檔、科學(xué)圖表、圖表、截圖和照片。特別強調(diào)了Grok在理解物理世界方面的能力。

而且所有數(shù)據(jù)集都是在零樣本設(shè)置下評估的，沒有使用思維鏈提示。這意味著在評估這些多模態(tài)模型的性能時，模型沒有接受過任何特定于測試任務(wù)的訓(xùn)練或示例（即零樣本），也沒有通過一系列的邏輯推理步驟（即思維鏈提示）來輔助解決問題，完全依靠自身的能力來處理和回答問題，展示了它們的真實性能和泛化能力。

從這張圖表中可以看出，Grok-1.5V在MMMU多學(xué)科、Mathvista數(shù)學(xué)、AI2D圖表、TextVQA文本閱讀、ChartQA圖表、DocVQA文檔等多項基準測試中，表現(xiàn)已經(jīng)逼近頭部模型。

淺試一下讓Grok把這張圖翻譯成 Python 代碼。

Grok讀懂了這個流程圖是描述一個簡單的競猜游戲：計算機生成一個隨機數(shù)，用戶必須猜出它。

并給出了流程圖邏輯的 Python 代碼：

為了評估模型對于真實世界的空間理解，xAI此次還推出了RealWorldQA基準測試。RealWorldQA由700多張圖片組成，主要用于評估人工智能模型在現(xiàn)實世界場景中的空間理解能力。

在RealWorldQA 基準測試中，Grok-1.5V表現(xiàn)甚至超過了同類產(chǎn)品。

接下來看看Grok-1.5V在理解物理世界方面的能力如何？xAI表示，雖然當(dāng)前基準中的許多示例對人類來說相對容易，但它們往往對前沿模型構(gòu)成挑戰(zhàn)。

被問到披薩刀和剪刀哪個更大？Grok-1.5V判斷它們的大小大致相同。

A. 披薩刀更大 B. 剪刀較大 C. 它們的大小大致相同

從當(dāng)前車道我們可以去哪里？Grok-1.5V判斷左轉(zhuǎn)。因為圖中標志的意思是左車道，必須左轉(zhuǎn)。

A. 左轉(zhuǎn) B、直走 C. 左轉(zhuǎn)并直行 D、右轉(zhuǎn)

鑒于轎車的前置攝像頭拍攝的畫面，是否有足夠的空間圍繞前面的灰色汽車行駛？

A、是的 B、不

根據(jù)圖片，恐龍面向哪個基本方向？Grok-1.5V判斷恐龍面朝東。

A、北 B、南 C、東 D、西

這道題看起來比較有難度，用它來考考前段時間爆火的Kimi ChatGPT 以及 Claude 3 Sonnet 和 Google Gemini 1.5 Pro。

Kimi Chat 雖然可以提取圖片上的文字關(guān)系，但是沒有辦法弄清恐龍和指南針的位置關(guān)系，直接審錯題，導(dǎo)致判斷失誤。

Claude 3 Sonnet 和 Google Gemini 1.5 Pro的判斷一致，都是西。

但是我們只需要把這張圖旋轉(zhuǎn)一下，就可以得到它的位置關(guān)系。

xAI表示，Grok-1.5V 很快就會向早期測試者和現(xiàn)有 Grok 用戶推出。

今年3月底，在Grok-1.5V之前，馬斯克就官宣了 Grok-1.5。

這款新模型在長文本理解和高級推理方面取得了顯著進步。

Grok-1.5的核心亮點之一是其對長文本的處理能力，其上下文長度擴展到了128000個token，這比之前的模型提高了16倍。這使得Grok-1.5能夠處理更長、更復(fù)雜的提示詞，同時保持其出色的指令遵循能力。

在“針堆”（Needle In A Haystack, NIAH）評估中，Grok-1.5展示了其在長達128000個token的上下文中檢索嵌入文本的強大能力，取得了完美的檢索結(jié)果。

在推理和問題解決方面，Grok-1.5在編碼和數(shù)學(xué)相關(guān)任務(wù)上的表現(xiàn)尤為突出。在MATH基準測試中，Grok-1.5取得了50.6%的得分，在GSM8K基準測試中取得了90%的高分，這兩個基準測試涵蓋了從小學(xué)到高中競賽問題的廣泛范圍。

此外，Grok-1.5在HumanEval基準測試中也取得了74.1%的得分，該測試評估了代碼生成和問題解決能力。

自 2023 年 11 月馬斯克的聊天機器人首次亮相以來，馬斯克的人工智能公司不斷取得進步，從Grok-1到Grok-1.5再到Grok-1.5V，xAI努力追趕 OpenAI 和其他AI公司。

盡管如此，xAI 仍需繼續(xù)努力，畢竟馬斯克最初成立它的目的是為了試圖理解宇宙的本質(zhì)。xAI透露，未來幾個月，Grok 的多模態(tài)理解和生成能力將有 "重大 "更新。

參考資料：

1、https://x.ai/blog/grok-1.5

2、https://x.ai/blog/grok-1.5v

3、https://venturebeat.com/ai/elon-musks-xai-previews-grok-1-5v-its-firs

租售GPU算力

租：4090/A800/H800/H100

售：現(xiàn)貨H100/H800

特別適合企業(yè)級應(yīng)用

掃碼了解詳情?

點「在看」的人都變好看了哦！

馬斯克旗下xAI發(fā)布首個多模態(tài)大模型！

為了評估模型對于真實世界的空間理解，xAI此次還推出了RealWorldQA基準測試。RealWorldQA由700多張圖片組成，主要用于評估人工智能模型在現(xiàn)實世界場景中的空間理解能力。

在RealWorldQA 基準測試中，Grok-1.5V表現(xiàn)甚至超過了同類產(chǎn)品。