GPT-4o:大模型風(fēng)向,OpenAI大更新
共 4217字,需瀏覽 9分鐘
·
2024-05-20 07:41
本文來(lái)自“GPT-4o:大模型風(fēng)向標(biāo),OpenAI重大更新”。美國(guó)時(shí)間 5 月 13 日,OpenAI 迎來(lái)兩項(xiàng)重大更新。具體包括:1)發(fā)布桌面版 APP 及更新 UI 后的 ChatGPT,用戶使用更加簡(jiǎn)單與自然;2)發(fā)布新的全能模型 GPT-4o,實(shí)現(xiàn)跨模態(tài)即時(shí)響應(yīng),相比 GPT-4 Turbo,性價(jià)比顯著提升的同時(shí)向用戶免費(fèi)開放。
下載鏈接:
GPT-4o:大模型風(fēng)向標(biāo),OpenAI重大更新
2024海內(nèi)外智能硬件行業(yè)創(chuàng)新趨勢(shì)調(diào)研報(bào)告
《2024年GOPS全球運(yùn)維大會(huì):大模型合集》
1、CMDB大模型賦能下的證券行業(yè)持續(xù)部署實(shí)踐 2、大模型時(shí)代研發(fā)運(yùn)營(yíng)領(lǐng)域的場(chǎng)景應(yīng)用趨勢(shì)展望 3、大規(guī)模平臺(tái)工程實(shí)踐血淚史 4、大語(yǔ)言模型在 IT 運(yùn)維領(lǐng)域的建設(shè)落地實(shí)踐 5、大模型Agent在AIOps運(yùn)維場(chǎng)景的實(shí)踐
《2024年GOPS全球運(yùn)維大會(huì):大模型專題合集》
1、大模型:無(wú)處不在的模型之簡(jiǎn)要質(zhì)量度量 2、大模型:LLM 在操作系統(tǒng)運(yùn)維場(chǎng)景的現(xiàn)狀、挑戰(zhàn)和實(shí)踐 3、大模型:螞蟻集團(tuán) OpsGPT 落地實(shí)踐和技術(shù)開源 4、大模型:邁向更高層次智能化的生成式軟件開發(fā) 5、大模型:那些潛藏的大模型評(píng)估樂(lè)趣
《2024年GOPS全球運(yùn)維大會(huì):AI專題合集》
1、AI:趣丸科技在運(yùn)維 AI Agent 的探索與實(shí)踐 2、AI:漫談人工智能的一道重要門坎:系統(tǒng)思維 3、AI:企業(yè)應(yīng)用新范式,基于云智能平臺(tái)實(shí)現(xiàn) AI 應(yīng)用開發(fā)
1. 桌面版及新 UI ChatGPT
ChatGPT 發(fā)布桌面版 APP,支持與計(jì)算機(jī)語(yǔ)音對(duì)話,提升用戶與模型交互體驗(yàn)。對(duì)于免費(fèi)和付費(fèi)用戶,OpenAI 推出了適用于 macOS 的新 ChatGPT 桌面應(yīng)用程序,該應(yīng)用程序旨在無(wú)縫集成到用戶的計(jì)算機(jī)上執(zhí)行的任何操作。通過(guò)簡(jiǎn)單的鍵盤快捷鍵(Option + Space),用戶便可向 ChatGPT 提問(wèn),并支持直接在應(yīng)用程序中截取屏幕截圖進(jìn)行討論。與此同時(shí),ChatGPT 支持與計(jì)算機(jī)直接語(yǔ)音對(duì)話,并在未來(lái)將推出新音頻和視頻功能。
OpenAI 首先向 Plus 用戶推出 macOS 應(yīng)用程序,并將在未來(lái)幾周內(nèi)更廣泛地提供該應(yīng)用程序,同時(shí)計(jì)劃在今年晚些時(shí)候推出 Windows 版本。
此外,OpenAI 還全面改版了 UI 界面,旨在提供更加友好和更具有對(duì)話性的外觀,讓它和用戶的互動(dòng)也變得更自然與簡(jiǎn)單。
2. GPT-4o 實(shí)現(xiàn)毫秒級(jí)視覺(jué)音頻理解
GPT-4o(“o”代表“omni”)為 OpenAI 最新的旗艦型號(hào),不僅提供與 GPT-4 同等程度的模型能力,推理速度還更快,還能提供同時(shí)理解文本、圖像、音頻等內(nèi)容的多模態(tài)能力。此次發(fā)布會(huì),GPT-4o 具有如下亮點(diǎn):
1)毫秒級(jí)響應(yīng),實(shí)現(xiàn)即時(shí)語(yǔ)音對(duì)話。GPT-4o 能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。使用語(yǔ)音模式與ChatGPT 對(duì)話當(dāng)中,GPT-3.5 與 GPT-4 平均延遲分別為 2.8s、5.4s,而 GPT-4o對(duì)音頻輸入的響應(yīng)時(shí)間最短為 232 毫秒,平均為 320 毫秒,這與人類在對(duì)話中的響應(yīng)時(shí)間相似。GPT-4o 運(yùn)行速度大大提升,邁向了更自然的人機(jī)交互。
2)更先進(jìn)的視覺(jué)與音頻理解能力,智能感知語(yǔ)氣與語(yǔ)態(tài)。與現(xiàn)有模型相比,GPT-4o 展現(xiàn)了出色的視覺(jué)和音頻理解能力:首先,用戶可在對(duì)話中隨時(shí)打斷;其次,可根據(jù)場(chǎng)景生成多種音調(diào),帶有人類般的情緒和情感;直接通過(guò)和 AI 視頻通話讓它在線解答各種問(wèn)題。
3)API 性價(jià)比顯著提升。與 GPT-4 Turbo 相比,GPT-4o 速度提升 2 倍、成本卻降低了 50%,且速率限制提升 5 倍。
3. 端到端多模態(tài) GPT-4o,刷新 SOTA 性能飛躍
傳統(tǒng)語(yǔ)音 AI 通常經(jīng)過(guò)三步法實(shí)現(xiàn)對(duì)話功能,在這過(guò)程中會(huì)丟失很多信息且不能判斷情緒變化。三步法具體為:1)語(yǔ)音識(shí)別或 ASR:音頻到文本,類似 Whisper;2)LLM 計(jì)劃下一步要說(shuō)什么:文本 1 到文本 2;3)語(yǔ)音合成或 TTS:文本 2 到音頻,類似 ElevenLabs 或 VALL-E。GPT-4 便采用該模式,在這過(guò)程中不僅響應(yīng)速度更慢而且丟失了大量信息,無(wú)法直接觀察語(yǔ)調(diào)、多個(gè)說(shuō)話者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感等。
GPT-4o 為跨模態(tài)端到端訓(xùn)練新模型,意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理,成為真正的多模態(tài)統(tǒng)一模型,帶來(lái)性能的飛躍提升。除了響應(yīng)速度更快之外,在傳統(tǒng)基準(zhǔn)測(cè)試中,GPT-4o 在文本、推理和編碼智能方面實(shí)現(xiàn)了 GPT-4 Turbo 級(jí)別的性能,同時(shí)在多語(yǔ)言、音頻和視覺(jué)功能上達(dá)到了新的高水位線。
文本推理:GPT-4o 在 0-shot COT MMLU(常識(shí)問(wèn)題)上創(chuàng)下了 88.7%的新高分。此外,在傳統(tǒng)的 5-shot no-CoT MMLU 上,GPT-4o 創(chuàng)下了 87.2%的新高分。相較于 GPT-4 Turbo 而言,GPT-4o 文本推理能力有一定提升。
多語(yǔ)言識(shí)別:與 Whisper-v3 相比,GPT-4o 在多種語(yǔ)言的識(shí)別中表現(xiàn)優(yōu)異,尤其是資源匱乏的語(yǔ)言。
音頻翻譯:GPT-4o 在音頻翻譯表現(xiàn)上達(dá)到新的高水準(zhǔn),且在 MLS 基準(zhǔn)測(cè)試中優(yōu)于 Whisper-v3。
M3Exam 測(cè)試:M3Exam 基準(zhǔn)測(cè)試既是多語(yǔ)言評(píng)估也是視覺(jué)評(píng)估,由來(lái)自其他國(guó)家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題組成,有時(shí)還包括圖形和圖表。在所有語(yǔ)言的基準(zhǔn)測(cè)試中,GPT-4o 都比 GPT-4 更強(qiáng)。
視覺(jué)理解:GPT-4o 在視覺(jué)感知基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。具體來(lái)看,GPT-4o 在 MMMU 測(cè)試中分?jǐn)?shù)達(dá)到 69.1,而 GPT-4 Turbo、Gemini 1.0 Ultra、Gemini1.5 Pro、Claude Opus 分別為 63.1、59.4、58.5、59.4。
此外,在端到端多模態(tài)架構(gòu)支持下,GPT-4o 多模態(tài)能力范圍顯著拓展。除了文本、圖像等常用功能,GPT-4o 還支持 3D 物品合成、文本轉(zhuǎn)字體等多樣化功能。
本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。
免責(zé)申明:本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號(hào)立場(chǎng),可追溯內(nèi)容均注明來(lái)源,發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系刪除,謝謝。
溫馨提示:
請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。
