重磅消息:GPT-4o發(fā)布!!!
共 745字,需瀏覽 2分鐘
·
2024-05-14 11:55
IT職場(chǎng) / IT技術(shù) / 學(xué)習(xí)資料
由于微信公眾號(hào)近期改變了推送規(guī)則,如果你想第一時(shí)間看到我的文章就置頂+星標(biāo)公眾號(hào)。
GPT-4o(“o”代表“omni”)是邁向更自然的人機(jī)交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。
它可以在短至 232 毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入,平均為 320 毫秒,與人類(lèi)的響應(yīng)時(shí)間相似(在新窗口中打開(kāi))在一次談話中。
它在英語(yǔ)文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語(yǔ)文本上的性能顯著提高,同時(shí) API 的速度也更快,成本降低了 50%。與現(xiàn)有模型相比,GPT-4o 在視覺(jué)和音頻理解方面尤其出色。
在 GPT-4o 之前,您可以使用語(yǔ)音模式與 ChatGPT 對(duì)話,平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。為了實(shí)現(xiàn)這一目標(biāo),語(yǔ)音模式是由三個(gè)獨(dú)立模型組成的管道:一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5 或 GPT-4 接收文本并輸出文本,第三個(gè)簡(jiǎn)單模型將該文本轉(zhuǎn)換回音頻。這個(gè)過(guò)程意味著主要智能來(lái)源GPT-4丟失了大量信息——它無(wú)法直接觀察音調(diào)、多個(gè)說(shuō)話者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感。
借助 GPT-4o,我們跨文本、視覺(jué)和音頻端到端地訓(xùn)練了一個(gè)新模型,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。由于 GPT-4o 是我們第一個(gè)結(jié)合所有這些模式的模型,因此我們?nèi)匀恢皇菧\嘗輒止地探索該模型的功能及其局限性。
