双飞人妻13p,国产区在线视频,国产精品911,色婷婷婷,男人的天堂最新资源,超碰在线黄色,中文字幕在线观看视频一区,a 天堂在线

重磅消息：GPT-4o發(fā)布！！！

國(guó)民程序員

共 745字，需瀏覽 2分鐘

2024-05-14 11:55

點(diǎn)擊左上方[藍(lán)色小字]，關(guān)注[最新技術(shù)]

IT職場(chǎng) / IT技術(shù) / 學(xué)習(xí)資料

由于微信公眾號(hào)近期改變了推送規(guī)則，如果你想第一時(shí)間看到我的文章就置頂+星標(biāo)公眾號(hào)。

GPT-4o（“o”代表“omni”）是邁向更自然的人機(jī)交互的一步——它接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。

它可以在短至 232 毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入，平均為 320 毫秒，與人類(lèi)的響應(yīng)時(shí)間相似（在新窗口中打開(kāi)）在一次談話中。

它在英語(yǔ)文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配，在非英語(yǔ)文本上的性能顯著提高，同時(shí) API 的速度也更快，成本降低了 50%。與現(xiàn)有模型相比，GPT-4o 在視覺(jué)和音頻理解方面尤其出色。

在 GPT-4o 之前，您可以使用語(yǔ)音模式與 ChatGPT 對(duì)話，平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。為了實(shí)現(xiàn)這一目標(biāo)，語(yǔ)音模式是由三個(gè)獨(dú)立模型組成的管道：一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄為文本，GPT-3.5 或 GPT-4 接收文本并輸出文本，第三個(gè)簡(jiǎn)單模型將該文本轉(zhuǎn)換回音頻。這個(gè)過(guò)程意味著主要智能來(lái)源GPT-4丟失了大量信息——它無(wú)法直接觀察音調(diào)、多個(gè)說(shuō)話者或背景噪音，也無(wú)法輸出笑聲、歌唱或表達(dá)情感。

借助 GPT-4o，我們跨文本、視覺(jué)和音頻端到端地訓(xùn)練了一個(gè)新模型，這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。由于 GPT-4o 是我們第一個(gè)結(jié)合所有這些模式的模型，因此我們?nèi)匀恢皇菧\嘗輒止地探索該模型的功能及其局限性。

點(diǎn)贊

評(píng)論

舉報(bào)