Google AI全家桶,打響大模型反擊戰(zhàn)
共 4482字,需瀏覽 9分鐘
·
2024-05-21 07:52
谷歌舉辦 2024 年 I/O 開(kāi)發(fā)者大會(huì),AI 成為絕對(duì)主角。在 2 小時(shí)主題演講中,AI 被提及了 121 次,涉及多款基礎(chǔ)大模型更新亮相、AI Agent 與多模態(tài)生成式 AI 發(fā)布、Gemini 入局谷歌全產(chǎn)品線(xiàn)以及新一代硬件展出等事項(xiàng)。
1. 谷歌進(jìn)入 Gemini 時(shí)代,多款新模型更新亮相
在 2023 年谷歌 I/O 大會(huì)上,谷歌首次分享了 Gemini 計(jì)劃:一開(kāi)始就構(gòu)建原生多模態(tài)模型,能夠跨文本、圖像、視頻、代碼等多種數(shù)據(jù)類(lèi)型進(jìn)行推理。自此,谷歌在 2023 年 12 月發(fā)布 Gemini 1.0,今年 2 月升級(jí)的 Gemini 1.5 Pro 上下文長(zhǎng)度可達(dá) 100 萬(wàn) tokens,4 月在模型中加入音頻理解、系統(tǒng)指令、JSON 模型等功能。此外,在開(kāi)源的道路上,谷歌今年 2 月份推出 2B、7B 輕量級(jí)開(kāi)源模型Gemma,該模型采用與創(chuàng)建 Gemini 模型相同的研究和技術(shù)構(gòu)建,并在 4 月份推出了 Gemma 的變體模型 CodeGemma 和 RecurrentGemma。
今年 I/O 大會(huì)上,谷歌 AI 大模型已完成升級(jí)迭代,Gemini 與 Gemma 性能進(jìn)一步提升,逐步進(jìn)入 Gemini 時(shí)代。具體而言,谷歌更新了 Gemini 1.5 Pro 的長(zhǎng)文本能力,并引入了新的 1.5Flash 輕量版型號(hào),與此同時(shí),Gemma 也升級(jí)至第二代并引入新的變體模型 PaliGemma。
1)Gemini 1.5 Pro 進(jìn)階版,實(shí)現(xiàn) 200 萬(wàn) tokens 上下文,具備更強(qiáng)大的推理與理解能力。下個(gè)月 Gemini 1.5 Pro 還將在 API 層面推出新功能,包括視頻輸入、并行函數(shù)調(diào)用和文本緩存,以提高處理多個(gè)請(qǐng)求和問(wèn)答文件時(shí)的效率。
2)Gemini 1.5 Flash 是為了滿(mǎn)足用戶(hù)對(duì)低延遲和低成本的需求而產(chǎn)生的輕量化模型。1.5 Flash 為 Gemini 家族的新成員,也是 API 中速度最快的 Gemini 模型。它針對(duì)大規(guī)模、大批量、高頻的任務(wù)進(jìn)行了優(yōu)化,服務(wù)更具有成本效益,且依舊具有多模態(tài)推理能力和突破的上下文窗口。
3)開(kāi)源大模型 Gemma 升級(jí)至第二代,參數(shù)從第一代 2B、7B 的提升至 27B,預(yù)計(jì)今年 6 月份發(fā)布。Gemma 2 采用全新架構(gòu),旨在實(shí)現(xiàn)突破性的性能和效率,它的性能優(yōu)于一些尺寸超過(guò)其兩倍的模型,并且可以在 GPU 或 Vertex AI 中的單個(gè) TPU 主機(jī)上高效運(yùn)行。此外,Gemma 推出第一個(gè)視覺(jué)語(yǔ)言開(kāi)源模型PaliGemma,并針對(duì)圖像字幕、視覺(jué)問(wèn)答和其他圖像標(biāo)記任務(wù)進(jìn)行了優(yōu)化。
4)此外,Gemini 家族中的 Nano 版本正在從純文本輸入擴(kuò)展至圖像,未來(lái)將具有多模態(tài)能力。從 Pixel 開(kāi)始,使用具有多模態(tài)功能的 Gemini Nano 的應(yīng)用程序?qū)⒛軌蛳袢藗円粯永斫馐澜纭梢蕴幚砦谋尽D像、音頻和語(yǔ)音,在保證存儲(chǔ)在設(shè)備上的信息私密性的同時(shí)解鎖新的體驗(yàn)。
2. Astra 對(duì)標(biāo) GPT-4o,圖像、音樂(lè)、視頻多模態(tài)模型發(fā)布
在谷歌發(fā)布會(huì)的前一日,OpenAI 發(fā)布最新的旗艦型號(hào)大模型 GPT-4o,不僅提供與 GPT-4 同等的模型能力,推理速度還更快,還能提供同時(shí)理解文本、圖像、音頻等內(nèi)容的多模態(tài)能力。其中,GPT-4o 最大的亮點(diǎn)是可以實(shí)現(xiàn)即時(shí)語(yǔ)音對(duì)話(huà)以及具備先進(jìn)的視覺(jué)和音頻理解能力,能夠智能感知語(yǔ)氣與語(yǔ)態(tài)。
谷歌推出 AI Agent 項(xiàng)目 Astra 模型,具備類(lèi)似 GPT-4o 的能力,可以實(shí)現(xiàn)跨文本、音頻、視頻多模態(tài)實(shí)時(shí)推理。Astra 和 GPT-4o 的使用效果類(lèi)似,用戶(hù)可以通過(guò)它和 AI 實(shí)時(shí)對(duì)話(huà),以及視頻聊天。在發(fā)布會(huì)上,工作人員在演示視頻中將手機(jī)鏡頭對(duì)準(zhǔn)身邊的物品,并向 Project Astra 提出一些疑問(wèn),它幾乎能做到零延時(shí)地準(zhǔn)確回答。
AI Agent 具有廣泛用途,具體來(lái)看:1)健康管理與醫(yī)療咨詢(xún):AI 健康代理助手可以通過(guò)分析用戶(hù)輸入的癥狀、健康記錄和生活習(xí)慣,提供個(gè)性化的健康建議和早期疾病預(yù)警;2)客戶(hù)服務(wù)自動(dòng)化:AI 代理可以集成在客服系統(tǒng)中,提供7*24 小時(shí)無(wú)間斷服務(wù)。能夠理解和回應(yīng)用戶(hù)查詢(xún),提供賬戶(hù)信息、解決常見(jiàn)問(wèn)題、處理交易等;3)個(gè)性化學(xué)習(xí)輔導(dǎo):AI 學(xué)習(xí)代理可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和難點(diǎn)定制個(gè)性化學(xué)習(xí)計(jì)劃。
1、面向辦公自動(dòng)化領(lǐng)域的 AI Agent 建設(shè)思考與分享 2、AI Agent 在企業(yè)經(jīng)營(yíng)分析場(chǎng)景的落地 3、LLM和Multi-Agent在運(yùn)維領(lǐng)域的實(shí)驗(yàn)探索
3. Gemini 賦能谷歌全產(chǎn)品線(xiàn),打造 AI 生產(chǎn)力工具集合
目前,已有超過(guò) 150 萬(wàn)個(gè)開(kāi)發(fā)者正在使用谷歌各種工具 Gemini 模型,利用它調(diào)試代碼、獲取新的見(jiàn)解并打造下一代 AI 應(yīng)用。谷歌力圖每個(gè)人都能從 Gemini的功能中受益,不斷將其突破性功能以強(qiáng)大的方式整合至自身產(chǎn)品體系中,其中包括搜索、Photos、Workspace 和安卓等產(chǎn)品中。
1)搜索:谷歌將 Gemini 融入搜索引擎,將支持多輪推理、規(guī)劃能力以及對(duì)視頻提問(wèn)。具體來(lái)看,有如下亮點(diǎn):a)AI 概述:用戶(hù)可以通過(guò)在搜索結(jié)果的頂部,獲取由 AI 大模型生成的摘要,以此簡(jiǎn)化整個(gè)搜索過(guò)程,讓復(fù)雜問(wèn)題的檢索過(guò)程,變得簡(jiǎn)單;b)多步推理:對(duì)于復(fù)雜問(wèn)題的搜索,可將其拆分為一個(gè)個(gè)小問(wèn)題,然后自動(dòng)對(duì)問(wèn)題排序回答;3)擬定計(jì)劃:在多步推理加持下,AI 概述可為用戶(hù)提供計(jì)劃的方案;d)視頻提問(wèn):通過(guò)視頻對(duì)話(huà)進(jìn)行搜索并逐步獲取答案。
2)Photos:推出了新功能——Ask Photos,可以一鍵從圖庫(kù)中幫用戶(hù)找到想要的照片和視頻。該功能將于今年夏天推出。
3)Workspace:提供的一套生產(chǎn)力和協(xié)作工具中,包括谷歌郵箱、谷歌 Docs、谷歌 Calendar 等,使得在這些工具間進(jìn)行跨應(yīng)用工作變得更加容易。例如,谷歌郵箱可自動(dòng)分析郵件以及附件,識(shí)別整理好收據(jù),然后一鍵在 Drive 和 Sheets中處理。
4. AI 時(shí)代的基礎(chǔ)設(shè)施,新一代 TPU 性能最強(qiáng)能效最高
谷歌為 AI 大模型定制基礎(chǔ)設(shè)施 TPU,支撐 Gemini 及其他模型訓(xùn)練與服務(wù)需求。據(jù)谷歌黑板報(bào)微信公眾號(hào),訓(xùn)練最先進(jìn)的模型需要大量的計(jì)算能力。過(guò)去六年中,行業(yè)對(duì)機(jī)器學(xué)習(xí)計(jì)算能力的需求增長(zhǎng)了 100 萬(wàn)倍,而且每年都會(huì)以十倍的速度增長(zhǎng)。谷歌25年以來(lái)致力于投資技術(shù)基礎(chǔ)設(shè)施,為AI進(jìn)步提供定制的TPU。
Gemini 完全是在谷歌第四代和第五代 TPU 上進(jìn)行訓(xùn)練和服務(wù),谷歌 TPU 還支持如 Anthropic 在內(nèi)的其他領(lǐng)先的 AI 公司訓(xùn)練他們的大模型。
發(fā)布會(huì)上,谷歌推出第六代 TPU Trillium,在性能和能效上較上一代均有顯著提升。據(jù)量子位微信公眾號(hào),與 TPU v5e 相比,Trillium 的峰值計(jì)算性能提高4.7 倍,HBM 和帶寬增加了 1 倍,芯片間互聯(lián)(ICI)帶寬也增加了 1 倍。另外,Trillium 的能效比 TPU v5e 高出了 67%以上,主要系公司采取先進(jìn)的液冷技術(shù)。關(guān)于推出時(shí)間,谷歌計(jì)劃今年年底向 Cloud 用戶(hù)提供 Trillium。
除了 TPU,谷歌還推出了 CPU 和 GPU 來(lái)支持任何工作負(fù)載。CPU 方面,谷歌上個(gè)月宣布首款基于 Arm 定制的 CPU——Axion 處理器,可提供業(yè)界領(lǐng)先的性能和能效;GPU 方面,谷歌成為首批提供 Nvidia 尖端 Blackwell GPU 的 Cloud提供商之一,該 GPU 將于 2025 年初上市。
《半導(dǎo)體行業(yè)深度報(bào)告合集(2024)》
本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。
免責(zé)申明:本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀(guān)點(diǎn)不代表本號(hào)立場(chǎng),可追溯內(nèi)容均注明來(lái)源,發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系刪除,謝謝。
溫馨提示:
請(qǐng)搜索“AI_Architect”或“掃碼”關(guān)注公眾號(hào)實(shí)時(shí)掌握深度技術(shù)分享,點(diǎn)擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。
