谷歌發(fā)布Geimini2.0，開啟Agent新時(shí)代

本文作者：高允毅

2025-01-23 17:47

導(dǎo)語：谷歌拋出王炸殺手锏，先人一步開啟Agent新時(shí)代。

Open AI連續(xù)幾天上新，谷歌也不甘示弱。

今天谷歌深夜炸群，重磅發(fā)布了殺手锏——Gemini2.0，聲稱“Gemini2.0 是我們迄今為止最新、功能最強(qiáng)大的 AI 模型?！?/p>

其最大的亮點(diǎn)是Gemini2.0 是第一家實(shí)現(xiàn)原生多模態(tài)輸入輸出的模型。

基于強(qiáng)大的新模型，谷歌又推出了三個(gè)AI agent產(chǎn)品，通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程駐守Jules，這一套“組合拳”下來，標(biāo)志著谷歌AI已經(jīng)初步做到了向“Agent”時(shí)代的轉(zhuǎn)變。

谷歌DeepMind的CEO德米斯·哈薩比斯（Demis Hassabis）對此表示非常滿意，因?yàn)镚emini 2.0 實(shí)際上達(dá)到了目前 Gemini 1.5 Pro 的水平。這意味著在保持相同成本效率、性能效率和速度的情況下，整體性能要整整提升一個(gè)檔次。

Gemini2.0，第一個(gè)實(shí)現(xiàn)原生多模態(tài)輸入輸出的模型

在Gemini2.0發(fā)布前，谷歌發(fā)布的一款名為Gemini-exp-1206的模型已經(jīng)火爆全網(wǎng)。該模型能夠處理 200 萬個(gè)標(biāo)記（相當(dāng)于一個(gè)多小時(shí)的視頻），擅長處理大型復(fù)雜數(shù)據(jù)集。因?yàn)楦叱男阅?，它?Livebench 上排名第二，超過了Claude 3.5 Sonnet，直逼Open o1-preview。

谷歌發(fā)布Geimini2.0，開啟Agent新時(shí)代

許多人猜測這可能就是Gemini2.0。

當(dāng)Gemini2.0的實(shí)力真正揭開帷幕，比想象中還令人震撼。首先性能上全面升級。在速度方面，2.0 的速度是 1.5 Pro 的兩倍，這一速度提升意味著用戶將享受到更高效的處理能力和更快的響應(yīng)時(shí)間。

谷歌發(fā)布Geimini2.0，開啟Agent新時(shí)代

在性能方面，Gemini2.0可以支持圖片、視頻和音頻等多模態(tài)輸入與輸出。可以直接生成圖像與文本混合的內(nèi)容，以及原生生成可控的多語言文本轉(zhuǎn)語音(TTS)音頻。它還可以原生調(diào)用Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。

基于Gemini2.0架構(gòu)之上，谷歌推出了三個(gè)新的AI智能體原型：通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程Jules。

谷歌送上Agent大禮包

Agent是指無需人工干預(yù)或監(jiān)督即可自主執(zhí)行任務(wù)的人工智能技術(shù)。它們允許用戶將任務(wù)委托給人工智能，從而大大優(yōu)化人類的工作流程，組建一支隨時(shí)待命的助手團(tuán)隊(duì)，幾乎無需監(jiān)督。

谷歌在2024年的末尾，送上了Agent大禮包。

Project Astra：通用大模型助手

Project Astra是谷歌最初在5月的I/O大會上首次對外發(fā)布的AI助手，對標(biāo)OpenAI的GPT-4o，其主要功能包括實(shí)時(shí)語音和視覺處理，能夠通過手機(jī)或谷歌眼鏡進(jìn)行跨文本、音頻、視頻的多模態(tài)實(shí)時(shí)推理。

Astra產(chǎn)品經(jīng)理Bibo Xu將認(rèn)為Project Astra在整合一些當(dāng)今最強(qiáng)大的信息檢索系統(tǒng)。

此次，Project Astra全面升級了四個(gè)性能：更好的對話，能調(diào)用新工具，更強(qiáng)的記憶，更低的延遲。

更好的對話： Project Astra具備多語言對話能力，能夠更好理解不同口音和不常見詞匯。

調(diào)用新工具：借助 Gemini 2.0，Project Astra 可以使用 Google 搜索、鏡頭和地圖，使其作為您日常生活中的助手更加有用。

更強(qiáng)的記憶：Project Astra擁有長達(dá) 10 分鐘的會話記憶，能記住更多用戶與其過去的對話，從而提供個(gè)性化的服務(wù)。

更低的延遲：通過對新的流媒體功能和本機(jī)音頻理解，Project Astra 可以以與人類正常對話的速度來作出反饋。

Google 和 Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）對這一產(chǎn)品尤為自豪，稱它為“展示了通用AI助手的曙光”。而谷歌方面正打算將這些功能引入 Google 產(chǎn)品，如Gemini應(yīng)用、 AI 助手，眼鏡等。

Project Mariner：瀏覽器助手

Project Mariner是一個(gè)使用 Gemini 2.0 構(gòu)建的早期研究原型，旨在從瀏覽器開始探索人機(jī)交互的未來。作為研究原型，它能夠理解和推理瀏覽器屏幕上的信息，包括像素和文本、代碼、圖像和表單等網(wǎng)絡(luò)元素，然后通過實(shí)驗(yàn)性的 Chrome 擴(kuò)展程序使用這些信息完成任務(wù)。

簡而言之，就是用AI來幫助人類操作電腦，通過控制用戶的Chrome 瀏覽器、移動屏幕上的光標(biāo)、點(diǎn)擊按鈕和填寫表格，Project Mariner 可以登錄雜貨店網(wǎng)站購物，還可以查找航班和酒店、購買家居用品、查找食譜等。

根據(jù)WebVoyager 基準(zhǔn)進(jìn)行評估，該基準(zhǔn)測試代理在端到端真實(shí)世界網(wǎng)絡(luò)任務(wù)上的性能，Project Mariner作為單一代理設(shè)置實(shí)現(xiàn)了 83.5% 的最佳工作結(jié)果。

不過從安全性考慮，這一切都在用戶監(jiān)督允許的范圍內(nèi)，許多敏感操作會要求用戶進(jìn)行最終確認(rèn)。

某谷歌高管稱Project Mariner是“全新用戶體驗(yàn)范式轉(zhuǎn)變”的一部分。

Jules：編程助手

Jules簡而言之，就是AI幫你寫代碼。它直接集成到 GitHub 工作流程中，查看用戶已有的代碼，并直接在 GitHub 中進(jìn)行更改，解決開發(fā)者頭疼的改bug環(huán)節(jié)，而這一切也都在用戶的監(jiān)督之下，保證安全的同時(shí)節(jié)省時(shí)間，方便用戶專注于做自己實(shí)際想構(gòu)建的內(nèi)容。

Gemini2.0的全面還包括在游戲、學(xué)術(shù)研究、機(jī)器人領(lǐng)域做的嘗試。

谷歌正在與Supercell等游戲開發(fā)商合作，探索智能體在游戲中的應(yīng)用。谷歌推出的AI游戲助手可以理解游戲規(guī)則和進(jìn)程，能夠通過用戶游戲屏幕上的動作來給出下一步操作建議。谷歌展示了從《部落沖突》等策略游戲到《Hay Day》等農(nóng)場模擬器游戲中，AI如何通過對話的形式為玩家提供建議。

谷歌發(fā)布Geimini2.0，開啟Agent新時(shí)代

谷歌推出的Deep Research，如同學(xué)術(shù)研究助手，通過高級推理和長上下文能力，可以直接出論文。

谷歌還想將 Gemini 2.0 的空間推理能力應(yīng)用于機(jī)器人身上，幫助機(jī)器人更加智能化。

Gemini2.0在音頻和圖像生成方面展現(xiàn)了強(qiáng)大實(shí)力，系統(tǒng)可以生成和修改圖像，處理照片和視頻，回答相關(guān)問題，用不同口音和語言的聲音朗讀文本。為了防止濫用，谷歌使用SynthID技術(shù)對所有生成的音頻和圖像進(jìn)行水印標(biāo)記。谷歌還推出了多模態(tài)實(shí)時(shí)API，幫助開發(fā)者構(gòu)建具有實(shí)時(shí)音頻和視頻流功能的應(yīng)用程序。這個(gè)API支持來自攝像頭或屏幕的音頻和視頻輸入，能夠處理自然對話模式。

Gemini2.0的強(qiáng)大基于谷歌定制的硬件第六代TPUTrillium構(gòu)建而成。Trillium與前代產(chǎn)品相比全面升級，如訓(xùn)練性能提高超過 4 倍，推理吞吐量提高3 倍，每個(gè)芯片的峰值計(jì)算性能提高了 4.7 倍，效提高67%，每顆芯片峰值計(jì)算性能提高4.7倍，HBM容量翻倍，單個(gè)Jupiter網(wǎng)絡(luò)有10萬顆TPU，高至2.5倍的每美元訓(xùn)練性能，1.4倍的每美元推理性能。

目前人們可以通過PC端優(yōu)先體驗(yàn)2.0Flash 實(shí)驗(yàn)版，而Gemini2,0移動版將很快呈現(xiàn)。明年1月谷歌會推出Gemini 2.0 Flash 多模式版本，屆時(shí)還將推出更多 Gemini 2.0 模型尺寸。

而作為提供給開發(fā)者的體驗(yàn)版模型，Gemini 2.0 Flash 現(xiàn)在可以通過Google AI Studio和Vertex AI中的Gemini API獲取，所有開發(fā)者均可使用多模態(tài)輸入和文本輸出。

谷歌開啟Agent時(shí)代

谷歌正在瘋狂將AI融入它所擁有的所有產(chǎn)品中。

Google 和 Alphabet 首席執(zhí)行官桑達(dá)·皮采（Sundar Pichai）對這款產(chǎn)品寄予厚望，他說如果 Gemini 1.0 是關(guān)于組織和理解信息的，那么 Gemini 2.0 就是為了讓信息更加有用。其中重要的區(qū)別就是“Agent”，這是人工智能時(shí)代下一個(gè)大方向。

在桑達(dá)爾·皮查伊（Sundar Pichai）描述中，“Agent可以更好地了解你周圍的世界，提前思考多個(gè)步驟，并在你的監(jiān)督下代表你采取行動”。谷歌這次秀肌肉，完整呈現(xiàn)了系統(tǒng)級 Copilot 和智能體應(yīng)用，展現(xiàn)了Agent可以為人們生活帶來的全方位改變。

谷歌表示他們的AI Overviews已服務(wù)超過10億用戶，幫助用戶提問全新的問題類型，成為谷歌搜索引擎最受歡迎的功能之一。他們準(zhǔn)備把Gemini 2.0的先進(jìn)推理能力引入AI Overviews，處理更復(fù)雜的主題和多步驟問題，包括高級數(shù)學(xué)公式、多模態(tài)查詢和編程，探索更多功能引入產(chǎn)品本身。谷歌的愿景是在2025年開啟真正的“AI智能體時(shí)代”。

據(jù)彭博社報(bào)道，OpenAI 正準(zhǔn)備發(fā)布一款能夠控制計(jì)算機(jī)并獨(dú)立執(zhí)行任務(wù)的自主 AI 代理，代號為“Operator”，計(jì)劃于 1 月份將其作為研究預(yù)覽版和開發(fā)工具首次亮相。

2025年是Agent時(shí)代的真正開始，到時(shí)又會有怎樣的廝殺呢，雷峰網(wǎng)(公眾號：雷峰網(wǎng))拭目以待。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

高允毅

編輯

發(fā)私信

當(dāng)月熱門文章

谷歌發(fā)布Geimini2.0，開啟Agent新時(shí)代

谷歌發(fā)布Geimini2.0，開啟Agent新時(shí)代