0
本文作者: 高允毅 | 2025-01-23 17:47 |
Open AI連續(xù)幾天上新,谷歌也不甘示弱。
今天谷歌深夜炸群,重磅發(fā)布了殺手锏——Gemini2.0,聲稱“Gemini2.0 是我們迄今為止最新、功能最強(qiáng)大的 AI 模型?!?/p>
其最大的亮點(diǎn)是Gemini2.0 是第一家實(shí)現(xiàn)原生多模態(tài)輸入輸出的模型。
基于強(qiáng)大的新模型,谷歌又推出了三個(gè)AI agent產(chǎn)品,通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程駐守Jules,這一套“組合拳”下來,標(biāo)志著谷歌AI已經(jīng)初步做到了向“Agent”時(shí)代的轉(zhuǎn)變。
谷歌DeepMind的CEO德米斯·哈薩比斯(Demis Hassabis)對(duì)此表示非常滿意,因?yàn)镚emini 2.0 實(shí)際上達(dá)到了目前 Gemini 1.5 Pro 的水平。這意味著在保持相同成本效率、性能效率和速度的情況下,整體性能要整整提升一個(gè)檔次。
Gemini2.0,第一個(gè)實(shí)現(xiàn)原生多模態(tài)輸入輸出的模型
在Gemini2.0發(fā)布前,谷歌發(fā)布的一款名為Gemini-exp-1206的模型已經(jīng)火爆全網(wǎng)。該模型能夠處理 200 萬個(gè)標(biāo)記(相當(dāng)于一個(gè)多小時(shí)的視頻),擅長(zhǎng)處理大型復(fù)雜數(shù)據(jù)集。因?yàn)楦叱男阅?,它?Livebench 上排名第二,超過了Claude 3.5 Sonnet,直逼Open o1-preview。
許多人猜測(cè)這可能就是Gemini2.0。
當(dāng)Gemini2.0的實(shí)力真正揭開帷幕,比想象中還令人震撼。首先性能上全面升級(jí)。在速度方面,2.0 的速度是 1.5 Pro 的兩倍,這一速度提升意味著用戶將享受到更高效的處理能力和更快的響應(yīng)時(shí)間。
在性能方面,Gemini2.0可以支持圖片、視頻和音頻等多模態(tài)輸入與輸出。可以直接生成圖像與文本混合的內(nèi)容,以及原生生成可控的多語言文本轉(zhuǎn)語音(TTS)音頻。它還可以原生調(diào)用Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。
基于Gemini2.0架構(gòu)之上,谷歌推出了三個(gè)新的AI智能體原型:通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程Jules。
谷歌送上Agent大禮包
Agent是指無需人工干預(yù)或監(jiān)督即可自主執(zhí)行任務(wù)的人工智能技術(shù)。它們?cè)试S用戶將任務(wù)委托給人工智能,從而大大優(yōu)化人類的工作流程,組建一支隨時(shí)待命的助手團(tuán)隊(duì),幾乎無需監(jiān)督。
谷歌在2024年的末尾,送上了Agent大禮包。
Project Astra:通用大模型助手
Project Astra是谷歌最初在5月的I/O大會(huì)上首次對(duì)外發(fā)布的AI助手,對(duì)標(biāo)OpenAI的GPT-4o,其主要功能包括實(shí)時(shí)語音和視覺處理,能夠通過手機(jī)或谷歌眼鏡進(jìn)行跨文本、音頻、視頻的多模態(tài)實(shí)時(shí)推理。
Astra產(chǎn)品經(jīng)理Bibo Xu將認(rèn)為Project Astra在整合一些當(dāng)今最強(qiáng)大的信息檢索系統(tǒng)。
此次,Project Astra全面升級(jí)了四個(gè)性能:更好的對(duì)話,能調(diào)用新工具,更強(qiáng)的記憶,更低的延遲。
更好的對(duì)話: Project Astra具備多語言對(duì)話能力,能夠更好理解不同口音和不常見詞匯。
調(diào)用新工具:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、鏡頭和地圖,使其作為您日常生活中的助手更加有用。
更強(qiáng)的記憶:Project Astra擁有長(zhǎng)達(dá) 10 分鐘的會(huì)話記憶,能記住更多用戶與其過去的對(duì)話,從而提供個(gè)性化的服務(wù)。
更低的延遲:通過對(duì)新的流媒體功能和本機(jī)音頻理解,Project Astra 可以以與人類正常對(duì)話的速度來作出反饋。
Google 和 Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)對(duì)這一產(chǎn)品尤為自豪,稱它為“展示了通用AI助手的曙光”。而谷歌方面正打算將這些功能引入 Google 產(chǎn)品,如Gemini應(yīng)用、 AI 助手,眼鏡等。
Project Mariner:瀏覽器助手
Project Mariner是一個(gè)使用 Gemini 2.0 構(gòu)建的早期研究原型,旨在從瀏覽器開始探索人機(jī)交互的未來。作為研究原型,它能夠理解和推理瀏覽器屏幕上的信息,包括像素和文本、代碼、圖像和表單等網(wǎng)絡(luò)元素,然后通過實(shí)驗(yàn)性的 Chrome 擴(kuò)展程序使用這些信息完成任務(wù)。
簡(jiǎn)而言之,就是用AI來幫助人類操作電腦,通過控制用戶的Chrome 瀏覽器、移動(dòng)屏幕上的光標(biāo)、點(diǎn)擊按鈕和填寫表格,Project Mariner 可以登錄雜貨店網(wǎng)站購(gòu)物,還可以查找航班和酒店、購(gòu)買家居用品、查找食譜等。
根據(jù)WebVoyager 基準(zhǔn)進(jìn)行評(píng)估,該基準(zhǔn)測(cè)試代理在端到端真實(shí)世界網(wǎng)絡(luò)任務(wù)上的性能,Project Mariner作為單一代理設(shè)置實(shí)現(xiàn)了 83.5% 的最佳工作結(jié)果。
不過從安全性考慮,這一切都在用戶監(jiān)督允許的范圍內(nèi),許多敏感操作會(huì)要求用戶進(jìn)行最終確認(rèn)。
某谷歌高管稱Project Mariner是“全新用戶體驗(yàn)范式轉(zhuǎn)變”的一部分。
Jules:編程助手
Jules簡(jiǎn)而言之,就是AI幫你寫代碼。它直接集成到 GitHub 工作流程中,查看用戶已有的代碼,并直接在 GitHub 中進(jìn)行更改,解決開發(fā)者頭疼的改bug環(huán)節(jié),而這一切也都在用戶的監(jiān)督之下,保證安全的同時(shí)節(jié)省時(shí)間,方便用戶專注于做自己實(shí)際想構(gòu)建的內(nèi)容。
Gemini2.0的全面還包括在游戲、學(xué)術(shù)研究、機(jī)器人領(lǐng)域做的嘗試。
谷歌正在與Supercell等游戲開發(fā)商合作,探索智能體在游戲中的應(yīng)用。谷歌推出的AI游戲助手可以理解游戲規(guī)則和進(jìn)程,能夠通過用戶游戲屏幕上的動(dòng)作來給出下一步操作建議。谷歌展示了從《部落沖突》等策略游戲到《Hay Day》等農(nóng)場(chǎng)模擬器游戲中,AI如何通過對(duì)話的形式為玩家提供建議。
谷歌推出的Deep Research,如同學(xué)術(shù)研究助手,通過高級(jí)推理和長(zhǎng)上下文能力,可以直接出論文。
谷歌還想將 Gemini 2.0 的空間推理能力應(yīng)用于機(jī)器人身上,幫助機(jī)器人更加智能化。
Gemini2.0在音頻和圖像生成方面展現(xiàn)了強(qiáng)大實(shí)力,系統(tǒng)可以生成和修改圖像,處理照片和視頻,回答相關(guān)問題,用不同口音和語言的聲音朗讀文本。為了防止濫用,谷歌使用SynthID技術(shù)對(duì)所有生成的音頻和圖像進(jìn)行水印標(biāo)記。谷歌還推出了多模態(tài)實(shí)時(shí)API,幫助開發(fā)者構(gòu)建具有實(shí)時(shí)音頻和視頻流功能的應(yīng)用程序。這個(gè)API支持來自攝像頭或屏幕的音頻和視頻輸入,能夠處理自然對(duì)話模式。
Gemini2.0的強(qiáng)大基于谷歌定制的硬件第六代TPUTrillium構(gòu)建而成。Trillium與前代產(chǎn)品相比全面升級(jí),如訓(xùn)練性能提高超過 4 倍,推理吞吐量提高3 倍,每個(gè)芯片的峰值計(jì)算性能提高了 4.7 倍,效提高67%,每顆芯片峰值計(jì)算性能提高4.7倍,HBM容量翻倍,單個(gè)Jupiter網(wǎng)絡(luò)有10萬顆TPU,高至2.5倍的每美元訓(xùn)練性能,1.4倍的每美元推理性能。
目前人們可以通過PC端優(yōu)先體驗(yàn)2.0Flash 實(shí)驗(yàn)版,而Gemini2,0移動(dòng)版將很快呈現(xiàn)。明年1月谷歌會(huì)推出Gemini 2.0 Flash 多模式版本,屆時(shí)還將推出更多 Gemini 2.0 模型尺寸。
而作為提供給開發(fā)者的體驗(yàn)版模型,Gemini 2.0 Flash 現(xiàn)在可以通過Google AI Studio和Vertex AI中的Gemini API獲取,所有開發(fā)者均可使用多模態(tài)輸入和文本輸出。
谷歌開啟Agent時(shí)代
谷歌正在瘋狂將AI融入它所擁有的所有產(chǎn)品中。
Google 和 Alphabet 首席執(zhí)行官 桑達(dá)·皮采(Sundar Pichai)對(duì)這款產(chǎn)品寄予厚望,他說如果 Gemini 1.0 是關(guān)于組織和理解信息的,那么 Gemini 2.0 就是為了讓信息更加有用。其中重要的區(qū)別就是“Agent”,這是人工智能時(shí)代下一個(gè)大方向。
在桑達(dá)爾·皮查伊(Sundar Pichai)描述中,“Agent可以更好地了解你周圍的世界,提前思考多個(gè)步驟,并在你的監(jiān)督下代表你采取行動(dòng)”。谷歌這次秀肌肉,完整呈現(xiàn)了系統(tǒng)級(jí) Copilot 和智能體應(yīng)用,展現(xiàn)了Agent可以為人們生活帶來的全方位改變。
谷歌表示他們的AI Overviews已服務(wù)超過10億用戶,幫助用戶提問全新的問題類型,成為谷歌搜索引擎最受歡迎的功能之一。他們準(zhǔn)備把Gemini 2.0的先進(jìn)推理能力引入AI Overviews,處理更復(fù)雜的主題和多步驟問題,包括高級(jí)數(shù)學(xué)公式、多模態(tài)查詢和編程,探索更多功能引入產(chǎn)品本身。谷歌的愿景是在2025年開啟真正的“AI智能體時(shí)代”。
據(jù)彭博社報(bào)道,OpenAI 正準(zhǔn)備發(fā)布一款能夠控制計(jì)算機(jī)并獨(dú)立執(zhí)行任務(wù)的自主 AI 代理,代號(hào)為“Operator”,計(jì)劃于 1 月份將其作為研究預(yù)覽版和開發(fā)工具首次亮相。
2025年是Agent時(shí)代的真正開始,到時(shí)又會(huì)有怎樣的廝殺呢,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))拭目以待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。