0
作者丨郭思 王悅
編輯丨陳彩嫻
過去半年, 在OpenAI 持續(xù)迭代,不斷賺足大眾視線之際,谷歌遲遲沒有發(fā)聲。直至今日凌晨,谷歌直接丟出了一個重磅炸彈,帶著耗時一年之久的多模態(tài)模型 Gemini 來了。
而早在今年年初,谷歌就在著手 LaMDA 提供支持的實驗性對話式AI服務(wù)——Bard,但因為準(zhǔn)備并不充足,一經(jīng)發(fā)布之后,便因性能表現(xiàn)不佳,市值蒸發(fā)千億,如今來到年底,谷歌再次出擊,也被認(rèn)為是反擊 OpenAI 的再次力作。
據(jù)谷歌官方表示,Gemini 1.0 針對不同尺寸進(jìn)行了優(yōu)化,分別是:Ultra、Pro 和 Nano。這些是進(jìn)入 Gemini 時代的第一個模型,也實現(xiàn)了早些時候成立 Google DeepMind 時的愿景。
三個不同版本Ultra、Pro 和 Nano在各自性能和適配任務(wù)上側(cè)重點各有不同,具體而言:
Gemini Ultra —規(guī)模最大且功能最強大的模型,適用于高度復(fù)雜的任務(wù)。
Gemini Pro — 適用于各種任務(wù)的最佳模型。
Gemini Nano — 可以在端端側(cè)設(shè)備上運行的高效模型。
谷歌拒絕回答有關(guān) Pro 和 Ultra 的參數(shù)數(shù)量以及訓(xùn)練數(shù)據(jù)的規(guī)模或來源的問題。但其最小版本 Nano 旨在在智能手機上本地運行,實際上有兩種模型:一種用于速度較慢的手機,擁有 18 億個參數(shù),另一種用于功能更強大的設(shè)備,擁有 32.5 億個參數(shù)。
谷歌表示,Gemini 是包括 Google Research 在內(nèi)的 Google 各團(tuán)隊間進(jìn)行廣泛合作的成果。在大語言模型研究和開發(fā)中廣泛使用的 32 項學(xué)術(shù)基準(zhǔn)中,Gemini Ultra 的性能有 30 項都超過了目前最先進(jìn)的水平。
首先在MMLU(大規(guī)模多任務(wù)語言理解)測試中,Gemini的性能首次達(dá)到了超越人類專家水平。
在權(quán)威MMMU基準(zhǔn)測試中,Gemini Ultra獲得了59.4%的SOTA分?jǐn)?shù)。
圖像基準(zhǔn)測試中,Gemini Ultra 在不使用對象字符識別 (OCR) 系統(tǒng)來提取圖像中的文本進(jìn)行下一步處理的情況下,表現(xiàn)優(yōu)于GPT-4V。
此外,多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
據(jù)谷歌官方介紹,Gemini 1.0 具有復(fù)雜的多模態(tài)推理能力,可幫助理解復(fù)雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數(shù)據(jù)中發(fā)掘難以辨別的知識內(nèi)容。
經(jīng)過訓(xùn)練,Gemini 1.0 具備了同時處理、圖像和音頻等信息的能力,這使得它能夠更深入地理解輸入內(nèi)容的細(xì)節(jié),并能對復(fù)雜主題的問題進(jìn)行回答。因此,對于數(shù)學(xué)、物理等復(fù)雜的學(xué)科問題,Gemini 1.0 顯示出了強大的推理能力。
以理解圖像信息為例,在進(jìn)行圖像理解時,Gemini基于圖像就可以馬上進(jìn)行理解。但如果是非原生多模態(tài)結(jié)構(gòu)模型上,就需要先借助OCR(光學(xué)字符識別技術(shù))先“認(rèn)出來”圖里是什么——轉(zhuǎn)成文本,再放到語言模型中進(jìn)行語義理解。
Gemini可以做到端到端的理解,信息不會在“轉(zhuǎn)錄”過程中丟失。得益于此強大的功能,谷歌展示Gemini的應(yīng)用實例演示顯得尤為絲滑:
當(dāng)演示者在畫畫時,Gemini同時進(jìn)行識別。他迅速辨認(rèn)出了剛開始的曲線形狀。在鴨子畫完后,Gemini也能立即確認(rèn):“這是一只藍(lán)色的鴨子,正在水里游泳?!?/p>
Gemini能夠在幾乎實時的情況下完成辨別,并用自然、流暢的語言與演示者進(jìn)行對話。
在演示者拿出藍(lán)色的橡皮鴨實物后,它甚至還會幽默地打趣:“看來藍(lán)色的鴨子比我想象中更常見。”
在另一個實例中,當(dāng)演示者向Gemini尋求關(guān)于女兒生日派對的靈感時,Gemini首先向他提問:“能否告訴我她對什么感興趣呢?”
在獲得足夠的信息后,Gemini自主編寫了一份PRD(產(chǎn)品需求)文檔,并且不再以文本形式回應(yīng)。相反,它迅速地編寫代碼,為用戶定制了一個圖文并茂的小部件。這個小部件包含了推薦的派對主題、活動和食品建議等,讓演示者可以在上面滑動,查看自己最感興趣的選項。
Gemini 一經(jīng)發(fā)布,便引起了行業(yè)人士的熱烈討論,細(xì)心的網(wǎng)友們發(fā)現(xiàn),綜合來看,谷歌在各個榜單之中,并不是所有版本都能完勝GPT-4,只有Gemini Ultra超過了GPT-4,而放于手機端的Gemini Nano 和Bard 搭載的Gemini Pro則沒有展露出可以與GPT-4對標(biāo)的水平(Gemini Pro對標(biāo)GPT-3.5,Nano則版本更低)。這也側(cè)面證明此次Gemini的核心競爭毋庸置疑落于多模態(tài)能力之上。同時也讓大眾對谷歌各個版本上線的時間十分關(guān)心。
谷歌表示,從12月7日開始,Bard 將使用 Gemini Pro 的微調(diào)版本來進(jìn)行更高級的推理、規(guī)劃和理解等。未來幾個月,Gemini 將應(yīng)用于谷歌更多的產(chǎn)品和服務(wù),如 Search、Ads、Chrome 和 Duet AI。此外,從 12 月 13 日開始,開發(fā)者和企業(yè)客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。至于 Gemini Ultra 版本,谷歌在表示, 在明年初才會向開發(fā)者和企業(yè)客戶提供Gemini Ultra,也將推出性能更強大的 Bard Advanced 版本。
此次反擊 OpenAI ,谷歌并非一蹴而就,而是抓住發(fā)力點,在更早的 PaLM 等大模型中就初露端倪 。
本次發(fā)布的 Gemini 亮眼的地方在于,其 Pro 版本擊敗了其他一些模型,例如 OpenAI 的 GPT-3.5,但更強大的 Ultra 超過了所有現(xiàn)有 AI 模型的能力,它在行業(yè)標(biāo)準(zhǔn) MMLU 基準(zhǔn)上得分為 90% 。在“expert level”測試中, Ultra 預(yù)計能達(dá)到 89.8%,GPT-4 的得分為 87%,LLAMA-2 的得分為 68%,Anthropic 的 Claude 2的得分為78.5%,而 Gemini 在其他九項通用基準(zhǔn)測試中有八項都擊敗了所有這些模型。
反觀 GPT-4 ,此前就有論文稱其性能下降,在解決數(shù)學(xué)問題、回答敏感問題、代碼生成、視覺推理上均有薄弱之處。
比如在代碼生成這一層面,GPT-4 的代碼生成表現(xiàn)欠佳。在今年 6 月份的測試中,GPT-4在代碼片段前后添加了額外的「引號」,導(dǎo)致代碼無法執(zhí)行。
在回答敏感問題方面,GPT-4 更傾向回答更少的問題,使得答案變得更加簡潔,并且在拒絕回答查詢時提供的解釋也更少,可見 GPT-4 雖然更安全但缺乏理由。
而谷歌 Gemini 在復(fù)雜問題上的推理能力是其核心優(yōu)勢之一,在一定程度上會帶給使用者較 OpenAI GPT-4 更優(yōu)質(zhì)的體驗。尤其是在面對復(fù)雜的書面和視覺信息時,Gemini 對內(nèi)容的細(xì)節(jié)理解力更突出。
其實,谷歌此類的推理能力在 PaLM 模型中即有所體現(xiàn)。PaLM 在幾個 BIG-bench 任務(wù)中展示了令人印象深刻的自然語言理解和生成能力。例如,該模型可以區(qū)分因果關(guān)系,理解適當(dāng)上下文中的概念組合,甚至可以從表情符號中猜測電影。
通過將模型規(guī)模與思維鏈提示相結(jié)合,PaLM 在需要多步算術(shù)或常識推理的推理任務(wù)上顯示出突破性的能力。PaLM 甚至可以為需要多步邏輯推理、世界知識和深度語言理解的復(fù)雜組合的場景生成明確的解釋。
此外,PaLM 540B 在單個模型中的編碼任務(wù)和自然語言任務(wù)中表現(xiàn)出強大的性能,即使它在預(yù)訓(xùn)練數(shù)據(jù)集中只有 5% 的代碼。它的few-shot 性能特別顯著,因為它與經(jīng)過微調(diào)的Codex 12B 相當(dāng),同時使用比Python 少了50 倍的代碼進(jìn)行訓(xùn)練。
而放眼至整個行業(yè),無論是谷歌的 PaLM 、 Gemini 抑或是 OpenAI 的 GPT-4 ,其實如今火熱的大模型之爭本質(zhì)是在于信息流之爭。
對于谷歌而言,ChatGPT 對谷歌的最大的威脅也是在于信息流。
不過此次谷歌的反擊,也給 OpenAI 此前不斷蠶食的信息流領(lǐng)域了一記當(dāng)頭之棒。具備多模態(tài)能力的不同尺寸和功能的 Gemini 版本,后續(xù)會部署在谷歌不同的產(chǎn)品、應(yīng)用和設(shè)備上。
更為重要的是谷歌已經(jīng)允許一小部分公司使用 Gemini 軟件的早期版本,意味著谷歌即將將其納入消費者服務(wù),并通過公司的云計算服務(wù)出售給企業(yè)。
落于具體的商業(yè)模式和策略,谷歌的反擊應(yīng)了那句經(jīng)典的“以子之矛攻子之盾”。
谷歌有天生的應(yīng)用場景和十分龐大的用戶基數(shù)大,但正因為體量十分大,具有大公司病。
此前,Tony Fadell(Nest 創(chuàng)始人并已被谷歌收購),就曾在在訪談中提到了谷歌所面臨的大企業(yè)問題。他用“戀愛和婚姻是兩碼事”來比喻,指出谷歌的運營方式正在阻礙創(chuàng)新。
具體來說,就是谷歌有著收入十分可觀的廣告業(yè)務(wù),導(dǎo)致公司更多地從財務(wù)角度衡量創(chuàng)新(例如,誰會積極推動可能會侵蝕搜索業(yè)務(wù)利潤的創(chuàng)新項目?)而不是出于生存與發(fā)展的迫切需要。
這也被認(rèn)為是 OpenAI 今年一直迭代,谷歌遲遲沒有跟上節(jié)奏的一重大原因。但是仔細(xì)來看,任何一家公司到達(dá)谷歌的體量,都會面臨這樣的問題。
OpenAI 是一家新銳公司,所以他能無負(fù)擔(dān)地高歌猛進(jìn)。但是我們無法忽視的是,他依托微軟而生,在組織架構(gòu)和商業(yè)模式上也仍處于成長期。所以才會出現(xiàn)此前出現(xiàn)的多次反轉(zhuǎn)宮斗。
OpenAI和谷歌之間的爭斗,似乎并不止于這兩家公司,而是可以定義成一個更普遍的問題:創(chuàng)業(yè)公司和大企業(yè)之間誰死誰生?
在微軟將 OpenAI 的模型整合到 Bing 搜索引擎之后,公司首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)在接受 The Verge 采訪時表達(dá)了自己的看法。他認(rèn)為人工智能技術(shù)的應(yīng)用有望助力微軟挑戰(zhàn)谷歌在網(wǎng)絡(luò)搜索領(lǐng)域的主導(dǎo)地位,并且預(yù)計這一舉動將會引起谷歌的回應(yīng)和應(yīng)對策略。
薩蒂亞用了“要讓谷歌跳舞”這一隱喻來說明自己的決心,今年GPT多次迭代,殺得谷歌措手不及。
但對于OpenAI 的“快功”,谷歌 CEO Sundar Pichai則用了板球比賽中的“讓球棒說話”來回答。
具體而言,谷歌作為一家大企業(yè)想做的或許也是在利用大企業(yè)的優(yōu)勢,借助強大的資本支撐和資源,走得慢一點,具體的實例可以從谷歌今年讓DeepMind 和 Google Brain這兩個相互競爭的實體合并中看出端倪。
對于AI,Sundar Picha的策略是在將技術(shù)應(yīng)用于產(chǎn)品之前,需要讓技術(shù)更加成熟一些。讓用戶帶著巨大的信任來找谷歌。
畢竟AI之戰(zhàn)是一場長跑,如今雖然大模型已經(jīng)掀起了千層浪潮,但是產(chǎn)品遲遲沒有落地,對于用戶的真正價值還沒有具象到具體的日常生活中。
而對于整個行業(yè)而言,可以肯定的是多模態(tài)大模型時代已經(jīng)來臨,而OpenAI與谷歌這兩家企業(yè)的白熱化之爭,讓我們對2023年底最強大模型王座充滿了期待。
OpenAI VS 谷歌,這場大模型之戰(zhàn)還將在哪里爆發(fā)?歡迎添加作者微信(lionceau2046)或 (s1060788086)交流,互通有無。
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。