門板上做研究的首席科學(xué)家：Jeff Dean解密谷歌和Gemini背后的故事

本文作者：劉潔

2024-09-19 10:38

導(dǎo)語(yǔ)：Gemini：不止是雙生團(tuán)隊(duì)的融合，更是雄心勃勃的未來(lái)計(jì)劃。

“最開(kāi)始我就知道谷歌相當(dāng)有希望，谷歌能發(fā)展到現(xiàn)在的規(guī)模不過(guò)是水到渠成?！?/p>

這位谷歌首席科學(xué)家在谷歌度過(guò)了近乎一半的人生，對(duì)谷歌的喜愛(ài)不減反增，到現(xiàn)在還依然堅(jiān)守著谷歌最初的愿景并為此奮斗：

組織全球信息并使其普遍可用和有用

Jeff Dean 還記得剛加入谷歌的時(shí)候，每到周二的流量高峰期就開(kāi)始擔(dān)心系統(tǒng)會(huì)不會(huì)崩潰，還好后來(lái)及時(shí)增加了設(shè)備，對(duì)代碼和搜索功能做了更多優(yōu)化，谷歌搜索這才步入了正軌。

后來(lái)吳恩達(dá)在谷歌擔(dān)任顧問(wèn)，Jeff Dean 和他商定了大型神經(jīng)網(wǎng)絡(luò)的研究目標(biāo)，最終促成了 Google Brain 團(tuán)隊(duì)的成立。

2011年，伴隨著質(zhì)疑和不信任，Google Brain 終于成功訓(xùn)練出比當(dāng)時(shí)其他模型大 50 到 100 倍的神經(jīng)網(wǎng)絡(luò)。

而在同一時(shí)期的大洋彼岸，DeepMind 的研究才剛剛開(kāi)始。

Jeff Dean 想做的一直都是高質(zhì)量、大規(guī)模的多模態(tài)模型。當(dāng)時(shí)的 DeepMind 和 Google Brain 有著類似的研究目標(biāo)，只是選擇了強(qiáng)化學(xué)習(xí)和模型擴(kuò)展兩個(gè)不同的方向。

收購(gòu)DeepMind后，Jeff Dean 推動(dòng)了兩大團(tuán)隊(duì)的融合，Google DeepMind 應(yīng)運(yùn)而生。

強(qiáng)強(qiáng)聯(lián)合之下，Google DeepMind 交出了一份令人滿意的答卷，Gemini。

Gemini 的優(yōu)勢(shì)不止在于多模態(tài)，更在于“化繁為簡(jiǎn)”的思路。

受益于底層的Transformer架構(gòu)，Gemini 能夠并行處理大量數(shù)據(jù)，相比傳統(tǒng)遞歸模型，提升了 10 到 100 倍。更重要的是，Gemini 能把不同類型的數(shù)據(jù)通過(guò)抽象轉(zhuǎn)換為相同的高維表示，把表面意思及其以外的聯(lián)合意義和表示整合起來(lái)。

舉個(gè)例子，Gemini 不僅能識(shí)別“牛”這個(gè)詞語(yǔ)，還能發(fā)散到和牛有關(guān)的語(yǔ)音、圖片等等其他內(nèi)容，反過(guò)來(lái)輸入這些相關(guān)的內(nèi)容也能觸發(fā) Gemini 對(duì)“牛”的多層次理解。

對(duì)用戶來(lái)說(shuō)，一切都變得簡(jiǎn)單、直觀。

無(wú)需切換工具或者輸入形式，用戶就能通過(guò)文字、語(yǔ)音、圖片等方式與系統(tǒng)互動(dòng)。

而系統(tǒng)也會(huì)自動(dòng)整合各種輸入方式，生成最直觀、最易于解讀的結(jié)果。文本可以轉(zhuǎn)化為圖像，圖像也可以轉(zhuǎn)化為語(yǔ)音，文字與圖像的融合也能自動(dòng)實(shí)現(xiàn)。

對(duì)開(kāi)發(fā)團(tuán)隊(duì)來(lái)說(shuō)，這一技術(shù)的實(shí)現(xiàn)非常復(fù)雜，但Gemini 依然成功突破了這些挑戰(zhàn)。

然而，Jeff Dean 的雄心遠(yuǎn)不止于此。他現(xiàn)在致力于開(kāi)發(fā)更深入人們生活的人工智能工具，涵蓋從日常助理到醫(yī)療、AI教育等多個(gè)領(lǐng)域。

多模態(tài)模型的前景和谷歌一樣充滿了可能。Jeff Dean 深信，從過(guò)去到未來(lái)，這一領(lǐng)域?qū)⒊掷m(xù)表演出巨大的潛力和希望。

前幾天，Jeff Dean 做客 DeepMind 播客，講述了他和谷歌的這段過(guò)去、DeepMind與Gemini背后的故事，以及自己對(duì)多模態(tài)模型的探索和理解。

完整播客視頻可以點(diǎn)以下鏈接觀看：

https://www.youtube.com/watch?v=lH74gNeryhQ

AI科技評(píng)論摘取了部分播客內(nèi)容，做了不改原意的精編處理：

90年代的谷歌

Hannah Fry：你在谷歌工作了 25 年，早期的谷歌是什么樣的？90 年代剛加入的時(shí)候，是不是大家的筆記本上貼滿了貼紙，穿著人字拖在編程？

Jeff Dean：那時(shí)沒(méi)有筆記本，我們用的是大 CRT 顯示器，占了很多桌面空間。我那時(shí)的桌子其實(shí)是一扇門架在兩只馬凳上，你可以站在桌下，用背撐起來(lái)把桌子調(diào)高。

我剛開(kāi)始工作時(shí)，我們的辦公室很小，大概只有這個(gè)房間的三倍大。

Hannah Fry：整個(gè)谷歌？

Jeff Dean：整個(gè)谷歌。那時(shí)，我們?cè)谂谅灏柾写髮W(xué)大道上的一個(gè)小辦公室里，正好在現(xiàn)在的T-Mobile手機(jī)店上面。那時(shí)候真的非常激動(dòng)，盡管我們是個(gè)小公司，但看到越來(lái)越多人使用我們的高質(zhì)量搜索服務(wù)真的很興奮。流量每天和每周都在不斷增長(zhǎng)。

門板上做研究的首席科學(xué)家：Jeff Dean解密谷歌和Gemini背后的故事

我們一直在努力避免每周二中午的流量高峰時(shí)系統(tǒng)崩潰。這需要我們迅速增加計(jì)算機(jī)資源，優(yōu)化代碼提高速度，并開(kāi)發(fā)新的功能，讓相同的硬件能夠服務(wù)更多用戶。

Hannah Fry：有沒(méi)有哪個(gè)時(shí)刻讓你們意識(shí)到——這個(gè)公司真的會(huì)變得很大？

Jeff Dean：我想，從我剛加入公司的時(shí)候，你就能看出來(lái)流量增長(zhǎng)非?？臁?/p>

我們覺(jué)得，只要專注于提供高質(zhì)量的搜索結(jié)果，快速滿足用戶需求——我們其實(shí)希望用戶能盡快離開(kāi)我們的網(wǎng)站，找到他們需要的信息——這是一個(gè)很成功的想法。

用戶似乎也喜歡我們的服務(wù)，所以從最開(kāi)始就看起來(lái)相當(dāng)有希望。

Hannah Fry：從“相當(dāng)有希望”到最后的發(fā)展規(guī)模之間差距不小。你感到驚訝嗎？

Jeff Dean：確實(shí)，我們的領(lǐng)域擴(kuò)展確實(shí)難以預(yù)料，比如自動(dòng)駕駛汽車。我們的產(chǎn)品組合逐步拓寬，從最初的搜索引擎到現(xiàn)在的各種產(chǎn)品，例如通過(guò)Gmail幫助用戶管理郵件。

這種擴(kuò)展是自然的，因?yàn)樗鼈兘鉀Q了實(shí)際問(wèn)題，讓我們不僅僅擁有一個(gè)產(chǎn)品，而是擁有了用戶日常使用的多種產(chǎn)品。

Hannah Fry：回顧這么多年的發(fā)展，你覺(jué)得谷歌始終是一個(gè)搜索公司，還是實(shí)際上它是一個(gè) AI 公司，只是裝作是個(gè)搜索公司？

Jeff Dean：我認(rèn)為公司解決的許多問(wèn)題實(shí)際上都依賴于 AI。在這25年的歷程中，我們逐步攻克了一些復(fù)雜的AI問(wèn)題，并不斷取得進(jìn)展。

雖然谷歌一開(kāi)始專注于搜索，但我們不斷將這些新的 AI 技術(shù)應(yīng)用到搜索和其他產(chǎn)品中。因此，可以說(shuō)我們一直在利用 AI 推動(dòng)公司的發(fā)展。

Hannah Fry：你認(rèn)為谷歌未來(lái)會(huì)一直是一個(gè)搜索公司嗎？或者說(shuō)，它現(xiàn)在是否仍然是一個(gè)搜索公司？它正在發(fā)生改變嗎？

Jeff Dean：我非常喜歡谷歌的一點(diǎn)是，即便 25 年過(guò)去了，我們的使命依然非常有意義——“組織全球信息并使其普遍可用和有用”。

我認(rèn)為，Gemini 幫助我們?cè)诶斫飧鞣N信息方面邁出了重要一步——包括文本數(shù)據(jù)和軟件代碼（它也是一種文本，只是更復(fù)雜）。我們不僅能閱讀文本，還能通過(guò)視覺(jué)和聽(tīng)覺(jué)接收信息。

我們的目標(biāo)是讓模型能夠處理各種輸入形式，并生成相應(yīng)的輸出，例如文本、音頻、對(duì)話、圖像或圖表。

我們真正想創(chuàng)造的是一個(gè)能夠處理所有這些模式并根據(jù)需要生成輸出的模型。

神經(jīng)網(wǎng)絡(luò)的早期探索

Hannah Fry：你還記得你第一次接觸神經(jīng)網(wǎng)絡(luò)的情景嗎？

Jeff Dean：是的，當(dāng)然。神經(jīng)網(wǎng)絡(luò)有著一段有趣的歷史。

AI 其實(shí)是一個(gè)非常古老的學(xué)科，AI 的早期階段是在研究如何定義事物運(yùn)作的規(guī)則。那是在20世紀(jì) 50、60、70 年代左右。

神經(jīng)網(wǎng)絡(luò)大約在 70 年代出現(xiàn)，在 80 年代末和 90 年代初掀起了一陣熱潮。

實(shí)際上，我在 1990 年是明尼蘇達(dá)大學(xué)的本科生，當(dāng)時(shí)我在上并行處理課程，這個(gè)課程探討的是如何將一個(gè)問(wèn)題分解成可以在不同計(jì)算機(jī)上并行處理的部分，讓這些計(jì)算機(jī)協(xié)同工作來(lái)解決一個(gè)問(wèn)題。

Hannah Fry：我猜那時(shí)候的計(jì)算能力還不如現(xiàn)在那么強(qiáng)大，你們是怎么讓計(jì)算機(jī)協(xié)同工作的？

Jeff Dean：神經(jīng)網(wǎng)絡(luò)是一種特殊的機(jī)器學(xué)習(xí)方法，它通過(guò)模擬人腦神經(jīng)元的工作原理來(lái)進(jìn)行學(xué)習(xí)。每個(gè)人工神經(jīng)元與下層的其他神經(jīng)元相連接，分析接收到的信號(hào)，然后決定是否將信號(hào)傳遞到更高層次。

神經(jīng)網(wǎng)絡(luò)由多個(gè)層次的人工神經(jīng)元組成，高層神經(jīng)元通過(guò)分析下層神經(jīng)元的信號(hào)進(jìn)行學(xué)習(xí)。

例如，在圖像識(shí)別任務(wù)中，最底層的神經(jīng)元可能學(xué)習(xí)到基礎(chǔ)特征，比如顏色斑點(diǎn)或邊緣；下一層則可能識(shí)別出具有特定顏色邊框的形狀；更高層的神經(jīng)元可能識(shí)別出這些形狀組成的具體物體，如鼻子或耳朵。

通過(guò)這種逐層的抽象學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)能夠發(fā)展出非常強(qiáng)大的模式識(shí)別能力。這也是1985至1990年間人們對(duì)神經(jīng)網(wǎng)絡(luò)充滿興奮的原因。

Hannah Fry：不過(guò)我們說(shuō)的是非常非常小的網(wǎng)絡(luò)，對(duì)吧？

Jeff Dean：是的，非常小的網(wǎng)絡(luò)。所以它們無(wú)法識(shí)別出人臉或汽車這樣的東西，只能識(shí)別一些人工生成的簡(jiǎn)單模式。

Hannah Fry：就像一個(gè)網(wǎng)格，可能能識(shí)別出一個(gè)十字形之類的東西。

Jeff Dean：或者手寫的數(shù)字，比如這是一個(gè) 7 還是 8。

那時(shí)候的確算是很了不起了。但它們的能力僅限于解決這種問(wèn)題，而那些基于邏輯規(guī)則的系統(tǒng)，比如如何定義一個(gè)“7”，其實(shí)在處理各種凌亂手寫體時(shí)表現(xiàn)得并不太好。

所以我在聽(tīng)了兩堂關(guān)于神經(jīng)網(wǎng)絡(luò)的課后覺(jué)得很有興趣，決定把我的畢業(yè)論文主題定為神經(jīng)網(wǎng)絡(luò)的并行訓(xùn)練。

我認(rèn)為只需要更多的計(jì)算資源就能有所突破。于是我想，何不利用系里那臺(tái) 32 處理器的機(jī)器來(lái)訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)？這就是我接下來(lái)的幾個(gè)月所做的事情。

Hannah Fry：結(jié)果成功了嗎？

Jeff Dean：是的，成功了。當(dāng)時(shí)我以為 32 個(gè)處理器已經(jīng)足夠讓神經(jīng)網(wǎng)絡(luò)運(yùn)行順暢，結(jié)果證明我還是錯(cuò)了。其實(shí)我們需要大約一百萬(wàn)倍的計(jì)算能力，才能真正讓它們表現(xiàn)出色。

幸運(yùn)的是，摩爾定律的進(jìn)步、處理器速度的提升，以及各種計(jì)算設(shè)備的發(fā)展，最終使我們擁有了強(qiáng)大的一百萬(wàn)倍計(jì)算能力的系統(tǒng)。這讓我重新對(duì)神經(jīng)網(wǎng)絡(luò)產(chǎn)生興趣。

當(dāng)時(shí) Andrew Ng（吳恩達(dá)）每周都有一天在 Google 做顧問(wèn)。

有一次我在 Google 的廚房碰到他，問(wèn)他在做什么。他說(shuō)：“還在摸索，不過(guò)我的學(xué)生在神經(jīng)網(wǎng)絡(luò)方面取得了不錯(cuò)的進(jìn)展。”于是我提議：“為什么不訓(xùn)練一些非常大的神經(jīng)網(wǎng)絡(luò)呢？”

這就是我們?cè)?Google 開(kāi)始神經(jīng)網(wǎng)絡(luò)研究的起點(diǎn)，后來(lái)我們成立了Google Brain 團(tuán)隊(duì)，專門研究如何利用 Google 的計(jì)算資源訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。

門板上做研究的首席科學(xué)家：Jeff Dean解密谷歌和Gemini背后的故事

我們開(kāi)發(fā)了軟件，把神經(jīng)網(wǎng)絡(luò)分解為多個(gè)部分，由不同計(jì)算機(jī)處理，還讓它們相互溝通，在2000臺(tái)計(jì)算機(jī)上一起訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)。這使我們訓(xùn)練出比當(dāng)時(shí)其他模型大 50 到 100 倍的網(wǎng)絡(luò)。這是2012年初，圖像識(shí)別取得重大突破之前的事。

當(dāng)時(shí)我們做的還是把計(jì)算機(jī)連接起來(lái)，就像我本科論文一樣。這次不同的是規(guī)模更大，而這次真的奏效了，因?yàn)橛?jì)算機(jī)更快了，也用了更多的機(jī)器。

Hannah Fry：不過(guò)在 2011 年的時(shí)候，這感覺(jué)像是一場(chǎng)賭注嗎？

Jeff Dean：當(dāng)然是了。我們當(dāng)時(shí)為訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)而搭建的系統(tǒng)，并嘗試各種分解方法，我給它取名為 DistBelief（直譯為“分配信念”）。

部分原因是很多人不相信它真的能成功，另一個(gè)原因是它是一個(gè)分布式系統(tǒng)，可以構(gòu)建這些網(wǎng)絡(luò)——我們想訓(xùn)練的不僅僅是神經(jīng)網(wǎng)絡(luò)，還有深度信念網(wǎng)絡(luò)（Deep Belief Networks）。所以就叫 DistBelief 了。

DeepMind 和 Gemini 背后的故事

Hannah Fry：當(dāng)你們?cè)诿绹?guó)開(kāi)發(fā) DistBelief 時(shí)，大西洋的另一邊正是 DeepMind 的起步階段。我知道你是后來(lái)負(fù)責(zé)拜訪 DeepMind 的人。你能講講這個(gè)故事嗎？

Jeff Dean：是的。Geoffrey Hinton，這位著名的機(jī)器學(xué)習(xí)研究員，2011年夏天曾在 Google 工作過(guò)。那時(shí)我們還不知道該給他安排什么職位，最后把他歸為實(shí)習(xí)生，這挺有趣的。后來(lái)他和我一起工作，之后我們得知了 DeepMind 的存在。

我想 Geoffrey 對(duì)這家公司的起源有所了解，也有其他人告訴我們，“英國(guó)有一家公司在做些有意思的事情?！碑?dāng)時(shí)他們大概只有四五十人。于是我們決定去看看，把它視作潛在的收購(gòu)對(duì)象。

那時(shí)我在加州，Geoffrey 在多倫多，是那里的教授。他背有問(wèn)題，不能乘坐普通航班，因?yàn)樗麩o(wú)法坐下，只能站著或躺著。而航班起飛時(shí)不能站著，所以我們安排了私人飛機(jī)上的醫(yī)療床。

我們從加州飛往多倫多接他，然后一起飛到英國(guó)，降落在某個(gè)偏遠(yuǎn)機(jī)場(chǎng)。接著我們坐上一輛大面包車，直奔 DeepMind 的辦公室，應(yīng)該在 Russell Square（倫敦羅素廣場(chǎng)）附近。

前一晚的飛行讓我們很累，接下來(lái)就是來(lái)自 DeepMind 團(tuán)隊(duì)的 13 場(chǎng)連續(xù) 20 分鐘的演講，介紹他們的各種項(xiàng)目。我們看了他們?cè)?Atari 游戲上的一些工作，主要是用強(qiáng)化學(xué)習(xí)玩舊版 Atari 2600 游戲，比如《Breakout》和《Pong》，這都非常有趣。

Hannah Fry：你們當(dāng)時(shí)還沒(méi)有做強(qiáng)化學(xué)習(xí)的工作？

Jeff Dean：對(duì)，那時(shí)我們主要專注于大規(guī)模的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。

Hannah Fry：強(qiáng)化學(xué)習(xí)更多是通過(guò)獎(jiǎng)勵(lì)來(lái)激勵(lì)的，對(duì)吧？

Jeff Dean：是的，我認(rèn)為這些技術(shù)都很有用，通常將它們結(jié)合起來(lái)使用效果會(huì)更好。

強(qiáng)化學(xué)習(xí)的核心在于代理在環(huán)境中操作，每一步都有多個(gè)選擇。例如，在圍棋中，你可以在多個(gè)位置放置棋子；在 Atari 游戲中，你可以移動(dòng)操控桿或按按鈕。獎(jiǎng)勵(lì)往往是延遲的，在圍棋中，你直到棋局結(jié)束才能知道每一步是否正確。

強(qiáng)化學(xué)習(xí)的有趣之處在于它能夠處理長(zhǎng)時(shí)間的動(dòng)作序列，并根據(jù)這些動(dòng)作的結(jié)果來(lái)給予獎(jiǎng)勵(lì)或懲罰。獎(jiǎng)勵(lì)或懲罰的程度與這些動(dòng)作的預(yù)期結(jié)果相關(guān)。

如果你取得了勝利，你會(huì)覺(jué)得這個(gè)決定是對(duì)的，從而增加對(duì)這一策略的信心；如果失敗了，你可能會(huì)減少對(duì)這一策略的信心。強(qiáng)化學(xué)習(xí)特別適用于那些結(jié)果需要較長(zhǎng)時(shí)間才能顯現(xiàn)的情況。

強(qiáng)化學(xué)習(xí)特別適用于那些立即無(wú)法判斷好壞的情況。

監(jiān)督學(xué)習(xí)指的是你有一組輸入數(shù)據(jù)和對(duì)應(yīng)的真實(shí)輸出。一個(gè)經(jīng)典的例子是圖像分類中，每張圖像都有一個(gè)標(biāo)簽，如“汽車”、“鴕鳥(niǎo)”或“石榴”。

Hannah Fry：當(dāng)你們決定進(jìn)行收購(gòu)時(shí)，Demis 是否感到緊張？

Jeff Dean：我不確定他是否緊張。我主要關(guān)注的是代碼的質(zhì)量。我要求查看一些實(shí)際代碼，以了解代碼標(biāo)準(zhǔn)和注釋情況。Demis 對(duì)此有些猶豫。

我說(shuō)只需要一些小片段，就能讓我了解代碼的實(shí)際情況。于是，我進(jìn)入了一間工程師的辦公室，我們坐下來(lái)聊了 10 分鐘。

我問(wèn)，這段代碼做了什么？那個(gè)東西呢？那是什么作用？能給我看看它的實(shí)現(xiàn)嗎？我出來(lái)后對(duì)代碼質(zhì)量很滿意。

Hannah Fry：在這些演示中，你的印象如何？

Jeff Dean：我覺(jué)得他們的工作非常有趣，尤其是在強(qiáng)化學(xué)習(xí)方面。

我們當(dāng)時(shí)專注于模型擴(kuò)展，訓(xùn)練的模型比 DeepMind 處理的要大得多。他們?cè)谟脧?qiáng)化學(xué)習(xí)解決游戲問(wèn)題，這為強(qiáng)化學(xué)習(xí)提供了一個(gè)很好的應(yīng)用場(chǎng)景。

結(jié)合強(qiáng)化學(xué)習(xí)和我們的大規(guī)模擴(kuò)展工作，看起來(lái)會(huì)是一個(gè)很有前途的方向。

Hannah Fry：這就像從兩個(gè)方向解決問(wèn)題——一個(gè)是小規(guī)模的強(qiáng)化學(xué)習(xí)，如玩具模型；另一個(gè)是大規(guī)模的理解。將這兩者結(jié)合起來(lái)，效果非常強(qiáng)大。

Jeff Dean：是的，確實(shí)如此。這也是我們?nèi)ツ隂Q定合并 DeepMind、Google Brain 和其他 Google 研究部門的主要原因。我們決定將這些單元結(jié)合起來(lái)，形成 Google DeepMind。

Gemini 的概念實(shí)際上早于合并的想法，但真正的目的是讓我們?cè)谶@些問(wèn)題上共同努力。

由于我們都致力于訓(xùn)練高質(zhì)量、大規(guī)模、多模態(tài)的模型，將想法和計(jì)算資源分開(kāi)是不合理的。

因此，我們決定將所有資源和人員整合，組建一個(gè)聯(lián)合團(tuán)隊(duì)來(lái)解決這個(gè)問(wèn)題。

Hannah Fry：為什么叫 Gemini？

Jeff Dean：實(shí)際上是我命名的。Gemini 代表雙胞胎，這個(gè)名字很好地體現(xiàn)了 DeepMind 和Google Brain 的結(jié)合，象征著兩個(gè)團(tuán)隊(duì)共同致力于一個(gè)雄心勃勃的多模態(tài)項(xiàng)目。

這個(gè)名字還有多個(gè)含義，比如它有點(diǎn)像是雄心勃勃的太空計(jì)劃的前奏，這也是我選擇這個(gè)名字的原因之一。

門板上做研究的首席科學(xué)家：Jeff Dean解密谷歌和Gemini背后的故事

Transformer與多模態(tài)處理

Hannah Fry：我想要談?wù)劧嗄B(tài)的內(nèi)容。在此之前，可以告訴我們一點(diǎn)關(guān)于 Transformer 的工作以及它的變革性影響嗎？

Jeff Dean：當(dāng)然可以。實(shí)際上，處理語(yǔ)言和許多其他領(lǐng)域的問(wèn)題往往涉及序列問(wèn)題。

例如，Gmail 的自動(dòng)完成功能根據(jù)你輸入的內(nèi)容來(lái)預(yù)測(cè)下一個(gè)可能的詞語(yǔ)，這類似于大型語(yǔ)言模型的訓(xùn)練過(guò)程。這樣的模型被訓(xùn)練來(lái)逐字或逐詞地預(yù)測(cè)文本的下一部分，就像是高級(jí)的自動(dòng)補(bǔ)全功能。

這種序列預(yù)測(cè)方法在許多領(lǐng)域都很有用。在語(yǔ)言翻譯中，模型可以根據(jù)輸入的英文句子預(yù)測(cè)相應(yīng)的法文句子。在醫(yī)療領(lǐng)域，它能夠處理病人的癥狀和檢測(cè)結(jié)果，預(yù)測(cè)可能的診斷結(jié)果。

此外，這種方法也適用于其他數(shù)據(jù)類型，如 DNA 序列。通過(guò)隱藏序列中的部分信息，模型被迫預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。這種方法不僅適用于語(yǔ)言翻譯和醫(yī)療診斷，還可以擴(kuò)展到其他領(lǐng)域。

在 Transformer 架構(gòu)出現(xiàn)之前，遞歸模型才是成功的模型，它們依賴內(nèi)部狀態(tài)來(lái)處理序列數(shù)據(jù)。處理每個(gè)詞時(shí)，模型會(huì)更新一次內(nèi)部狀態(tài)，然后再處理下一個(gè)詞。這種方法需要對(duì)每個(gè)詞進(jìn)行逐步處理，導(dǎo)致運(yùn)行速度較慢，因?yàn)槊恳徊蕉家蕾囉谇耙徊剑嬖谛蛄幸蕾噯?wèn)題。

為了提高效率，Google Research 的研究人員提出了 Transformer 架構(gòu)。與其逐詞更新?tīng)顟B(tài)，不如一次性處理所有詞，并利用所有先前的狀態(tài)進(jìn)行預(yù)測(cè)。

Transformer 基于注意力機(jī)制，能夠關(guān)注序列中的重要部分。這使得它可以并行處理大量詞語(yǔ)，大幅提升了效率和性能，相比傳統(tǒng)遞歸模型，提升了 10 到 100 倍。

這就是進(jìn)步如此大的原因。

Hannah Fry：也許我們還會(huì)從語(yǔ)言和序列中獲得一種概念理解或抽象，這是否讓你感到驚訝？

Jeff Dean：是的。當(dāng)我們聽(tīng)到一個(gè)詞時(shí)，我們不僅想到它的表面形式，還會(huì)聯(lián)想到許多其他相關(guān)的事物。比如，“cow（牛）”會(huì)讓我們想到牛奶、咖啡機(jī)、擠奶等。在詞的表示中，方向性也很有意義。例如，“walk（走）”到“walked”的變化方向與“run（跑）”到“ran”的方向相同。這種表示不是我們故意設(shè)計(jì)的，而是訓(xùn)練過(guò)程中自然出現(xiàn)的結(jié)果。

Hannah Fry：真是太神奇了。但這只是語(yǔ)言方面的討論。那么，多模態(tài)處理會(huì)如何改變呢？有什么不同？

Jeff Dean：多模態(tài)處理的關(guān)鍵在于如何將不同類型的輸入數(shù)據(jù)（如圖像和文字）轉(zhuǎn)換為相同的高維表示。當(dāng)我們看到一頭牛時(shí)，這會(huì)在我們的大腦中激活類似的反應(yīng)，不論是通過(guò)閱讀“cow（牛）”這個(gè)詞，還是看到牛的圖片或視頻。我們希望訓(xùn)練模型，使其能夠?qū)⑦@些不同輸入的聯(lián)合意義和表示整合起來(lái)。這樣，看到一段牛在田野中走動(dòng)的視頻，模型會(huì)觸發(fā)與看到“cow（牛）”類似的內(nèi)部反應(yīng)。

Hannah Fry：所以，多模態(tài)處理并不是將語(yǔ)言部分和圖像部分分開(kāi)處理再結(jié)合？

Jeff Dean：正是這樣。在早期模型中，雖然存在這些表示，但處理起來(lái)確實(shí)更復(fù)雜。

Hannah Fry：這是否使得多模態(tài)模型的初始設(shè)置更加困難？

Jeff Dean：是的，多模態(tài)模型的整合和訓(xùn)練比單一語(yǔ)言模型或圖像模型復(fù)雜得多。然而，這樣的模型可以帶來(lái)很多好處，比如跨模態(tài)的遷移學(xué)習(xí)?？吹脚５囊曈X(jué)信息可以幫助模型更好地理解語(yǔ)言。這樣，無(wú)論是看到“cow（牛）”這個(gè)詞還是牛的圖像，模型都會(huì)有類似的內(nèi)部觸發(fā)反應(yīng)。

多模態(tài)模型的風(fēng)險(xiǎn)與潛力

Hannah Fry：你認(rèn)為這些多模態(tài)模型會(huì)改變我們的教育方式嗎？

Jeff Dean：我認(rèn)為 AI 在教育中的潛力巨大，但我們還在探索初期。

研究表明，一對(duì)一輔導(dǎo)比傳統(tǒng)課堂效果更好，那么 AI 能否讓每個(gè)人都享受到類似的一對(duì)一輔導(dǎo)呢？這個(gè)目標(biāo)離我們已經(jīng)不遠(yuǎn)了。

未來(lái)，像Gemini這樣的模型可以幫助你理解課本中的內(nèi)容，無(wú)論是文字、圖片，還是視頻。如果有不理解的地方，你可以提問(wèn)，模型會(huì)幫助解釋，還能評(píng)估你的回答，引導(dǎo)學(xué)習(xí)進(jìn)度。

這種個(gè)性化學(xué)習(xí)體驗(yàn)?zāi)芑菁叭?，不僅限于英語(yǔ)，還將支持全球數(shù)百種語(yǔ)言。

Hannah Fry：你提到的多語(yǔ)言和普及工具的想法很好，但是否存在這樣的風(fēng)險(xiǎn)：使用這些工具的人獲益更多，而無(wú)法使用的人會(huì)面臨更多困難？這是你擔(dān)心的問(wèn)題嗎？

Jeff Dean：是的，我擔(dān)心可能會(huì)出現(xiàn)一個(gè)兩級(jí)系統(tǒng)。我們應(yīng)該努力讓這些技術(shù)普及，讓它們的社會(huì)優(yōu)勢(shì)最大化，并且確保教育資源變得負(fù)擔(dān)得起或免費(fèi)。

Hannah Fry：現(xiàn)在計(jì)算方式似乎已經(jīng)從確定性轉(zhuǎn)向概率，公眾是否需要接受模型可能會(huì)犯錯(cuò)的現(xiàn)實(shí)？這種問(wèn)題是否能解決？

Jeff Dean：兩者都有。一方面，我們可以通過(guò)技術(shù)進(jìn)步，比如更長(zhǎng)的上下文窗口來(lái)提升準(zhǔn)確性。另一方面，公眾需要明白模型是工具，不能完全依賴它們的每個(gè)輸出。我們要教育人們保持適度懷疑，同時(shí)技術(shù)的進(jìn)步會(huì)減少這種懷疑，但適度審查依然重要。

Hannah Fry：除了上下文窗口，還有其他方法可以減少虛假結(jié)果的風(fēng)險(xiǎn)嗎？

Jeff Dean：是的，另一個(gè)方法是“思維鏈提示”（chain of thought prompting）。例如，對(duì)于數(shù)學(xué)問(wèn)題，讓模型逐步展示解題過(guò)程比直接問(wèn)答案更有效，不僅輸出更清晰，正確率也更高。即使在沒(méi)有明確答案的問(wèn)題上，給出更具體的提示也能獲得更好的結(jié)果。

Hannah Fry：這些多模態(tài)模型會(huì)理解我們的個(gè)人特點(diǎn)和偏好嗎？

Jeff Dean：是的，我們希望模型能更個(gè)性化，比如根據(jù)你是素食主義者推薦素食餐廳。雖然現(xiàn)在可能還做不到，但未來(lái)會(huì)有更多符合個(gè)人需求的功能，比如制作適合孩子的插圖故事書。

我們希望模型能處理復(fù)雜的任務(wù)。例如，你可以用簡(jiǎn)單的指令讓機(jī)器人完成家務(wù)。雖然現(xiàn)在的機(jī)器人還做不到這一點(diǎn)，但我們正接近實(shí)現(xiàn)這個(gè)目標(biāo)，未來(lái)它們能在混亂的環(huán)境中完成許多有用的任務(wù)。

Hannah Fry：現(xiàn)在這些助手主要用于增強(qiáng)人類能力，特別是在醫(yī)療和教育領(lǐng)域。多模態(tài)模型是否能幫助我們更好地理解世界？雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))雷峰網(wǎng)

Jeff Dean：是的，隨著模型能力的提升，它們能處理更復(fù)雜的任務(wù)，比如椅子租賃或會(huì)議策劃。模型可以像人一樣提出問(wèn)題以明確需求，并進(jìn)行高層次的任務(wù)。此外，它們能在模擬器中測(cè)試不同設(shè)計(jì)方案，例如設(shè)計(jì)飛機(jī)。雖然我們不能準(zhǔn)確預(yù)測(cè)這些能力何時(shí)實(shí)現(xiàn)，但模型在過(guò)去5到10年里取得了顯著進(jìn)展。未來(lái)，這些功能可能會(huì)更快實(shí)現(xiàn)，甚至能幫助設(shè)計(jì)特定的飛機(jī)。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

劉潔

編輯

發(fā)私信

當(dāng)月熱門文章