0
“最開始我就知道谷歌相當有希望,谷歌能發(fā)展到現(xiàn)在的規(guī)模不過是水到渠成?!?/p>
這位谷歌首席科學家在谷歌度過了近乎一半的人生,對谷歌的喜愛不減反增,到現(xiàn)在還依然堅守著谷歌最初的愿景并為此奮斗:
組織全球信息并使其普遍可用和有用
Jeff Dean 還記得剛加入谷歌的時候,每到周二的流量高峰期就開始擔心系統(tǒng)會不會崩潰,還好后來及時增加了設備,對代碼和搜索功能做了更多優(yōu)化,谷歌搜索這才步入了正軌。
后來吳恩達在谷歌擔任顧問,Jeff Dean 和他商定了大型神經網絡的研究目標,最終促成了 Google Brain 團隊的成立。
2011年,伴隨著質疑和不信任,Google Brain 終于成功訓練出比當時其他模型大 50 到 100 倍的神經網絡。
而在同一時期的大洋彼岸,DeepMind 的研究才剛剛開始。
Jeff Dean 想做的一直都是高質量、大規(guī)模的多模態(tài)模型。當時的 DeepMind 和 Google Brain 有著類似的研究目標,只是選擇了強化學習和模型擴展兩個不同的方向。
收購DeepMind后,Jeff Dean 推動了兩大團隊的融合,Google DeepMind 應運而生。
強強聯(lián)合之下,Google DeepMind 交出了一份令人滿意的答卷,Gemini。
Gemini 的優(yōu)勢不止在于多模態(tài),更在于“化繁為簡”的思路。
受益于底層的Transformer架構,Gemini 能夠并行處理大量數據,相比傳統(tǒng)遞歸模型,提升了 10 到 100 倍。更重要的是,Gemini 能把不同類型的數據通過抽象轉換為相同的高維表示,把表面意思及其以外的聯(lián)合意義和表示整合起來。
舉個例子,Gemini 不僅能識別“牛”這個詞語,還能發(fā)散到和牛有關的語音、圖片等等其他內容,反過來輸入這些相關的內容也能觸發(fā) Gemini 對“?!钡亩鄬哟卫斫?。
對用戶來說,一切都變得簡單、直觀。
無需切換工具或者輸入形式,用戶就能通過文字、語音、圖片等方式與系統(tǒng)互動。
而系統(tǒng)也會自動整合各種輸入方式,生成最直觀、最易于解讀的結果。文本可以轉化為圖像,圖像也可以轉化為語音,文字與圖像的融合也能自動實現(xiàn)。
對開發(fā)團隊來說,這一技術的實現(xiàn)非常復雜,但Gemini 依然成功突破了這些挑戰(zhàn)。
然而,Jeff Dean 的雄心遠不止于此。他現(xiàn)在致力于開發(fā)更深入人們生活的人工智能工具,涵蓋從日常助理到醫(yī)療、AI教育等多個領域。
多模態(tài)模型的前景和谷歌一樣充滿了可能。Jeff Dean 深信,從過去到未來,這一領域將持續(xù)表演出巨大的潛力和希望。
前幾天,Jeff Dean 做客 DeepMind 播客,講述了他和谷歌的這段過去、DeepMind與Gemini背后的故事,以及自己對多模態(tài)模型的探索和理解。
完整播客視頻可以點以下鏈接觀看:
https://www.youtube.com/watch?v=lH74gNeryhQ
AI科技評論摘取了部分播客內容,做了不改原意的精編處理:
Hannah Fry:你在谷歌工作了 25 年,早期的谷歌是什么樣的?90 年代剛加入的時候,是不是大家的筆記本上貼滿了貼紙,穿著人字拖在編程?
Jeff Dean:那時沒有筆記本,我們用的是大 CRT 顯示器,占了很多桌面空間。我那時的桌子其實是一扇門架在兩只馬凳上,你可以站在桌下,用背撐起來把桌子調高。
我剛開始工作時,我們的辦公室很小,大概只有這個房間的三倍大。
Hannah Fry:整個谷歌?
Jeff Dean:整個谷歌。那時,我們在帕洛阿爾托大學大道上的一個小辦公室里,正好在現(xiàn)在的T-Mobile手機店上面。那時候真的非常激動,盡管我們是個小公司,但看到越來越多人使用我們的高質量搜索服務真的很興奮。流量每天和每周都在不斷增長。
我們一直在努力避免每周二中午的流量高峰時系統(tǒng)崩潰。這需要我們迅速增加計算機資源,優(yōu)化代碼提高速度,并開發(fā)新的功能,讓相同的硬件能夠服務更多用戶。
Hannah Fry:有沒有哪個時刻讓你們意識到——這個公司真的會變得很大?
Jeff Dean:我想,從我剛加入公司的時候,你就能看出來流量增長非常快。
我們覺得,只要專注于提供高質量的搜索結果,快速滿足用戶需求——我們其實希望用戶能盡快離開我們的網站,找到他們需要的信息——這是一個很成功的想法。
用戶似乎也喜歡我們的服務,所以從最開始就看起來相當有希望。
Hannah Fry:從“相當有希望”到最后的發(fā)展規(guī)模之間差距不小。你感到驚訝嗎?
Jeff Dean:確實,我們的領域擴展確實難以預料,比如自動駕駛汽車。我們的產品組合逐步拓寬,從最初的搜索引擎到現(xiàn)在的各種產品,例如通過Gmail幫助用戶管理郵件。
這種擴展是自然的,因為它們解決了實際問題,讓我們不僅僅擁有一個產品,而是擁有了用戶日常使用的多種產品。
Hannah Fry:回顧這么多年的發(fā)展,你覺得谷歌始終是一個搜索公司,還是實際上它是一個 AI 公司,只是裝作是個搜索公司?
Jeff Dean:我認為公司解決的許多問題實際上都依賴于 AI。在這25年的歷程中,我們逐步攻克了一些復雜的AI問題,并不斷取得進展。
雖然谷歌一開始專注于搜索,但我們不斷將這些新的 AI 技術應用到搜索和其他產品中。因此,可以說我們一直在利用 AI 推動公司的發(fā)展。
Hannah Fry:你認為谷歌未來會一直是一個搜索公司嗎?或者說,它現(xiàn)在是否仍然是一個搜索公司?它正在發(fā)生改變嗎?
Jeff Dean:我非常喜歡谷歌的一點是,即便 25 年過去了,我們的使命依然非常有意義——“組織全球信息并使其普遍可用和有用”。
我認為,Gemini 幫助我們在理解各種信息方面邁出了重要一步——包括文本數據和軟件代碼(它也是一種文本,只是更復雜)。我們不僅能閱讀文本,還能通過視覺和聽覺接收信息。
我們的目標是讓模型能夠處理各種輸入形式,并生成相應的輸出,例如文本、音頻、對話、圖像或圖表。
我們真正想創(chuàng)造的是一個能夠處理所有這些模式并根據需要生成輸出的模型。
Hannah Fry:你還記得你第一次接觸神經網絡的情景嗎?
Jeff Dean:是的,當然。神經網絡有著一段有趣的歷史。
AI 其實是一個非常古老的學科,AI 的早期階段是在研究如何定義事物運作的規(guī)則。那是在20世紀 50、60、70 年代左右。
神經網絡大約在 70 年代出現(xiàn),在 80 年代末和 90 年代初掀起了一陣熱潮。
實際上,我在 1990 年是明尼蘇達大學的本科生,當時我在上并行處理課程,這個課程探討的是如何將一個問題分解成可以在不同計算機上并行處理的部分,讓這些計算機協(xié)同工作來解決一個問題。
Hannah Fry:我猜那時候的計算能力還不如現(xiàn)在那么強大,你們是怎么讓計算機協(xié)同工作的?
Jeff Dean:神經網絡是一種特殊的機器學習方法,它通過模擬人腦神經元的工作原理來進行學習。每個人工神經元與下層的其他神經元相連接,分析接收到的信號,然后決定是否將信號傳遞到更高層次。
神經網絡由多個層次的人工神經元組成,高層神經元通過分析下層神經元的信號進行學習。
例如,在圖像識別任務中,最底層的神經元可能學習到基礎特征,比如顏色斑點或邊緣;下一層則可能識別出具有特定顏色邊框的形狀;更高層的神經元可能識別出這些形狀組成的具體物體,如鼻子或耳朵。
通過這種逐層的抽象學習,神經網絡能夠發(fā)展出非常強大的模式識別能力。這也是1985至1990年間人們對神經網絡充滿興奮的原因。
Hannah Fry:不過我們說的是非常非常小的網絡,對吧?
Jeff Dean:是的,非常小的網絡。所以它們無法識別出人臉或汽車這樣的東西,只能識別一些人工生成的簡單模式。
Hannah Fry:就像一個網格,可能能識別出一個十字形之類的東西。
Jeff Dean:或者手寫的數字,比如這是一個 7 還是 8。
那時候的確算是很了不起了。但它們的能力僅限于解決這種問題,而那些基于邏輯規(guī)則的系統(tǒng),比如如何定義一個“7”,其實在處理各種凌亂手寫體時表現(xiàn)得并不太好。
所以我在聽了兩堂關于神經網絡的課后覺得很有興趣,決定把我的畢業(yè)論文主題定為神經網絡的并行訓練。
我認為只需要更多的計算資源就能有所突破。于是我想,何不利用系里那臺 32 處理器的機器來訓練更大的神經網絡?這就是我接下來的幾個月所做的事情。
Hannah Fry:結果成功了嗎?
Jeff Dean:是的,成功了。當時我以為 32 個處理器已經足夠讓神經網絡運行順暢,結果證明我還是錯了。其實我們需要大約一百萬倍的計算能力,才能真正讓它們表現(xiàn)出色。
幸運的是,摩爾定律的進步、處理器速度的提升,以及各種計算設備的發(fā)展,最終使我們擁有了強大的一百萬倍計算能力的系統(tǒng)。這讓我重新對神經網絡產生興趣。
當時 Andrew Ng(吳恩達)每周都有一天在 Google 做顧問。
有一次我在 Google 的廚房碰到他,問他在做什么。他說:“還在摸索,不過我的學生在神經網絡方面取得了不錯的進展?!庇谑俏姨嶙h:“為什么不訓練一些非常大的神經網絡呢?”
這就是我們在 Google 開始神經網絡研究的起點,后來我們成立了Google Brain 團隊,專門研究如何利用 Google 的計算資源訓練大型神經網絡。
我們開發(fā)了軟件,把神經網絡分解為多個部分,由不同計算機處理,還讓它們相互溝通,在2000臺計算機上一起訓練一個神經網絡。這使我們訓練出比當時其他模型大 50 到 100 倍的網絡。這是2012年初,圖像識別取得重大突破之前的事。
當時我們做的還是把計算機連接起來,就像我本科論文一樣。這次不同的是規(guī)模更大,而這次真的奏效了,因為計算機更快了,也用了更多的機器。
Hannah Fry:不過在 2011 年的時候,這感覺像是一場賭注嗎?
Jeff Dean:當然是了。我們當時為訓練這些神經網絡而搭建的系統(tǒng),并嘗試各種分解方法,我給它取名為 DistBelief(直譯為“分配信念”)。
部分原因是很多人不相信它真的能成功,另一個原因是它是一個分布式系統(tǒng),可以構建這些網絡——我們想訓練的不僅僅是神經網絡,還有深度信念網絡(Deep Belief Networks)。所以就叫 DistBelief 了。
Hannah Fry:當你們在美國開發(fā) DistBelief 時,大西洋的另一邊正是 DeepMind 的起步階段。我知道你是后來負責拜訪 DeepMind 的人。你能講講這個故事嗎?
Jeff Dean:是的。Geoffrey Hinton,這位著名的機器學習研究員,2011年夏天曾在 Google 工作過。那時我們還不知道該給他安排什么職位,最后把他歸為實習生,這挺有趣的。后來他和我一起工作,之后我們得知了 DeepMind 的存在。
我想 Geoffrey 對這家公司的起源有所了解,也有其他人告訴我們,“英國有一家公司在做些有意思的事情?!碑敃r他們大概只有四五十人。于是我們決定去看看,把它視作潛在的收購對象。
那時我在加州,Geoffrey 在多倫多,是那里的教授。他背有問題,不能乘坐普通航班,因為他無法坐下,只能站著或躺著。而航班起飛時不能站著,所以我們安排了私人飛機上的醫(yī)療床。
我們從加州飛往多倫多接他,然后一起飛到英國,降落在某個偏遠機場。接著我們坐上一輛大面包車,直奔 DeepMind 的辦公室,應該在 Russell Square(倫敦羅素廣場)附近。
前一晚的飛行讓我們很累,接下來就是來自 DeepMind 團隊的 13 場連續(xù) 20 分鐘的演講,介紹他們的各種項目。我們看了他們在 Atari 游戲上的一些工作,主要是用強化學習玩舊版 Atari 2600 游戲,比如《Breakout》和《Pong》,這都非常有趣。
Hannah Fry:你們當時還沒有做強化學習的工作?
Jeff Dean:對,那時我們主要專注于大規(guī)模的監(jiān)督學習和無監(jiān)督學習。
Hannah Fry:強化學習更多是通過獎勵來激勵的,對吧?
Jeff Dean:是的,我認為這些技術都很有用,通常將它們結合起來使用效果會更好。
強化學習的核心在于代理在環(huán)境中操作,每一步都有多個選擇。例如,在圍棋中,你可以在多個位置放置棋子;在 Atari 游戲中,你可以移動操控桿或按按鈕。獎勵往往是延遲的,在圍棋中,你直到棋局結束才能知道每一步是否正確。
強化學習的有趣之處在于它能夠處理長時間的動作序列,并根據這些動作的結果來給予獎勵或懲罰。獎勵或懲罰的程度與這些動作的預期結果相關。
如果你取得了勝利,你會覺得這個決定是對的,從而增加對這一策略的信心;如果失敗了,你可能會減少對這一策略的信心。強化學習特別適用于那些結果需要較長時間才能顯現(xiàn)的情況。
強化學習特別適用于那些立即無法判斷好壞的情況。
監(jiān)督學習指的是你有一組輸入數據和對應的真實輸出。一個經典的例子是圖像分類中,每張圖像都有一個標簽,如“汽車”、“鴕鳥”或“石榴”。
Hannah Fry:當你們決定進行收購時,Demis 是否感到緊張?
Jeff Dean:我不確定他是否緊張。我主要關注的是代碼的質量。我要求查看一些實際代碼,以了解代碼標準和注釋情況。Demis 對此有些猶豫。
我說只需要一些小片段,就能讓我了解代碼的實際情況。于是,我進入了一間工程師的辦公室,我們坐下來聊了 10 分鐘。
我問,這段代碼做了什么?那個東西呢?那是什么作用?能給我看看它的實現(xiàn)嗎?我出來后對代碼質量很滿意。
Hannah Fry:在這些演示中,你的印象如何?
Jeff Dean:我覺得他們的工作非常有趣,尤其是在強化學習方面。
我們當時專注于模型擴展,訓練的模型比 DeepMind 處理的要大得多。他們在用強化學習解決游戲問題,這為強化學習提供了一個很好的應用場景。
結合強化學習和我們的大規(guī)模擴展工作,看起來會是一個很有前途的方向。
Hannah Fry:這就像從兩個方向解決問題——一個是小規(guī)模的強化學習,如玩具模型;另一個是大規(guī)模的理解。將這兩者結合起來,效果非常強大。
Jeff Dean:是的,確實如此。這也是我們去年決定合并 DeepMind、Google Brain 和其他 Google 研究部門的主要原因。我們決定將這些單元結合起來,形成 Google DeepMind。
Gemini 的概念實際上早于合并的想法,但真正的目的是讓我們在這些問題上共同努力。
由于我們都致力于訓練高質量、大規(guī)模、多模態(tài)的模型,將想法和計算資源分開是不合理的。
因此,我們決定將所有資源和人員整合,組建一個聯(lián)合團隊來解決這個問題。
Hannah Fry:為什么叫 Gemini?
Jeff Dean:實際上是我命名的。Gemini 代表雙胞胎,這個名字很好地體現(xiàn)了 DeepMind 和Google Brain 的結合,象征著兩個團隊共同致力于一個雄心勃勃的多模態(tài)項目。
這個名字還有多個含義,比如它有點像是雄心勃勃的太空計劃的前奏,這也是我選擇這個名字的原因之一。
Hannah Fry:我想要談談多模態(tài)的內容。在此之前,可以告訴我們一點關于 Transformer 的工作以及它的變革性影響嗎?
Jeff Dean:當然可以。實際上,處理語言和許多其他領域的問題往往涉及序列問題。
例如,Gmail 的自動完成功能根據你輸入的內容來預測下一個可能的詞語,這類似于大型語言模型的訓練過程。這樣的模型被訓練來逐字或逐詞地預測文本的下一部分,就像是高級的自動補全功能。
這種序列預測方法在許多領域都很有用。在語言翻譯中,模型可以根據輸入的英文句子預測相應的法文句子。在醫(yī)療領域,它能夠處理病人的癥狀和檢測結果,預測可能的診斷結果。
此外,這種方法也適用于其他數據類型,如 DNA 序列。通過隱藏序列中的部分信息,模型被迫預測接下來會發(fā)生什么。這種方法不僅適用于語言翻譯和醫(yī)療診斷,還可以擴展到其他領域。
在 Transformer 架構出現(xiàn)之前,遞歸模型才是成功的模型,它們依賴內部狀態(tài)來處理序列數據。處理每個詞時,模型會更新一次內部狀態(tài),然后再處理下一個詞。這種方法需要對每個詞進行逐步處理,導致運行速度較慢,因為每一步都依賴于前一步,存在序列依賴問題。
為了提高效率,Google Research 的研究人員提出了 Transformer 架構。與其逐詞更新狀態(tài),不如一次性處理所有詞,并利用所有先前的狀態(tài)進行預測。
Transformer 基于注意力機制,能夠關注序列中的重要部分。這使得它可以并行處理大量詞語,大幅提升了效率和性能,相比傳統(tǒng)遞歸模型,提升了 10 到 100 倍。
這就是進步如此大的原因。
Hannah Fry:也許我們還會從語言和序列中獲得一種概念理解或抽象,這是否讓你感到驚訝?
Jeff Dean:是的。當我們聽到一個詞時,我們不僅想到它的表面形式,還會聯(lián)想到許多其他相關的事物。比如,“cow(牛)”會讓我們想到牛奶、咖啡機、擠奶等。在詞的表示中,方向性也很有意義。例如,“walk(走)”到“walked”的變化方向與“run(跑)”到“ran”的方向相同。這種表示不是我們故意設計的,而是訓練過程中自然出現(xiàn)的結果。
Hannah Fry:真是太神奇了。但這只是語言方面的討論。那么,多模態(tài)處理會如何改變呢?有什么不同?
Jeff Dean:多模態(tài)處理的關鍵在于如何將不同類型的輸入數據(如圖像和文字)轉換為相同的高維表示。當我們看到一頭牛時,這會在我們的大腦中激活類似的反應,不論是通過閱讀“cow(牛)”這個詞,還是看到牛的圖片或視頻。我們希望訓練模型,使其能夠將這些不同輸入的聯(lián)合意義和表示整合起來。這樣,看到一段牛在田野中走動的視頻,模型會觸發(fā)與看到“cow(牛)”類似的內部反應。
Hannah Fry:所以,多模態(tài)處理并不是將語言部分和圖像部分分開處理再結合?
Jeff Dean:正是這樣。在早期模型中,雖然存在這些表示,但處理起來確實更復雜。
Hannah Fry:這是否使得多模態(tài)模型的初始設置更加困難?
Jeff Dean:是的,多模態(tài)模型的整合和訓練比單一語言模型或圖像模型復雜得多。然而,這樣的模型可以帶來很多好處,比如跨模態(tài)的遷移學習??吹脚5囊曈X信息可以幫助模型更好地理解語言。這樣,無論是看到“cow(牛)”這個詞還是牛的圖像,模型都會有類似的內部觸發(fā)反應。
Hannah Fry:你認為這些多模態(tài)模型會改變我們的教育方式嗎?
Jeff Dean:我認為 AI 在教育中的潛力巨大,但我們還在探索初期。
研究表明,一對一輔導比傳統(tǒng)課堂效果更好,那么 AI 能否讓每個人都享受到類似的一對一輔導呢?這個目標離我們已經不遠了。
未來,像Gemini這樣的模型可以幫助你理解課本中的內容,無論是文字、圖片,還是視頻。如果有不理解的地方,你可以提問,模型會幫助解釋,還能評估你的回答,引導學習進度。
這種個性化學習體驗能惠及全球,不僅限于英語,還將支持全球數百種語言。
Hannah Fry:你提到的多語言和普及工具的想法很好,但是否存在這樣的風險:使用這些工具的人獲益更多,而無法使用的人會面臨更多困難?這是你擔心的問題嗎?
Jeff Dean:是的,我擔心可能會出現(xiàn)一個兩級系統(tǒng)。我們應該努力讓這些技術普及,讓它們的社會優(yōu)勢最大化,并且確保教育資源變得負擔得起或免費。
Hannah Fry:現(xiàn)在計算方式似乎已經從確定性轉向概率,公眾是否需要接受模型可能會犯錯的現(xiàn)實?這種問題是否能解決?
Jeff Dean:兩者都有。一方面,我們可以通過技術進步,比如更長的上下文窗口來提升準確性。另一方面,公眾需要明白模型是工具,不能完全依賴它們的每個輸出。我們要教育人們保持適度懷疑,同時技術的進步會減少這種懷疑,但適度審查依然重要。
Hannah Fry:除了上下文窗口,還有其他方法可以減少虛假結果的風險嗎?
Jeff Dean:是的,另一個方法是“思維鏈提示”(chain of thought prompting)。例如,對于數學問題,讓模型逐步展示解題過程比直接問答案更有效,不僅輸出更清晰,正確率也更高。即使在沒有明確答案的問題上,給出更具體的提示也能獲得更好的結果。
Hannah Fry:這些多模態(tài)模型會理解我們的個人特點和偏好嗎?
Jeff Dean:是的,我們希望模型能更個性化,比如根據你是素食主義者推薦素食餐廳。雖然現(xiàn)在可能還做不到,但未來會有更多符合個人需求的功能,比如制作適合孩子的插圖故事書。
我們希望模型能處理復雜的任務。例如,你可以用簡單的指令讓機器人完成家務。雖然現(xiàn)在的機器人還做不到這一點,但我們正接近實現(xiàn)這個目標,未來它們能在混亂的環(huán)境中完成許多有用的任務。
Hannah Fry:現(xiàn)在這些助手主要用于增強人類能力,特別是在醫(yī)療和教育領域。多模態(tài)模型是否能幫助我們更好地理解世界?雷峰網雷峰網(公眾號:雷峰網)
Jeff Dean:是的,隨著模型能力的提升,它們能處理更復雜的任務,比如椅子租賃或會議策劃。模型可以像人一樣提出問題以明確需求,并進行高層次的任務。此外,它們能在模擬器中測試不同設計方案,例如設計飛機。雖然我們不能準確預測這些能力何時實現(xiàn),但模型在過去5到10年里取得了顯著進展。未來,這些功能可能會更快實現(xiàn),甚至能幫助設計特定的飛機。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。