0
本文作者: 劉潔 | 2024-09-19 10:38 |
“最開(kāi)始我就知道谷歌相當(dāng)有希望,谷歌能發(fā)展到現(xiàn)在的規(guī)模不過(guò)是水到渠成?!?/p>
這位谷歌首席科學(xué)家在谷歌度過(guò)了近乎一半的人生,對(duì)谷歌的喜愛(ài)不減反增,到現(xiàn)在還依然堅(jiān)守著谷歌最初的愿景并為此奮斗:
組織全球信息并使其普遍可用和有用
Jeff Dean 還記得剛加入谷歌的時(shí)候,每到周二的流量高峰期就開(kāi)始擔(dān)心系統(tǒng)會(huì)不會(huì)崩潰,還好后來(lái)及時(shí)增加了設(shè)備,對(duì)代碼和搜索功能做了更多優(yōu)化,谷歌搜索這才步入了正軌。
后來(lái)吳恩達(dá)在谷歌擔(dān)任顧問(wèn),Jeff Dean 和他商定了大型神經(jīng)網(wǎng)絡(luò)的研究目標(biāo),最終促成了 Google Brain 團(tuán)隊(duì)的成立。
2011年,伴隨著質(zhì)疑和不信任,Google Brain 終于成功訓(xùn)練出比當(dāng)時(shí)其他模型大 50 到 100 倍的神經(jīng)網(wǎng)絡(luò)。
而在同一時(shí)期的大洋彼岸,DeepMind 的研究才剛剛開(kāi)始。
Jeff Dean 想做的一直都是高質(zhì)量、大規(guī)模的多模態(tài)模型。當(dāng)時(shí)的 DeepMind 和 Google Brain 有著類似的研究目標(biāo),只是選擇了強(qiáng)化學(xué)習(xí)和模型擴(kuò)展兩個(gè)不同的方向。
收購(gòu)DeepMind后,Jeff Dean 推動(dòng)了兩大團(tuán)隊(duì)的融合,Google DeepMind 應(yīng)運(yùn)而生。
強(qiáng)強(qiáng)聯(lián)合之下,Google DeepMind 交出了一份令人滿意的答卷,Gemini。
Gemini 的優(yōu)勢(shì)不止在于多模態(tài),更在于“化繁為簡(jiǎn)”的思路。
受益于底層的Transformer架構(gòu),Gemini 能夠并行處理大量數(shù)據(jù),相比傳統(tǒng)遞歸模型,提升了 10 到 100 倍。更重要的是,Gemini 能把不同類型的數(shù)據(jù)通過(guò)抽象轉(zhuǎn)換為相同的高維表示,把表面意思及其以外的聯(lián)合意義和表示整合起來(lái)。
舉個(gè)例子,Gemini 不僅能識(shí)別“牛”這個(gè)詞語(yǔ),還能發(fā)散到和牛有關(guān)的語(yǔ)音、圖片等等其他內(nèi)容,反過(guò)來(lái)輸入這些相關(guān)的內(nèi)容也能觸發(fā) Gemini 對(duì)“牛”的多層次理解。
對(duì)用戶來(lái)說(shuō),一切都變得簡(jiǎn)單、直觀。
無(wú)需切換工具或者輸入形式,用戶就能通過(guò)文字、語(yǔ)音、圖片等方式與系統(tǒng)互動(dòng)。
而系統(tǒng)也會(huì)自動(dòng)整合各種輸入方式,生成最直觀、最易于解讀的結(jié)果。文本可以轉(zhuǎn)化為圖像,圖像也可以轉(zhuǎn)化為語(yǔ)音,文字與圖像的融合也能自動(dòng)實(shí)現(xiàn)。
對(duì)開(kāi)發(fā)團(tuán)隊(duì)來(lái)說(shuō),這一技術(shù)的實(shí)現(xiàn)非常復(fù)雜,但Gemini 依然成功突破了這些挑戰(zhàn)。
然而,Jeff Dean 的雄心遠(yuǎn)不止于此。他現(xiàn)在致力于開(kāi)發(fā)更深入人們生活的人工智能工具,涵蓋從日常助理到醫(yī)療、AI教育等多個(gè)領(lǐng)域。
多模態(tài)模型的前景和谷歌一樣充滿了可能。Jeff Dean 深信,從過(guò)去到未來(lái),這一領(lǐng)域?qū)⒊掷m(xù)表演出巨大的潛力和希望。
前幾天,Jeff Dean 做客 DeepMind 播客,講述了他和谷歌的這段過(guò)去、DeepMind與Gemini背后的故事,以及自己對(duì)多模態(tài)模型的探索和理解。
完整播客視頻可以點(diǎn)以下鏈接觀看:
https://www.youtube.com/watch?v=lH74gNeryhQ
AI科技評(píng)論摘取了部分播客內(nèi)容,做了不改原意的精編處理:
Hannah Fry:你在谷歌工作了 25 年,早期的谷歌是什么樣的?90 年代剛加入的時(shí)候,是不是大家的筆記本上貼滿了貼紙,穿著人字拖在編程?
Jeff Dean:那時(shí)沒(méi)有筆記本,我們用的是大 CRT 顯示器,占了很多桌面空間。我那時(shí)的桌子其實(shí)是一扇門架在兩只馬凳上,你可以站在桌下,用背撐起來(lái)把桌子調(diào)高。
我剛開(kāi)始工作時(shí),我們的辦公室很小,大概只有這個(gè)房間的三倍大。
Hannah Fry:整個(gè)谷歌?
Jeff Dean:整個(gè)谷歌。那時(shí),我們?cè)谂谅灏柾写髮W(xué)大道上的一個(gè)小辦公室里,正好在現(xiàn)在的T-Mobile手機(jī)店上面。那時(shí)候真的非常激動(dòng),盡管我們是個(gè)小公司,但看到越來(lái)越多人使用我們的高質(zhì)量搜索服務(wù)真的很興奮。流量每天和每周都在不斷增長(zhǎng)。
我們一直在努力避免每周二中午的流量高峰時(shí)系統(tǒng)崩潰。這需要我們迅速增加計(jì)算機(jī)資源,優(yōu)化代碼提高速度,并開(kāi)發(fā)新的功能,讓相同的硬件能夠服務(wù)更多用戶。
Hannah Fry:有沒(méi)有哪個(gè)時(shí)刻讓你們意識(shí)到——這個(gè)公司真的會(huì)變得很大?
Jeff Dean:我想,從我剛加入公司的時(shí)候,你就能看出來(lái)流量增長(zhǎng)非??臁?/p>
我們覺(jué)得,只要專注于提供高質(zhì)量的搜索結(jié)果,快速滿足用戶需求——我們其實(shí)希望用戶能盡快離開(kāi)我們的網(wǎng)站,找到他們需要的信息——這是一個(gè)很成功的想法。
用戶似乎也喜歡我們的服務(wù),所以從最開(kāi)始就看起來(lái)相當(dāng)有希望。
Hannah Fry:從“相當(dāng)有希望”到最后的發(fā)展規(guī)模之間差距不小。你感到驚訝嗎?
Jeff Dean:確實(shí),我們的領(lǐng)域擴(kuò)展確實(shí)難以預(yù)料,比如自動(dòng)駕駛汽車。我們的產(chǎn)品組合逐步拓寬,從最初的搜索引擎到現(xiàn)在的各種產(chǎn)品,例如通過(guò)Gmail幫助用戶管理郵件。
這種擴(kuò)展是自然的,因?yàn)樗鼈兘鉀Q了實(shí)際問(wèn)題,讓我們不僅僅擁有一個(gè)產(chǎn)品,而是擁有了用戶日常使用的多種產(chǎn)品。
Hannah Fry:回顧這么多年的發(fā)展,你覺(jué)得谷歌始終是一個(gè)搜索公司,還是實(shí)際上它是一個(gè) AI 公司,只是裝作是個(gè)搜索公司?
Jeff Dean:我認(rèn)為公司解決的許多問(wèn)題實(shí)際上都依賴于 AI。在這25年的歷程中,我們逐步攻克了一些復(fù)雜的AI問(wèn)題,并不斷取得進(jìn)展。
雖然谷歌一開(kāi)始專注于搜索,但我們不斷將這些新的 AI 技術(shù)應(yīng)用到搜索和其他產(chǎn)品中。因此,可以說(shuō)我們一直在利用 AI 推動(dòng)公司的發(fā)展。
Hannah Fry:你認(rèn)為谷歌未來(lái)會(huì)一直是一個(gè)搜索公司嗎?或者說(shuō),它現(xiàn)在是否仍然是一個(gè)搜索公司?它正在發(fā)生改變嗎?
Jeff Dean:我非常喜歡谷歌的一點(diǎn)是,即便 25 年過(guò)去了,我們的使命依然非常有意義——“組織全球信息并使其普遍可用和有用”。
我認(rèn)為,Gemini 幫助我們?cè)诶斫飧鞣N信息方面邁出了重要一步——包括文本數(shù)據(jù)和軟件代碼(它也是一種文本,只是更復(fù)雜)。我們不僅能閱讀文本,還能通過(guò)視覺(jué)和聽(tīng)覺(jué)接收信息。
我們的目標(biāo)是讓模型能夠處理各種輸入形式,并生成相應(yīng)的輸出,例如文本、音頻、對(duì)話、圖像或圖表。
我們真正想創(chuàng)造的是一個(gè)能夠處理所有這些模式并根據(jù)需要生成輸出的模型。
Hannah Fry:你還記得你第一次接觸神經(jīng)網(wǎng)絡(luò)的情景嗎?
Jeff Dean:是的,當(dāng)然。神經(jīng)網(wǎng)絡(luò)有著一段有趣的歷史。
AI 其實(shí)是一個(gè)非常古老的學(xué)科,AI 的早期階段是在研究如何定義事物運(yùn)作的規(guī)則。那是在20世紀(jì) 50、60、70 年代左右。
神經(jīng)網(wǎng)絡(luò)大約在 70 年代出現(xiàn),在 80 年代末和 90 年代初掀起了一陣熱潮。
實(shí)際上,我在 1990 年是明尼蘇達(dá)大學(xué)的本科生,當(dāng)時(shí)我在上并行處理課程,這個(gè)課程探討的是如何將一個(gè)問(wèn)題分解成可以在不同計(jì)算機(jī)上并行處理的部分,讓這些計(jì)算機(jī)協(xié)同工作來(lái)解決一個(gè)問(wèn)題。
Hannah Fry:我猜那時(shí)候的計(jì)算能力還不如現(xiàn)在那么強(qiáng)大,你們是怎么讓計(jì)算機(jī)協(xié)同工作的?
Jeff Dean:神經(jīng)網(wǎng)絡(luò)是一種特殊的機(jī)器學(xué)習(xí)方法,它通過(guò)模擬人腦神經(jīng)元的工作原理來(lái)進(jìn)行學(xué)習(xí)。每個(gè)人工神經(jīng)元與下層的其他神經(jīng)元相連接,分析接收到的信號(hào),然后決定是否將信號(hào)傳遞到更高層次。
神經(jīng)網(wǎng)絡(luò)由多個(gè)層次的人工神經(jīng)元組成,高層神經(jīng)元通過(guò)分析下層神經(jīng)元的信號(hào)進(jìn)行學(xué)習(xí)。
例如,在圖像識(shí)別任務(wù)中,最底層的神經(jīng)元可能學(xué)習(xí)到基礎(chǔ)特征,比如顏色斑點(diǎn)或邊緣;下一層則可能識(shí)別出具有特定顏色邊框的形狀;更高層的神經(jīng)元可能識(shí)別出這些形狀組成的具體物體,如鼻子或耳朵。
通過(guò)這種逐層的抽象學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)能夠發(fā)展出非常強(qiáng)大的模式識(shí)別能力。這也是1985至1990年間人們對(duì)神經(jīng)網(wǎng)絡(luò)充滿興奮的原因。
Hannah Fry:不過(guò)我們說(shuō)的是非常非常小的網(wǎng)絡(luò),對(duì)吧?
Jeff Dean:是的,非常小的網(wǎng)絡(luò)。所以它們無(wú)法識(shí)別出人臉或汽車這樣的東西,只能識(shí)別一些人工生成的簡(jiǎn)單模式。
Hannah Fry:就像一個(gè)網(wǎng)格,可能能識(shí)別出一個(gè)十字形之類的東西。
Jeff Dean:或者手寫的數(shù)字,比如這是一個(gè) 7 還是 8。
那時(shí)候的確算是很了不起了。但它們的能力僅限于解決這種問(wèn)題,而那些基于邏輯規(guī)則的系統(tǒng),比如如何定義一個(gè)“7”,其實(shí)在處理各種凌亂手寫體時(shí)表現(xiàn)得并不太好。
所以我在聽(tīng)了兩堂關(guān)于神經(jīng)網(wǎng)絡(luò)的課后覺(jué)得很有興趣,決定把我的畢業(yè)論文主題定為神經(jīng)網(wǎng)絡(luò)的并行訓(xùn)練。
我認(rèn)為只需要更多的計(jì)算資源就能有所突破。于是我想,何不利用系里那臺(tái) 32 處理器的機(jī)器來(lái)訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)?這就是我接下來(lái)的幾個(gè)月所做的事情。
Hannah Fry:結(jié)果成功了嗎?
Jeff Dean:是的,成功了。當(dāng)時(shí)我以為 32 個(gè)處理器已經(jīng)足夠讓神經(jīng)網(wǎng)絡(luò)運(yùn)行順暢,結(jié)果證明我還是錯(cuò)了。其實(shí)我們需要大約一百萬(wàn)倍的計(jì)算能力,才能真正讓它們表現(xiàn)出色。
幸運(yùn)的是,摩爾定律的進(jìn)步、處理器速度的提升,以及各種計(jì)算設(shè)備的發(fā)展,最終使我們擁有了強(qiáng)大的一百萬(wàn)倍計(jì)算能力的系統(tǒng)。這讓我重新對(duì)神經(jīng)網(wǎng)絡(luò)產(chǎn)生興趣。
當(dāng)時(shí) Andrew Ng(吳恩達(dá))每周都有一天在 Google 做顧問(wèn)。
有一次我在 Google 的廚房碰到他,問(wèn)他在做什么。他說(shuō):“還在摸索,不過(guò)我的學(xué)生在神經(jīng)網(wǎng)絡(luò)方面取得了不錯(cuò)的進(jìn)展。”于是我提議:“為什么不訓(xùn)練一些非常大的神經(jīng)網(wǎng)絡(luò)呢?”
這就是我們?cè)?Google 開(kāi)始神經(jīng)網(wǎng)絡(luò)研究的起點(diǎn),后來(lái)我們成立了Google Brain 團(tuán)隊(duì),專門研究如何利用 Google 的計(jì)算資源訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。
我們開(kāi)發(fā)了軟件,把神經(jīng)網(wǎng)絡(luò)分解為多個(gè)部分,由不同計(jì)算機(jī)處理,還讓它們相互溝通,在2000臺(tái)計(jì)算機(jī)上一起訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)。這使我們訓(xùn)練出比當(dāng)時(shí)其他模型大 50 到 100 倍的網(wǎng)絡(luò)。這是2012年初,圖像識(shí)別取得重大突破之前的事。
當(dāng)時(shí)我們做的還是把計(jì)算機(jī)連接起來(lái),就像我本科論文一樣。這次不同的是規(guī)模更大,而這次真的奏效了,因?yàn)橛?jì)算機(jī)更快了,也用了更多的機(jī)器。
Hannah Fry:不過(guò)在 2011 年的時(shí)候,這感覺(jué)像是一場(chǎng)賭注嗎?
Jeff Dean:當(dāng)然是了。我們當(dāng)時(shí)為訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)而搭建的系統(tǒng),并嘗試各種分解方法,我給它取名為 DistBelief(直譯為“分配信念”)。
部分原因是很多人不相信它真的能成功,另一個(gè)原因是它是一個(gè)分布式系統(tǒng),可以構(gòu)建這些網(wǎng)絡(luò)——我們想訓(xùn)練的不僅僅是神經(jīng)網(wǎng)絡(luò),還有深度信念網(wǎng)絡(luò)(Deep Belief Networks)。所以就叫 DistBelief 了。
Hannah Fry:當(dāng)你們?cè)诿绹?guó)開(kāi)發(fā) DistBelief 時(shí),大西洋的另一邊正是 DeepMind 的起步階段。我知道你是后來(lái)負(fù)責(zé)拜訪 DeepMind 的人。你能講講這個(gè)故事嗎?
Jeff Dean:是的。Geoffrey Hinton,這位著名的機(jī)器學(xué)習(xí)研究員,2011年夏天曾在 Google 工作過(guò)。那時(shí)我們還不知道該給他安排什么職位,最后把他歸為實(shí)習(xí)生,這挺有趣的。后來(lái)他和我一起工作,之后我們得知了 DeepMind 的存在。
我想 Geoffrey 對(duì)這家公司的起源有所了解,也有其他人告訴我們,“英國(guó)有一家公司在做些有意思的事情?!碑?dāng)時(shí)他們大概只有四五十人。于是我們決定去看看,把它視作潛在的收購(gòu)對(duì)象。
那時(shí)我在加州,Geoffrey 在多倫多,是那里的教授。他背有問(wèn)題,不能乘坐普通航班,因?yàn)樗麩o(wú)法坐下,只能站著或躺著。而航班起飛時(shí)不能站著,所以我們安排了私人飛機(jī)上的醫(yī)療床。
我們從加州飛往多倫多接他,然后一起飛到英國(guó),降落在某個(gè)偏遠(yuǎn)機(jī)場(chǎng)。接著我們坐上一輛大面包車,直奔 DeepMind 的辦公室,應(yīng)該在 Russell Square(倫敦羅素廣場(chǎng))附近。
前一晚的飛行讓我們很累,接下來(lái)就是來(lái)自 DeepMind 團(tuán)隊(duì)的 13 場(chǎng)連續(xù) 20 分鐘的演講,介紹他們的各種項(xiàng)目。我們看了他們?cè)?Atari 游戲上的一些工作,主要是用強(qiáng)化學(xué)習(xí)玩舊版 Atari 2600 游戲,比如《Breakout》和《Pong》,這都非常有趣。
Hannah Fry:你們當(dāng)時(shí)還沒(méi)有做強(qiáng)化學(xué)習(xí)的工作?
Jeff Dean:對(duì),那時(shí)我們主要專注于大規(guī)模的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。
Hannah Fry:強(qiáng)化學(xué)習(xí)更多是通過(guò)獎(jiǎng)勵(lì)來(lái)激勵(lì)的,對(duì)吧?
Jeff Dean:是的,我認(rèn)為這些技術(shù)都很有用,通常將它們結(jié)合起來(lái)使用效果會(huì)更好。
強(qiáng)化學(xué)習(xí)的核心在于代理在環(huán)境中操作,每一步都有多個(gè)選擇。例如,在圍棋中,你可以在多個(gè)位置放置棋子;在 Atari 游戲中,你可以移動(dòng)操控桿或按按鈕。獎(jiǎng)勵(lì)往往是延遲的,在圍棋中,你直到棋局結(jié)束才能知道每一步是否正確。
強(qiáng)化學(xué)習(xí)的有趣之處在于它能夠處理長(zhǎng)時(shí)間的動(dòng)作序列,并根據(jù)這些動(dòng)作的結(jié)果來(lái)給予獎(jiǎng)勵(lì)或懲罰。獎(jiǎng)勵(lì)或懲罰的程度與這些動(dòng)作的預(yù)期結(jié)果相關(guān)。
如果你取得了勝利,你會(huì)覺(jué)得這個(gè)決定是對(duì)的,從而增加對(duì)這一策略的信心;如果失敗了,你可能會(huì)減少對(duì)這一策略的信心。強(qiáng)化學(xué)習(xí)特別適用于那些結(jié)果需要較長(zhǎng)時(shí)間才能顯現(xiàn)的情況。
強(qiáng)化學(xué)習(xí)特別適用于那些立即無(wú)法判斷好壞的情況。
監(jiān)督學(xué)習(xí)指的是你有一組輸入數(shù)據(jù)和對(duì)應(yīng)的真實(shí)輸出。一個(gè)經(jīng)典的例子是圖像分類中,每張圖像都有一個(gè)標(biāo)簽,如“汽車”、“鴕鳥(niǎo)”或“石榴”。
Hannah Fry:當(dāng)你們決定進(jìn)行收購(gòu)時(shí),Demis 是否感到緊張?
Jeff Dean:我不確定他是否緊張。我主要關(guān)注的是代碼的質(zhì)量。我要求查看一些實(shí)際代碼,以了解代碼標(biāo)準(zhǔn)和注釋情況。Demis 對(duì)此有些猶豫。
我說(shuō)只需要一些小片段,就能讓我了解代碼的實(shí)際情況。于是,我進(jìn)入了一間工程師的辦公室,我們坐下來(lái)聊了 10 分鐘。
我問(wèn),這段代碼做了什么?那個(gè)東西呢?那是什么作用?能給我看看它的實(shí)現(xiàn)嗎?我出來(lái)后對(duì)代碼質(zhì)量很滿意。
Hannah Fry:在這些演示中,你的印象如何?
Jeff Dean:我覺(jué)得他們的工作非常有趣,尤其是在強(qiáng)化學(xué)習(xí)方面。
我們當(dāng)時(shí)專注于模型擴(kuò)展,訓(xùn)練的模型比 DeepMind 處理的要大得多。他們?cè)谟脧?qiáng)化學(xué)習(xí)解決游戲問(wèn)題,這為強(qiáng)化學(xué)習(xí)提供了一個(gè)很好的應(yīng)用場(chǎng)景。
結(jié)合強(qiáng)化學(xué)習(xí)和我們的大規(guī)模擴(kuò)展工作,看起來(lái)會(huì)是一個(gè)很有前途的方向。
Hannah Fry:這就像從兩個(gè)方向解決問(wèn)題——一個(gè)是小規(guī)模的強(qiáng)化學(xué)習(xí),如玩具模型;另一個(gè)是大規(guī)模的理解。將這兩者結(jié)合起來(lái),效果非常強(qiáng)大。
Jeff Dean:是的,確實(shí)如此。這也是我們?nèi)ツ隂Q定合并 DeepMind、Google Brain 和其他 Google 研究部門的主要原因。我們決定將這些單元結(jié)合起來(lái),形成 Google DeepMind。
Gemini 的概念實(shí)際上早于合并的想法,但真正的目的是讓我們?cè)谶@些問(wèn)題上共同努力。
由于我們都致力于訓(xùn)練高質(zhì)量、大規(guī)模、多模態(tài)的模型,將想法和計(jì)算資源分開(kāi)是不合理的。
因此,我們決定將所有資源和人員整合,組建一個(gè)聯(lián)合團(tuán)隊(duì)來(lái)解決這個(gè)問(wèn)題。
Hannah Fry:為什么叫 Gemini?
Jeff Dean:實(shí)際上是我命名的。Gemini 代表雙胞胎,這個(gè)名字很好地體現(xiàn)了 DeepMind 和Google Brain 的結(jié)合,象征著兩個(gè)團(tuán)隊(duì)共同致力于一個(gè)雄心勃勃的多模態(tài)項(xiàng)目。
這個(gè)名字還有多個(gè)含義,比如它有點(diǎn)像是雄心勃勃的太空計(jì)劃的前奏,這也是我選擇這個(gè)名字的原因之一。
Hannah Fry:我想要談?wù)劧嗄B(tài)的內(nèi)容。在此之前,可以告訴我們一點(diǎn)關(guān)于 Transformer 的工作以及它的變革性影響嗎?
Jeff Dean:當(dāng)然可以。實(shí)際上,處理語(yǔ)言和許多其他領(lǐng)域的問(wèn)題往往涉及序列問(wèn)題。
例如,Gmail 的自動(dòng)完成功能根據(jù)你輸入的內(nèi)容來(lái)預(yù)測(cè)下一個(gè)可能的詞語(yǔ),這類似于大型語(yǔ)言模型的訓(xùn)練過(guò)程。這樣的模型被訓(xùn)練來(lái)逐字或逐詞地預(yù)測(cè)文本的下一部分,就像是高級(jí)的自動(dòng)補(bǔ)全功能。
這種序列預(yù)測(cè)方法在許多領(lǐng)域都很有用。在語(yǔ)言翻譯中,模型可以根據(jù)輸入的英文句子預(yù)測(cè)相應(yīng)的法文句子。在醫(yī)療領(lǐng)域,它能夠處理病人的癥狀和檢測(cè)結(jié)果,預(yù)測(cè)可能的診斷結(jié)果。
此外,這種方法也適用于其他數(shù)據(jù)類型,如 DNA 序列。通過(guò)隱藏序列中的部分信息,模型被迫預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。這種方法不僅適用于語(yǔ)言翻譯和醫(yī)療診斷,還可以擴(kuò)展到其他領(lǐng)域。
在 Transformer 架構(gòu)出現(xiàn)之前,遞歸模型才是成功的模型,它們依賴內(nèi)部狀態(tài)來(lái)處理序列數(shù)據(jù)。處理每個(gè)詞時(shí),模型會(huì)更新一次內(nèi)部狀態(tài),然后再處理下一個(gè)詞。這種方法需要對(duì)每個(gè)詞進(jìn)行逐步處理,導(dǎo)致運(yùn)行速度較慢,因?yàn)槊恳徊蕉家蕾囉谇耙徊剑嬖谛蛄幸蕾噯?wèn)題。
為了提高效率,Google Research 的研究人員提出了 Transformer 架構(gòu)。與其逐詞更新?tīng)顟B(tài),不如一次性處理所有詞,并利用所有先前的狀態(tài)進(jìn)行預(yù)測(cè)。
Transformer 基于注意力機(jī)制,能夠關(guān)注序列中的重要部分。這使得它可以并行處理大量詞語(yǔ),大幅提升了效率和性能,相比傳統(tǒng)遞歸模型,提升了 10 到 100 倍。
這就是進(jìn)步如此大的原因。
Hannah Fry:也許我們還會(huì)從語(yǔ)言和序列中獲得一種概念理解或抽象,這是否讓你感到驚訝?
Jeff Dean:是的。當(dāng)我們聽(tīng)到一個(gè)詞時(shí),我們不僅想到它的表面形式,還會(huì)聯(lián)想到許多其他相關(guān)的事物。比如,“cow(牛)”會(huì)讓我們想到牛奶、咖啡機(jī)、擠奶等。在詞的表示中,方向性也很有意義。例如,“walk(走)”到“walked”的變化方向與“run(跑)”到“ran”的方向相同。這種表示不是我們故意設(shè)計(jì)的,而是訓(xùn)練過(guò)程中自然出現(xiàn)的結(jié)果。
Hannah Fry:真是太神奇了。但這只是語(yǔ)言方面的討論。那么,多模態(tài)處理會(huì)如何改變呢?有什么不同?
Jeff Dean:多模態(tài)處理的關(guān)鍵在于如何將不同類型的輸入數(shù)據(jù)(如圖像和文字)轉(zhuǎn)換為相同的高維表示。當(dāng)我們看到一頭牛時(shí),這會(huì)在我們的大腦中激活類似的反應(yīng),不論是通過(guò)閱讀“cow(牛)”這個(gè)詞,還是看到牛的圖片或視頻。我們希望訓(xùn)練模型,使其能夠?qū)⑦@些不同輸入的聯(lián)合意義和表示整合起來(lái)。這樣,看到一段牛在田野中走動(dòng)的視頻,模型會(huì)觸發(fā)與看到“cow(牛)”類似的內(nèi)部反應(yīng)。
Hannah Fry:所以,多模態(tài)處理并不是將語(yǔ)言部分和圖像部分分開(kāi)處理再結(jié)合?
Jeff Dean:正是這樣。在早期模型中,雖然存在這些表示,但處理起來(lái)確實(shí)更復(fù)雜。
Hannah Fry:這是否使得多模態(tài)模型的初始設(shè)置更加困難?
Jeff Dean:是的,多模態(tài)模型的整合和訓(xùn)練比單一語(yǔ)言模型或圖像模型復(fù)雜得多。然而,這樣的模型可以帶來(lái)很多好處,比如跨模態(tài)的遷移學(xué)習(xí)??吹脚5囊曈X(jué)信息可以幫助模型更好地理解語(yǔ)言。這樣,無(wú)論是看到“cow(牛)”這個(gè)詞還是牛的圖像,模型都會(huì)有類似的內(nèi)部觸發(fā)反應(yīng)。
Hannah Fry:你認(rèn)為這些多模態(tài)模型會(huì)改變我們的教育方式嗎?
Jeff Dean:我認(rèn)為 AI 在教育中的潛力巨大,但我們還在探索初期。
研究表明,一對(duì)一輔導(dǎo)比傳統(tǒng)課堂效果更好,那么 AI 能否讓每個(gè)人都享受到類似的一對(duì)一輔導(dǎo)呢?這個(gè)目標(biāo)離我們已經(jīng)不遠(yuǎn)了。
未來(lái),像Gemini這樣的模型可以幫助你理解課本中的內(nèi)容,無(wú)論是文字、圖片,還是視頻。如果有不理解的地方,你可以提問(wèn),模型會(huì)幫助解釋,還能評(píng)估你的回答,引導(dǎo)學(xué)習(xí)進(jìn)度。
這種個(gè)性化學(xué)習(xí)體驗(yàn)?zāi)芑菁叭?,不僅限于英語(yǔ),還將支持全球數(shù)百種語(yǔ)言。
Hannah Fry:你提到的多語(yǔ)言和普及工具的想法很好,但是否存在這樣的風(fēng)險(xiǎn):使用這些工具的人獲益更多,而無(wú)法使用的人會(huì)面臨更多困難?這是你擔(dān)心的問(wèn)題嗎?
Jeff Dean:是的,我擔(dān)心可能會(huì)出現(xiàn)一個(gè)兩級(jí)系統(tǒng)。我們應(yīng)該努力讓這些技術(shù)普及,讓它們的社會(huì)優(yōu)勢(shì)最大化,并且確保教育資源變得負(fù)擔(dān)得起或免費(fèi)。
Hannah Fry:現(xiàn)在計(jì)算方式似乎已經(jīng)從確定性轉(zhuǎn)向概率,公眾是否需要接受模型可能會(huì)犯錯(cuò)的現(xiàn)實(shí)?這種問(wèn)題是否能解決?
Jeff Dean:兩者都有。一方面,我們可以通過(guò)技術(shù)進(jìn)步,比如更長(zhǎng)的上下文窗口來(lái)提升準(zhǔn)確性。另一方面,公眾需要明白模型是工具,不能完全依賴它們的每個(gè)輸出。我們要教育人們保持適度懷疑,同時(shí)技術(shù)的進(jìn)步會(huì)減少這種懷疑,但適度審查依然重要。
Hannah Fry:除了上下文窗口,還有其他方法可以減少虛假結(jié)果的風(fēng)險(xiǎn)嗎?
Jeff Dean:是的,另一個(gè)方法是“思維鏈提示”(chain of thought prompting)。例如,對(duì)于數(shù)學(xué)問(wèn)題,讓模型逐步展示解題過(guò)程比直接問(wèn)答案更有效,不僅輸出更清晰,正確率也更高。即使在沒(méi)有明確答案的問(wèn)題上,給出更具體的提示也能獲得更好的結(jié)果。
Hannah Fry:這些多模態(tài)模型會(huì)理解我們的個(gè)人特點(diǎn)和偏好嗎?
Jeff Dean:是的,我們希望模型能更個(gè)性化,比如根據(jù)你是素食主義者推薦素食餐廳。雖然現(xiàn)在可能還做不到,但未來(lái)會(huì)有更多符合個(gè)人需求的功能,比如制作適合孩子的插圖故事書。
我們希望模型能處理復(fù)雜的任務(wù)。例如,你可以用簡(jiǎn)單的指令讓機(jī)器人完成家務(wù)。雖然現(xiàn)在的機(jī)器人還做不到這一點(diǎn),但我們正接近實(shí)現(xiàn)這個(gè)目標(biāo),未來(lái)它們能在混亂的環(huán)境中完成許多有用的任務(wù)。
Hannah Fry:現(xiàn)在這些助手主要用于增強(qiáng)人類能力,特別是在醫(yī)療和教育領(lǐng)域。多模態(tài)模型是否能幫助我們更好地理解世界?雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
Jeff Dean:是的,隨著模型能力的提升,它們能處理更復(fù)雜的任務(wù),比如椅子租賃或會(huì)議策劃。模型可以像人一樣提出問(wèn)題以明確需求,并進(jìn)行高層次的任務(wù)。此外,它們能在模擬器中測(cè)試不同設(shè)計(jì)方案,例如設(shè)計(jì)飛機(jī)。雖然我們不能準(zhǔn)確預(yù)測(cè)這些能力何時(shí)實(shí)現(xiàn),但模型在過(guò)去5到10年里取得了顯著進(jìn)展。未來(lái),這些功能可能會(huì)更快實(shí)現(xiàn),甚至能幫助設(shè)計(jì)特定的飛機(jī)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。