丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給劉潔
發(fā)送

0

門板上做研究的首席科學(xué)家:Jeff Dean解密谷歌和Gemini背后的故事

本文作者: 劉潔 2024-09-19 10:38
導(dǎo)語:Gemini:不止是雙生團隊的融合,更是雄心勃勃的未來計劃。

“最開始我就知道谷歌相當(dāng)有希望,谷歌能發(fā)展到現(xiàn)在的規(guī)模不過是水到渠成?!?/p>

這位谷歌首席科學(xué)家在谷歌度過了近乎一半的人生,對谷歌的喜愛不減反增,到現(xiàn)在還依然堅守著谷歌最初的愿景并為此奮斗:

組織全球信息并使其普遍可用和有用

Jeff Dean 還記得剛加入谷歌的時候,每到周二的流量高峰期就開始擔(dān)心系統(tǒng)會不會崩潰,還好后來及時增加了設(shè)備,對代碼和搜索功能做了更多優(yōu)化,谷歌搜索這才步入了正軌。

后來吳恩達(dá)在谷歌擔(dān)任顧問,Jeff Dean 和他商定了大型神經(jīng)網(wǎng)絡(luò)的研究目標(biāo),最終促成了 Google Brain 團隊的成立。

2011年,伴隨著質(zhì)疑和不信任,Google Brain 終于成功訓(xùn)練出比當(dāng)時其他模型大 50 到 100 倍的神經(jīng)網(wǎng)絡(luò)。

而在同一時期的大洋彼岸,DeepMind 的研究才剛剛開始。

Jeff Dean 想做的一直都是高質(zhì)量、大規(guī)模的多模態(tài)模型。當(dāng)時的 DeepMind 和 Google Brain 有著類似的研究目標(biāo),只是選擇了強化學(xué)習(xí)和模型擴展兩個不同的方向。

收購DeepMind后,Jeff Dean 推動了兩大團隊的融合,Google DeepMind 應(yīng)運而生。

強強聯(lián)合之下,Google DeepMind 交出了一份令人滿意的答卷,Gemini。

Gemini 的優(yōu)勢不止在于多模態(tài),更在于“化繁為簡”的思路。

受益于底層的Transformer架構(gòu),Gemini 能夠并行處理大量數(shù)據(jù),相比傳統(tǒng)遞歸模型,提升了 10 到 100 倍。更重要的是,Gemini 能把不同類型的數(shù)據(jù)通過抽象轉(zhuǎn)換為相同的高維表示,把表面意思及其以外的聯(lián)合意義和表示整合起來。

舉個例子,Gemini 不僅能識別“牛”這個詞語,還能發(fā)散到和牛有關(guān)的語音、圖片等等其他內(nèi)容,反過來輸入這些相關(guān)的內(nèi)容也能觸發(fā) Gemini 對“牛”的多層次理解。

對用戶來說,一切都變得簡單、直觀。

無需切換工具或者輸入形式,用戶就能通過文字、語音、圖片等方式與系統(tǒng)互動。

而系統(tǒng)也會自動整合各種輸入方式,生成最直觀、最易于解讀的結(jié)果。文本可以轉(zhuǎn)化為圖像,圖像也可以轉(zhuǎn)化為語音,文字與圖像的融合也能自動實現(xiàn)。

對開發(fā)團隊來說,這一技術(shù)的實現(xiàn)非常復(fù)雜,但Gemini 依然成功突破了這些挑戰(zhàn)。

然而,Jeff Dean 的雄心遠(yuǎn)不止于此。他現(xiàn)在致力于開發(fā)更深入人們生活的人工智能工具,涵蓋從日常助理到醫(yī)療、AI教育等多個領(lǐng)域。

多模態(tài)模型的前景和谷歌一樣充滿了可能。Jeff Dean 深信,從過去到未來,這一領(lǐng)域?qū)⒊掷m(xù)表演出巨大的潛力和希望。

前幾天,Jeff Dean 做客 DeepMind 播客,講述了他和谷歌的這段過去、DeepMind與Gemini背后的故事,以及自己對多模態(tài)模型的探索和理解。


完整播客視頻可以點以下鏈接觀看:

https://www.youtube.com/watch?v=lH74gNeryhQ

AI科技評論摘取了部分播客內(nèi)容,做了不改原意的精編處理:


90年代的谷歌

Hannah Fry:你在谷歌工作了 25 年,早期的谷歌是什么樣的?90 年代剛加入的時候,是不是大家的筆記本上貼滿了貼紙,穿著人字拖在編程?

Jeff Dean:那時沒有筆記本,我們用的是大 CRT 顯示器,占了很多桌面空間。我那時的桌子其實是一扇門架在兩只馬凳上,你可以站在桌下,用背撐起來把桌子調(diào)高。

我剛開始工作時,我們的辦公室很小,大概只有這個房間的三倍大。


Hannah Fry:整個谷歌?

Jeff Dean:整個谷歌。那時,我們在帕洛阿爾托大學(xué)大道上的一個小辦公室里,正好在現(xiàn)在的T-Mobile手機店上面。那時候真的非常激動,盡管我們是個小公司,但看到越來越多人使用我們的高質(zhì)量搜索服務(wù)真的很興奮。流量每天和每周都在不斷增長。

門板上做研究的首席科學(xué)家:Jeff Dean解密谷歌和Gemini背后的故事

我們一直在努力避免每周二中午的流量高峰時系統(tǒng)崩潰。這需要我們迅速增加計算機資源,優(yōu)化代碼提高速度,并開發(fā)新的功能,讓相同的硬件能夠服務(wù)更多用戶。


Hannah Fry:有沒有哪個時刻讓你們意識到——這個公司真的會變得很大?

Jeff Dean:我想,從我剛加入公司的時候,你就能看出來流量增長非??臁?/p>

我們覺得,只要專注于提供高質(zhì)量的搜索結(jié)果,快速滿足用戶需求——我們其實希望用戶能盡快離開我們的網(wǎng)站,找到他們需要的信息——這是一個很成功的想法。

用戶似乎也喜歡我們的服務(wù),所以從最開始就看起來相當(dāng)有希望。


Hannah Fry:從“相當(dāng)有希望”到最后的發(fā)展規(guī)模之間差距不小。你感到驚訝嗎?

Jeff Dean:確實,我們的領(lǐng)域擴展確實難以預(yù)料,比如自動駕駛汽車。我們的產(chǎn)品組合逐步拓寬,從最初的搜索引擎到現(xiàn)在的各種產(chǎn)品,例如通過Gmail幫助用戶管理郵件。

這種擴展是自然的,因為它們解決了實際問題,讓我們不僅僅擁有一個產(chǎn)品,而是擁有了用戶日常使用的多種產(chǎn)品。


Hannah Fry:回顧這么多年的發(fā)展,你覺得谷歌始終是一個搜索公司,還是實際上它是一個 AI 公司,只是裝作是個搜索公司?

Jeff Dean:我認(rèn)為公司解決的許多問題實際上都依賴于 AI。在這25年的歷程中,我們逐步攻克了一些復(fù)雜的AI問題,并不斷取得進(jìn)展。

雖然谷歌一開始專注于搜索,但我們不斷將這些新的 AI 技術(shù)應(yīng)用到搜索和其他產(chǎn)品中。因此,可以說我們一直在利用 AI 推動公司的發(fā)展。


Hannah Fry:你認(rèn)為谷歌未來會一直是一個搜索公司嗎?或者說,它現(xiàn)在是否仍然是一個搜索公司?它正在發(fā)生改變嗎?

Jeff Dean:我非常喜歡谷歌的一點是,即便 25 年過去了,我們的使命依然非常有意義——“組織全球信息并使其普遍可用和有用”。

我認(rèn)為,Gemini 幫助我們在理解各種信息方面邁出了重要一步——包括文本數(shù)據(jù)和軟件代碼(它也是一種文本,只是更復(fù)雜)。我們不僅能閱讀文本,還能通過視覺和聽覺接收信息。

我們的目標(biāo)是讓模型能夠處理各種輸入形式,并生成相應(yīng)的輸出,例如文本、音頻、對話、圖像或圖表。

我們真正想創(chuàng)造的是一個能夠處理所有這些模式并根據(jù)需要生成輸出的模型。


神經(jīng)網(wǎng)絡(luò)的早期探索

Hannah Fry:你還記得你第一次接觸神經(jīng)網(wǎng)絡(luò)的情景嗎?

Jeff Dean:是的,當(dāng)然。神經(jīng)網(wǎng)絡(luò)有著一段有趣的歷史。

AI 其實是一個非常古老的學(xué)科,AI 的早期階段是在研究如何定義事物運作的規(guī)則。那是在20世紀(jì) 50、60、70 年代左右。

神經(jīng)網(wǎng)絡(luò)大約在 70 年代出現(xiàn),在 80 年代末和 90 年代初掀起了一陣熱潮。

實際上,我在 1990 年是明尼蘇達(dá)大學(xué)的本科生,當(dāng)時我在上并行處理課程,這個課程探討的是如何將一個問題分解成可以在不同計算機上并行處理的部分,讓這些計算機協(xié)同工作來解決一個問題。


Hannah Fry:我猜那時候的計算能力還不如現(xiàn)在那么強大,你們是怎么讓計算機協(xié)同工作的?

Jeff Dean:神經(jīng)網(wǎng)絡(luò)是一種特殊的機器學(xué)習(xí)方法,它通過模擬人腦神經(jīng)元的工作原理來進(jìn)行學(xué)習(xí)。每個人工神經(jīng)元與下層的其他神經(jīng)元相連接,分析接收到的信號,然后決定是否將信號傳遞到更高層次。

神經(jīng)網(wǎng)絡(luò)由多個層次的人工神經(jīng)元組成,高層神經(jīng)元通過分析下層神經(jīng)元的信號進(jìn)行學(xué)習(xí)。

例如,在圖像識別任務(wù)中,最底層的神經(jīng)元可能學(xué)習(xí)到基礎(chǔ)特征,比如顏色斑點或邊緣;下一層則可能識別出具有特定顏色邊框的形狀;更高層的神經(jīng)元可能識別出這些形狀組成的具體物體,如鼻子或耳朵。

通過這種逐層的抽象學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)能夠發(fā)展出非常強大的模式識別能力。這也是1985至1990年間人們對神經(jīng)網(wǎng)絡(luò)充滿興奮的原因。


Hannah Fry:不過我們說的是非常非常小的網(wǎng)絡(luò),對吧?

Jeff Dean:是的,非常小的網(wǎng)絡(luò)。所以它們無法識別出人臉或汽車這樣的東西,只能識別一些人工生成的簡單模式。


Hannah Fry:就像一個網(wǎng)格,可能能識別出一個十字形之類的東西。

Jeff Dean:或者手寫的數(shù)字,比如這是一個 7 還是 8。

那時候的確算是很了不起了。但它們的能力僅限于解決這種問題,而那些基于邏輯規(guī)則的系統(tǒng),比如如何定義一個“7”,其實在處理各種凌亂手寫體時表現(xiàn)得并不太好。

所以我在聽了兩堂關(guān)于神經(jīng)網(wǎng)絡(luò)的課后覺得很有興趣,決定把我的畢業(yè)論文主題定為神經(jīng)網(wǎng)絡(luò)的并行訓(xùn)練。

我認(rèn)為只需要更多的計算資源就能有所突破。于是我想,何不利用系里那臺 32 處理器的機器來訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)?這就是我接下來的幾個月所做的事情。


Hannah Fry:結(jié)果成功了嗎?

Jeff Dean:是的,成功了。當(dāng)時我以為 32 個處理器已經(jīng)足夠讓神經(jīng)網(wǎng)絡(luò)運行順暢,結(jié)果證明我還是錯了。其實我們需要大約一百萬倍的計算能力,才能真正讓它們表現(xiàn)出色。

幸運的是,摩爾定律的進(jìn)步、處理器速度的提升,以及各種計算設(shè)備的發(fā)展,最終使我們擁有了強大的一百萬倍計算能力的系統(tǒng)。這讓我重新對神經(jīng)網(wǎng)絡(luò)產(chǎn)生興趣。

當(dāng)時 Andrew Ng(吳恩達(dá))每周都有一天在 Google 做顧問。

有一次我在 Google 的廚房碰到他,問他在做什么。他說:“還在摸索,不過我的學(xué)生在神經(jīng)網(wǎng)絡(luò)方面取得了不錯的進(jìn)展。”于是我提議:“為什么不訓(xùn)練一些非常大的神經(jīng)網(wǎng)絡(luò)呢?”

這就是我們在 Google 開始神經(jīng)網(wǎng)絡(luò)研究的起點,后來我們成立了Google Brain 團隊,專門研究如何利用 Google 的計算資源訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。

門板上做研究的首席科學(xué)家:Jeff Dean解密谷歌和Gemini背后的故事

我們開發(fā)了軟件,把神經(jīng)網(wǎng)絡(luò)分解為多個部分,由不同計算機處理,還讓它們相互溝通,在2000臺計算機上一起訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)。這使我們訓(xùn)練出比當(dāng)時其他模型大 50 到 100 倍的網(wǎng)絡(luò)。這是2012年初,圖像識別取得重大突破之前的事。

當(dāng)時我們做的還是把計算機連接起來,就像我本科論文一樣。這次不同的是規(guī)模更大,而這次真的奏效了,因為計算機更快了,也用了更多的機器。


Hannah Fry:不過在 2011 年的時候,這感覺像是一場賭注嗎?

Jeff Dean:當(dāng)然是了。我們當(dāng)時為訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)而搭建的系統(tǒng),并嘗試各種分解方法,我給它取名為 DistBelief(直譯為“分配信念”)。

部分原因是很多人不相信它真的能成功,另一個原因是它是一個分布式系統(tǒng),可以構(gòu)建這些網(wǎng)絡(luò)——我們想訓(xùn)練的不僅僅是神經(jīng)網(wǎng)絡(luò),還有深度信念網(wǎng)絡(luò)(Deep Belief Networks)。所以就叫 DistBelief 了。


DeepMind 和 Gemini 背后的故事

Hannah Fry:當(dāng)你們在美國開發(fā) DistBelief 時,大西洋的另一邊正是 DeepMind 的起步階段。我知道你是后來負(fù)責(zé)拜訪 DeepMind 的人。你能講講這個故事嗎?

Jeff Dean:是的。Geoffrey Hinton,這位著名的機器學(xué)習(xí)研究員,2011年夏天曾在 Google 工作過。那時我們還不知道該給他安排什么職位,最后把他歸為實習(xí)生,這挺有趣的。后來他和我一起工作,之后我們得知了 DeepMind 的存在。

我想 Geoffrey 對這家公司的起源有所了解,也有其他人告訴我們,“英國有一家公司在做些有意思的事情?!碑?dāng)時他們大概只有四五十人。于是我們決定去看看,把它視作潛在的收購對象。

那時我在加州,Geoffrey 在多倫多,是那里的教授。他背有問題,不能乘坐普通航班,因為他無法坐下,只能站著或躺著。而航班起飛時不能站著,所以我們安排了私人飛機上的醫(yī)療床。

我們從加州飛往多倫多接他,然后一起飛到英國,降落在某個偏遠(yuǎn)機場。接著我們坐上一輛大面包車,直奔 DeepMind 的辦公室,應(yīng)該在 Russell Square(倫敦羅素廣場)附近。

前一晚的飛行讓我們很累,接下來就是來自 DeepMind 團隊的 13 場連續(xù) 20 分鐘的演講,介紹他們的各種項目。我們看了他們在 Atari 游戲上的一些工作,主要是用強化學(xué)習(xí)玩舊版 Atari 2600 游戲,比如《Breakout》和《Pong》,這都非常有趣。


Hannah Fry:你們當(dāng)時還沒有做強化學(xué)習(xí)的工作?

Jeff Dean:對,那時我們主要專注于大規(guī)模的監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。


Hannah Fry:強化學(xué)習(xí)更多是通過獎勵來激勵的,對吧?

Jeff Dean:是的,我認(rèn)為這些技術(shù)都很有用,通常將它們結(jié)合起來使用效果會更好。

強化學(xué)習(xí)的核心在于代理在環(huán)境中操作,每一步都有多個選擇。例如,在圍棋中,你可以在多個位置放置棋子;在 Atari 游戲中,你可以移動操控桿或按按鈕。獎勵往往是延遲的,在圍棋中,你直到棋局結(jié)束才能知道每一步是否正確。

強化學(xué)習(xí)的有趣之處在于它能夠處理長時間的動作序列,并根據(jù)這些動作的結(jié)果來給予獎勵或懲罰。獎勵或懲罰的程度與這些動作的預(yù)期結(jié)果相關(guān)。

如果你取得了勝利,你會覺得這個決定是對的,從而增加對這一策略的信心;如果失敗了,你可能會減少對這一策略的信心。強化學(xué)習(xí)特別適用于那些結(jié)果需要較長時間才能顯現(xiàn)的情況。

強化學(xué)習(xí)特別適用于那些立即無法判斷好壞的情況。

監(jiān)督學(xué)習(xí)指的是你有一組輸入數(shù)據(jù)和對應(yīng)的真實輸出。一個經(jīng)典的例子是圖像分類中,每張圖像都有一個標(biāo)簽,如“汽車”、“鴕鳥”或“石榴”。


Hannah Fry:當(dāng)你們決定進(jìn)行收購時,Demis 是否感到緊張?

Jeff Dean:我不確定他是否緊張。我主要關(guān)注的是代碼的質(zhì)量。我要求查看一些實際代碼,以了解代碼標(biāo)準(zhǔn)和注釋情況。Demis 對此有些猶豫。

我說只需要一些小片段,就能讓我了解代碼的實際情況。于是,我進(jìn)入了一間工程師的辦公室,我們坐下來聊了 10 分鐘。

我問,這段代碼做了什么?那個東西呢?那是什么作用?能給我看看它的實現(xiàn)嗎?我出來后對代碼質(zhì)量很滿意。


Hannah Fry:在這些演示中,你的印象如何?

Jeff Dean:我覺得他們的工作非常有趣,尤其是在強化學(xué)習(xí)方面。

我們當(dāng)時專注于模型擴展,訓(xùn)練的模型比 DeepMind 處理的要大得多。他們在用強化學(xué)習(xí)解決游戲問題,這為強化學(xué)習(xí)提供了一個很好的應(yīng)用場景。

結(jié)合強化學(xué)習(xí)和我們的大規(guī)模擴展工作,看起來會是一個很有前途的方向。


Hannah Fry:這就像從兩個方向解決問題——一個是小規(guī)模的強化學(xué)習(xí),如玩具模型;另一個是大規(guī)模的理解。將這兩者結(jié)合起來,效果非常強大。

Jeff Dean:是的,確實如此。這也是我們?nèi)ツ隂Q定合并 DeepMind、Google Brain 和其他 Google 研究部門的主要原因。我們決定將這些單元結(jié)合起來,形成 Google DeepMind。

Gemini 的概念實際上早于合并的想法,但真正的目的是讓我們在這些問題上共同努力。

由于我們都致力于訓(xùn)練高質(zhì)量、大規(guī)模、多模態(tài)的模型,將想法和計算資源分開是不合理的。

因此,我們決定將所有資源和人員整合,組建一個聯(lián)合團隊來解決這個問題。


Hannah Fry:為什么叫 Gemini?

Jeff Dean:實際上是我命名的。Gemini 代表雙胞胎,這個名字很好地體現(xiàn)了 DeepMind 和Google Brain 的結(jié)合,象征著兩個團隊共同致力于一個雄心勃勃的多模態(tài)項目。

這個名字還有多個含義,比如它有點像是雄心勃勃的太空計劃的前奏,這也是我選擇這個名字的原因之一。

門板上做研究的首席科學(xué)家:Jeff Dean解密谷歌和Gemini背后的故事


Transformer與多模態(tài)處理

Hannah Fry:我想要談?wù)劧嗄B(tài)的內(nèi)容。在此之前,可以告訴我們一點關(guān)于 Transformer 的工作以及它的變革性影響嗎?

Jeff Dean:當(dāng)然可以。實際上,處理語言和許多其他領(lǐng)域的問題往往涉及序列問題。

例如,Gmail 的自動完成功能根據(jù)你輸入的內(nèi)容來預(yù)測下一個可能的詞語,這類似于大型語言模型的訓(xùn)練過程。這樣的模型被訓(xùn)練來逐字或逐詞地預(yù)測文本的下一部分,就像是高級的自動補全功能。

這種序列預(yù)測方法在許多領(lǐng)域都很有用。在語言翻譯中,模型可以根據(jù)輸入的英文句子預(yù)測相應(yīng)的法文句子。在醫(yī)療領(lǐng)域,它能夠處理病人的癥狀和檢測結(jié)果,預(yù)測可能的診斷結(jié)果。

此外,這種方法也適用于其他數(shù)據(jù)類型,如 DNA 序列。通過隱藏序列中的部分信息,模型被迫預(yù)測接下來會發(fā)生什么。這種方法不僅適用于語言翻譯和醫(yī)療診斷,還可以擴展到其他領(lǐng)域。

在 Transformer 架構(gòu)出現(xiàn)之前,遞歸模型才是成功的模型,它們依賴內(nèi)部狀態(tài)來處理序列數(shù)據(jù)。處理每個詞時,模型會更新一次內(nèi)部狀態(tài),然后再處理下一個詞。這種方法需要對每個詞進(jìn)行逐步處理,導(dǎo)致運行速度較慢,因為每一步都依賴于前一步,存在序列依賴問題。

為了提高效率,Google Research 的研究人員提出了 Transformer 架構(gòu)。與其逐詞更新狀態(tài),不如一次性處理所有詞,并利用所有先前的狀態(tài)進(jìn)行預(yù)測。

Transformer 基于注意力機制,能夠關(guān)注序列中的重要部分。這使得它可以并行處理大量詞語,大幅提升了效率和性能,相比傳統(tǒng)遞歸模型,提升了 10 到 100 倍。

這就是進(jìn)步如此大的原因。


Hannah Fry:也許我們還會從語言和序列中獲得一種概念理解或抽象,這是否讓你感到驚訝?

Jeff Dean:是的。當(dāng)我們聽到一個詞時,我們不僅想到它的表面形式,還會聯(lián)想到許多其他相關(guān)的事物。比如,“cow(牛)”會讓我們想到牛奶、咖啡機、擠奶等。在詞的表示中,方向性也很有意義。例如,“walk(走)”到“walked”的變化方向與“run(跑)”到“ran”的方向相同。這種表示不是我們故意設(shè)計的,而是訓(xùn)練過程中自然出現(xiàn)的結(jié)果。


Hannah Fry:真是太神奇了。但這只是語言方面的討論。那么,多模態(tài)處理會如何改變呢?有什么不同?

Jeff Dean:多模態(tài)處理的關(guān)鍵在于如何將不同類型的輸入數(shù)據(jù)(如圖像和文字)轉(zhuǎn)換為相同的高維表示。當(dāng)我們看到一頭牛時,這會在我們的大腦中激活類似的反應(yīng),不論是通過閱讀“cow(牛)”這個詞,還是看到牛的圖片或視頻。我們希望訓(xùn)練模型,使其能夠?qū)⑦@些不同輸入的聯(lián)合意義和表示整合起來。這樣,看到一段牛在田野中走動的視頻,模型會觸發(fā)與看到“cow(牛)”類似的內(nèi)部反應(yīng)。


Hannah Fry:所以,多模態(tài)處理并不是將語言部分和圖像部分分開處理再結(jié)合?

Jeff Dean:正是這樣。在早期模型中,雖然存在這些表示,但處理起來確實更復(fù)雜。


Hannah Fry:這是否使得多模態(tài)模型的初始設(shè)置更加困難?

Jeff Dean:是的,多模態(tài)模型的整合和訓(xùn)練比單一語言模型或圖像模型復(fù)雜得多。然而,這樣的模型可以帶來很多好處,比如跨模態(tài)的遷移學(xué)習(xí)。看到牛的視覺信息可以幫助模型更好地理解語言。這樣,無論是看到“cow(牛)”這個詞還是牛的圖像,模型都會有類似的內(nèi)部觸發(fā)反應(yīng)。


多模態(tài)模型的風(fēng)險與潛力

Hannah Fry:你認(rèn)為這些多模態(tài)模型會改變我們的教育方式嗎?

Jeff Dean:我認(rèn)為 AI 在教育中的潛力巨大,但我們還在探索初期。

研究表明,一對一輔導(dǎo)比傳統(tǒng)課堂效果更好,那么 AI 能否讓每個人都享受到類似的一對一輔導(dǎo)呢?這個目標(biāo)離我們已經(jīng)不遠(yuǎn)了。

未來,像Gemini這樣的模型可以幫助你理解課本中的內(nèi)容,無論是文字、圖片,還是視頻。如果有不理解的地方,你可以提問,模型會幫助解釋,還能評估你的回答,引導(dǎo)學(xué)習(xí)進(jìn)度。

這種個性化學(xué)習(xí)體驗?zāi)芑菁叭?,不僅限于英語,還將支持全球數(shù)百種語言。


Hannah Fry:你提到的多語言和普及工具的想法很好,但是否存在這樣的風(fēng)險:使用這些工具的人獲益更多,而無法使用的人會面臨更多困難?這是你擔(dān)心的問題嗎?

Jeff Dean:是的,我擔(dān)心可能會出現(xiàn)一個兩級系統(tǒng)。我們應(yīng)該努力讓這些技術(shù)普及,讓它們的社會優(yōu)勢最大化,并且確保教育資源變得負(fù)擔(dān)得起或免費。


Hannah Fry:現(xiàn)在計算方式似乎已經(jīng)從確定性轉(zhuǎn)向概率,公眾是否需要接受模型可能會犯錯的現(xiàn)實?這種問題是否能解決?

Jeff Dean:兩者都有。一方面,我們可以通過技術(shù)進(jìn)步,比如更長的上下文窗口來提升準(zhǔn)確性。另一方面,公眾需要明白模型是工具,不能完全依賴它們的每個輸出。我們要教育人們保持適度懷疑,同時技術(shù)的進(jìn)步會減少這種懷疑,但適度審查依然重要。


Hannah Fry:除了上下文窗口,還有其他方法可以減少虛假結(jié)果的風(fēng)險嗎?

Jeff Dean:是的,另一個方法是“思維鏈提示”(chain of thought prompting)。例如,對于數(shù)學(xué)問題,讓模型逐步展示解題過程比直接問答案更有效,不僅輸出更清晰,正確率也更高。即使在沒有明確答案的問題上,給出更具體的提示也能獲得更好的結(jié)果。


Hannah Fry:這些多模態(tài)模型會理解我們的個人特點和偏好嗎?

Jeff Dean:是的,我們希望模型能更個性化,比如根據(jù)你是素食主義者推薦素食餐廳。雖然現(xiàn)在可能還做不到,但未來會有更多符合個人需求的功能,比如制作適合孩子的插圖故事書。

我們希望模型能處理復(fù)雜的任務(wù)。例如,你可以用簡單的指令讓機器人完成家務(wù)。雖然現(xiàn)在的機器人還做不到這一點,但我們正接近實現(xiàn)這個目標(biāo),未來它們能在混亂的環(huán)境中完成許多有用的任務(wù)。


Hannah Fry:現(xiàn)在這些助手主要用于增強人類能力,特別是在醫(yī)療和教育領(lǐng)域。多模態(tài)模型是否能幫助我們更好地理解世界?雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

Jeff Dean:是的,隨著模型能力的提升,它們能處理更復(fù)雜的任務(wù),比如椅子租賃或會議策劃。模型可以像人一樣提出問題以明確需求,并進(jìn)行高層次的任務(wù)。此外,它們能在模擬器中測試不同設(shè)計方案,例如設(shè)計飛機。雖然我們不能準(zhǔn)確預(yù)測這些能力何時實現(xiàn),但模型在過去5到10年里取得了顯著進(jìn)展。未來,這些功能可能會更快實現(xiàn),甚至能幫助設(shè)計特定的飛機。


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

門板上做研究的首席科學(xué)家:Jeff Dean解密谷歌和Gemini背后的故事

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說