DeepMind 首席科學(xué)家 Oriol Vinyals 最新訪談：通用 AI 的未來(lái)是強(qiáng)交互式元學(xué)習(xí)

本文作者：我在思考中

2022-08-03 10:04

導(dǎo)語(yǔ)：智能體的本質(zhì)是在特定環(huán)境中采取行動(dòng)的能力。

整理｜李梅

編輯｜陳彩嫻

自 2016 年 AlphaGo 在圍棋中擊敗人類以來(lái)，DeepMind 的科學(xué)家一直致力于探索強(qiáng)大的通用人工智能算法，Oriol Vinyals 就是其中之一。

Vinyals 于 2016 年加入 DeepMind，目前任首席科學(xué)家，領(lǐng)導(dǎo)深度學(xué)習(xí)小組。此前他曾在 Google Brain 工作。他的博士就讀于加州大學(xué)伯克利分校，曾獲得 2016 年 MIT TR35 創(chuàng)新者獎(jiǎng)。他在 seq2seq、知識(shí)蒸餾以及 TensorFlow 方面的研究成果，已經(jīng)被應(yīng)用于谷歌翻譯、文轉(zhuǎn)到語(yǔ)音和語(yǔ)音識(shí)別等產(chǎn)品中。他的文章被引用超過(guò) 16 萬(wàn)次。

DeepMind 首席科學(xué)家 Oriol Vinyals 最新訪談：通用 AI 的未來(lái)是強(qiáng)交互式元學(xué)習(xí)

最近，Oriol Vinyals 做客 Lex Fridman 的播客節(jié)目，談?wù)摿怂麑?duì)深度學(xué)習(xí)、通才智能體 Gato、元學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、AI 意識(shí)等方向的一些看法。Vinyals 認(rèn)為：

擴(kuò)大模型規(guī)模能夠增強(qiáng)智能體多模態(tài)之間的協(xié)同作用，模塊化的模型則是有效擴(kuò)大模型規(guī)模的一種方式，通過(guò)權(quán)重復(fù)用可以不必從頭訓(xùn)練模型；

未來(lái)的元學(xué)習(xí)將更注重智能體與環(huán)境的交互學(xué)習(xí)；

Transformer 內(nèi)置的歸納性注意偏差使得它比其他神經(jīng)網(wǎng)絡(luò)架構(gòu)更強(qiáng)大；

通用的、大規(guī)模的模型或智能體在技術(shù)上的成功關(guān)鍵是：數(shù)據(jù)工程、部署工程和建立基準(zhǔn)。

現(xiàn)有的 AI 模型離產(chǎn)生意識(shí)還很遙遠(yuǎn)，生物大腦遠(yuǎn)比計(jì)算大腦更復(fù)雜，人類的思維運(yùn)作方式可以啟發(fā)算法層面的研究；
未來(lái) AI 系統(tǒng)有可能具備與人類同等水平的智能，但是否能超越人類水平并不確定。

下面 AI 科技評(píng)論對(duì)訪談內(nèi)容作了不改變?cè)獾木庉嬚恚?/span>

通用算法

Fridman：在我們有生之年能否建立一個(gè) AI 系統(tǒng)、在這次談話中取代我們作為采訪者或被采訪者？

Vinyals：我想問(wèn)的是，我們想要實(shí)現(xiàn)那樣的愿望嗎？我很開(kāi)心看到我們正在使用非常強(qiáng)大的模型，并覺(jué)得它們跟我們?cè)絹?lái)越接近，但問(wèn)題是，如果沒(méi)有了談話中人性化的一面，它還會(huì)是一個(gè)有趣的人工制品嗎？可能不會(huì)。例如，在星際爭(zhēng)霸中，我們可以創(chuàng)建智能體來(lái)玩游戲、自我對(duì)抗，但最終人們關(guān)心的是，當(dāng)競(jìng)爭(zhēng)對(duì)手是人類時(shí)，智能體要如何做。

所以毫無(wú)疑問(wèn)，有了 AI，我們會(huì)更強(qiáng)大。比如你可以從 AI 系統(tǒng)中篩選出一些非常有趣的問(wèn)題，在語(yǔ)言領(lǐng)域，我們有時(shí)將其稱為“Terry Picking”。同樣，如果我現(xiàn)在有這樣的工具，你問(wèn)一個(gè)有趣的問(wèn)題，特定系統(tǒng)會(huì)選擇一些單詞來(lái)組成答案，但這并不是很讓我興奮。

Fridman：如果引起人的興奮本身就是這個(gè)系統(tǒng)的目標(biāo)函數(shù)的一部分呢？

Vinyals：在游戲中，當(dāng)你設(shè)計(jì)算法時(shí)，你可以將獲勝作為目標(biāo)寫(xiě)入獎(jiǎng)勵(lì)函數(shù)。但如果你能衡量它并針對(duì)它進(jìn)行優(yōu)化，那還有什么令人興奮的呢？這可能就是我們玩電子游戲、上網(wǎng)互動(dòng)、觀看貓咪視頻的原因。的確，對(duì)強(qiáng)化學(xué)習(xí)中使用的那些明顯的獎(jiǎng)勵(lì)函數(shù)之外的獎(jiǎng)勵(lì)進(jìn)行建模，是非常有趣的。

另外，AI 在特定方面確實(shí)取得了一些關(guān)鍵進(jìn)展，例如，我們可以根據(jù)互聯(lián)網(wǎng)上的接受度來(lái)評(píng)估對(duì)話或信息是否可信。然后，如果可以自動(dòng)化地學(xué)習(xí)一個(gè)函數(shù)，你就能更輕松地進(jìn)行優(yōu)化，然后進(jìn)行對(duì)話以優(yōu)化一些不太顯眼的信息，如興奮度。構(gòu)建一個(gè)至少一方面完全由興奮獎(jiǎng)勵(lì)函數(shù)驅(qū)動(dòng)的系統(tǒng)會(huì)很有趣。

但顯然，系統(tǒng)仍然包含很多來(lái)自系統(tǒng)構(gòu)建者的人性元素，而且為興奮度打上的標(biāo)簽是來(lái)自于我們，很難去計(jì)算興奮度。據(jù)我了解，還沒(méi)有人做這樣的事情。

Fridman：也許系統(tǒng)還需要有強(qiáng)烈的身份認(rèn)同感。它會(huì)有記憶，能夠講述它過(guò)去的故事。它可以從有爭(zhēng)議的觀點(diǎn)中學(xué)習(xí)，因?yàn)榛ヂ?lián)網(wǎng)上有很多關(guān)于人們持有什么觀點(diǎn)的數(shù)據(jù)，以及與某種觀點(diǎn)相關(guān)聯(lián)的興奮度。系統(tǒng)可以從中創(chuàng)建一些東西，不再是優(yōu)化語(yǔ)法和真實(shí)度，而是優(yōu)化句子在人性上的一致性。

Vinyals：從神經(jīng)網(wǎng)絡(luò)、人工智能的構(gòu)建者角度來(lái)看，通常你會(huì)嘗試將你討論過(guò)的許多有趣的主題映射到基準(zhǔn)測(cè)試中，然后也映射到關(guān)于這些系統(tǒng)當(dāng)前如何被構(gòu)建、如何學(xué)習(xí)、從什么數(shù)據(jù)中學(xué)習(xí)、學(xué)習(xí)什么的實(shí)際架構(gòu)中，這里我們要談的是數(shù)學(xué)函數(shù)的權(quán)重。

就當(dāng)前游戲的發(fā)展?fàn)顟B(tài)而言，我們需要什么才能達(dá)到這些人生體驗(yàn)，比如恐懼？在語(yǔ)言方面，目前我們幾乎看不到進(jìn)步，因?yàn)槲覀儸F(xiàn)在做的是，獲取大量的在線人類互動(dòng)，然后提取序列，包括一連串的單詞、字母、圖像、聲音、模態(tài)，接著再試著學(xué)習(xí)一個(gè)函數(shù)，通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)將看到這些序列的可能性加以最大化。

我們目前訓(xùn)練這些模型的一些方式，有希望能夠發(fā)展出你所說(shuō)的那種能力。其中之一是智能體或者模型的生命周期，模型從離線數(shù)據(jù)中學(xué)習(xí)到這些，所以它只是被動(dòng)地進(jìn)行觀察和最大化。就像在一個(gè)山地景觀中，在到處都是人類交互數(shù)據(jù)的地方，提高權(quán)重；在沒(méi)有數(shù)據(jù)的地方，降低權(quán)重。模型通常不會(huì)體驗(yàn)到自身，它們只是數(shù)據(jù)的被動(dòng)觀察者。然后，我們讓它們?cè)谖覀兣c之交互時(shí)生成數(shù)據(jù)，但這極大地限制了它們可能正在優(yōu)化或進(jìn)一步優(yōu)化權(quán)重時(shí)實(shí)際經(jīng)歷到的體驗(yàn)。但我們甚至還沒(méi)有到達(dá)這樣的階段。

在 AlphaGo、SlphaStar中，我們部署模型，讓它與人類比賽，或與人類互動(dòng)（比如語(yǔ)言模型），以此來(lái)訓(xùn)練模型。它們并不是持續(xù)訓(xùn)練的，它們沒(méi)有根據(jù)從數(shù)據(jù)中學(xué)到的權(quán)重來(lái)學(xué)習(xí)，它們不會(huì)持續(xù)改進(jìn)自身。

但如果你考慮一下神經(jīng)網(wǎng)絡(luò)，這是可以理解的，它們可能無(wú)法從嚴(yán)格意義上的權(quán)重變化中學(xué)習(xí)，這與神經(jīng)元如何互連以及我們?cè)谝簧腥绾螌W(xué)習(xí)有關(guān)。但是，當(dāng)你與這些系統(tǒng)交談時(shí)，對(duì)話的上下文確實(shí)存在于它們的內(nèi)存中。這就像你啟動(dòng)一臺(tái)電腦，它的硬盤(pán)里有很多信息，您也可以訪問(wèn)包含所有信息的互聯(lián)網(wǎng)。同時(shí)也有內(nèi)存，我們把它看作是智能體的指望所在。

目前存儲(chǔ)非常有限，我們現(xiàn)在談?wù)摰氖俏覀兯鶕碛械拇蠹s 2,000 個(gè)單詞，超出這個(gè)數(shù)字后，我們就開(kāi)始遺忘我們所見(jiàn)到，所以一些短期的連貫性是存在的。如果智能體具有連貫性，那么如果你問(wèn)「你的名字是什么」，它就可以記住這句話，但它可能會(huì)遺忘超出 2,000 個(gè)單詞的上下文。

所以從技術(shù)上講，人們對(duì)于深度學(xué)習(xí)的期望有這樣一種限制。但我們希望基準(zhǔn)測(cè)試和技術(shù)能夠擁有不斷積累的記憶體驗(yàn)，離線學(xué)習(xí)的方式顯然很強(qiáng)大。我們已經(jīng)取得了很大的進(jìn)展，我們已經(jīng)再次看到了這些模仿的力量或者讓這些關(guān)于世界的基本知識(shí)被納入權(quán)重的互聯(lián)網(wǎng)規(guī)模，但是經(jīng)驗(yàn)是很缺乏的。

事實(shí)上，當(dāng)我們與系統(tǒng)交談時(shí)，我們甚至都不訓(xùn)練它們，除非它們的內(nèi)存受到影響。這是動(dòng)態(tài)的部分，但它們的學(xué)習(xí)方式與你我從出生就開(kāi)始的學(xué)習(xí)方式不同。所以關(guān)于你的問(wèn)題，我這里提到的一點(diǎn)就是，記憶和體驗(yàn)與僅僅觀察和學(xué)習(xí)世界的知識(shí)不同。

我看到的第二個(gè)問(wèn)題是，我們是從頭開(kāi)始訓(xùn)練所有這些模型。好像我們不從頭開(kāi)始訓(xùn)練模型、從最開(kāi)始的地方找到靈感，就會(huì)有什么東西缺失了一樣。每隔幾個(gè)月，就應(yīng)該有某種方式可以讓我們像培養(yǎng)一個(gè)物種一樣訓(xùn)練模型，而宇宙中的許多其他元素都是從以前的迭代中構(gòu)建的。從純粹的神經(jīng)網(wǎng)絡(luò)的角度來(lái)看，很難不丟棄以前的權(quán)重，我們是從數(shù)據(jù)中學(xué)習(xí)并更新這些權(quán)重。所以感覺(jué)好像少了點(diǎn)什么，我們最終可能會(huì)找到它，但它會(huì)是什么樣子還不是很清楚。

Fridman：從頭開(kāi)始訓(xùn)練似乎是一種浪費(fèi)，每次我們解決圍棋和國(guó)際象棋、星際爭(zhēng)霸、蛋白質(zhì)折疊問(wèn)題時(shí)，肯定有一些方法可以重復(fù)使用權(quán)重，因?yàn)槲覀償U(kuò)展了巨大的新神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。所以我們?nèi)绾沃貜?fù)使用權(quán)重？如何學(xué)習(xí)提取什么是可泛化的以及如何摒棄其他無(wú)用的東西？如何更好地初始化權(quán)重？

Vinyals：深度學(xué)習(xí)的核心有一個(gè)絕妙的想法，那就是單個(gè)算法解決所有任務(wù)。隨著越來(lái)越多的基準(zhǔn)的出現(xiàn)，這個(gè)基本原則已經(jīng)被證明是不可能的事情。也就是說(shuō)，你有一個(gè)空白的計(jì)算大腦一樣的初始化神經(jīng)網(wǎng)絡(luò)，然后你在監(jiān)督學(xué)習(xí)中喂給它更多東西。

理想情況是，輸入什么樣的期望，輸出就應(yīng)該什么樣。比如圖像分類，可能是從 1000 個(gè)類別中選出一個(gè)，這就是圖像網(wǎng)絡(luò)。許多問(wèn)題都可以通過(guò)這種方式映射出來(lái)。還應(yīng)該有一種通用的辦法，對(duì)于任何給定的任務(wù)，你都可以不做很多改變、不加思考就能使用，我認(rèn)為這是深度學(xué)習(xí)研究的核心。

我們還沒(méi)有找到這個(gè)辦法，但如果人們能發(fā)現(xiàn)更少的技巧（一種通用算法）來(lái)解決重要問(wèn)題，那將很令人興奮。在算法層面上，我們已經(jīng)有了一些通用的東西，就是在大量數(shù)據(jù)上訓(xùn)練出非常強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型的公式。

而在很多情況下，你需要考慮一些實(shí)際問(wèn)題的特殊性。蛋白質(zhì)折疊問(wèn)題很重要，已經(jīng)有一些基本的方法，比如 Transformer 模型、圖神經(jīng)網(wǎng)絡(luò)、來(lái)自 NLP 的見(jiàn)解（如 BERT），以及知識(shí)蒸餾。在這個(gè)公式中，我們還需要找到一些蛋白質(zhì)折疊問(wèn)題所特有的東西，這非常重要，我們應(yīng)該解決它，有可能在這個(gè)問(wèn)題中學(xué)到的知識(shí)將應(yīng)用到深度學(xué)習(xí)研究者的下一個(gè)迭代中。

也許在過(guò)去的 23 年里，在元學(xué)習(xí)這個(gè)領(lǐng)域，通用算法已經(jīng)有了一些進(jìn)展，主要是產(chǎn)生自語(yǔ)言領(lǐng)域的GPT-3。這個(gè)模型只訓(xùn)練一次，而且它并不局限于翻譯語(yǔ)言或只知道根系一個(gè)句子的情感，這些實(shí)際上可以通過(guò)提示來(lái)教給它，提示本質(zhì)上是給它們展示更多例子。我們是通過(guò)語(yǔ)言來(lái)進(jìn)行提示的，語(yǔ)言本身是我們互相學(xué)習(xí)的很自然的方式。也許它會(huì)先問(wèn)我一些問(wèn)題，然后我告訴它應(yīng)該做這個(gè)新任務(wù)。你不需要從頭開(kāi)始重新訓(xùn)練它。我們已經(jīng)通過(guò)小樣本學(xué)習(xí)看到了一些神奇的時(shí)刻，在只有語(yǔ)言的模態(tài)中用語(yǔ)言進(jìn)行提示。

在過(guò)去兩年里，我們看到這擴(kuò)展到語(yǔ)言之外的其他模態(tài)，添加了視覺(jué)、行動(dòng)和游戲，并取得了很大的進(jìn)步。這可能是實(shí)現(xiàn)單一模型的一個(gè)方式。問(wèn)題是這種模型很難增加權(quán)重或容量，但它的確很強(qiáng)大。

目前的進(jìn)展出現(xiàn)在基于文本的任務(wù)或者視覺(jué)風(fēng)格分類的任務(wù)中，但應(yīng)該有更多的突破。我們有一個(gè)很好的基線，我們想要基準(zhǔn)向通用人工智能發(fā)展，整個(gè)社區(qū)正在向這個(gè)方向靠攏，這很好。讓我興奮的是，深度學(xué)習(xí)的下一步是如何讓這些模型更強(qiáng)大？如何訓(xùn)練它們？如果它們必須進(jìn)化，如何「培育」它們？當(dāng)你教它任務(wù)時(shí)，它們應(yīng)該改變權(quán)重嗎？還有很多問(wèn)題需要回答。

通才智能體 Gato

Fridman：你能解釋一下你這條推特中的“Meow”和貓的表情嗎？以及 Gato 是什么？它是如何工作的？涉及的是哪種神經(jīng)網(wǎng)絡(luò)？如何訓(xùn)練？

DeepMind 首席科學(xué)家 Oriol Vinyals 最新訪談：通用 AI 的未來(lái)是強(qiáng)交互式元學(xué)習(xí)

Vinyals：首先，Gato 這個(gè)名字跟其他 DeepMind 發(fā)布的一系列模型一樣，是以動(dòng)物的名字命名。大序列模型剛開(kāi)始只有語(yǔ)言，但我們正在擴(kuò)展到其他模態(tài)。Gopher（囊地鼠）、Chinchilla（南美栗鼠/龍貓）這些都是純語(yǔ)言模型，最近我們還發(fā)布了涵蓋視覺(jué)的 Flamingo（火烈鳥(niǎo)）。Gato 則添加了視覺(jué)和動(dòng)作模態(tài)，像上、下、左、右這樣的離散動(dòng)作，可以很自然由詞語(yǔ)、映射到強(qiáng)大的語(yǔ)言序列模型中。

在發(fā)布 Gato 之前，我們討論了我們應(yīng)該選擇哪種動(dòng)物來(lái)命名，我想主要考慮的是 general agent（通用智能體），這是 Gato 所特有的屬性，“gato”在西班牙語(yǔ)中是“貓”的意思。

Gato 的基本原理與許多其他工作并沒(méi)有什么不同。它是一個(gè) Transformer 模型，一種循環(huán)的神經(jīng)網(wǎng)絡(luò)，涵蓋多種模態(tài)，包括視覺(jué)、語(yǔ)言、動(dòng)作。訓(xùn)練時(shí)的目標(biāo)是它能夠預(yù)測(cè)序列中的下一個(gè)是什么，如果用來(lái)訓(xùn)練的是動(dòng)作序列，那么就是預(yù)測(cè)下一個(gè)動(dòng)作是什么。字符序列、圖像序列也是類似。我們把它們都看作是字節(jié)，模型的任務(wù)是預(yù)測(cè)下一個(gè)字節(jié)是什么，然后你可以將這個(gè)字節(jié)理解為一個(gè)動(dòng)作，并在游戲中使用這個(gè)動(dòng)作；你也可以將其理解為一個(gè)詞，并在與系統(tǒng)的對(duì)話中把這個(gè)詞寫(xiě)下來(lái)。

DeepMind 首席科學(xué)家 Oriol Vinyals 最新訪談：通用 AI 的未來(lái)是強(qiáng)交互式元學(xué)習(xí)

Gato 的輸入包括圖像、文本、視頻、動(dòng)作，以及一些來(lái)自機(jī)器人的感知傳感器，因?yàn)闄C(jī)器人也是訓(xùn)練內(nèi)容之一。它輸出的是文字和動(dòng)作，它不輸出圖像，我們目前是設(shè)計(jì)了這樣的輸出形式，所以我說(shuō) Gato 是一個(gè)開(kāi)始，因?yàn)檫€有更多的工作要做。本質(zhì)上，Gato 是這樣一個(gè)大腦，你給它任何序列的觀察和模態(tài)，它會(huì)輸出序列的下一步。然后你開(kāi)始你進(jìn)入下一個(gè)并繼續(xù)預(yù)測(cè)下一個(gè)，以此類推。

現(xiàn)在它不僅僅是一個(gè)語(yǔ)言模型，你可以像和 Chinchilla、Flamingo 聊天一樣跟 Gato 聊天，但它同時(shí)是個(gè)智能體，它在各種各樣的數(shù)據(jù)集上被訓(xùn)練成是通用的，而不只是擅長(zhǎng)星際爭(zhēng)霸、雅達(dá)利游戲或者圍棋。

Fridman：在動(dòng)作模態(tài)上，什么樣的模型能稱之為「智能體」？

Vinyals：在我看來(lái)，智能體實(shí)際上是在一個(gè)環(huán)境中采取行動(dòng)的能力。它對(duì)環(huán)境給出一個(gè)動(dòng)作的反應(yīng)，環(huán)境會(huì)返回一個(gè)新的觀察，然后它會(huì)產(chǎn)生下一個(gè)動(dòng)作。

我們訓(xùn)練 Gato 的方法是提取觀察數(shù)據(jù)集，是一種大規(guī)模的模仿學(xué)習(xí)算法，比如訓(xùn)練它預(yù)測(cè)數(shù)據(jù)集中的下一個(gè)詞是什么。我們有人們?cè)诰W(wǎng)頁(yè)上的文字和聊天數(shù)據(jù)集。

DeepMind 對(duì)強(qiáng)化學(xué)習(xí)和在不同環(huán)境中工作的學(xué)習(xí)智能體很感興趣。我們開(kāi)發(fā)了一個(gè)數(shù)據(jù)集，記錄智能體的經(jīng)驗(yàn)軌跡。我們訓(xùn)練的其他智能體都是為了一個(gè)單一的目標(biāo)，比如控制一個(gè)三維游戲環(huán)境和導(dǎo)航迷宮，我們會(huì)把一個(gè)智能體與環(huán)境的交互所獲得的經(jīng)驗(yàn)加入到數(shù)據(jù)集里。

訓(xùn)練 Gato 時(shí)，我們把單詞、智能體與環(huán)境的交互等數(shù)據(jù)都混合在一起進(jìn)行訓(xùn)練，這是 Gato 的「通用」之所在，對(duì)于不同的模態(tài)和任務(wù)，它都只有單個(gè)的「大腦」，而且與近年來(lái)大部分神經(jīng)網(wǎng)絡(luò)相比，它并沒(méi)有那么大，只有 10 億參數(shù)。

盡管規(guī)模小，但它的訓(xùn)練數(shù)據(jù)集非常有挑戰(zhàn)性和多樣化，不僅包含互聯(lián)網(wǎng)數(shù)據(jù)，還包含智能體與不同環(huán)境的交互經(jīng)驗(yàn)。

原則上，Gato 能夠控制任何環(huán)境，尤其是被訓(xùn)練過(guò)的電子游戲、各種機(jī)器人任務(wù)等環(huán)境。但它不會(huì)做得比教它的老師更好，規(guī)模仍然是很重要的，Gato 的規(guī)模相對(duì)還比較小，所以它是個(gè)開(kāi)始，擴(kuò)大規(guī)?？赡軙?huì)增強(qiáng)各種模態(tài)之間的協(xié)同作用。而且我相信會(huì)有一些新的研究或準(zhǔn)備數(shù)據(jù)的方法，比如我們需要讓模型清楚它在玩雅達(dá)利游戲時(shí)不只是考慮上和下的動(dòng)作，在看到屏幕開(kāi)始玩游戲之前，智能體需要一定的背景，可以用文字告訴它「我給你展示的是一整個(gè)序列，你要開(kāi)始玩這個(gè)游戲了」。所以文字可能是增強(qiáng)數(shù)據(jù)的一個(gè)辦法。

Fridman：如何對(duì)文本、圖像、游戲動(dòng)作、機(jī)器人任務(wù)做 tokenization？

Vinyals：好問(wèn)題。tokenization 是讓所有數(shù)據(jù)成為序列的一個(gè)起點(diǎn)，這就像我們把所有東西都分解成這些拼圖塊，然后就可以模擬出拼圖的樣子。當(dāng)你把它們排成一行時(shí)，就成了一個(gè)序列。Gato 使用的是目前標(biāo)準(zhǔn)的文本 tokenization 技術(shù)，我們通過(guò)常用的子字符串來(lái)對(duì)文本進(jìn)行 tokenization ，比如“ing”是英語(yǔ)中一個(gè)常用的子字符串，所以它可以作為一個(gè) token。

Fridman：一個(gè)單詞需要多少個(gè) token？

Vinyals：對(duì)于一個(gè)英語(yǔ)單詞，目前的 tokenization 粒度一般是 2~5 個(gè)符號(hào)，比字母大，比單詞小。

Fridman：你嘗試過(guò)對(duì) emojis 做 tokenization 嗎？

Vinyals：emojis 實(shí)際上只是字母的序列。

Fridman：emojis 是圖像還是文本？

Vinyals：實(shí)際上可以將 emojis 映射為字符序列，所以你可以給模型輸入 emojis，它也會(huì)輸出 emojis。在 Gato 中，我們處理圖像的方式是把圖像壓縮為不同強(qiáng)度的像素，從而獲得一個(gè)非常長(zhǎng)的像素序列。

Fridman：所以這里面不涉及語(yǔ)義？你不需要理解關(guān)于圖像的任何東西？

Vinyals：對(duì)，在這里只使用了壓縮的概念。在 tokenization 層面，我們做的就是找到共同的模式來(lái)壓縮圖像。

Fridman：視覺(jué)信息比如顏色確實(shí)能捕捉到圖像意義方面的東西，而不只是一些統(tǒng)計(jì)數(shù)據(jù)。

Vinyals：在機(jī)器學(xué)習(xí)中，處理圖像的方法更多是由數(shù)據(jù)驅(qū)動(dòng)的。我們只是使用圖像的統(tǒng)計(jì)數(shù)據(jù)，然后對(duì)它們進(jìn)行量化。常見(jiàn)的子字符串被定位成一個(gè) token，圖像也是類似，但它們之間沒(méi)有聯(lián)系。如果把 token 看作是整數(shù)，假設(shè)文本有 10000 個(gè) token，從 1 到 10000，它們代表了我們會(huì)看到的所有語(yǔ)言和單詞。

圖像是另一個(gè)整數(shù)集合，從 10001 到20000，二者是完全獨(dú)立的。連接它們的是數(shù)據(jù)，在數(shù)據(jù)集中，圖片的標(biāo)題會(huì)告訴圖像內(nèi)容。模型需要預(yù)測(cè)從文本到像素，二者之間的關(guān)聯(lián)隨著算法的學(xué)習(xí)而發(fā)生。除了單詞、圖像，我們還可以把整數(shù)分配給動(dòng)作，將其離散化，用類似的想法把動(dòng)作壓縮成 token。

這就是我們現(xiàn)在把所有空間類型映射到整數(shù)序列的方法，它們各自占據(jù)的空間不同，連接它們的是學(xué)習(xí)算法。

Fridman：你之前提到過(guò)，很難擴(kuò)大規(guī)模，這是什么意思？有些涌現(xiàn)是有規(guī)模上的門(mén)檻的，為什么很難擴(kuò)大類似于 Gato 這樣的網(wǎng)絡(luò)？

Vinyals：如果你對(duì) Gato 網(wǎng)絡(luò)進(jìn)行再訓(xùn)練，擴(kuò)大規(guī)模并不難。關(guān)鍵是我們現(xiàn)在有10億個(gè)參數(shù)，我們是否可以使用同樣的權(quán)重來(lái)把它擴(kuò)展成一個(gè)更大的大腦？這是非常困難的。所以在軟件工程中有模塊化的概念，已經(jīng)有一些利用模塊化的研究。Flamingo 不處理動(dòng)作，但它處理圖像很強(qiáng)大，這些項(xiàng)目之間的任務(wù)是不同的、模塊化的。

我們?cè)?Flamingo 模型中完美地實(shí)現(xiàn)了模塊化，我們采用了純語(yǔ)言模型 Chinchilla 的權(quán)重，然后凍結(jié)這些權(quán)重，在模型的正確位置接上一些新的神經(jīng)網(wǎng)絡(luò)。你需要研究如何在不破壞其他功能的情況下添加別的功能。

我們創(chuàng)建了一個(gè)小的子網(wǎng)絡(luò)，它不是隨機(jī)初始化的，而是通過(guò)自我監(jiān)督來(lái)學(xué)習(xí)。然后我們用數(shù)據(jù)集把視覺(jué)和語(yǔ)言這兩種模態(tài)聯(lián)系起來(lái)。我們凍結(jié)了網(wǎng)絡(luò)中最大的部分，然后從頭在訓(xùn)練頂部添加了一些參數(shù)。然后 Flamingo 就出現(xiàn)了，它輸入的是文本和圖像，輸出的是文本。你可以教它新的視覺(jué)任務(wù)，它所做的事情超出了數(shù)據(jù)集本身提供的功能，但它利用了許多從 Chinchilla 那里獲得的語(yǔ)言知識(shí)。

這種模塊化的關(guān)鍵思想是，我們?nèi)∫粋€(gè)凍結(jié)的大腦，給它添加一個(gè)新的功能。在某種程度上，你可以看到，即使是在 DeepMind，我們也有 Flamingo 這種折衷主義，它可以更合理地利用規(guī)模，而不需要從頭再訓(xùn)練一個(gè)系統(tǒng)。

而 Gato 盡管也使用了相同的數(shù)據(jù)集，但它是從頭訓(xùn)練的。所以我想社區(qū)面臨的一個(gè)大問(wèn)題是，我們應(yīng)該從頭開(kāi)始訓(xùn)練，還是應(yīng)該接受模塊化？作為一種擴(kuò)大規(guī)模的方式，模塊化非常有效。

元學(xué)習(xí)將包含更多交互

Fridman：Gato 出現(xiàn)之后，我們能否重新定義「元學(xué)習(xí)」這個(gè)術(shù)語(yǔ)？你認(rèn)為元學(xué)習(xí)是什么？5年或10年之后，元學(xué)習(xí)會(huì)是擴(kuò)展后的 Gato 的樣子嗎？

Vinyals：也許向后看而不是向前看能提供一個(gè)好視角。當(dāng)我們?cè)?2019 年談?wù)撛獙W(xué)習(xí)時(shí)，它的含義主要是經(jīng)歷了 GPT-3 革命而改變的。當(dāng)時(shí)的基準(zhǔn)測(cè)試是關(guān)于學(xué)習(xí)對(duì)象身份的能力，所以非常適用于視覺(jué)和物體分類。我們學(xué)習(xí)的不僅僅是 ImageNet 告訴我們要學(xué)習(xí)的 1000 個(gè)類別，我們還要學(xué)習(xí)在與模型交互時(shí)可以被定義的對(duì)象類別。

模型的進(jìn)化過(guò)程很有趣。剛開(kāi)始，我們有一個(gè)特殊的語(yǔ)言，它是一個(gè)小的數(shù)據(jù)集，我們提示模型有一個(gè)新的分類任務(wù)。有了機(jī)器學(xué)習(xí)數(shù)據(jù)集的形式的提示，就得到了一個(gè)系統(tǒng)，可以預(yù)測(cè)或分類我們定義的物體。最后，語(yǔ)言模型成為了一個(gè)學(xué)習(xí)者。GPT-3 表明，我們可以關(guān)注對(duì)象分類以及在學(xué)習(xí)對(duì)象類別的范圍內(nèi)元學(xué)習(xí)意味著什么。

現(xiàn)在，我們不再被基準(zhǔn)束縛，我們可以通過(guò)自然語(yǔ)言直接告訴模型一些邏輯任務(wù)。這些模型不是完美的，但它們正在做新的任務(wù)，通過(guò)元學(xué)習(xí)來(lái)獲得新能力。Flamingo 模型擴(kuò)展到視覺(jué)和語(yǔ)言多模態(tài)，但擁有相同的能力。你可以教它。例如，一個(gè)涌現(xiàn)的特性是你可以給數(shù)字拍照，然后教它做算術(shù)。你給它看幾個(gè)例子，它就能學(xué)會(huì)，所以它遠(yuǎn)遠(yuǎn)超出了以往的圖像分類。

這擴(kuò)展了元學(xué)習(xí)在過(guò)去的含義。元學(xué)習(xí)一個(gè)不斷變化著的術(shù)語(yǔ)。鑒于當(dāng)前的進(jìn)展，我很希望看到接下來(lái)會(huì)發(fā)生什么，5 年后可能就另說(shuō)了。我們有一個(gè)系統(tǒng)，它有一組權(quán)重，我們可以通過(guò)交互提示教它玩星際爭(zhēng)霸。想象一下，你與一個(gè)系統(tǒng)對(duì)話，教它一個(gè)新游戲，向它展示這個(gè)游戲的例子。也許這個(gè)系統(tǒng)甚至?xí)?wèn)你問(wèn)題，比如，「我剛玩過(guò)這個(gè)游戲，我玩得好嗎？你能教我更多嗎？」所以5年或者10年后，在專門(mén)的領(lǐng)域里，這些元學(xué)習(xí)能力會(huì)更具交互性，更加豐富。比如我們專門(mén)針對(duì)星際爭(zhēng)霸開(kāi)發(fā)的 AlphaStar 是很不同的。算法是通用的，但權(quán)重是特定的。

元學(xué)習(xí)已經(jīng)超出了提示的范圍，它會(huì)包含更多的交互。系統(tǒng)可能會(huì)在它犯錯(cuò)或者輸?shù)舯荣惡蟾嬖V我們給它一些反饋。其實(shí)基準(zhǔn)已經(jīng)存在了，我們只是改變了它們的目標(biāo)。所以在某種程度上，我喜歡把通用人工智能理解為：我們已經(jīng)在國(guó)際象棋和星際爭(zhēng)霸這樣的特定任務(wù)上有 101 %的性能，而在下一次迭代中，我們可以在所有任務(wù)上達(dá)到 20%。下一代的模型的進(jìn)步肯定是沿著這個(gè)方向。當(dāng)然我們?cè)谝恍┦虑樯峡赡軙?huì)出錯(cuò)，比如我們可能沒(méi)有工具，或者可能 Transformer 不夠。在未來(lái)的 5 到 10 年里，模型的權(quán)重很可能已經(jīng)被訓(xùn)練過(guò)，更多的是關(guān)于教學(xué)或者讓模型展開(kāi)元學(xué)習(xí)。

這是一種交互式的教學(xué)。在機(jī)器學(xué)習(xí)領(lǐng)域，長(zhǎng)期以來(lái)處理分類任務(wù)是使用的都不是這種方法。我的想法聽(tīng)起來(lái)有點(diǎn)像最近鄰（nearest neighbor）算法，它幾乎是最簡(jiǎn)單的算法，并不需要學(xué)習(xí)，不需要計(jì)算梯度。最近鄰做是在一個(gè)數(shù)據(jù)集中測(cè)量點(diǎn)與點(diǎn)之間的距離，然后對(duì)一個(gè)新點(diǎn)進(jìn)行分類，你只需要計(jì)算在這大量數(shù)據(jù)中最近的點(diǎn)是什么。所以你可以把提示看作是：你在上載的時(shí)候處理的不僅僅是簡(jiǎn)單的點(diǎn)，而是在為預(yù)訓(xùn)練的系統(tǒng)添加知識(shí)。

提示是對(duì)機(jī)器學(xué)習(xí)中非常經(jīng)典的一個(gè)概念的發(fā)展，即通過(guò)最近的點(diǎn)來(lái)學(xué)習(xí)。我們?cè)?2016 年的一項(xiàng)研究使用的就是最近鄰的方法，這在計(jì)算機(jī)視覺(jué)領(lǐng)域也很常見(jiàn)，如何計(jì)算兩幅圖像之間的距離是一個(gè)非?；钴S的研究領(lǐng)域，如果你能獲得一個(gè)很好的距離矩陣，你也能獲得一個(gè)很好的分類器。

這些距離和點(diǎn)不僅僅限于圖像，還可以是教給模型的文字或文字、圖像、動(dòng)作序列等新信息。我們可能不會(huì)再做更多的權(quán)重訓(xùn)練。元學(xué)習(xí)的一些技術(shù)確實(shí)會(huì)做一些微調(diào)，得到一個(gè)新任務(wù)時(shí)，它們會(huì)稍微訓(xùn)練一下權(quán)重。

Transformer 的強(qiáng)大之處

Fridman：我們已經(jīng)做出了 Flamingo、Chinchilla、Gopher 這些通用的、大規(guī)模的模型和智能體，它們?cè)诩夹g(shù)上有何特殊之處？

Vinyals：我認(rèn)為成功的關(guān)鍵是工程。首先是數(shù)據(jù)工程，因?yàn)槲覀冏罱K收集的是數(shù)據(jù)集。然后是部署工程，我們將模型大規(guī)模部署到一些計(jì)算集群中。這個(gè)成功要素適用于一切，魔鬼的確存在于細(xì)節(jié)之中。

另外就是目前基準(zhǔn)方面的進(jìn)展，一個(gè)團(tuán)隊(duì)花上數(shù)月做一項(xiàng)研究，并不能確定能否成功，但如果你不冒險(xiǎn)去做一些看起來(lái)不可能的事情，就不會(huì)有成功的機(jī)會(huì)。不過(guò)，我們需要一種衡量進(jìn)展的方法，所以建立基準(zhǔn)是至關(guān)重要的。

我們大量利用基準(zhǔn)開(kāi)發(fā)了 AlphaFold，這個(gè)項(xiàng)目的數(shù)據(jù)和指標(biāo)都是現(xiàn)成的。一個(gè)優(yōu)秀團(tuán)隊(duì)不應(yīng)該是為了找到一些增量改進(jìn)并發(fā)表論文，而是要有更高的目標(biāo)，并為其鉆研數(shù)年。

在機(jī)器學(xué)習(xí)領(lǐng)域，我們喜歡像神經(jīng)網(wǎng)絡(luò)這樣的架構(gòu)，而且在 Transformer 出現(xiàn)之前，這是一個(gè)發(fā)展非常迅速的領(lǐng)域?！癆ttentionis All You Need” 的確是一個(gè)很棒的論文題目。這個(gè)架構(gòu)實(shí)現(xiàn)了我們對(duì)任何字節(jié)序列進(jìn)行建模的夢(mèng)想。我認(rèn)為這些架構(gòu)的進(jìn)步某種程度上是在于神經(jīng)網(wǎng)絡(luò)的工作方式，很難找到一種發(fā)明于五年前、至今依然穩(wěn)定、變化很小的架構(gòu)，所以 Transformer 能夠不斷出現(xiàn)在很多項(xiàng)目中，這是令人驚訝的。

Fridman：在技術(shù)的哲學(xué)性層面，注意力的魔力在什么地方？注意力在人類心智中是如何運(yùn)作的？

Vinyals：Transformer 和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò) LSTMs 之間存在區(qū)別，在 Transformer 的早期，LSTMs 仍然是很強(qiáng)大的序列模型，比如 AlphaStar 就同時(shí)使用了兩者。Transformer 的強(qiáng)大之處是它內(nèi)置了一種歸納性的注意偏差。假如我們要解決針對(duì)一串單詞的復(fù)雜任務(wù)，比如翻譯一整段話，或者根據(jù)之前的十個(gè)段落來(lái)預(yù)測(cè)下一段話。

在直覺(jué)上，Transformer 做這些任務(wù)的方式是對(duì)人類的模仿和復(fù)制，在 Transformer 中，你是在尋找某個(gè)東西，你在剛讀了一段文字后，你會(huì)想接下來(lái)會(huì)發(fā)生什么，你可能想重新看一下文本，這是一種假設(shè)驅(qū)動(dòng)的過(guò)程。如果我在想我下一個(gè)詞是“貓”還是“狗”，那么Transformer 的運(yùn)作方式是它有兩個(gè)假設(shè)：會(huì)是貓？還是狗？如果是貓，我會(huì)找出一些詞（不一定就是“貓”這個(gè)詞本身），并回溯上文來(lái)看看輸出“貓”還是“狗”更說(shuō)得通。

然后它會(huì)對(duì)單詞進(jìn)行一些非常深入的計(jì)算，它將詞組合起來(lái)，它還可以查詢。如果你真的仔細(xì)思考文本，你就需要回看上文的所有文本，但是什么在引導(dǎo)著注意力？我剛剛寫(xiě)了什么，這當(dāng)然很重要，但你十頁(yè)之前寫(xiě)下的東西也可能很關(guān)鍵，所以你要考慮的不是位置，而是內(nèi)容。Transformer 的可以查詢特定的內(nèi)容并將其拉取出來(lái)，從而更好地做決策。這是一種解釋 Transformer 的方式，我認(rèn)為這種歸納偏差非常強(qiáng)大。隨著時(shí)間推移，Transformer 可能會(huì)有一些細(xì)節(jié)上的變化，但是歸納偏差使得 Transformer 比基于近因偏差的循環(huán)網(wǎng)絡(luò)更加強(qiáng)大，循環(huán)網(wǎng)絡(luò)在某些任務(wù)中有效，但它有非常大的缺陷。

Transformer 本身也有缺陷。我認(rèn)為最主要的一個(gè)挑戰(zhàn)就是我們剛才討論的提示。一個(gè)提示可能有長(zhǎng)達(dá) 1000 個(gè)詞，甚至我需要給系統(tǒng)看關(guān)于一個(gè)游戲的視頻和維基百科的文章。當(dāng)系統(tǒng)玩游戲并向我提問(wèn)時(shí)，我還需要與之互動(dòng)。我需要成為一個(gè)好的老師來(lái)教模型實(shí)現(xiàn)超出現(xiàn)有的能力的事情。所以問(wèn)題是，我們?nèi)绾螌?duì)這些任務(wù)進(jìn)行基準(zhǔn)測(cè)試？我們?nèi)绾胃淖兗軜?gòu)的結(jié)構(gòu)？這是有爭(zhēng)議的。

Fridman：個(gè)體的人在這一切的研究進(jìn)展中有多重要？他們?cè)诙啻蟪潭壬细淖兞讼嚓P(guān)領(lǐng)域？你現(xiàn)在正在領(lǐng)導(dǎo)著 DeepMind 的深度學(xué)習(xí)研究，你會(huì)有很多項(xiàng)目，很多杰出的研究人員，所有這些人類能帶來(lái)多少變革？

Vinyals：我相信人的作用非常大。一些人想要獲得可行的想法并堅(jiān)持下去，另一些人可能更實(shí)際，他們不在乎什么想法可行，只要能破解蛋白質(zhì)折疊就行。我們同時(shí)需要這兩種看起來(lái)對(duì)立的想法。在歷史上，二者都分別或早或晚地產(chǎn)出了某些東西。二者的區(qū)分也許還類似于強(qiáng)化學(xué)習(xí)領(lǐng)域所說(shuō)的 Exploration-Exploitation Tradeoff（探索-利用權(quán)衡）。在一個(gè)團(tuán)隊(duì)中或在會(huì)議上與人互動(dòng)時(shí)，你很快會(huì)發(fā)現(xiàn)某個(gè)東西是可探索的或者可利用的。

否定任何一種研究風(fēng)格都是錯(cuò)誤的，我是工業(yè)界的，所以我們有大規(guī)模算力可以使用，也會(huì)有相應(yīng)的特定類型的研究。為了科學(xué)進(jìn)步，我們需要回答我們現(xiàn)在應(yīng)該回答的問(wèn)題。

與此同時(shí)，我也看到了很多進(jìn)步。注意力機(jī)制最初是在加拿大的蒙特利爾由于缺乏算力而被發(fā)現(xiàn)的，當(dāng)時(shí)我們正和谷歌大腦的朋友一起研究序列到序列模型。我們使用了 8 個(gè) GPU（其實(shí)這個(gè)數(shù)量在那個(gè)時(shí)候其實(shí)挺多了），我覺(jué)得蒙特利爾在計(jì)算規(guī)模上還比較有限。但后來(lái)他們發(fā)現(xiàn)了基于內(nèi)容的注意力概念，這進(jìn)一步帶來(lái)了 Transformer。

Fridman：很多人都傾向于認(rèn)為天才棲息于那些宏大的創(chuàng)見(jiàn)，但我懷疑工程上的天才往往在于細(xì)節(jié)，有時(shí)單個(gè)工程師或者少數(shù)幾個(gè)工程師就能改變我們所做的事情，尤其是那些大規(guī)模計(jì)算機(jī)上進(jìn)行的一個(gè)工程決策可能會(huì)引發(fā)連鎖反應(yīng)。

Vinyals：如果你回顧一下深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史，你會(huì)發(fā)現(xiàn)有偶然的成分在。因?yàn)?GPU 恰好在正確的時(shí)間出現(xiàn)，盡管是為電子游戲而服務(wù)。所以即使是硬件工程也會(huì)受到時(shí)間因素的影響。也是由于這場(chǎng)硬件革命，數(shù)據(jù)中心被建立起來(lái)。例如谷歌的數(shù)據(jù)中心。有了這樣的數(shù)據(jù)中心，我們就可以訓(xùn)練模型。軟件也是一個(gè)重要的因素，而且越來(lái)越多的人在進(jìn)入這個(gè)領(lǐng)域。我們也許還會(huì)期待一個(gè)系統(tǒng)能擁有所有基準(zhǔn)。

AI 距離涌現(xiàn)出意識(shí)還很遠(yuǎn)

Fridman：你有一篇與 Jeff Dean、Percy Liang 等人合著的論文，題為“Emergent Abilities of Large Language Models”。神經(jīng)網(wǎng)絡(luò)中的涌現(xiàn)在直覺(jué)上怎么解釋？是否有一個(gè)神奇的臨界點(diǎn)？這會(huì)因任務(wù)而異嗎？

Vinyals：以基準(zhǔn)測(cè)試為例。在你訓(xùn)練系統(tǒng)的過(guò)程中，當(dāng)你分析數(shù)據(jù)集大小對(duì)性能有多大影響、模型大小如何影響性能、訓(xùn)練了多久系統(tǒng)才會(huì)影響到性能等問(wèn)題時(shí)，曲線是相當(dāng)平滑的。如果我們把 ImageNet 看成是非常平滑且可預(yù)測(cè)的訓(xùn)練曲線，它在某種程度上看起來(lái)相當(dāng)平滑和可預(yù)測(cè)。

在語(yǔ)言方面，基準(zhǔn)要求更多的思考，即使輸入是一個(gè)描述數(shù)學(xué)問(wèn)題的句子，也需要更多的處理和更多的內(nèi)省。模型的性能可能會(huì)變得隨機(jī)，直到由 Transformer 的查詢系統(tǒng)或者 Transformer 這樣的語(yǔ)言模型提出一個(gè)正確的問(wèn)題，性能才開(kāi)始從隨機(jī)變?yōu)榉请S機(jī)，這是非常經(jīng)驗(yàn)性的，背后還沒(méi)有形式化的理論。

Fridman：最近一個(gè)谷歌工程師聲稱，Lambda 語(yǔ)言模型是有意識(shí)的。這個(gè)案例涉及人類層面、機(jī)器學(xué)習(xí)的技術(shù)層面以及 AI 系統(tǒng)在人類世界中的角色的哲學(xué)層面。作為一名機(jī)器學(xué)習(xí)工程師以及作為一個(gè)人類，你的看法是什么？

Vinyals：我認(rèn)為目前的任何一種模型離具有意識(shí)都還很遠(yuǎn)。我覺(jué)得我有點(diǎn)像個(gè)失敗的科學(xué)家，我總會(huì)覺(jué)得看到機(jī)器學(xué)習(xí)可能是一門(mén)可以幫助其他科學(xué)的科學(xué)，我喜歡天文學(xué)、生物，但我不是那些領(lǐng)域的專家，所以我決定研究機(jī)器學(xué)習(xí)。

但是當(dāng)我對(duì) Alphafold 有了更多的了解，學(xué)習(xí)了一些關(guān)于蛋白質(zhì)、生物學(xué)和生命科學(xué)的知識(shí)后，我開(kāi)始觀察在原子水平上發(fā)生的事情。我們傾向于把神經(jīng)網(wǎng)絡(luò)想象成大腦，當(dāng)我不是專家的時(shí)候，它看起來(lái)很復(fù)雜性和神奇，但是生物系統(tǒng)遠(yuǎn)遠(yuǎn)比計(jì)算大腦要更復(fù)雜，現(xiàn)有的模型還沒(méi)有達(dá)到生物大腦的水平。

對(duì)于這位谷歌工程師的事情，我并沒(méi)有那么驚訝。也許是因?yàn)槲铱吹綍r(shí)間曲線變得更加平滑，從50 年代香農(nóng)的工作以來(lái)，語(yǔ)言模型的進(jìn)步并沒(méi)有那么快，100年前的想法和我們現(xiàn)在的想法并沒(méi)有什么不同。但沒(méi)有人應(yīng)該告訴別人他們應(yīng)該怎么想。

人類從一開(kāi)始被創(chuàng)造出來(lái)就具有的復(fù)雜性，以及整個(gè)宇宙進(jìn)化的復(fù)雜性，對(duì)我來(lái)說(shuō)是更迷人的數(shù)量級(jí)。癡迷于你所做的事情是好事，但我希望生物學(xué)專家能告訴我這并不是那么神奇。通過(guò)社區(qū)中的互動(dòng)，我們也可以獲得一定程度的教育，這有助于了解什么是不正常的、什么是不安全的等等，否則一項(xiàng)技術(shù)將無(wú)法得到正確的應(yīng)用。

Fridman：為了解決智能問(wèn)題，系統(tǒng)需要獲得意識(shí)嗎？人類心智中哪一部分的意識(shí)對(duì)創(chuàng)造 AI 系統(tǒng)有指導(dǎo)意義？

Vinyals：我覺(jué)得系統(tǒng)的智能不必達(dá)到有一個(gè)極度有用、能夠挑戰(zhàn)你、指導(dǎo)你的大腦的程度。而是應(yīng)該你教它做事。就我個(gè)人而言，我不確定意識(shí)是否必要，可能意識(shí)或其他生物或進(jìn)化的觀點(diǎn)會(huì)影響我們的下一代算法。

人的大腦和神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算的細(xì)節(jié)是有區(qū)別的，二者當(dāng)然有一些相似之處，但我們對(duì)大腦的細(xì)節(jié)了解還不夠。但如果把范圍縮小一點(diǎn)，如我們的思維過(guò)程，記憶如何運(yùn)作，甚至我們?nèi)绾芜M(jìn)化到現(xiàn)在的樣子，探索和開(kāi)發(fā)是什么等等，這些都可以啟發(fā)算法層面的研究。

Fridman：你是否同意 Richard Sutton 在 The Bitter Lesson（《苦澀的教訓(xùn)》）中的觀點(diǎn)，即 70 年來(lái)的人工智能研究帶來(lái)最大的教訓(xùn)是利用計(jì)算能力的一般方法是最終有效的方法？

Vinyals：我非常同意這個(gè)觀點(diǎn)。對(duì)于構(gòu)建可信、復(fù)雜的系統(tǒng)來(lái)說(shuō)，擴(kuò)大規(guī)模是必要的。這可能還不夠，我們需要一些突破。Sutton 提到搜索是規(guī)?；囊环N方法，在圍棋這樣的領(lǐng)域，搜索很有用，因?yàn)橛忻鞔_的獎(jiǎng)勵(lì)函數(shù)。但在其他一些任務(wù)中，我們不太清楚該怎么做。

AI 至少可以具備人類水平的智能

Fridman：你認(rèn)為在你有生之年，我們能建立一個(gè)達(dá)到甚至超越人類智力水平的通用人工智能系統(tǒng)嗎？

Vinyals：我絕對(duì)相信它將具備人類水平的智能。「超越」這個(gè)詞很難定義，尤其是當(dāng)我們從模仿學(xué)習(xí)的角度來(lái)看目前的標(biāo)準(zhǔn)時(shí)，我們當(dāng)然可以讓 AI 在語(yǔ)言方面模仿和超越人類。所以要通過(guò)模仿來(lái)達(dá)到人類水平需要強(qiáng)化學(xué)習(xí)和其他東西。在某些領(lǐng)域已經(jīng)有了回報(bào)。

就超越人類能力而言，AlphaGo 是我迄今為止最喜歡的例子。而在一般意義上，我不確定我們是否能夠從模仿人類智力水平的角度來(lái)定義獎(jiǎng)勵(lì)函數(shù)。至于超越，我還不太確定，但肯定能達(dá)到人類水平。很明顯我們不會(huì)去嘗試超越，如果超越，我們將有超人科學(xué)家和探索發(fā)現(xiàn)來(lái)推動(dòng)世界發(fā)展，但至少人類水平的系統(tǒng)也是非常強(qiáng)大的。

Fridman：當(dāng)有數(shù)十億達(dá)到或超越人類水平的智能體與人類社會(huì)深度融合，你認(rèn)為會(huì)有一個(gè)奇點(diǎn)時(shí)刻嗎？你會(huì)害怕還是為這個(gè)世界感到興奮?

Vinyals：也許我們需要考慮我們是否真的能達(dá)到這個(gè)目標(biāo)。在資源有限的情況下，讓太多的人共存會(huì)產(chǎn)生很多問(wèn)題。對(duì)于數(shù)字實(shí)體來(lái)說(shuō)，數(shù)量限制也許也應(yīng)該存在。這是出于能源可用性的原因，因?yàn)樗鼈円蚕哪茉础?/span>

事實(shí)上，就能源需求而言，大多數(shù)系統(tǒng)的效率都比我們低。但我認(rèn)為，作為一個(gè)社會(huì)，我們需要共同努力找到合理的增長(zhǎng)方式以及我們?nèi)绾喂泊妗Ｈ绻娴陌l(fā)生，我會(huì)很興奮，自動(dòng)化的一些方面使那些原本顯然沒(méi)有機(jī)會(huì)獲得某些資源或知識(shí)的人變得有機(jī)會(huì)，這是我最期待看到的應(yīng)用。

Fridman：最后一個(gè)問(wèn)題，隨著人類走出太陽(yáng)系，未來(lái)世界會(huì)有更多的人類還是更多的機(jī)器人？

Vinyals：人類和 AI 可能混合共存，這只是猜測(cè)，但已經(jīng)有公司正試圖以這種方式讓我們變得更好。我希望比例至多到達(dá) 1：1，1：1 也許是可行的，但失去平衡就不好了。

原視頻鏈接：https://youtu.be/aGBLRlLe7X8

更多內(nèi)容，點(diǎn)擊下方關(guān)注：

掃碼添加 AI 科技評(píng)論微信號(hào)，投稿&進(jìn)群：