0
本文作者: 我在思考中 | 2022-08-03 10:04 |
自 2016 年 AlphaGo 在圍棋中擊敗人類以來,DeepMind 的科學家一直致力于探索強大的通用人工智能算法,Oriol Vinyals 就是其中之一。
Vinyals 于 2016 年加入 DeepMind,目前任首席科學家,領導深度學習小組。此前他曾在 Google Brain 工作。他的博士就讀于加州大學伯克利分校,曾獲得 2016 年 MIT TR35 創(chuàng)新者獎。他在 seq2seq、知識蒸餾以及 TensorFlow 方面的研究成果,已經(jīng)被應用于谷歌翻譯、文轉(zhuǎn)到語音和語音識別等產(chǎn)品中。他的文章被引用超過 16 萬次。
最近,Oriol Vinyals 做客 Lex Fridman 的播客節(jié)目,談論了他對深度學習、通才智能體 Gato、元學習、神經(jīng)網(wǎng)絡、AI 意識等方向的一些看法。Vinyals 認為:
擴大模型規(guī)模能夠增強智能體多模態(tài)之間的協(xié)同作用,模塊化的模型則是有效擴大模型規(guī)模的一種方式,通過權重復用可以不必從頭訓練模型;
未來的元學習將更注重智能體與環(huán)境的交互學習;
Transformer 內(nèi)置的歸納性注意偏差使得它比其他神經(jīng)網(wǎng)絡架構更強大;
通用的、大規(guī)模的模型或智能體在技術上的成功關鍵是:數(shù)據(jù)工程、部署工程和建立基準。
現(xiàn)有的 AI 模型離產(chǎn)生意識還很遙遠,生物大腦遠比計算大腦更復雜,人類的思維運作方式可以啟發(fā)算法層面的研究;
未來 AI 系統(tǒng)有可能具備與人類同等水平的智能,但是否能超越人類水平并不確定。
下面 AI 科技評論對訪談內(nèi)容作了不改變原意的編輯整理:
Fridman:在我們有生之年能否建立一個 AI 系統(tǒng)、在這次談話中取代我們作為采訪者或被采訪者?
Vinyals:我想問的是,我們想要實現(xiàn)那樣的愿望嗎?我很開心看到我們正在使用非常強大的模型,并覺得它們跟我們越來越接近,但問題是,如果沒有了談話中人性化的一面,它還會是一個有趣的人工制品嗎?可能不會。例如,在星際爭霸中,我們可以創(chuàng)建智能體來玩游戲、自我對抗,但最終人們關心的是,當競爭對手是人類時,智能體要如何做。
所以毫無疑問,有了 AI,我們會更強大。比如你可以從 AI 系統(tǒng)中篩選出一些非常有趣的問題,在語言領域,我們有時將其稱為“Terry Picking”。同樣,如果我現(xiàn)在有這樣的工具,你問一個有趣的問題,特定系統(tǒng)會選擇一些單詞來組成答案,但這并不是很讓我興奮。
Fridman:如果引起人的興奮本身就是這個系統(tǒng)的目標函數(shù)的一部分呢?
Vinyals:在游戲中,當你設計算法時,你可以將獲勝作為目標寫入獎勵函數(shù)。但如果你能衡量它并針對它進行優(yōu)化,那還有什么令人興奮的呢?這可能就是我們玩電子游戲、上網(wǎng)互動、觀看貓咪視頻的原因。的確,對強化學習中使用的那些明顯的獎勵函數(shù)之外的獎勵進行建模,是非常有趣的。
另外,AI 在特定方面確實取得了一些關鍵進展,例如,我們可以根據(jù)互聯(lián)網(wǎng)上的接受度來評估對話或信息是否可信。然后,如果可以自動化地學習一個函數(shù),你就能更輕松地進行優(yōu)化,然后進行對話以優(yōu)化一些不太顯眼的信息,如興奮度。構建一個至少一方面完全由興奮獎勵函數(shù)驅(qū)動的系統(tǒng)會很有趣。
但顯然,系統(tǒng)仍然包含很多來自系統(tǒng)構建者的人性元素,而且為興奮度打上的標簽是來自于我們,很難去計算興奮度。據(jù)我了解,還沒有人做這樣的事情。
Fridman:也許系統(tǒng)還需要有強烈的身份認同感。它會有記憶,能夠講述它過去的故事。它可以從有爭議的觀點中學習,因為互聯(lián)網(wǎng)上有很多關于人們持有什么觀點的數(shù)據(jù),以及與某種觀點相關聯(lián)的興奮度。系統(tǒng)可以從中創(chuàng)建一些東西,不再是優(yōu)化語法和真實度,而是優(yōu)化句子在人性上的一致性。
Vinyals:從神經(jīng)網(wǎng)絡、人工智能的構建者角度來看,通常你會嘗試將你討論過的許多有趣的主題映射到基準測試中,然后也映射到關于這些系統(tǒng)當前如何被構建、如何學習、從什么數(shù)據(jù)中學習、學習什么的實際架構中,這里我們要談的是數(shù)學函數(shù)的權重。
就當前游戲的發(fā)展狀態(tài)而言,我們需要什么才能達到這些人生體驗,比如恐懼?在語言方面,目前我們幾乎看不到進步,因為我們現(xiàn)在做的是,獲取大量的在線人類互動,然后提取序列,包括一連串的單詞、字母、圖像、聲音、模態(tài),接著再試著學習一個函數(shù),通過神經(jīng)網(wǎng)絡來將看到這些序列的可能性加以最大化。
我們目前訓練這些模型的一些方式,有希望能夠發(fā)展出你所說的那種能力。其中之一是智能體或者模型的生命周期,模型從離線數(shù)據(jù)中學習到這些,所以它只是被動地進行觀察和最大化。就像在一個山地景觀中,在到處都是人類交互數(shù)據(jù)的地方,提高權重;在沒有數(shù)據(jù)的地方,降低權重。模型通常不會體驗到自身,它們只是數(shù)據(jù)的被動觀察者。然后,我們讓它們在我們與之交互時生成數(shù)據(jù),但這極大地限制了它們可能正在優(yōu)化或進一步優(yōu)化權重時實際經(jīng)歷到的體驗。 但我們甚至還沒有到達這樣的階段。
在 AlphaGo、SlphaStar中,我們部署模型,讓它與人類比賽,或與人類互動(比如語言模型),以此來訓練模型。它們并不是持續(xù)訓練的,它們沒有根據(jù)從數(shù)據(jù)中學到的權重來學習,它們不會持續(xù)改進自身。
但如果你考慮一下神經(jīng)網(wǎng)絡,這是可以理解的,它們可能無法從嚴格意義上的權重變化中學習,這與神經(jīng)元如何互連以及我們在一生中如何學習有關。但是,當你與這些系統(tǒng)交談時,對話的上下文確實存在于它們的內(nèi)存中。這就像你啟動一臺電腦,它的硬盤里有很多信息,您也可以訪問包含所有信息的互聯(lián)網(wǎng)。同時也有內(nèi)存,我們把它看作是智能體的指望所在。
目前存儲非常有限,我們現(xiàn)在談論的是我們所擁有的大約 2,000 個單詞,超出這個數(shù)字后,我們就開始遺忘我們所見到,所以一些短期的連貫性是存在的。如果智能體具有連貫性,那么如果你問「你的名字是什么」,它就可以記住這句話,但它可能會遺忘超出 2,000 個單詞的上下文。
所以從技術上講,人們對于深度學習的期望有這樣一種限制。但我們希望基準測試和技術能夠擁有不斷積累的記憶體驗,離線學習的方式顯然很強大。我們已經(jīng)取得了很大的進展,我們已經(jīng)再次看到了這些模仿的力量或者讓這些關于世界的基本知識被納入權重的互聯(lián)網(wǎng)規(guī)模,但是經(jīng)驗是很缺乏的。
事實上,當我們與系統(tǒng)交談時,我們甚至都不訓練它們,除非它們的內(nèi)存受到影響。這是動態(tài)的部分,但它們的學習方式與你我從出生就開始的學習方式不同。所以關于你的問題,我這里提到的一點就是,記憶和體驗與僅僅觀察和學習世界的知識不同。
我看到的第二個問題是,我們是從頭開始訓練所有這些模型。好像我們不從頭開始訓練模型、從最開始的地方找到靈感,就會有什么東西缺失了一樣。每隔幾個月,就應該有某種方式可以讓我們像培養(yǎng)一個物種一樣訓練模型,而宇宙中的許多其他元素都是從以前的迭代中構建的。從純粹的神經(jīng)網(wǎng)絡的角度來看,很難不丟棄以前的權重,我們是從數(shù)據(jù)中學習并更新這些權重。所以感覺好像少了點什么,我們最終可能會找到它,但它會是什么樣子還不是很清楚。
Fridman:從頭開始訓練似乎是一種浪費,每次我們解決圍棋和國際象棋、星際爭霸、蛋白質(zhì)折疊問題時,肯定有一些方法可以重復使用權重,因為我們擴展了巨大的新神經(jīng)網(wǎng)絡數(shù)據(jù)庫。所以我們?nèi)绾沃貜褪褂脵嘀??如何學習提取什么是可泛化的以及如何摒棄其他無用的東西?如何更好地初始化權重?
Vinyals:深度學習的核心有一個絕妙的想法,那就是單個算法解決所有任務。隨著越來越多的基準的出現(xiàn),這個基本原則已經(jīng)被證明是不可能的事情。也就是說,你有一個空白的計算大腦一樣的初始化神經(jīng)網(wǎng)絡,然后你在監(jiān)督學習中喂給它更多東西。
理想情況是,輸入什么樣的期望,輸出就應該什么樣。比如圖像分類,可能是從 1000 個類別中選出一個,這就是圖像網(wǎng)絡。許多問題都可以通過這種方式映射出來。還應該有一種通用的辦法,對于任何給定的任務,你都可以不做很多改變、不加思考就能使用,我認為這是深度學習研究的核心。
我們還沒有找到這個辦法,但如果人們能發(fā)現(xiàn)更少的技巧(一種通用算法)來解決重要問題,那將很令人興奮。在算法層面上,我們已經(jīng)有了一些通用的東西,就是在大量數(shù)據(jù)上訓練出非常強大的神經(jīng)網(wǎng)絡模型的公式。
而在很多情況下,你需要考慮一些實際問題的特殊性。蛋白質(zhì)折疊問題很重要,已經(jīng)有一些基本的方法,比如 Transformer 模型、圖神經(jīng)網(wǎng)絡、來自 NLP 的見解(如 BERT),以及知識蒸餾。在這個公式中,我們還需要找到一些蛋白質(zhì)折疊問題所特有的東西,這非常重要,我們應該解決它,有可能在這個問題中學到的知識將應用到深度學習研究者的下一個迭代中。
也許在過去的 23 年里,在元學習這個領域,通用算法已經(jīng)有了一些進展,主要是產(chǎn)生自語言領域的GPT-3。這個模型只訓練一次,而且它并不局限于翻譯語言或只知道根系一個句子的情感,這些實際上可以通過提示來教給它,提示本質(zhì)上是給它們展示更多例子。我們是通過語言來進行提示的,語言本身是我們互相學習的很自然的方式。也許它會先問我一些問題,然后我告訴它應該做這個新任務。你不需要從頭開始重新訓練它。我們已經(jīng)通過小樣本學習看到了一些神奇的時刻,在只有語言的模態(tài)中用語言進行提示。
在過去兩年里,我們看到這擴展到語言之外的其他模態(tài),添加了視覺、行動和游戲,并取得了很大的進步。這可能是實現(xiàn)單一模型的一個方式。問題是這種模型很難增加權重或容量,但它的確很強大。
目前的進展出現(xiàn)在基于文本的任務或者視覺風格分類的任務中,但應該有更多的突破。我們有一個很好的基線,我們想要基準向通用人工智能發(fā)展,整個社區(qū)正在向這個方向靠攏,這很好。讓我興奮的是,深度學習的下一步是如何讓這些模型更強大?如何訓練它們?如果它們必須進化,如何「培育」它們?當你教它任務時,它們應該改變權重嗎?還有很多問題需要回答。
Fridman:你能解釋一下你這條推特中的“Meow”和貓的表情嗎?以及 Gato 是什么?它是如何工作的?涉及的是哪種神經(jīng)網(wǎng)絡?如何訓練?
Vinyals:首先,Gato 這個名字跟其他 DeepMind 發(fā)布的一系列模型一樣,是以動物的名字命名。大序列模型剛開始只有語言,但我們正在擴展到其他模態(tài)。Gopher(囊地鼠)、Chinchilla(南美栗鼠/龍貓) 這些都是純語言模型,最近我們還發(fā)布了涵蓋視覺的 Flamingo(火烈鳥)。Gato 則添加了視覺和動作模態(tài),像上、下、左、右這樣的離散動作,可以很自然由詞語、映射到強大的語言序列模型中。
在發(fā)布 Gato 之前,我們討論了我們應該選擇哪種動物來命名,我想主要考慮的是 general agent(通用智能體),這是 Gato 所特有的屬性,“gato”在西班牙語中是“貓”的意思。
Gato 的基本原理與許多其他工作并沒有什么不同。它是一個 Transformer 模型,一種循環(huán)的神經(jīng)網(wǎng)絡,涵蓋多種模態(tài),包括視覺、語言、動作。訓練時的目標是它能夠預測序列中的下一個是什么,如果用來訓練的是動作序列,那么就是預測下一個動作是什么。字符序列、圖像序列也是類似。我們把它們都看作是字節(jié),模型的任務是預測下一個字節(jié)是什么,然后你可以將這個字節(jié)理解為一個動作,并在游戲中使用這個動作;你也可以將其理解為一個詞,并在與系統(tǒng)的對話中把這個詞寫下來。
Gato 的輸入包括圖像、文本、視頻、動作,以及一些來自機器人的感知傳感器,因為機器人也是訓練內(nèi)容之一。它輸出的是文字和動作,它不輸出圖像,我們目前是設計了這樣的輸出形式,所以我說 Gato 是一個開始,因為還有更多的工作要做。本質(zhì)上,Gato 是這樣一個大腦,你給它任何序列的觀察和模態(tài),它會輸出序列的下一步。然后你開始你進入下一個并繼續(xù)預測下一個,以此類推。
現(xiàn)在它不僅僅是一個語言模型,你可以像和 Chinchilla、Flamingo 聊天一樣跟 Gato 聊天,但它同時是個智能體,它在各種各樣的數(shù)據(jù)集上被訓練成是通用的,而不只是擅長星際爭霸、雅達利游戲或者圍棋。
Fridman:在動作模態(tài)上,什么樣的模型能稱之為「智能體」?
Vinyals:在我看來,智能體實際上是在一個環(huán)境中采取行動的能力。它對環(huán)境給出一個動作的反應,環(huán)境會返回一個新的觀察,然后它會產(chǎn)生下一個動作。
我們訓練 Gato 的方法是提取觀察數(shù)據(jù)集,是一種大規(guī)模的模仿學習算法,比如訓練它預測數(shù)據(jù)集中的下一個詞是什么。我們有人們在網(wǎng)頁上的文字和聊天數(shù)據(jù)集。
DeepMind 對強化學習和在不同環(huán)境中工作的學習智能體很感興趣。我們開發(fā)了一個數(shù)據(jù)集,記錄智能體的經(jīng)驗軌跡。我們訓練的其他智能體都是為了一個單一的目標,比如控制一個三維游戲環(huán)境和導航迷宮,我們會把一個智能體與環(huán)境的交互所獲得的經(jīng)驗加入到數(shù)據(jù)集里。
訓練 Gato 時,我們把單詞、智能體與環(huán)境的交互等數(shù)據(jù)都混合在一起進行訓練,這是 Gato 的「通用」之所在,對于不同的模態(tài)和任務,它都只有單個的「大腦」,而且與近年來大部分神經(jīng)網(wǎng)絡相比,它并沒有那么大,只有 10 億參數(shù)。
盡管規(guī)模小,但它的訓練數(shù)據(jù)集非常有挑戰(zhàn)性和多樣化,不僅包含互聯(lián)網(wǎng)數(shù)據(jù),還包含智能體與不同環(huán)境的交互經(jīng)驗。
原則上,Gato 能夠控制任何環(huán)境,尤其是被訓練過的電子游戲、各種機器人任務等環(huán)境。但它不會做得比教它的老師更好,規(guī)模仍然是很重要的,Gato 的規(guī)模相對還比較小,所以它是個開始,擴大規(guī)模可能會增強各種模態(tài)之間的協(xié)同作用。而且我相信會有一些新的研究或準備數(shù)據(jù)的方法,比如我們需要讓模型清楚它在玩雅達利游戲時不只是考慮上和下的動作,在看到屏幕開始玩游戲之前,智能體需要一定的背景,可以用文字告訴它「我給你展示的是一整個序列,你要開始玩這個游戲了」。所以文字可能是增強數(shù)據(jù)的一個辦法。
Fridman:如何對文本、圖像、游戲動作、機器人任務做 tokenization?
Vinyals:好問題。tokenization 是讓所有數(shù)據(jù)成為序列的一個起點,這就像我們把所有東西都分解成這些拼圖塊,然后就可以模擬出拼圖的樣子。當你把它們排成一行時,就成了一個序列。Gato 使用的是目前標準的文本 tokenization 技術,我們通過常用的子字符串來對文本進行 tokenization ,比如“ing”是英語中一個常用的子字符串,所以它可以作為一個 token。
Fridman:一個單詞需要多少個 token?
Vinyals:對于一個英語單詞,目前的 tokenization 粒度一般是 2~5 個符號,比字母大,比單詞小。
Fridman:你嘗試過對 emojis 做 tokenization 嗎?
Vinyals:emojis 實際上只是字母的序列。
Fridman:emojis 是圖像還是文本?
Vinyals:實際上可以將 emojis 映射為字符序列,所以你可以給模型輸入 emojis,它也會輸出 emojis。在 Gato 中,我們處理圖像的方式是把圖像壓縮為不同強度的像素,從而獲得一個非常長的像素序列。
Fridman:所以這里面不涉及語義?你不需要理解關于圖像的任何東西?
Vinyals:對,在這里只使用了壓縮的概念。在 tokenization 層面,我們做的就是找到共同的模式來壓縮圖像。
Fridman:視覺信息比如顏色確實能捕捉到圖像意義方面的東西,而不只是一些統(tǒng)計數(shù)據(jù)。
Vinyals:在機器學習中,處理圖像的方法更多是由數(shù)據(jù)驅(qū)動的。我們只是使用圖像的統(tǒng)計數(shù)據(jù),然后對它們進行量化。常見的子字符串被定位成一個 token,圖像也是類似,但它們之間沒有聯(lián)系。如果把 token 看作是整數(shù),假設文本有 10000 個 token,從 1 到 10000,它們代表了我們會看到的所有語言和單詞。
圖像是另一個整數(shù)集合,從 10001 到20000,二者是完全獨立的。連接它們的是數(shù)據(jù),在數(shù)據(jù)集中,圖片的標題會告訴圖像內(nèi)容。模型需要預測從文本到像素,二者之間的關聯(lián)隨著算法的學習而發(fā)生。除了單詞、圖像,我們還可以把整數(shù)分配給動作,將其離散化,用類似的想法把動作壓縮成 token。
這就是我們現(xiàn)在把所有空間類型映射到整數(shù)序列的方法,它們各自占據(jù)的空間不同,連接它們的是學習算法。
Fridman:你之前提到過,很難擴大規(guī)模,這是什么意思?有些涌現(xiàn)是有規(guī)模上的門檻的,為什么很難擴大類似于 Gato 這樣的網(wǎng)絡?
Vinyals:如果你對 Gato 網(wǎng)絡進行再訓練,擴大規(guī)模并不難。關鍵是我們現(xiàn)在有10億個參數(shù),我們是否可以使用同樣的權重來把它擴展成一個更大的大腦?這是非常困難的。所以在軟件工程中有模塊化的概念,已經(jīng)有一些利用模塊化的研究。Flamingo 不處理動作,但它處理圖像很強大,這些項目之間的任務是不同的、模塊化的。
我們在 Flamingo 模型中完美地實現(xiàn)了模塊化,我們采用了純語言模型 Chinchilla 的權重,然后凍結這些權重,在模型的正確位置接上一些新的神經(jīng)網(wǎng)絡。你需要研究如何在不破壞其他功能的情況下添加別的功能。
我們創(chuàng)建了一個小的子網(wǎng)絡,它不是隨機初始化的,而是通過自我監(jiān)督來學習。然后我們用數(shù)據(jù)集把視覺和語言這兩種模態(tài)聯(lián)系起來。我們凍結了網(wǎng)絡中最大的部分,然后從頭在訓練頂部添加了一些參數(shù)。然后 Flamingo 就出現(xiàn)了,它輸入的是文本和圖像,輸出的是文本。你可以教它新的視覺任務,它所做的事情超出了數(shù)據(jù)集本身提供的功能,但它利用了許多從 Chinchilla 那里獲得的語言知識。
這種模塊化的關鍵思想是,我們?nèi)∫粋€凍結的大腦,給它添加一個新的功能。在某種程度上,你可以看到,即使是在 DeepMind,我們也有 Flamingo 這種折衷主義,它可以更合理地利用規(guī)模,而不需要從頭再訓練一個系統(tǒng)。
而 Gato 盡管也使用了相同的數(shù)據(jù)集,但它是從頭訓練的。所以我想社區(qū)面臨的一個大問題是,我們應該從頭開始訓練,還是應該接受模塊化?作為一種擴大規(guī)模的方式,模塊化非常有效。
Fridman:Gato 出現(xiàn)之后,我們能否重新定義「元學習」這個術語?你認為元學習是什么?5年或10年之后,元學習會是擴展后的 Gato 的樣子嗎?
Vinyals:也許向后看而不是向前看能提供一個好視角。當我們在 2019 年談論元學習時,它的含義主要是經(jīng)歷了 GPT-3 革命而改變的。當時的基準測試是關于學習對象身份的能力,所以非常適用于視覺和物體分類。我們學習的不僅僅是 ImageNet 告訴我們要學習的 1000 個類別,我們還要學習在與模型交互時可以被定義的對象類別。
模型的進化過程很有趣。剛開始,我們有一個特殊的語言,它是一個小的數(shù)據(jù)集,我們提示模型有一個新的分類任務。有了機器學習數(shù)據(jù)集的形式的提示,就得到了一個系統(tǒng),可以預測或分類我們定義的物體。最后,語言模型成為了一個學習者。GPT-3 表明,我們可以關注對象分類以及在學習對象類別的范圍內(nèi)元學習意味著什么。
現(xiàn)在,我們不再被基準束縛,我們可以通過自然語言直接告訴模型一些邏輯任務。這些模型不是完美的,但它們正在做新的任務,通過元學習來獲得新能力。Flamingo 模型擴展到視覺和語言多模態(tài),但擁有相同的能力。你可以教它。例如,一個涌現(xiàn)的特性是你可以給數(shù)字拍照,然后教它做算術。你給它看幾個例子,它就能學會,所以它遠遠超出了以往的圖像分類。
這擴展了元學習在過去的含義。元學習一個不斷變化著的術語。鑒于當前的進展,我很希望看到接下來會發(fā)生什么,5 年后可能就另說了。我們有一個系統(tǒng),它有一組權重,我們可以通過交互提示教它玩星際爭霸。想象一下,你與一個系統(tǒng)對話,教它一個新游戲,向它展示這個游戲的例子。也許這個系統(tǒng)甚至會問你問題,比如,「我剛玩過這個游戲,我玩得好嗎?你能教我更多嗎?」所以5年或者10年后,在專門的領域里,這些元學習能力會更具交互性,更加豐富。比如我們專門針對星際爭霸開發(fā)的 AlphaStar 是很不同的。算法是通用的,但權重是特定的。
元學習已經(jīng)超出了提示的范圍,它會包含更多的交互。系統(tǒng)可能會在它犯錯或者輸?shù)舯荣惡蟾嬖V我們給它一些反饋。其實基準已經(jīng)存在了,我們只是改變了它們的目標。所以在某種程度上,我喜歡把通用人工智能理解為:我們已經(jīng)在國際象棋和星際爭霸這樣的特定任務上有 101 %的性能,而在下一次迭代中,我們可以在所有任務上達到 20%。下一代的模型的進步肯定是沿著這個方向。當然我們在一些事情上可能會出錯,比如我們可能沒有工具,或者可能 Transformer 不夠。在未來的 5 到 10 年里,模型的權重很可能已經(jīng)被訓練過,更多的是關于教學或者讓模型展開元學習。
這是一種交互式的教學。在機器學習領域,長期以來處理分類任務是使用的都不是這種方法。我的想法聽起來有點像最近鄰(nearest neighbor)算法,它幾乎是最簡單的算法,并不需要學習,不需要計算梯度。最近鄰做是在一個數(shù)據(jù)集中測量點與點之間的距離,然后對一個新點進行分類,你只需要計算在這大量數(shù)據(jù)中最近的點是什么。所以你可以把提示看作是:你在上載的時候處理的不僅僅是簡單的點,而是在為預訓練的系統(tǒng)添加知識。
提示是對機器學習中非常經(jīng)典的一個概念的發(fā)展,即通過最近的點來學習。我們在 2016 年的一項研究使用的就是最近鄰的方法,這在計算機視覺領域也很常見,如何計算兩幅圖像之間的距離是一個非?;钴S的研究領域,如果你能獲得一個很好的距離矩陣,你也能獲得一個很好的分類器。
這些距離和點不僅僅限于圖像,還可以是教給模型的文字或文字、圖像、動作序列等新信息。我們可能不會再做更多的權重訓練。元學習的一些技術確實會做一些微調(diào),得到一個新任務時,它們會稍微訓練一下權重。
Fridman:我們已經(jīng)做出了 Flamingo、Chinchilla、Gopher 這些通用的、大規(guī)模的模型和智能體,它們在技術上有何特殊之處?
Vinyals:我認為成功的關鍵是工程。首先是數(shù)據(jù)工程,因為我們最終收集的是數(shù)據(jù)集。然后是部署工程,我們將模型大規(guī)模部署到一些計算集群中。這個成功要素適用于一切,魔鬼的確存在于細節(jié)之中。
另外就是目前基準方面的進展,一個團隊花上數(shù)月做一項研究,并不能確定能否成功,但如果你不冒險去做一些看起來不可能的事情,就不會有成功的機會。不過,我們需要一種衡量進展的方法,所以建立基準是至關重要的。
我們大量利用基準開發(fā)了 AlphaFold,這個項目的數(shù)據(jù)和指標都是現(xiàn)成的。一個優(yōu)秀團隊不應該是為了找到一些增量改進并發(fā)表論文,而是要有更高的目標,并為其鉆研數(shù)年。
在機器學習領域,我們喜歡像神經(jīng)網(wǎng)絡這樣的架構,而且在 Transformer 出現(xiàn)之前,這是一個發(fā)展非常迅速的領域?!癆ttentionis All You Need” 的確是一個很棒的論文題目。這個架構實現(xiàn)了我們對任何字節(jié)序列進行建模的夢想。我認為這些架構的進步某種程度上是在于神經(jīng)網(wǎng)絡的工作方式,很難找到一種發(fā)明于五年前、至今依然穩(wěn)定、變化很小的架構,所以 Transformer 能夠不斷出現(xiàn)在很多項目中,這是令人驚訝的。
Fridman:在技術的哲學性層面,注意力的魔力在什么地方?注意力在人類心智中是如何運作的?
Vinyals:Transformer 和長短期記憶人工神經(jīng)網(wǎng)絡 LSTMs 之間存在區(qū)別,在 Transformer 的早期,LSTMs 仍然是很強大的序列模型,比如 AlphaStar 就同時使用了兩者。Transformer 的強大之處是它內(nèi)置了一種歸納性的注意偏差。假如我們要解決針對一串單詞的復雜任務,比如翻譯一整段話,或者根據(jù)之前的十個段落來預測下一段話。
在直覺上,Transformer 做這些任務的方式是對人類的模仿和復制,在 Transformer 中,你是在尋找某個東西,你在剛讀了一段文字后,你會想接下來會發(fā)生什么,你可能想重新看一下文本,這是一種假設驅(qū)動的過程。如果我在想我下一個詞是“貓”還是“狗”,那么Transformer 的運作方式是它有兩個假設:會是貓?還是狗?如果是貓,我會找出一些詞(不一定就是“貓”這個詞本身),并回溯上文來看看輸出“貓”還是“狗”更說得通。
然后它會對單詞進行一些非常深入的計算,它將詞組合起來,它還可以查詢。如果你真的仔細思考文本,你就需要回看上文的所有文本,但是什么在引導著注意力?我剛剛寫了什么,這當然很重要,但你十頁之前寫下的東西也可能很關鍵,所以你要考慮的不是位置,而是內(nèi)容。Transformer 的可以查詢特定的內(nèi)容并將其拉取出來,從而更好地做決策。這是一種解釋 Transformer 的方式,我認為這種歸納偏差非常強大。隨著時間推移,Transformer 可能會有一些細節(jié)上的變化,但是歸納偏差使得 Transformer 比基于近因偏差的循環(huán)網(wǎng)絡更加強大,循環(huán)網(wǎng)絡在某些任務中有效,但它有非常大的缺陷。
Transformer 本身也有缺陷。我認為最主要的一個挑戰(zhàn)就是我們剛才討論的提示。一個提示可能有長達 1000 個詞,甚至我需要給系統(tǒng)看關于一個游戲的視頻和維基百科的文章。當系統(tǒng)玩游戲并向我提問時,我還需要與之互動。我需要成為一個好的老師來教模型實現(xiàn)超出現(xiàn)有的能力的事情。所以問題是,我們?nèi)绾螌@些任務進行基準測試?我們?nèi)绾胃淖兗軜嫷慕Y構?這是有爭議的。
Fridman:個體的人在這一切的研究進展中有多重要?他們在多大程度上改變了相關領域?你現(xiàn)在正在領導著 DeepMind 的深度學習研究,你會有很多項目,很多杰出的研究人員,所有這些人類能帶來多少變革?
Vinyals:我相信人的作用非常大。一些人想要獲得可行的想法并堅持下去,另一些人可能更實際,他們不在乎什么想法可行,只要能破解蛋白質(zhì)折疊就行。我們同時需要這兩種看起來對立的想法。在歷史上,二者都分別或早或晚地產(chǎn)出了某些東西。二者的區(qū)分也許還類似于強化學習領域所說的 Exploration-Exploitation Tradeoff(探索-利用權衡)。在一個團隊中或在會議上與人互動時,你很快會發(fā)現(xiàn)某個東西是可探索的或者可利用的。
否定任何一種研究風格都是錯誤的,我是工業(yè)界的,所以我們有大規(guī)模算力可以使用,也會有相應的特定類型的研究。為了科學進步,我們需要回答我們現(xiàn)在應該回答的問題。
與此同時,我也看到了很多進步。注意力機制最初是在加拿大的蒙特利爾由于缺乏算力而被發(fā)現(xiàn)的,當時我們正和谷歌大腦的朋友一起研究序列到序列模型。我們使用了 8 個 GPU(其實這個數(shù)量在那個時候其實挺多了),我覺得蒙特利爾在計算規(guī)模上還比較有限。但后來他們發(fā)現(xiàn)了基于內(nèi)容的注意力概念,這進一步帶來了 Transformer。
Fridman:很多人都傾向于認為天才棲息于那些宏大的創(chuàng)見,但我懷疑工程上的天才往往在于細節(jié),有時單個工程師或者少數(shù)幾個工程師就能改變我們所做的事情,尤其是那些大規(guī)模計算機上進行的一個工程決策可能會引發(fā)連鎖反應。
Vinyals:如果你回顧一下深度學習和神經(jīng)網(wǎng)絡的發(fā)展歷史,你會發(fā)現(xiàn)有偶然的成分在。因為 GPU 恰好在正確的時間出現(xiàn),盡管是為電子游戲而服務。所以即使是硬件工程也會受到時間因素的影響。也是由于這場硬件革命,數(shù)據(jù)中心被建立起來。例如谷歌的數(shù)據(jù)中心。有了這樣的數(shù)據(jù)中心,我們就可以訓練模型。軟件也是一個重要的因素,而且越來越多的人在進入這個領域。我們也許還會期待一個系統(tǒng)能擁有所有基準。
Fridman:你有一篇與 Jeff Dean、Percy Liang 等人合著的論文,題為“Emergent Abilities of Large Language Models”。神經(jīng)網(wǎng)絡中的涌現(xiàn)在直覺上怎么解釋?是否有一個神奇的臨界點?這會因任務而異嗎?
Vinyals:以基準測試為例。在你訓練系統(tǒng)的過程中,當你分析數(shù)據(jù)集大小對性能有多大影響、模型大小如何影響性能、訓練了多久系統(tǒng)才會影響到性能等問題時,曲線是相當平滑的。如果我們把 ImageNet 看成是非常平滑且可預測的訓練曲線,它在某種程度上看起來相當平滑和可預測。
在語言方面,基準要求更多的思考,即使輸入是一個描述數(shù)學問題的句子,也需要更多的處理和更多的內(nèi)省。模型的性能可能會變得隨機,直到由 Transformer 的查詢系統(tǒng)或者 Transformer 這樣的語言模型提出一個正確的問題,性能才開始從隨機變?yōu)榉请S機,這是非常經(jīng)驗性的,背后還沒有形式化的理論。
Fridman:最近一個谷歌工程師聲稱,Lambda 語言模型是有意識的。這個案例涉及人類層面、機器學習的技術層面以及 AI 系統(tǒng)在人類世界中的角色的哲學層面。作為一名機器學習工程師以及作為一個人類,你的看法是什么?
Vinyals:我認為目前的任何一種模型離具有意識都還很遠。我覺得我有點像個失敗的科學家,我總會覺得看到機器學習可能是一門可以幫助其他科學的科學,我喜歡天文學、生物,但我不是那些領域的專家,所以我決定研究機器學習。
但是當我對 Alphafold 有了更多的了解,學習了一些關于蛋白質(zhì)、生物學和生命科學的知識后,我開始觀察在原子水平上發(fā)生的事情。我們傾向于把神經(jīng)網(wǎng)絡想象成大腦,當我不是專家的時候,它看起來很復雜性和神奇,但是生物系統(tǒng)遠遠比計算大腦要更復雜,現(xiàn)有的模型還沒有達到生物大腦的水平。
對于這位谷歌工程師的事情,我并沒有那么驚訝。也許是因為我看到時間曲線變得更加平滑,從50 年代香農(nóng)的工作以來,語言模型的進步并沒有那么快,100年前的想法和我們現(xiàn)在的想法并沒有什么不同。但沒有人應該告訴別人他們應該怎么想。
人類從一開始被創(chuàng)造出來就具有的復雜性,以及整個宇宙進化的復雜性,對我來說是更迷人的數(shù)量級。癡迷于你所做的事情是好事,但我希望生物學專家能告訴我這并不是那么神奇。通過社區(qū)中的互動,我們也可以獲得一定程度的教育,這有助于了解什么是不正常的、什么是不安全的等等,否則一項技術將無法得到正確的應用。
Fridman:為了解決智能問題,系統(tǒng)需要獲得意識嗎?人類心智中哪一部分的意識對創(chuàng)造 AI 系統(tǒng)有指導意義?
Vinyals:我覺得系統(tǒng)的智能不必達到有一個極度有用、能夠挑戰(zhàn)你、指導你的大腦的程度。而是應該你教它做事。就我個人而言,我不確定意識是否必要,可能意識或其他生物或進化的觀點會影響我們的下一代算法。
人的大腦和神經(jīng)網(wǎng)絡進行計算的細節(jié)是有區(qū)別的,二者當然有一些相似之處,但我們對大腦的細節(jié)了解還不夠。但如果把范圍縮小一點,如我們的思維過程,記憶如何運作,甚至我們?nèi)绾芜M化到現(xiàn)在的樣子,探索和開發(fā)是什么等等,這些都可以啟發(fā)算法層面的研究。
Fridman:你是否同意 Richard Sutton 在 The Bitter Lesson(《苦澀的教訓》)中的觀點,即 70 年來的人工智能研究帶來最大的教訓是利用計算能力的一般方法是最終有效的方法?
Vinyals:我非常同意這個觀點。對于構建可信、復雜的系統(tǒng)來說,擴大規(guī)模是必要的。這可能還不夠,我們需要一些突破。Sutton 提到搜索是規(guī)模化的一種方法,在圍棋這樣的領域,搜索很有用,因為有明確的獎勵函數(shù)。但在其他一些任務中,我們不太清楚該怎么做。
Fridman:你認為在你有生之年,我們能建立一個達到甚至超越人類智力水平的通用人工智能系統(tǒng)嗎?
Vinyals:我絕對相信它將具備人類水平的智能?!赋健惯@個詞很難定義,尤其是當我們從模仿學習的角度來看目前的標準時,我們當然可以讓 AI 在語言方面模仿和超越人類。所以要通過模仿來達到人類水平需要強化學習和其他東西。在某些領域已經(jīng)有了回報。
就超越人類能力而言,AlphaGo 是我迄今為止最喜歡的例子。而在一般意義上,我不確定我們是否能夠從模仿人類智力水平的角度來定義獎勵函數(shù)。至于超越,我還不太確定,但肯定能達到人類水平。很明顯我們不會去嘗試超越,如果超越,我們將有超人科學家和探索發(fā)現(xiàn)來推動世界發(fā)展,但至少人類水平的系統(tǒng)也是非常強大的。
Fridman:當有數(shù)十億達到或超越人類水平的智能體與人類社會深度融合,你認為會有一個奇點時刻嗎?你會害怕還是為這個世界感到興奮?
Vinyals:也許我們需要考慮我們是否真的能達到這個目標。在資源有限的情況下,讓太多的人共存會產(chǎn)生很多問題。對于數(shù)字實體來說,數(shù)量限制也許也應該存在。這是出于能源可用性的原因,因為它們也消耗能源。
事實上,就能源需求而言,大多數(shù)系統(tǒng)的效率都比我們低。但我認為,作為一個社會,我們需要共同努力找到合理的增長方式以及我們?nèi)绾喂泊?。如果真的發(fā)生,我會很興奮,自動化的一些方面使那些原本顯然沒有機會獲得某些資源或知識的人變得有機會,這是我最期待看到的應用。
Fridman:最后一個問題,隨著人類走出太陽系,未來世界會有更多的人類還是更多的機器人?
Vinyals:人類和 AI 可能混合共存,這只是猜測,但已經(jīng)有公司正試圖以這種方式讓我們變得更好。我希望比例至多到達 1:1,1:1 也許是可行的,但失去平衡就不好了。
原視頻鏈接:https://youtu.be/aGBLRlLe7X8
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。