圖靈獎(jiǎng)遺忘的AI之父，GAI時(shí)代再發(fā)聲：Jurgen重談AI“創(chuàng)業(yè)”史

本文作者：劉潔

2024-09-06 11:38

導(dǎo)語(yǔ)：拿不到圖靈獎(jiǎng)？無(wú)所謂，GPT三個(gè)字母，都來(lái)源于他當(dāng)年的研究。

最近人工智能領(lǐng)域戰(zhàn)火紛飛，各種觀點(diǎn)打架。脾氣火爆的人工智能之父Jürgen Schmidhuber也不斷吐槽自己“被遺忘”了，不滿(mǎn)之余還不忘四處宣講自己全新的人工智能發(fā)展理念，誓要奪回大眾視線(xiàn)。

不久前，他就接受了Machine Learning Street（MLST）的一次獨(dú)家專(zhuān)訪，回憶了自己在深度學(xué)習(xí)和人工智能方面的開(kāi)創(chuàng)性工作，分享他對(duì)智能機(jī)器未來(lái)的展望，還重點(diǎn)回顧了世界模型帶來(lái)的人工智能創(chuàng)新和LSTM和Transformer的開(kāi)發(fā)及演變。

在Jürgen Schmidhuber看來(lái)，深度學(xué)習(xí)雖然不能解決像基礎(chǔ)理論改進(jìn)一類(lèi)的問(wèn)題，但在大部分問(wèn)題上都表現(xiàn)出了很高的實(shí)用性，尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)。

循環(huán)神經(jīng)網(wǎng)絡(luò)的強(qiáng)大之處在于，它本質(zhì)上是一臺(tái)通用計(jì)算機(jī)，所以理論上來(lái)任何能在計(jì)算機(jī)上執(zhí)行的計(jì)算任務(wù)都能在循環(huán)神經(jīng)網(wǎng)絡(luò)上進(jìn)行。只需要增加存儲(chǔ)，就能讓循環(huán)神經(jīng)網(wǎng)絡(luò)處理更復(fù)雜的問(wèn)題。

不過(guò)Jürgen Schmidhuber也說(shuō)了，一開(kāi)始自己的想法還是很天真的，想讓神經(jīng)網(wǎng)絡(luò)去模擬和預(yù)測(cè)未來(lái)的每一個(gè)小步驟，再?gòu)闹刑暨x出能夠帶來(lái)最大回報(bào)的行動(dòng)路徑。

Jürgen Schmidhuber也找到了這個(gè)繁瑣低效的流程的改進(jìn)方式。他想把輸入的那一長(zhǎng)串的行動(dòng)序列都拆分成不同的塊，之后再以新的方式組合在一起。這樣一來(lái)，就可以在不同的情況下調(diào)用相同的塊，而不是再重新一步一步地預(yù)測(cè)抽取。

Jürgen Schmidhuber把這些理念和世界模型結(jié)合在了一起，讓世界模型去預(yù)測(cè)環(huán)境未來(lái)發(fā)展的情況通過(guò)建立模型來(lái)推斷下一個(gè)時(shí)刻的狀態(tài)，并不斷優(yōu)化模型的表現(xiàn)。世界模型的結(jié)構(gòu)類(lèi)似于人腦中的“心智模式”，是對(duì)外部世界的一種內(nèi)在模擬。

Jürgen Schmidhuber相信未來(lái)能夠構(gòu)建出一個(gè)足夠通用的系統(tǒng)，讓系統(tǒng)能夠反復(fù)利用之前學(xué)習(xí)的內(nèi)容，從神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)更多的子程序，最終實(shí)現(xiàn)系統(tǒng)的自主學(xué)習(xí)。

Jürgen Schmidhuber還從世界模型的發(fā)展中領(lǐng)悟到一個(gè)特殊的觀點(diǎn)，整個(gè)科學(xué)史其實(shí)是一部數(shù)據(jù)壓縮發(fā)展史。科學(xué)家們不斷地從數(shù)據(jù)簡(jiǎn)化中發(fā)現(xiàn)新的科學(xué)技術(shù)，再利用新的科學(xué)技術(shù)壓縮研究中面對(duì)的龐大數(shù)據(jù)。

在人工智能領(lǐng)域，這一現(xiàn)象更加明顯。通過(guò)收集和分析大量數(shù)據(jù)，科學(xué)家們發(fā)現(xiàn)背后的規(guī)律，找到壓縮數(shù)據(jù)的方法，從而提升人工智能的能力。未來(lái)，人工智能將學(xué)會(huì)自主進(jìn)行數(shù)據(jù)壓縮，理解數(shù)據(jù)背后的深層規(guī)則。

回顧人工智能的發(fā)展歷程，上世紀(jì)90年代年是個(gè)充滿(mǎn)奇跡的時(shí)期?？梢哉f(shuō)沒(méi)有那時(shí)候Jürgen Schmidhuber的種種發(fā)現(xiàn)，就沒(méi)有現(xiàn)在火爆的生成式人工智能。

例如ChatGPT里的“G”（生成對(duì)抗網(wǎng)絡(luò)）、“P”（自監(jiān)督預(yù)訓(xùn)練）、“T”（Transformer），無(wú)一不是基于Jürgen Schmidhuber及其團(tuán)隊(duì)過(guò)去發(fā)表的成果。

1990年，Jürgen Schmidhuber提出了Adversarial Curiosity原則，包括一個(gè)生成器和一個(gè)預(yù)測(cè)器，讓兩個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行博弈和對(duì)抗。生成對(duì)抗網(wǎng)絡(luò)（GAN）就是基于這個(gè)原則誕生的。

一年后他提出了線(xiàn)性Transformer，奠定了Transformer的基本原理，現(xiàn)在火爆的大語(yǔ)言模型都建立在Transformer的基礎(chǔ)上。

那時(shí)Jürgen Schmidhuber也在深度學(xué)習(xí)策略方面實(shí)現(xiàn)了一個(gè)天才的想法，使用預(yù)測(cè)編碼來(lái)大大壓縮長(zhǎng)序列，騰出空間讓深度學(xué)習(xí)變成可能。這也是大名鼎鼎的自監(jiān)督預(yù)訓(xùn)練的來(lái)源。

同樣在1991年，他的學(xué)生提出了早期的LSTM概念，兩人在1997年共同發(fā)表了LSTM的論文，這篇論文還成為了20世紀(jì)引用量最高的論文。

早期的大語(yǔ)言模型都是基于LSTM開(kāi)發(fā)的，沒(méi)有Transformer的某些限制，但并行化上不如Transformer高效。

不過(guò)Jürgen Schmidhuber并未止步于此，他和他的團(tuán)隊(duì)最近正在研發(fā)X LSTM，旨在打破這一局限，為人工智能領(lǐng)域帶來(lái)新的突破。通過(guò)這些創(chuàng)新，Schmidhuber不斷推動(dòng)著人工智能的邊界，為我們展示了一個(gè)充滿(mǎn)可能性的未來(lái)。

以下是Jürgen Schmidhuber訪談的具體內(nèi)容，AI科技評(píng)論摘取精華內(nèi)容，作了不改原意的整理：

人工智能算法的局限和突破

MLST：再次歡迎來(lái)到MLST，非常榮幸能有您參加節(jié)目。

Jürgen Schmidhuber：我的榮幸，感謝邀請(qǐng)我。

MLST：你認(rèn)為未來(lái)人工智能技術(shù)的突破會(huì)減少計(jì)算量嗎？我上周采訪了ARC challenge的獲勝者Jack Cole，他認(rèn)為我們需要離散程序合成，需要可能是神經(jīng)引導(dǎo)的符號(hào)人工智能或神經(jīng)符號(hào)人工智能。他還提到神經(jīng)網(wǎng)絡(luò)是“寬但淺”，而符號(hào)方法是“狹窄但深入”。你對(duì)此有什么看法？

Jürgen Schmidhuber：我完全同意。深度學(xué)習(xí)無(wú)法解決計(jì)算機(jī)科學(xué)中的很多問(wèn)題，例如基礎(chǔ)理論改進(jìn)。深度搜索樹(shù)更能確保新定理的正確性。雖然深度學(xué)習(xí)可以用來(lái)尋找捷徑或識(shí)別模式。有很多問(wèn)題可以通過(guò)非深度學(xué)習(xí)的方法更快更高效地解決。例如符號(hào)操作，當(dāng)前的語(yǔ)言模型在遇到符號(hào)操作問(wèn)題時(shí)，也是調(diào)用傳統(tǒng)的符號(hào)計(jì)算方法來(lái)解決。

MLST：確實(shí)，我們常說(shuō)神經(jīng)網(wǎng)絡(luò)是有限狀態(tài)自動(dòng)機(jī)，而不是圖靈機(jī)。多年來(lái)，LeCun和Hinton等人試圖反駁這個(gè)觀點(diǎn)，他們認(rèn)為神經(jīng)網(wǎng)絡(luò)原則上可以進(jìn)行符號(hào)抽象操作。但你認(rèn)為它們有很明顯的區(qū)別，對(duì)嗎？

Jürgen Schmidhuber：是的，循環(huán)網(wǎng)絡(luò)就是一臺(tái)通用計(jì)算機(jī)，所以原則上你可以在循環(huán)網(wǎng)絡(luò)中計(jì)算任何在筆記本電腦上可以計(jì)算的東西。

MLST：一篇1995年的論文證明了這一點(diǎn)，它使用了任意精度，似乎有些作弊，通過(guò)增加權(quán)重的精度來(lái)假裝是圖靈機(jī)。

Jürgen Schmidhuber：你指的是Siegelmann的論文？那篇論文的論點(diǎn)不太有說(shuō)服力，因?yàn)樗枰獙?duì)權(quán)重進(jìn)行無(wú)限精確的計(jì)算。循環(huán)網(wǎng)絡(luò)作為通用計(jì)算機(jī)的證明并非那么簡(jiǎn)單，但它確實(shí)表明在這些網(wǎng)絡(luò)中可以實(shí)現(xiàn)NAND門(mén)。因此，任何筆記本電腦可以做的事情，循環(huán)網(wǎng)絡(luò)也可以做到。

圖靈獎(jiǎng)遺忘的AI之父，GAI時(shí)代再發(fā)聲：Jurgen重談AI“創(chuàng)業(yè)”史

MLST：我同意，但很多人會(huì)提出圖靈機(jī)可以通過(guò)擴(kuò)展內(nèi)存處理潛在無(wú)限數(shù)量的情況，這是否意味著圖靈機(jī)提供了更多的可能性？

Jürgen Schmidhuber：這只是一個(gè)理論。圖靈機(jī)是圖靈在1931年提出的，用來(lái)討論計(jì)算和人工智能的基本限制。圖靈機(jī)的理論構(gòu)造與現(xiàn)實(shí)可以構(gòu)建的東西無(wú)關(guān)。在現(xiàn)實(shí)世界中，所有計(jì)算機(jī)都是有限狀態(tài)的自動(dòng)機(jī)。

MLST：理論上，Python解釋器可以執(zhí)行無(wú)限多的程序，而神經(jīng)網(wǎng)絡(luò)只能識(shí)別它們訓(xùn)練過(guò)的有限事物，這是兩者的根本區(qū)別。

Jürgen Schmidhuber：理論上是這樣，但在實(shí)際操作中，因?yàn)榇鎯?chǔ)空間有限，所有計(jì)算設(shè)備都受限于有限狀態(tài)自動(dòng)機(jī)。我們能實(shí)現(xiàn)的，是由循環(huán)神經(jīng)網(wǎng)絡(luò)代表的有限狀態(tài)自動(dòng)機(jī)。有些任務(wù)，比如乘法運(yùn)算或定理證明，某些自動(dòng)機(jī)更高效。

這些自動(dòng)機(jī)看似簡(jiǎn)單，但在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)并不直觀。理論上，它們是等價(jià)的，但在實(shí)用計(jì)算中，沒(méi)有超越有限狀態(tài)自動(dòng)機(jī)的優(yōu)越性。大多數(shù)實(shí)際問(wèn)題都很簡(jiǎn)單，只需要有限存儲(chǔ)和計(jì)算能力即可。

因此，我們專(zhuān)注于用循環(huán)神經(jīng)網(wǎng)絡(luò)或Transformer解決實(shí)際問(wèn)題。

MLST：希拉里·普特南提到過(guò)多重實(shí)現(xiàn)性，任何計(jì)算都可以用不同的物理系統(tǒng)來(lái)表示。在我看來(lái)，多重實(shí)現(xiàn)性的奇妙之處在于其表示和概括能力。這種方式是人工智能的一種理想形式，可以通過(guò)緊湊的符號(hào)表示處理可能在無(wú)限多種情境下工作的事物，而不是單純記住所有不同的操作方式。

Jürgen Schmidhuber：是的，但是這個(gè)概念很難劃定邊界。

我們?cè)谟懻撈媾夹ｒ?yàn)問(wèn)題之前，就明確了一點(diǎn)，Transformer無(wú)法學(xué)習(xí)奇偶校驗(yàn)的邏輯。奇偶校驗(yàn)是一個(gè)簡(jiǎn)單的問(wèn)題，就是判斷一串二進(jìn)制數(shù)字中是奇數(shù)還是偶數(shù)。

要解決這個(gè)問(wèn)題，你需要逐個(gè)讀取位，你就有了一個(gè)很小的循環(huán)網(wǎng)絡(luò)，只有一個(gè)從隱藏單元到自身的偵察連接。每當(dāng)一個(gè)新單元進(jìn)入，內(nèi)部狀態(tài)就會(huì)在1.0和0.0之間翻轉(zhuǎn)。這個(gè)類(lèi)似小邏輯電路的東西能解決Transformer解決不了的奇偶校驗(yàn)問(wèn)題，循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)然也能做到。

這就是我從80年代開(kāi)始對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)著迷的原因，因?yàn)樗鼈冊(cè)谕ㄓ糜?jì)算的意義上是通用的，只需在需要時(shí)增加存儲(chǔ)，就能處理更復(fù)雜的問(wèn)題。

MLST：我認(rèn)為，RNN作為計(jì)算模型的基礎(chǔ)和它作為可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)際用途是有區(qū)別的。因?yàn)?991年的那篇論文表明，RNN不能通過(guò)梯度下降進(jìn)行訓(xùn)練，而只是以一種特殊的方式輸入信息，使它表現(xiàn)得像圖靈機(jī)。我們希望它們不僅可訓(xùn)練，而且有實(shí)際用處。

Jürgen Schmidhuber：確實(shí)，這就是一個(gè)問(wèn)題。一個(gè)學(xué)習(xí)奇偶校驗(yàn)的小網(wǎng)絡(luò)只有5個(gè)連接，梯度下降并不適用。

最好的辦法是隨機(jī)初始化權(quán)重，如果解決了訓(xùn)練樣本的奇偶校驗(yàn)，它幾乎肯定能泛化到所有長(zhǎng)度。這個(gè)小網(wǎng)絡(luò)比前饋網(wǎng)絡(luò)更強(qiáng)大，如果訓(xùn)練一個(gè)前饋網(wǎng)絡(luò)解決9位奇偶校驗(yàn)，它無(wú)法泛化到10位或11位，而這個(gè)小網(wǎng)絡(luò)可以泛化到任何類(lèi)型的奇偶校驗(yàn)輸入。

我們有一個(gè)非傳統(tǒng)的學(xué)習(xí)算法，就是隨機(jī)搜索權(quán)重，只需嘗試1000次，看是否解決了訓(xùn)練集中的問(wèn)題。1997年的LSTM論文中也提到，有些問(wèn)題不適合梯度下降學(xué)習(xí)，離散程序搜索可能更合適。權(quán)重矩陣是網(wǎng)絡(luò)的程序，梯度下降有時(shí)會(huì)陷入困境，而其他搜索方法可以找到你真正需要的權(quán)重設(shè)置。

從1987年以來(lái)的研究來(lái)看，我們的研究涵蓋了很多象征性的算法，這些算法專(zhuān)注于漸近最優(yōu)問(wèn)題解決者，如2003年的OOPS，這些算法與神經(jīng)網(wǎng)絡(luò)無(wú)關(guān)。但神經(jīng)網(wǎng)絡(luò)在很多實(shí)際問(wèn)題上表現(xiàn)良好，即使沒(méi)有理論證明。這兩種方法的界限很難劃定，因?yàn)樗鼈冎g的區(qū)別已經(jīng)越來(lái)越模糊了。

在90年代初，我們有子目標(biāo)生成器，可以做一些像是符號(hào)化的事，但其實(shí)是通過(guò)系統(tǒng)中的梯度下降實(shí)現(xiàn)的。

這個(gè)系統(tǒng)學(xué)會(huì)了把實(shí)現(xiàn)目標(biāo)所必須執(zhí)行的動(dòng)作序列分解成有意義的塊。這樣你就可以從開(kāi)始到目標(biāo)，然后從子目標(biāo)到目標(biāo)，所有看起來(lái)有點(diǎn)像符號(hào)化的事情。

但現(xiàn)在我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)也能實(shí)現(xiàn)，并且甚至可以通過(guò)梯度下降來(lái)對(duì)齊。當(dāng)然我們也碰到了其他問(wèn)題導(dǎo)致梯度下降失敗。所以你不會(huì)考慮把梯度下降當(dāng)作能解決所有問(wèn)題的萬(wàn)能方法。這并是神經(jīng)網(wǎng)絡(luò)的問(wèn)題，因?yàn)樯窠?jīng)網(wǎng)絡(luò)可以用許多非梯度下降的方法來(lái)訓(xùn)練。

MLST：這是一個(gè)有趣的觀點(diǎn)。你職業(yè)生涯中花了很多時(shí)間研究元學(xué)習(xí)，這涉及更高階的學(xué)習(xí)方法。正如你提到的，在元學(xué)習(xí)中可以混合多種模式，比如隨機(jī)梯度上升、符號(hào)模式以及復(fù)雜的元推理模式。對(duì)于目前進(jìn)行arc挑戰(zhàn)的人，他們?cè)谶M(jìn)行離散程序搜索，有的嘗試在頂層使用元模式的神經(jīng)搜索或完全不同的方法。你認(rèn)為應(yīng)該怎么做？

Jürgen Schmidhuber：你需要看具體問(wèn)題的性質(zhì)。雖然我沒(méi)有研究所有問(wèn)題，但我確信，很多問(wèn)題可以用類(lèi)似最優(yōu)順序問(wèn)題的方法來(lái)解決。這是一種漸進(jìn)的最優(yōu)方式，找到解決計(jì)算問(wèn)題的程序，使驗(yàn)證時(shí)間與解決方案大小呈線(xiàn)性關(guān)系。

這是一個(gè)重要的概念，與P和NP問(wèn)題有關(guān)。有一種最優(yōu)的方法進(jìn)行程序搜索，類(lèi)似1973年的通用搜索算法。最優(yōu)順序問(wèn)題求解器基于這種方法，以漸進(jìn)最優(yōu)的方式解決新問(wèn)題，利用先前問(wèn)題的解決方案。這種方法并不局限于神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)領(lǐng)域，但你可以將神經(jīng)網(wǎng)絡(luò)用作基本指令，并測(cè)量其運(yùn)行時(shí)間。最優(yōu)的運(yùn)行方式是將時(shí)間分配給測(cè)試程序，優(yōu)先考慮簡(jiǎn)單和快速的方法。

這些程序可以包含各種原始指令，比如Transformer的反向傳播等，但需要測(cè)量其運(yùn)行時(shí)間。如果消耗時(shí)間過(guò)多，就要中斷程序并調(diào)整分配時(shí)間，尋找易于驗(yàn)證的解決方案。雖然這些看起來(lái)很符號(hào)化，但我在90年代已經(jīng)將這些原則應(yīng)用于神經(jīng)網(wǎng)絡(luò)。

這其實(shí)是另一種搜索神經(jīng)網(wǎng)絡(luò)權(quán)重的方法，不是通過(guò)梯度下降，而是更智能的方法。如果運(yùn)氣好的話(huà)，還能帶來(lái)更好的泛化效果。因?yàn)檫@些方法能夠找到解決問(wèn)題的最短、最快的方式，最小化算法復(fù)雜性或Kolmogorov復(fù)雜性。

這些方法在神經(jīng)網(wǎng)絡(luò)的運(yùn)行時(shí)間限制下，有助于更好的泛化。因此，傳統(tǒng)的符號(hào)推理、程序搜索和神經(jīng)網(wǎng)絡(luò)之間存在一定的重疊。

人工智能與AGI發(fā)展討論

MLST：那么，技術(shù)行業(yè)是否試圖挖走你的團(tuán)隊(duì)？

Jürgen Schmidhuber：他們確實(shí)這樣做了。他們當(dāng)然試圖挖走我的合作者。

例如，在2010年和2011年，當(dāng)我們?cè)谏窠?jīng)網(wǎng)絡(luò)上取得快速轉(zhuǎn)化的成功時(shí)，蘋(píng)果確實(shí)成功地挖走了我一位獲獎(jiǎng)團(tuán)隊(duì)成員。有些人認(rèn)為蘋(píng)果在深度GPU CNN領(lǐng)域來(lái)得太晚，但并非如此，他們?cè)谶@一領(lǐng)域商業(yè)化后就積極參與了。

而谷歌DeepMind是由我實(shí)驗(yàn)室的一名學(xué)生和其他人共同創(chuàng)辦的，他們的第一位員工是我的另一位博士生。后來(lái)，他們還聘用了我的許多博士后和博士生。

MLST：順便說(shuō)一句，前幾天我在推特上看到一個(gè)有趣的段子，一位女士說(shuō)：“我不想讓人工智能為我完成我的藝術(shù)創(chuàng)作，我想讓它洗碗。”

Jürgen Schmidhuber：這就是我媽媽在70年代說(shuō)過(guò)的話(huà)。她說(shuō)，“給我造一個(gè)能洗碗的機(jī)器人?！?/p>

MLST：是的，沒(méi)錯(cuò)。但我想要探討的是，為什么人們會(huì)認(rèn)為ChatGPT正在走向通用人工智能（AGI）？

而我看它時(shí)，覺(jué)得它只是一個(gè)數(shù)據(jù)庫(kù)。它沒(méi)有知識(shí)獲取，因此沒(méi)有推理能力。它沒(méi)有創(chuàng)造力，也沒(méi)有自主性。它沒(méi)有我們所擁有的許多認(rèn)知特征。

然而，人們卻對(duì)它產(chǎn)生了興趣，要么是故意將其擬人化，要么是自我欺騙，或者他們真的看到了什么。

你認(rèn)為這可以用什么來(lái)解釋呢？

Jürgen Schmidhuber：在我看來(lái)，情況是那些對(duì)AGI保持懷疑態(tài)度的人質(zhì)疑了幾十年，被ChatGPT的誕生說(shuō)服，轉(zhuǎn)而相信和之前相反的觀點(diǎn)。因?yàn)橥蝗恢g，你有了一臺(tái)在圖靈測(cè)試中表現(xiàn)得非常好的機(jī)器。

他們認(rèn)為，AGI來(lái)了。但我認(rèn)為所有因?yàn)镃hatGPT和其他大型語(yǔ)言模型而開(kāi)始擔(dān)心AGI的人，主要是因?yàn)樗麄儾惶私馊斯ぶ悄?，不了解背后的神?jīng)網(wǎng)絡(luò)的局限性。今天我們已經(jīng)提到過(guò)一些這些神經(jīng)網(wǎng)絡(luò)根本做不到的事情。

實(shí)際上有點(diǎn)奇怪的是，我多年來(lái)一直在倡導(dǎo)，或者說(shuō)在炒作AGI。我在70年代告訴我媽媽?zhuān)谖矣猩闍GI一定會(huì)實(shí)現(xiàn)的。在80年代，我所有的同事都認(rèn)為我瘋了。

但突然，很多不相信我的預(yù)測(cè)的人改變了自己的想法，只是因?yàn)镃hatGPT的出現(xiàn)，他們就開(kāi)始認(rèn)為離AGI已經(jīng)很近了。

我認(rèn)為唯一的原因是他們并沒(méi)有真正理解這些大型語(yǔ)言模型的本質(zhì)和局限性。

MLST：我明白，但我無(wú)法理解這一點(diǎn)。因?yàn)槠渲性S多人，特別是在硅谷的那些人，他們?cè)诩夹g(shù)行業(yè)工作，他們正在研究這項(xiàng)技術(shù)，他們卻不了解機(jī)器學(xué)習(xí)是如何工作的。我只能理解為有時(shí)你會(huì)碰到一些非常聰明的人，在其他方面卻容易被迷惑，或者說(shuō)，一定有什么東西可以解釋他們?yōu)槭裁纯床坏竭@一點(diǎn)。

我的意思是，這些都是機(jī)器學(xué)習(xí)模型，它們只能將參數(shù)化的曲線(xiàn)擬合到數(shù)據(jù)分布中，在密度大的地方效果很好，而在密度小的地方效果就不好了。為什么他們會(huì)認(rèn)為這是神奇的呢？

Jürgen Schmidhuber：也許是因?yàn)樗麄冎械脑S多人都是風(fēng)險(xiǎn)投資家。他們被一些正在成立初創(chuàng)公司的科學(xué)家所說(shuō)服，這些科學(xué)家聲稱(chēng)他們的新初創(chuàng)公司非常接近成功，需要大量投資。

因此，我認(rèn)為產(chǎn)生這種誤解的一個(gè)原因是，一些機(jī)器學(xué)習(xí)研究人員過(guò)度夸大了當(dāng)前大型語(yǔ)言模型的能力。而風(fēng)險(xiǎn)投資家并不了解實(shí)際上發(fā)生的事情，他們只是試圖找出將錢(qián)投在哪里，并愿意跳上任何額外的炒作列車(chē)。

AGI是可能的，它將會(huì)到來(lái)，而且他們不是那么遙遠(yuǎn)的未來(lái)，但它將只把大語(yǔ)言模型作為一個(gè)子模塊，因?yàn)橥ㄓ萌斯ぶ悄艿暮诵哪繕?biāo)是完全不同的東西，它更接近強(qiáng)化學(xué)習(xí)。

現(xiàn)在你可以作為一個(gè)強(qiáng)化學(xué)習(xí)者從監(jiān)督學(xué)習(xí)中獲得很多好處。例如，你可以構(gòu)建一個(gè)世界的預(yù)測(cè)模型。你可以利用這個(gè)模型，這個(gè)模型可能是由與語(yǔ)言模型相同的基礎(chǔ)模型構(gòu)建的，你可以在這個(gè)世界模型中使用它來(lái)規(guī)劃未來(lái)的行動(dòng)序列。

但現(xiàn)在情況確實(shí)不同了?，F(xiàn)在你需要有一些具體化的人工智能，比如機(jī)器人，在現(xiàn)實(shí)世界中運(yùn)行。在現(xiàn)實(shí)世界中，你可以做到在電子游戲中做到的事情。在電子游戲中，你可以做一萬(wàn)億次模擬，一萬(wàn)億次試驗(yàn)來(lái)優(yōu)化你的表現(xiàn)。每次你被擊中后，你又會(huì)復(fù)活。

現(xiàn)在，在現(xiàn)實(shí)世界中，你有一臺(tái)機(jī)器人，你做了三次簡(jiǎn)單試驗(yàn)后，一個(gè)手指的肌腱就斷了。你必須應(yīng)對(duì)現(xiàn)實(shí)世界中類(lèi)似這樣的令人難以置信的挫折，也必須做好現(xiàn)實(shí)世界的執(zhí)行規(guī)劃來(lái)減少問(wèn)題的出現(xiàn)。

你需要通過(guò)與世界的互動(dòng)，對(duì)未來(lái)進(jìn)行心理規(guī)劃，從而優(yōu)化你的表現(xiàn)。但當(dāng)你通過(guò)行動(dòng)收集新的訓(xùn)練示例時(shí)，也要非常高效。因?yàn)槟阆Ｍ畲笙薅鹊販p少獲取新數(shù)據(jù)的工作量，以改善你的世界模型（你正在使用這些數(shù)據(jù)進(jìn)行規(guī)劃）。

簡(jiǎn)而言之，我現(xiàn)在提到的這些非常重要，而且有幾個(gè)提到的組件還不能達(dá)到比較好的工作效果。不過(guò)現(xiàn)有的神經(jīng)網(wǎng)絡(luò)可以以某種方式作為稍大系統(tǒng)的組件，來(lái)完成所有的任務(wù)。

這類(lèi)系統(tǒng)的首次出現(xiàn)可以追溯到1990年，當(dāng)時(shí)我可能是第一個(gè)在循環(huán)神經(jīng)網(wǎng)絡(luò)研究中使用“世界模型”這個(gè)詞的人，試圖為最大化獎(jiǎng)勵(lì)的控制器規(guī)劃動(dòng)作序列。但是這些更復(fù)雜的問(wèn)題解決者和決策者與僅僅使用大型語(yǔ)言模型是有很大不同的。

圖靈獎(jiǎng)遺忘的AI之父，GAI時(shí)代再發(fā)聲：Jurgen重談AI“創(chuàng)業(yè)”史

Jürgen“世界模型”的結(jié)構(gòu)圖。來(lái)源：Jürgen與David Ha2018年發(fā)表的論文《World Models》

MLST：是的，我讀過(guò)你和David Ha的論文，那是好幾年前的事了。他是第一個(gè)使用基于想象力的強(qiáng)化學(xué)習(xí)模型來(lái)玩電腦游戲的人。

不過(guò)這是題外話(huà)。我想說(shuō)的是，現(xiàn)在在硅谷，你只需要1000行代碼就能訓(xùn)練神經(jīng)網(wǎng)絡(luò)，而且很容易就能賺到大把鈔票，擁有很高的地位。他們?yōu)槭裁催€要做其他事情呢？這是一個(gè)例子。

你已經(jīng)做了三分之一個(gè)世紀(jì)的工作，你也已經(jīng)考慮了下一步，我不知道他們是否只是在淡化這一點(diǎn)。他們?yōu)槭裁床蝗プ瞿切├щy的部分呢？也許是因?yàn)楝F(xiàn)在生活太輕松了，只要說(shuō)著這就是AGI就夠了。

Jürgen Schmidhuber：是的，我猜許多現(xiàn)在過(guò)度炒作AGI的人正在為他們的下一個(gè)公司尋找融資，也有足夠多的容易上當(dāng)受騙的風(fēng)險(xiǎn)投資者想要跳上這臺(tái)“大馬車(chē)”。

另一方面，我們目前擁有的技術(shù)遠(yuǎn)遠(yuǎn)超出了純粹的語(yǔ)言模型，原則上來(lái)說(shuō)足以完成下一步工作。

就像我說(shuō)的那樣，用來(lái)創(chuàng)建語(yǔ)言模型的技術(shù)也可以用來(lái)創(chuàng)建世界模型。重點(diǎn)在于，你如何學(xué)會(huì)以層次化、高效的方式使用這個(gè)世界模型來(lái)規(guī)劃導(dǎo)致成功的行動(dòng)序列。你有一個(gè)想要解決的問(wèn)題，但你不知道如何解決，也沒(méi)有人類(lèi)老師的幫助?，F(xiàn)在你想通過(guò)自己的實(shí)驗(yàn)和這些心理規(guī)劃程序來(lái)弄清楚如何解決這個(gè)問(wèn)題。

1990年，我們選擇了一種錯(cuò)誤的、天真的方式想要解決這件事。我們建立了循環(huán)網(wǎng)絡(luò)控制器和循環(huán)網(wǎng)絡(luò)世界模型，用于規(guī)劃。我們做的是天真的事情，也就是一毫秒一毫秒地規(guī)劃。這意味著你要模擬你可能的未來(lái)的每一個(gè)小步驟，并且試圖在你的心理模擬中選擇一個(gè)你會(huì)獲得大量預(yù)測(cè)獎(jiǎng)勵(lì)的步驟。這太愚蠢了，不是人類(lèi)做事的方式。

當(dāng)人類(lèi)遇到一個(gè)問(wèn)題，比如“我怎樣才能從這里到達(dá)北京？”時(shí)，他們會(huì)將問(wèn)題分解成子目標(biāo)。例如，他們會(huì)說(shuō)：“好吧，首先……”但是，他們不會(huì)像這樣一步一步地計(jì)劃。他們不會(huì)說(shuō)：“好的，首先我激活我的小指，然后……”他們會(huì)抓起手機(jī)，然后打車(chē)，然后在機(jī)場(chǎng)辦理登機(jī)手續(xù)，接下來(lái)九個(gè)小時(shí)都不會(huì)發(fā)生什么，直到在北京下車(chē)。

所以，你并不是一毫秒一毫秒地模擬所有這些可能的幾率。

目前大多數(shù)強(qiáng)化學(xué)習(xí)仍在一步一步地進(jìn)行模擬，例如，在國(guó)際象棋或圍棋中，你確實(shí)在對(duì)這些可能的未來(lái)進(jìn)行蒙特卡洛采樣，然后選出一個(gè)看起來(lái)有希望的未來(lái)，你的世界模型會(huì)隨著時(shí)間的推移不斷改進(jìn)，即使你做出了錯(cuò)誤的決定，至少世界模型會(huì)變得更好。這樣，下次你就能做出更明智的決定。

但回到1990年，我們只能說(shuō)這還不夠好。我們必須學(xué)習(xí)子調(diào)用。我們必須將這些長(zhǎng)長(zhǎng)的行動(dòng)序列分解成塊。我們必須將整個(gè)輸入流分解成塊，將這些塊以某種方式分開(kāi)，這些塊的抽象表示應(yīng)該是不同的，但它們對(duì)于這些特定序列是相似的。

然后你可以使用這些自適應(yīng)子代碼生成器，我們也在1990年有了，以一種新的方式將它們組合在一起，有效地和快速地解決你的問(wèn)題。因?yàn)槟阏谝媚阋呀?jīng)學(xué)會(huì)的子程序，比如從這里到出租車(chē)站。

所以我們有那項(xiàng)技術(shù)，但與我們后來(lái)在2015年所做的相比，它不夠聰明。

后來(lái)我們有了更好的方法來(lái)使用這些預(yù)測(cè)性野生模型，以抽象的方式進(jìn)行規(guī)劃。因此，在2015年，我發(fā)表了論文《學(xué)會(huì)思考》，我認(rèn)為這篇文章在今天仍然很重要，我想很多不知道這篇文章的人或許應(yīng)該讀一讀。

圖靈獎(jiǎng)遺忘的AI之父，GAI時(shí)代再發(fā)聲：Jurgen重談AI“創(chuàng)業(yè)”史

那么2015年的論文是關(guān)于什么的？

它關(guān)于一個(gè)強(qiáng)化學(xué)習(xí)機(jī)器，這個(gè)機(jī)器有一個(gè)世界預(yù)測(cè)模型。

這個(gè)模型試圖預(yù)測(cè)一切，但我們并不是真的對(duì)一切都感興趣。我們只是對(duì)它為了預(yù)測(cè)一切而創(chuàng)造的內(nèi)部表示感興趣。通常它不能預(yù)測(cè)一切，因?yàn)槭澜缭谠S多方面都是不可預(yù)測(cè)的，但某些事情是可以預(yù)測(cè)的。而這些內(nèi)部表示中的一些變得真的可以預(yù)測(cè)，它包括你可以想象到的一切。

舉個(gè)例子，如果你必須正確預(yù)測(cè)這個(gè)像素，也許這取決于1000步之前發(fā)生的一些事情。因此，預(yù)測(cè)機(jī)的這些內(nèi)部表征，會(huì)隨著時(shí)間的推移而考慮到這一點(diǎn)。所以這些內(nèi)部分辨率它們會(huì)傳達(dá)與這個(gè)世界和這個(gè)特定像素相關(guān)的信息。但在跳轉(zhuǎn)時(shí)，你想以更聰明的方式進(jìn)行規(guī)劃。

那要怎么做呢？控制器必須完成某項(xiàng)任務(wù)，最大化它的回報(bào)。而不是一毫秒一毫秒地使用世界模型相反，它應(yīng)該忽略所有根本無(wú)法預(yù)測(cè)的東西，只關(guān)注這些抽象的、可預(yù)測(cè)的內(nèi)部概念，至于其他的，控制器必須了解它們是什么。

那又該如何學(xué)習(xí)呢？我能做什么？

你可以給它與世界模型的額外連接，讓它學(xué)會(huì)好奇地發(fā)送查詢(xún)。查詢(xún)只是數(shù)字向量，一開(kāi)始，它不知道如何向這個(gè)野生模型發(fā)送好的查詢(xún)。然后，世界模型會(huì)反饋一些信息，因?yàn)槟銌拘蚜艘恍﹥?nèi)部表征，這些信息會(huì)反饋回來(lái)。所以它們必須通過(guò)控制器所做的強(qiáng)化學(xué)習(xí)或類(lèi)似的事情來(lái)學(xué)習(xí)。

因此，現(xiàn)在控制器本質(zhì)上是在通過(guò)說(shuō)謊成為一個(gè)提示工程師。

那是我2015年的強(qiáng)化學(xué)習(xí)提示工程師，學(xué)習(xí)發(fā)送數(shù)據(jù)到墻模型，然后從角色模型中獲取數(shù)據(jù)，這些數(shù)據(jù)在某種程度上應(yīng)該代表與之相關(guān)的算法信息。

因此，基本上控制器必須學(xué)習(xí)在這個(gè)龐大的世界模型中穿行，可能已經(jīng)看過(guò)所有YouTube視頻。有人必須學(xué)習(xí)以抽象的規(guī)劃方式處理這些內(nèi)部知識(shí)，并解釋返回的內(nèi)容。而AC測(cè)試是這個(gè)控制器是否能夠在沒(méi)有模型的情況下，通過(guò)將所有連接設(shè)置為零，或者通過(guò)某種方式學(xué)習(xí)到在世界模型中處理相關(guān)算法信息，這樣更便宜，從而更快地學(xué)習(xí)所需的內(nèi)容。

因此，學(xué)習(xí)是重要的。我相信這就是前進(jìn)的方向。在機(jī)器人技術(shù)、強(qiáng)化學(xué)習(xí)、機(jī)器人及所有這些目前尚未有效的領(lǐng)域。

世界模型和人工智能的創(chuàng)新

MLST：我可以回顧一下你前面說(shuō)的一些事情嗎？因?yàn)槟阏劦降某橄笤瓌t與生成對(duì)抗網(wǎng)絡(luò)非常相似，在這個(gè)游戲中你試圖增加算法信息或信息轉(zhuǎn)換率，我理解為粗化或抽象。

正如你所說(shuō)，你從微觀動(dòng)作空間開(kāi)始，或者轉(zhuǎn)向動(dòng)作抽象空間，在那里你實(shí)際上是在學(xué)習(xí)動(dòng)作空間中的模式。這是有道理的，因?yàn)楫?dāng)你開(kāi)車(chē)時(shí)，例如，你會(huì)考慮宏觀的東西，忽略路上的樹(shù)葉，你在考慮大局，你有這種粗化、這種分辨率的跳躍，取決于你如何看待問(wèn)題。

根據(jù)我的理解，你正在學(xué)習(xí)思考，你剛才描述的控制器模式有點(diǎn)像是在建模這個(gè)過(guò)程。

Jürgen Schmidhuber：是的，這里的控制器只是試圖提取另一個(gè)網(wǎng)絡(luò)的算法信息，這個(gè)網(wǎng)絡(luò)可能接受過(guò)各種訓(xùn)練。

例如，正如我之前提到的，它可能是所有YouTube視頻的集合。在這些數(shù)十億的視頻中，有很多是關(guān)于人們?nèi)訓(xùn)|西的，比如機(jī)器人、籃球運(yùn)動(dòng)員、足球運(yùn)動(dòng)員等。

這些視頻包含了大量關(guān)于重力、世界運(yùn)作方式以及三維特性的隱含信息。但控制器并不能直接訪問(wèn)這些視頻隱含的信息。

控制器通過(guò)執(zhí)行器發(fā)送信號(hào)來(lái)進(jìn)行操作，而這些執(zhí)行器可能與視頻中人類(lèi)的操作方式不同，比如機(jī)器人只有三個(gè)手指而不是五個(gè)，但它們?nèi)匀辉谕粋€(gè)受重力影響的世界中工作。通過(guò)觀察這些視頻，我們可以學(xué)習(xí)如何在不同條件下進(jìn)行操作，比如如何用三個(gè)手指進(jìn)行查詢(xún)和提示。

你需要將這些觀察注入到世界模型中。你想要進(jìn)行搜索，以解決模型中的關(guān)鍵問(wèn)題，從而提取出控制器改進(jìn)行為所需的有用信息。你可能只需要一些額外的信息，這些信息必須通過(guò)學(xué)習(xí)來(lái)獲得。

有些信息你不能立即用來(lái)提高投擲技能，但你可以稍微調(diào)整幾個(gè)參數(shù)位，這樣你就能比沒(méi)有這些參考信息時(shí)更快學(xué)會(huì)投擲球。在給定環(huán)境中找到正確的規(guī)劃算法，解決所有這些問(wèn)題是非常復(fù)雜的，需要通過(guò)學(xué)習(xí)來(lái)實(shí)現(xiàn)。

你無(wú)法預(yù)先編程出一個(gè)完美的解決方案，因此你必須在特定的環(huán)境下學(xué)習(xí)，并考慮所有的資源限制，比如控制器中的神經(jīng)元數(shù)量和每毫秒的時(shí)間步數(shù)等。

你必須學(xué)習(xí)如何成為一個(gè)更好的提示工程師，發(fā)送正確的提示，并理解反饋的信息。

所以原則上，我認(rèn)為這就是未來(lái)規(guī)劃、層次化和類(lèi)比推理以及所有這些東西的核心。你需要構(gòu)建一個(gè)足夠通用的系統(tǒng)，讓它能夠自主學(xué)習(xí)所有這些內(nèi)容。

這種方法不是像我早期在谷歌或博士后研究中那樣的通用規(guī)劃，而是更加實(shí)際的，能夠在有限資源和各種限制下運(yùn)行的系統(tǒng)。在這種系統(tǒng)中，控制器需要學(xué)會(huì)如何更好地引導(dǎo)提示。

現(xiàn)在你給系統(tǒng)一系列問(wèn)題，它可以重復(fù)利用之前學(xué)到的內(nèi)容，并不斷學(xué)習(xí)更多的子程序，這些子程序可以編碼在重構(gòu)的神經(jīng)網(wǎng)絡(luò)中。這些網(wǎng)絡(luò)是通用計(jì)算機(jī)，可以編碼所有層次化推理和子程序。原則上，它應(yīng)該能做得很好，但它并不像許多人癡迷的大型語(yǔ)言模型那樣的有限監(jiān)督技術(shù)一樣運(yùn)行得很好。

MLST：是的，這是您又一次超越時(shí)代的思考。

一個(gè)月前，我采訪了一些多倫多的大學(xué)生，他們正在將控制理論應(yīng)用于大型語(yǔ)言模型提示，并用它來(lái)探索可達(dá)性空間。他們使用一個(gè)控制器來(lái)優(yōu)化語(yǔ)言模型的輸出，探索可能的標(biāo)記空間。關(guān)鍵在于我們開(kāi)始看到一種元架構(gòu)，語(yǔ)言模型只是整個(gè)架構(gòu)的一部分。

我認(rèn)為這種跳出思維定勢(shì)的思考方式真的非常有趣。

Jürgen Schmidhuber：是的，我們最近的一篇論文受到了2015年學(xué)習(xí)提示工程師的啟發(fā)，就是我們的心智社會(huì)論文。我們不僅有控制器和一個(gè)模型，而是很多基礎(chǔ)模型。有些模型非常擅長(zhǎng)計(jì)算機(jī)視覺(jué)，能從圖像中生成標(biāo)題，另一些則擅長(zhǎng)用自然語(yǔ)言回答問(wèn)題。

現(xiàn)在你有一個(gè)由這些家伙組成的社會(huì)，你給他們一個(gè)他們無(wú)法單獨(dú)解決的問(wèn)題，要求他們共同解決，那么他們會(huì)怎么做呢？

圖靈獎(jiǎng)遺忘的AI之父，GAI時(shí)代再發(fā)聲：Jurgen重談AI“創(chuàng)業(yè)”史

模型正在進(jìn)行“頭腦風(fēng)暴”。來(lái)源：Jürgen Schmidhuber等人2023年發(fā)表的論文《Mindstorms in Natural Language-Based Societies of Mind》

他們開(kāi)始為彼此成為提示工程師。他們會(huì)進(jìn)行一些我們稱(chēng)之為“思維風(fēng)暴”的活動(dòng)。因?yàn)檫@個(gè)基于自然語(yǔ)言的思維社會(huì)的成員們?cè)诨ハ嗝嬖嚒Ｄ銜?huì)怎么做，你建議我們應(yīng)該怎么做？

我們會(huì)有不同類(lèi)型的社會(huì)。例如，我們有君主制，那里有一個(gè)國(guó)王，一個(gè)神經(jīng)網(wǎng)絡(luò)國(guó)王，根據(jù)下屬的建議決定接下來(lái)應(yīng)該做什么。我們還會(huì)有民主制，在這些不同的家伙之間有投票機(jī)制。他們把所有的想法都放在黑板上，吸收其他人的所有想法，最終得出一個(gè)通常相當(dāng)令人信服的解決方案。

所以在各種應(yīng)用中，比如生成一個(gè)更好的圖像設(shè)計(jì)，展示那個(gè)或者在3D環(huán)境中操縱世界以實(shí)現(xiàn)某個(gè)目標(biāo)等等，這種方式以一種開(kāi)放的方式運(yùn)作，并且打開(kāi)了一系列新問(wèn)題，比如，君主制是否比民主制更好？如果是的話(huà)，在什么條件下？反之亦然。

MLST：我感興趣的是，我認(rèn)為獲取知識(shí)是一件非常重要的事情。比如，我在建立一家初創(chuàng)公司，我在建立一個(gè)YouTube頻道，我在學(xué)習(xí)如何剪輯視頻和做音頻工程等等。這其中有太多的嘗試和錯(cuò)誤，因?yàn)橥评?、?chuàng)造力和智慧就是要能有靈光一現(xiàn)的洞察力，并以這種令人難以置信的方式將你已有的許多知識(shí)組成一個(gè)整體。

當(dāng)你看到它的時(shí)候，你就會(huì)有"啊哈"的一瞬間，然后你就再也看不到它了。現(xiàn)在，它改變了你看待整個(gè)世界的方式。但有時(shí)也會(huì)有"啊哈時(shí)刻"。

但有時(shí)，通過(guò)我們的集體智慧，人們會(huì)嘗試很多不同的事情，我們會(huì)分享信息，進(jìn)行評(píng)估，然后新的事情發(fā)生了，這種創(chuàng)造性的洞察力，然后它改變了整個(gè)世界，我們會(huì)利用這些知識(shí)并分享它。

因此，這是一個(gè)有趣的過(guò)程。

Jürgen Schmidhuber：是的，確實(shí)如此。根據(jù)別人的發(fā)現(xiàn)，你也可以有"啊哈時(shí)刻"。當(dāng)愛(ài)因斯坦通過(guò)廣義相對(duì)論發(fā)現(xiàn)了物理學(xué)的巨大簡(jiǎn)化時(shí)，很多人都被深深吸引，并產(chǎn)生了這些內(nèi)在的"喜悅時(shí)刻"。一旦他們理解了其中的奧秘，通過(guò)這一個(gè)人的發(fā)現(xiàn)，世界突然變得簡(jiǎn)單了。

當(dāng)時(shí)發(fā)生了什么？我們看到的是一個(gè)以新穎方式壓縮數(shù)據(jù)的時(shí)刻。事實(shí)上，所有的科學(xué)都是一部數(shù)據(jù)壓縮的發(fā)展史?？茖W(xué)并不像我在1990年提出的那樣，只有這些生成對(duì)抗網(wǎng)絡(luò)，其中的控制器只是試圖最大化與預(yù)測(cè)機(jī)試圖最小化的相同誤差函數(shù)。因此，主題預(yù)測(cè)器的誤差就是控制器的回報(bào)。這是一個(gè)相當(dāng)有限的人工科學(xué)家。

你真正想做的是讓一個(gè)控制器創(chuàng)建動(dòng)作序列，即通過(guò)實(shí)驗(yàn)來(lái)獲得數(shù)據(jù)，而不僅僅是不可預(yù)測(cè)的、令人驚訝的、對(duì)模型來(lái)說(shuō)誤差很大的數(shù)據(jù)。你想創(chuàng)建的數(shù)據(jù)具有模型所不具備的規(guī)律性。

不規(guī)則性意味著你可以壓縮數(shù)據(jù)。所以，讓我們以我最喜歡的例子--蘋(píng)果掉落的視頻為例。有人通過(guò)他的行動(dòng)和實(shí)驗(yàn)生成了這些掉落的蘋(píng)果視頻。結(jié)果發(fā)現(xiàn)，蘋(píng)果的掉落方式是相同的。你可以通過(guò)觀察視頻的前三幀來(lái)預(yù)測(cè)第四幀中的許多像素。盡管不是所有像素都可以預(yù)測(cè)，但許多像素的預(yù)測(cè)很準(zhǔn)確，因此不需要額外存儲(chǔ)。這樣，你可以大大壓縮掉落蘋(píng)果的視頻，這說(shuō)明編碼預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)可以非常簡(jiǎn)單，可能只需要幾位信息來(lái)描述，因?yàn)槟憧梢岳脤?duì)重力的了解來(lái)大幅壓縮視頻。最初，你可能需要很多兆字節(jié)來(lái)存儲(chǔ)數(shù)據(jù)，但由于你對(duì)重力有了深入了解，你只需要編碼模型預(yù)測(cè)的偏差。因此，如果模型很簡(jiǎn)單，你可以節(jié)省大量的數(shù)據(jù)存儲(chǔ)空間。這就是人們發(fā)現(xiàn)重力的方式。

MLST：你用蘋(píng)果的例子真的很有趣，因?yàn)樗屛以俅嗡伎加洃浐头夯年P(guān)系。在深度網(wǎng)絡(luò)中，我們使用歸納偏置，它們的形式是對(duì)稱(chēng)性和尺度分離。例如，我們可以進(jìn)行平移，即局部權(quán)重共享，從而實(shí)現(xiàn)平移等變性。這將允許模型使用更少的表示或容量來(lái)模擬不同位置的球。但是，這是否是一個(gè)連續(xù)的過(guò)程呢？因?yàn)槲覀兛梢砸恢弊叩阶詈?，最終我們會(huì)得到一個(gè)幾乎沒(méi)有自由度的模型，仍然可以表示蘋(píng)果的下落。但是，這在表示或保真度方面存在一個(gè)連續(xù)譜。

Jürgen Schmidhuber：是的。而且，你還必須考慮到將內(nèi)部演示轉(zhuǎn)化為有意義的行動(dòng)所需的時(shí)間。當(dāng)嬰兒看著下面這些蘋(píng)果時(shí)，他們?cè)谧鍪裁茨?？他們也在學(xué)習(xí)預(yù)測(cè)同步像素，這也是他們學(xué)習(xí)的方式，壓縮。

現(xiàn)在他們對(duì)數(shù)學(xué)的平方定律和描述許多不同物體的引力的簡(jiǎn)單的5符號(hào)定律一無(wú)所知。但原則上，他們知道這些蘋(píng)果掉落的速度會(huì)急劇加快。他們學(xué)習(xí)了這部分物理知識(shí)。

即使不能命名或?qū)⑵滢D(zhuǎn)化為符號(hào)，這不是目標(biāo)，但它可以極大地壓縮。在400年前，開(kāi)普勒還是一個(gè)嬰兒。他長(zhǎng)大了后看到了數(shù)據(jù)，行星環(huán)繞著太陽(yáng)。這是嘈雜的數(shù)據(jù)。但后來(lái)他突然意識(shí)到數(shù)據(jù)存在規(guī)律性，因?yàn)橐坏┠阋庾R(shí)到所有這些數(shù)據(jù)點(diǎn)都在橢圓上，你就可以極大地壓縮它們。有一個(gè)簡(jiǎn)單的數(shù)學(xué)定律，他能夠根據(jù)這個(gè)簡(jiǎn)單的洞察力做出各種預(yù)測(cè)。這些都是正確的。預(yù)測(cè)就是全部。

幾十年后，另一個(gè)家伙，牛頓，他看到下落的蘋(píng)果和這些橢圓上的行星，它們是由同一個(gè)簡(jiǎn)單的東西驅(qū)動(dòng)的。這說(shuō)明許多額外的簡(jiǎn)化和預(yù)測(cè)確實(shí)有效。

又過(guò)了300年左右，直到另一個(gè)人開(kāi)始擔(dān)心與預(yù)測(cè)的偏差，整個(gè)事情變得越來(lái)越糟。傳統(tǒng)的世界模型變得越來(lái)越丑，因?yàn)槟阈枰絹?lái)越多的信息來(lái)編碼這些與預(yù)測(cè)的偏差。因?yàn)槿绻氵h(yuǎn)遠(yuǎn)地觀察星星在做的事情，按照標(biāo)準(zhǔn)理論，它們?cè)谧鲆恍┎辉撟龅氖虑椤?/p>

然后他提出了這個(gè)超級(jí)簡(jiǎn)化的理論，很多人認(rèn)為它不簡(jiǎn)單，但它非常簡(jiǎn)單。你可以用一句話(huà)概括廣義相對(duì)論的本質(zhì)。它的基本意思是，不管你加速或減速有多難，或者你目前生活的環(huán)境中的重力有多大，光速總是看起來(lái)一樣的。

這就是廣義相對(duì)論背后的整個(gè)程序。如果你理解了這一點(diǎn)，你必須，你知道，學(xué)習(xí)十幾微積分來(lái)形式化它并從中推導(dǎo)出預(yù)測(cè)。但這只是基本洞察的副作用，它再次非常簡(jiǎn)單。所以這個(gè)非常簡(jiǎn)單的洞察再次允許大大壓縮數(shù)據(jù)。

所有的科學(xué)就是這樣，這就是數(shù)據(jù)壓縮進(jìn)步的歷史。

正如我們?cè)噲D構(gòu)建人工科學(xué)家一樣，我們正在做的就是這個(gè)。

每當(dāng)我們通過(guò)我們自己的數(shù)據(jù)收集程序，通過(guò)我們自己的實(shí)驗(yàn)，每當(dāng)我們生成具有以前未知規(guī)律性的數(shù)據(jù)，我們就會(huì)發(fā)現(xiàn)這種可壓縮性。因?yàn)槲覀冃枰芏嗤挥|和神經(jīng)元來(lái)存儲(chǔ)這些東西，但后來(lái)又不需要那么多。前后之間的差異，就是我們作為科學(xué)家的樂(lè)趣。

我們理解這個(gè)原理。我們只是構(gòu)建由相同愿望驅(qū)動(dòng)的人工科學(xué)家，旨在沿著這些方向最大化洞察力、數(shù)據(jù)壓縮和進(jìn)步。

我們已經(jīng)有了人工智能科學(xué)家。它們就像小型人工科學(xué)家，它們?yōu)樽约涸O(shè)定目標(biāo)，為了最大化科學(xué)獎(jiǎng)勵(lì)，它們樂(lè)于成為科學(xué)家。它們?cè)噲D發(fā)明實(shí)驗(yàn)，以獲得具有某種特性的數(shù)據(jù)顯示出數(shù)據(jù)中存在的規(guī)律，而這些規(guī)律它們之前并不知道，但可以提取出來(lái)。

它們意識(shí)到，不知道的規(guī)律實(shí)際上讓它們能夠通過(guò)更好地預(yù)測(cè)數(shù)據(jù)來(lái)壓縮數(shù)據(jù)，通過(guò)理解數(shù)據(jù)背后的規(guī)則來(lái)實(shí)現(xiàn)這一點(diǎn)，因此我們可以在人工系統(tǒng)中實(shí)現(xiàn)這些東西。

因此，我們已經(jīng)有了人工科學(xué)家，雖然它們的工作效果不如你所知道的ChatGPT，并且它的領(lǐng)域更為有限，僅僅是關(guān)于世界知識(shí)的處理。但這將會(huì)到來(lái)，它將改變一切。

LSTM和Transformer的演變及未來(lái)

MLST：盡管現(xiàn)代的大型語(yǔ)言模型如ChatGPT存在限制，但它們基于自注意力的Transformer是革命性的。你在大約三十年前就發(fā)表了首個(gè)Transformer變體，對(duì)此有何感想？它能做什么？

Jürgen Schmidhuber：1991年我發(fā)表了線(xiàn)性Transformer。這種線(xiàn)性Transformer實(shí)際上是一個(gè)神經(jīng)網(wǎng)絡(luò)，內(nèi)部包含許多非線(xiàn)性操作，并且計(jì)算需求很低。線(xiàn)性Transformer可以基于當(dāng)前聊天內(nèi)容來(lái)預(yù)測(cè)下一個(gè)詞。它學(xué)習(xí)生成“鍵”和“值”，并優(yōu)化注意力以減少預(yù)測(cè)錯(cuò)誤。它將存儲(chǔ)和控制分離，并通過(guò)梯度下降調(diào)整權(quán)重，提高預(yù)測(cè)準(zhǔn)確性。

MLST：你提到了1991年的那些突破。ChatGPT中有"T"（Transformer），還有"P"（預(yù)訓(xùn)練網(wǎng)絡(luò)），以及第一個(gè)生成對(duì)抗網(wǎng)絡(luò)，GAN。你能多說(shuō)一些嗎？

Jürgen Schmidhuber：1991年的工作為T(mén)ransformer和預(yù)訓(xùn)練網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。同時(shí)，我提出了GANs，通過(guò)生成網(wǎng)絡(luò)和預(yù)測(cè)機(jī)的互動(dòng)，讓機(jī)器人通過(guò)人工好奇心探索環(huán)境，這是深度學(xué)習(xí)和對(duì)抗學(xué)習(xí)的重要里程碑。

MLST：我還想談?wù)凩STM，因?yàn)樗舱Q生在1991年。

Jürgen Schmidhuber：對(duì)，我的學(xué)生會(huì)Sep Hochreiter在1991年提出了LSTM的早期概念。他通過(guò)引入殘差連接解決了梯度消失問(wèn)題，這項(xiàng)技術(shù)后來(lái)發(fā)展成為廣泛認(rèn)可的LSTM，并在1997年成為20世紀(jì)被引用最多的人工智能論文之一。

MLST：20世紀(jì)被引用最多的人工智能論文，你對(duì)此有何感想？

Jürgen Schmidhuber：LSTM的普及程度非常高，比如Facebook曾用它每天進(jìn)行超過(guò)40億次翻譯，這比YouTube上最火視頻《Baby Shark》的點(diǎn)擊量增長(zhǎng)還要快，顯示了LSTM在實(shí)際應(yīng)用中的廣泛影響力。

MLST：我聽(tīng)說(shuō)他正在研發(fā)一種更先進(jìn)的LSTM版本，X LSTMs，能分享一些細(xì)節(jié)嗎？

Jürgen Schmidhuber：在討論X LSTMs之前，我想指出，早期的大型語(yǔ)言模型，包括谷歌的一些模型，都是基于LSTM構(gòu)建的。直到2000年代末，基于注意力機(jī)制的Transformer才開(kāi)始成為主流。LSTM在某些方面比Transformer更高效，因?yàn)樗С志€(xiàn)性擴(kuò)展，而不是Transformer的二次方擴(kuò)展。

此外，值得注意的是，循環(huán)神經(jīng)網(wǎng)絡(luò)（如LSTM）可以解決許多Transformer無(wú)法處理的問(wèn)題。例如簡(jiǎn)單的奇偶性問(wèn)題，Transformer在泛化這一任務(wù)時(shí)表現(xiàn)不佳，而循環(huán)神經(jīng)網(wǎng)絡(luò)可以輕松解決這個(gè)問(wèn)題。

另一方面，Transformer比LSTM更容易進(jìn)行并行化，這一點(diǎn)非常重要，因?yàn)樗梢猿浞掷矛F(xiàn)代的大規(guī)模并行計(jì)算架構(gòu)，特別是Nvidia的GPU。

最近，Sep和他的團(tuán)隊(duì)開(kāi)發(fā)了X LSTM，它在多個(gè)語(yǔ)言處理基準(zhǔn)上超越了Transformer，并且具有線(xiàn)性而非四次方的計(jì)算復(fù)雜度。

X LSTMs還引入了矩陣記憶功能，這使得它們能夠存儲(chǔ)比傳統(tǒng)LSTM更多的信息。這種增強(qiáng)的記憶能力對(duì)于理解和處理復(fù)雜的文本語(yǔ)義至關(guān)重要。

此外，X LSTMs的某些版本支持高度并行化，這使得它們能夠更有效地利用現(xiàn)代計(jì)算資源。

總的來(lái)說(shuō)，X LSTMs旨在結(jié)合LSTM的序列處理優(yōu)勢(shì)和Transformer的可擴(kuò)展性，提供更強(qiáng)大的語(yǔ)言處理能力。

MLST：聽(tīng)說(shuō)你的LSTM技術(shù)被蘋(píng)果、微軟和谷歌等科技巨頭用于開(kāi)發(fā)語(yǔ)言模型，這是真的嗎？

Jürgen Schmidhuber：確實(shí)，許多早期的語(yǔ)言模型是基于LSTM的。例如，微軟的Tay聊天機(jī)器人，它通過(guò)不斷學(xué)習(xí)來(lái)改進(jìn)，但也曾因用戶(hù)重新訓(xùn)練而出現(xiàn)問(wèn)題。

LSTM沒(méi)有Transformer的某些限制，但并行化不如Transformer高效。

不過(guò)，我們開(kāi)發(fā)的新技術(shù)，如X LSTM，正在改變這一局面。

MLST：LSTM和共振流之間似乎有驚人的相似之處，尤其是在層間共享信息的概念上。這與你早期的“高速公路網(wǎng)絡(luò)”論文非常相似，能分享一下嗎？

Jürgen Schmidhuber：2015年，我們發(fā)表了高速公路網(wǎng)絡(luò)，它實(shí)際上是一個(gè)始終開(kāi)啟的門(mén)控網(wǎng)絡(luò)。共振流基本上是一個(gè)始終開(kāi)啟的高速公路網(wǎng)絡(luò)。高速公路網(wǎng)絡(luò)結(jié)合了前饋和循環(huán)結(jié)構(gòu)，使其能夠構(gòu)建非常深的網(wǎng)絡(luò)。這種設(shè)計(jì)是共振流的基礎(chǔ)，通過(guò)調(diào)整門(mén)控機(jī)制，可以實(shí)現(xiàn)不同的網(wǎng)絡(luò)行為。

MLST：關(guān)于深度學(xué)習(xí)模型中的深度問(wèn)題，我最近采訪了一些專(zhuān)家，他們提到深度網(wǎng)絡(luò)的某些神秘特性。你怎么看深度的作用及其重要性？

Jürgen Schmidhuber：深度網(wǎng)絡(luò)的效率和效果是一個(gè)復(fù)雜的話(huà)題。理論上，單層網(wǎng)絡(luò)可以通過(guò)增加隱藏單元來(lái)實(shí)現(xiàn)任何復(fù)雜的功能，但這需要大量的參數(shù)和數(shù)據(jù)。深層網(wǎng)絡(luò)通過(guò)較少的權(quán)重和參數(shù)，可以在訓(xùn)練集上實(shí)現(xiàn)良好的性能，并可能在測(cè)試集上有更好的泛化能力。這符合奧卡姆剃刀原則，即在模型復(fù)雜度和性能之間尋求最佳平衡。盡管深層網(wǎng)絡(luò)在實(shí)際應(yīng)用中表現(xiàn)出色，但其背后的理論仍在不斷發(fā)展中。

MLST：Daniel Roberts有一個(gè)探討了神經(jīng)網(wǎng)絡(luò)的寬度和深度，尋找最優(yōu)配置以?xún)?yōu)化訓(xùn)練。你對(duì)此了解嗎？

Jürgen Schmidhuber：我不太了解那篇特定的論文，但聽(tīng)起來(lái)他的研究是基于梯度下降的傳統(tǒng)學(xué)習(xí)算法。我們從90年代初就開(kāi)始研究如何找到簡(jiǎn)單解決方案的網(wǎng)絡(luò)，即具有低Kolmogorov復(fù)雜度的網(wǎng)絡(luò)。我們的目標(biāo)是找到能夠生成這些網(wǎng)絡(luò)的最短程序，這與超泛化有關(guān)，例如從極少的訓(xùn)練樣本中學(xué)習(xí)并泛化到更廣泛的情況。

MLST：你曾經(jīng)說(shuō)生成神經(jīng)網(wǎng)絡(luò)的程序應(yīng)該盡可能小，以達(dá)到最小描述長(zhǎng)度。

Jürgen Schmidhuber：是的，我在1994年的研究中首次探討了這一概念，尋找具有低Kolmogorov復(fù)雜度的解決方案。1997年，我進(jìn)一步研究了如何找到這樣的神經(jīng)網(wǎng)絡(luò)，不使用梯度下降，而是使用通用搜索原則。這種方法在程序空間中搜索，尋找能夠計(jì)算網(wǎng)絡(luò)權(quán)重矩陣的最短程序。這使得網(wǎng)絡(luò)能夠在測(cè)試集上以傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無(wú)法實(shí)現(xiàn)的方式泛化。盡管這種方法當(dāng)時(shí)難以擴(kuò)展，但現(xiàn)在我們有了更強(qiáng)的計(jì)算能力，可以重新考慮這些方法。

MLST：那么你能告訴我更多關(guān)于策略梯度的信息嗎？

Jürgen Schmidhuber：策略梯度在LSTM中的應(yīng)用非常重要，尤其是在需要記憶和決策的環(huán)境中，比如視頻游戲中。例如，DeepMind使用策略梯度訓(xùn)練的LSTM在星際爭(zhēng)霸游戲中戰(zhàn)勝了專(zhuān)業(yè)玩家，這比傳統(tǒng)的棋類(lèi)游戲更具挑戰(zhàn)性。這種技術(shù)使得LSTM能夠處理復(fù)雜的情境記憶和決策，這是監(jiān)督學(xué)習(xí)中的Transformer難以實(shí)現(xiàn)的。

MLST：聽(tīng)起來(lái)，像OpenAI和DeepMind這樣的主要人工智能實(shí)驗(yàn)室都在使用你們開(kāi)發(fā)的技術(shù)。

Jürgen Schmidhuber：確實(shí)，這些實(shí)驗(yàn)室的技術(shù)基礎(chǔ)深受我們研究的影響。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。