0
本文作者: 劉潔 | 2024-09-06 11:38 |
最近人工智能領(lǐng)域戰(zhàn)火紛飛,各種觀點打架。脾氣火爆的人工智能之父Jürgen Schmidhuber也不斷吐槽自己“被遺忘”了,不滿之余還不忘四處宣講自己全新的人工智能發(fā)展理念,誓要奪回大眾視線。
不久前,他就接受了Machine Learning Street(MLST)的一次獨家專訪,回憶了自己在深度學習和人工智能方面的開創(chuàng)性工作,分享他對智能機器未來的展望,還重點回顧了世界模型帶來的人工智能創(chuàng)新和LSTM和Transformer的開發(fā)及演變。
在Jürgen Schmidhuber看來,深度學習雖然不能解決像基礎(chǔ)理論改進一類的問題,但在大部分問題上都表現(xiàn)出了很高的實用性,尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)。
循環(huán)神經(jīng)網(wǎng)絡(luò)的強大之處在于,它本質(zhì)上是一臺通用計算機,所以理論上來任何能在計算機上執(zhí)行的計算任務(wù)都能在循環(huán)神經(jīng)網(wǎng)絡(luò)上進行。只需要增加存儲,就能讓循環(huán)神經(jīng)網(wǎng)絡(luò)處理更復(fù)雜的問題。
不過Jürgen Schmidhuber也說了,一開始自己的想法還是很天真的,想讓神經(jīng)網(wǎng)絡(luò)去模擬和預(yù)測未來的每一個小步驟,再從中挑選出能夠帶來最大回報的行動路徑。
Jürgen Schmidhuber也找到了這個繁瑣低效的流程的改進方式。他想把輸入的那一長串的行動序列都拆分成不同的塊,之后再以新的方式組合在一起。這樣一來,就可以在不同的情況下調(diào)用相同的塊,而不是再重新一步一步地預(yù)測抽取。
Jürgen Schmidhuber把這些理念和世界模型結(jié)合在了一起,讓世界模型去預(yù)測環(huán)境未來發(fā)展的情況通過建立模型來推斷下一個時刻的狀態(tài),并不斷優(yōu)化模型的表現(xiàn)。世界模型的結(jié)構(gòu)類似于人腦中的“心智模式”,是對外部世界的一種內(nèi)在模擬。
Jürgen Schmidhuber相信未來能夠構(gòu)建出一個足夠通用的系統(tǒng),讓系統(tǒng)能夠反復(fù)利用之前學習的內(nèi)容,從神經(jīng)網(wǎng)絡(luò)中學習更多的子程序,最終實現(xiàn)系統(tǒng)的自主學習。
Jürgen Schmidhuber還從世界模型的發(fā)展中領(lǐng)悟到一個特殊的觀點,整個科學史其實是一部數(shù)據(jù)壓縮發(fā)展史??茖W家們不斷地從數(shù)據(jù)簡化中發(fā)現(xiàn)新的科學技術(shù),再利用新的科學技術(shù)壓縮研究中面對的龐大數(shù)據(jù)。
在人工智能領(lǐng)域,這一現(xiàn)象更加明顯。通過收集和分析大量數(shù)據(jù),科學家們發(fā)現(xiàn)背后的規(guī)律,找到壓縮數(shù)據(jù)的方法,從而提升人工智能的能力。未來,人工智能將學會自主進行數(shù)據(jù)壓縮,理解數(shù)據(jù)背后的深層規(guī)則。
回顧人工智能的發(fā)展歷程,上世紀90年代年是個充滿奇跡的時期??梢哉f沒有那時候Jürgen Schmidhuber的種種發(fā)現(xiàn),就沒有現(xiàn)在火爆的生成式人工智能。
例如ChatGPT里的“G”(生成對抗網(wǎng)絡(luò))、“P”(自監(jiān)督預(yù)訓(xùn)練)、“T”(Transformer),無一不是基于Jürgen Schmidhuber及其團隊過去發(fā)表的成果。
1990年,Jürgen Schmidhuber提出了Adversarial Curiosity原則,包括一個生成器和一個預(yù)測器,讓兩個神經(jīng)網(wǎng)絡(luò)進行博弈和對抗。生成對抗網(wǎng)絡(luò)(GAN)就是基于這個原則誕生的。
一年后他提出了線性Transformer,奠定了Transformer的基本原理,現(xiàn)在火爆的大語言模型都建立在Transformer的基礎(chǔ)上。
那時Jürgen Schmidhuber也在深度學習策略方面實現(xiàn)了一個天才的想法,使用預(yù)測編碼來大大壓縮長序列,騰出空間讓深度學習變成可能。這也是大名鼎鼎的自監(jiān)督預(yù)訓(xùn)練的來源。
同樣在1991年,他的學生提出了早期的LSTM概念,兩人在1997年共同發(fā)表了LSTM的論文,這篇論文還成為了20世紀引用量最高的論文。
早期的大語言模型都是基于LSTM開發(fā)的,沒有Transformer的某些限制,但并行化上不如Transformer高效。
不過Jürgen Schmidhuber并未止步于此,他和他的團隊最近正在研發(fā)X LSTM,旨在打破這一局限,為人工智能領(lǐng)域帶來新的突破。通過這些創(chuàng)新,Schmidhuber不斷推動著人工智能的邊界,為我們展示了一個充滿可能性的未來。
以下是Jürgen Schmidhuber訪談的具體內(nèi)容,AI科技評論摘取精華內(nèi)容,作了不改原意的整理:
MLST:再次歡迎來到MLST,非常榮幸能有您參加節(jié)目。
Jürgen Schmidhuber:我的榮幸,感謝邀請我。
MLST:你認為未來人工智能技術(shù)的突破會減少計算量嗎?我上周采訪了ARC challenge的獲勝者Jack Cole,他認為我們需要離散程序合成,需要可能是神經(jīng)引導(dǎo)的符號人工智能或神經(jīng)符號人工智能。他還提到神經(jīng)網(wǎng)絡(luò)是“寬但淺”,而符號方法是“狹窄但深入”。你對此有什么看法?
Jürgen Schmidhuber:我完全同意。深度學習無法解決計算機科學中的很多問題,例如基礎(chǔ)理論改進。深度搜索樹更能確保新定理的正確性。雖然深度學習可以用來尋找捷徑或識別模式。有很多問題可以通過非深度學習的方法更快更高效地解決。例如符號操作,當前的語言模型在遇到符號操作問題時,也是調(diào)用傳統(tǒng)的符號計算方法來解決。
MLST:確實,我們常說神經(jīng)網(wǎng)絡(luò)是有限狀態(tài)自動機,而不是圖靈機。多年來,LeCun和Hinton等人試圖反駁這個觀點,他們認為神經(jīng)網(wǎng)絡(luò)原則上可以進行符號抽象操作。但你認為它們有很明顯的區(qū)別,對嗎?
Jürgen Schmidhuber:是的,循環(huán)網(wǎng)絡(luò)就是一臺通用計算機,所以原則上你可以在循環(huán)網(wǎng)絡(luò)中計算任何在筆記本電腦上可以計算的東西。
MLST:一篇1995年的論文證明了這一點,它使用了任意精度,似乎有些作弊,通過增加權(quán)重的精度來假裝是圖靈機。
Jürgen Schmidhuber:你指的是Siegelmann的論文?那篇論文的論點不太有說服力,因為它需要對權(quán)重進行無限精確的計算。循環(huán)網(wǎng)絡(luò)作為通用計算機的證明并非那么簡單,但它確實表明在這些網(wǎng)絡(luò)中可以實現(xiàn)NAND門。因此,任何筆記本電腦可以做的事情,循環(huán)網(wǎng)絡(luò)也可以做到。
MLST:我同意,但很多人會提出圖靈機可以通過擴展內(nèi)存處理潛在無限數(shù)量的情況,這是否意味著圖靈機提供了更多的可能性?
Jürgen Schmidhuber:這只是一個理論。圖靈機是圖靈在1931年提出的,用來討論計算和人工智能的基本限制。圖靈機的理論構(gòu)造與現(xiàn)實可以構(gòu)建的東西無關(guān)。在現(xiàn)實世界中,所有計算機都是有限狀態(tài)的自動機。
MLST:理論上,Python解釋器可以執(zhí)行無限多的程序,而神經(jīng)網(wǎng)絡(luò)只能識別它們訓(xùn)練過的有限事物,這是兩者的根本區(qū)別。
Jürgen Schmidhuber:理論上是這樣,但在實際操作中,因為存儲空間有限,所有計算設(shè)備都受限于有限狀態(tài)自動機。我們能實現(xiàn)的,是由循環(huán)神經(jīng)網(wǎng)絡(luò)代表的有限狀態(tài)自動機。有些任務(wù),比如乘法運算或定理證明,某些自動機更高效。
這些自動機看似簡單,但在神經(jīng)網(wǎng)絡(luò)中實現(xiàn)并不直觀。理論上,它們是等價的,但在實用計算中,沒有超越有限狀態(tài)自動機的優(yōu)越性。大多數(shù)實際問題都很簡單,只需要有限存儲和計算能力即可。
因此,我們專注于用循環(huán)神經(jīng)網(wǎng)絡(luò)或Transformer解決實際問題。
MLST:希拉里·普特南提到過多重實現(xiàn)性,任何計算都可以用不同的物理系統(tǒng)來表示。在我看來,多重實現(xiàn)性的奇妙之處在于其表示和概括能力。這種方式是人工智能的一種理想形式,可以通過緊湊的符號表示處理可能在無限多種情境下工作的事物,而不是單純記住所有不同的操作方式。
Jürgen Schmidhuber:是的,但是這個概念很難劃定邊界。
我們在討論奇偶校驗問題之前,就明確了一點,Transformer無法學習奇偶校驗的邏輯。奇偶校驗是一個簡單的問題,就是判斷一串二進制數(shù)字中是奇數(shù)還是偶數(shù)。
要解決這個問題,你需要逐個讀取位,你就有了一個很小的循環(huán)網(wǎng)絡(luò),只有一個從隱藏單元到自身的偵察連接。每當一個新單元進入,內(nèi)部狀態(tài)就會在1.0和0.0之間翻轉(zhuǎn)。這個類似小邏輯電路的東西能解決Transformer解決不了的奇偶校驗問題,循環(huán)神經(jīng)網(wǎng)絡(luò)當然也能做到。
這就是我從80年代開始對循環(huán)神經(jīng)網(wǎng)絡(luò)著迷的原因,因為它們在通用計算的意義上是通用的,只需在需要時增加存儲,就能處理更復(fù)雜的問題。
MLST:我認為,RNN作為計算模型的基礎(chǔ)和它作為可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實際用途是有區(qū)別的。因為1991年的那篇論文表明,RNN不能通過梯度下降進行訓(xùn)練,而只是以一種特殊的方式輸入信息,使它表現(xiàn)得像圖靈機。我們希望它們不僅可訓(xùn)練,而且有實際用處。
Jürgen Schmidhuber:確實,這就是一個問題。一個學習奇偶校驗的小網(wǎng)絡(luò)只有5個連接,梯度下降并不適用。
最好的辦法是隨機初始化權(quán)重,如果解決了訓(xùn)練樣本的奇偶校驗,它幾乎肯定能泛化到所有長度。這個小網(wǎng)絡(luò)比前饋網(wǎng)絡(luò)更強大,如果訓(xùn)練一個前饋網(wǎng)絡(luò)解決9位奇偶校驗,它無法泛化到10位或11位,而這個小網(wǎng)絡(luò)可以泛化到任何類型的奇偶校驗輸入。
我們有一個非傳統(tǒng)的學習算法,就是隨機搜索權(quán)重,只需嘗試1000次,看是否解決了訓(xùn)練集中的問題。1997年的LSTM論文中也提到,有些問題不適合梯度下降學習,離散程序搜索可能更合適。權(quán)重矩陣是網(wǎng)絡(luò)的程序,梯度下降有時會陷入困境,而其他搜索方法可以找到你真正需要的權(quán)重設(shè)置。
從1987年以來的研究來看,我們的研究涵蓋了很多象征性的算法,這些算法專注于漸近最優(yōu)問題解決者,如2003年的OOPS,這些算法與神經(jīng)網(wǎng)絡(luò)無關(guān)。但神經(jīng)網(wǎng)絡(luò)在很多實際問題上表現(xiàn)良好,即使沒有理論證明。這兩種方法的界限很難劃定,因為它們之間的區(qū)別已經(jīng)越來越模糊了。
在90年代初,我們有子目標生成器,可以做一些像是符號化的事,但其實是通過系統(tǒng)中的梯度下降實現(xiàn)的。
這個系統(tǒng)學會了把實現(xiàn)目標所必須執(zhí)行的動作序列分解成有意義的塊。這樣你就可以從開始到目標,然后從子目標到目標,所有看起來有點像符號化的事情。
但現(xiàn)在我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)也能實現(xiàn),并且甚至可以通過梯度下降來對齊。當然我們也碰到了其他問題導(dǎo)致梯度下降失敗。所以你不會考慮把梯度下降當作能解決所有問題的萬能方法。這并是神經(jīng)網(wǎng)絡(luò)的問題,因為神經(jīng)網(wǎng)絡(luò)可以用許多非梯度下降的方法來訓(xùn)練。
MLST:這是一個有趣的觀點。你職業(yè)生涯中花了很多時間研究元學習,這涉及更高階的學習方法。正如你提到的,在元學習中可以混合多種模式,比如隨機梯度上升、符號模式以及復(fù)雜的元推理模式。對于目前進行arc挑戰(zhàn)的人,他們在進行離散程序搜索,有的嘗試在頂層使用元模式的神經(jīng)搜索或完全不同的方法。你認為應(yīng)該怎么做?
Jürgen Schmidhuber:你需要看具體問題的性質(zhì)。雖然我沒有研究所有問題,但我確信,很多問題可以用類似最優(yōu)順序問題的方法來解決。這是一種漸進的最優(yōu)方式,找到解決計算問題的程序,使驗證時間與解決方案大小呈線性關(guān)系。
這是一個重要的概念,與P和NP問題有關(guān)。有一種最優(yōu)的方法進行程序搜索,類似1973年的通用搜索算法。最優(yōu)順序問題求解器基于這種方法,以漸進最優(yōu)的方式解決新問題,利用先前問題的解決方案。這種方法并不局限于神經(jīng)網(wǎng)絡(luò)或深度學習領(lǐng)域,但你可以將神經(jīng)網(wǎng)絡(luò)用作基本指令,并測量其運行時間。最優(yōu)的運行方式是將時間分配給測試程序,優(yōu)先考慮簡單和快速的方法。
這些程序可以包含各種原始指令,比如Transformer的反向傳播等,但需要測量其運行時間。如果消耗時間過多,就要中斷程序并調(diào)整分配時間,尋找易于驗證的解決方案。雖然這些看起來很符號化,但我在90年代已經(jīng)將這些原則應(yīng)用于神經(jīng)網(wǎng)絡(luò)。
這其實是另一種搜索神經(jīng)網(wǎng)絡(luò)權(quán)重的方法,不是通過梯度下降,而是更智能的方法。如果運氣好的話,還能帶來更好的泛化效果。因為這些方法能夠找到解決問題的最短、最快的方式,最小化算法復(fù)雜性或Kolmogorov復(fù)雜性。
這些方法在神經(jīng)網(wǎng)絡(luò)的運行時間限制下,有助于更好的泛化。因此,傳統(tǒng)的符號推理、程序搜索和神經(jīng)網(wǎng)絡(luò)之間存在一定的重疊。
MLST:那么,技術(shù)行業(yè)是否試圖挖走你的團隊?
Jürgen Schmidhuber:他們確實這樣做了。他們當然試圖挖走我的合作者。
例如,在2010年和2011年,當我們在神經(jīng)網(wǎng)絡(luò)上取得快速轉(zhuǎn)化的成功時,蘋果確實成功地挖走了我一位獲獎團隊成員。有些人認為蘋果在深度GPU CNN領(lǐng)域來得太晚,但并非如此,他們在這一領(lǐng)域商業(yè)化后就積極參與了。
而谷歌DeepMind是由我實驗室的一名學生和其他人共同創(chuàng)辦的,他們的第一位員工是我的另一位博士生。后來,他們還聘用了我的許多博士后和博士生。
MLST:順便說一句,前幾天我在推特上看到一個有趣的段子,一位女士說:“我不想讓人工智能為我完成我的藝術(shù)創(chuàng)作,我想讓它洗碗?!?/strong>
Jürgen Schmidhuber:這就是我媽媽在70年代說過的話。她說,“給我造一個能洗碗的機器人?!?/p>
MLST:是的,沒錯。但我想要探討的是,為什么人們會認為ChatGPT正在走向通用人工智能(AGI)?
而我看它時,覺得它只是一個數(shù)據(jù)庫。它沒有知識獲取,因此沒有推理能力。它沒有創(chuàng)造力,也沒有自主性。它沒有我們所擁有的許多認知特征。
然而,人們卻對它產(chǎn)生了興趣,要么是故意將其擬人化,要么是自我欺騙,或者他們真的看到了什么。
你認為這可以用什么來解釋呢?
Jürgen Schmidhuber:在我看來,情況是那些對AGI保持懷疑態(tài)度的人質(zhì)疑了幾十年,被ChatGPT的誕生說服,轉(zhuǎn)而相信和之前相反的觀點。因為突然之間,你有了一臺在圖靈測試中表現(xiàn)得非常好的機器。
他們認為,AGI來了。但我認為所有因為ChatGPT和其他大型語言模型而開始擔心AGI的人,主要是因為他們不太了解人工智能,不了解背后的神經(jīng)網(wǎng)絡(luò)的局限性。今天我們已經(jīng)提到過一些這些神經(jīng)網(wǎng)絡(luò)根本做不到的事情。
實際上有點奇怪的是,我多年來一直在倡導(dǎo),或者說在炒作AGI。我在70年代告訴我媽媽,在我有生之年AGI一定會實現(xiàn)的。在80年代,我所有的同事都認為我瘋了。
但突然,很多不相信我的預(yù)測的人改變了自己的想法,只是因為ChatGPT的出現(xiàn),他們就開始認為離AGI已經(jīng)很近了。
我認為唯一的原因是他們并沒有真正理解這些大型語言模型的本質(zhì)和局限性。
MLST:我明白,但我無法理解這一點。因為其中許多人,特別是在硅谷的那些人,他們在技術(shù)行業(yè)工作,他們正在研究這項技術(shù),他們卻不了解機器學習是如何工作的。我只能理解為有時你會碰到一些非常聰明的人,在其他方面卻容易被迷惑,或者說,一定有什么東西可以解釋他們?yōu)槭裁纯床坏竭@一點。
我的意思是,這些都是機器學習模型,它們只能將參數(shù)化的曲線擬合到數(shù)據(jù)分布中,在密度大的地方效果很好,而在密度小的地方效果就不好了。為什么他們會認為這是神奇的呢?
Jürgen Schmidhuber:也許是因為他們中的許多人都是風險投資家。他們被一些正在成立初創(chuàng)公司的科學家所說服,這些科學家聲稱他們的新初創(chuàng)公司非常接近成功,需要大量投資。
因此,我認為產(chǎn)生這種誤解的一個原因是,一些機器學習研究人員過度夸大了當前大型語言模型的能力。而風險投資家并不了解實際上發(fā)生的事情,他們只是試圖找出將錢投在哪里,并愿意跳上任何額外的炒作列車。
AGI是可能的,它將會到來,而且他們不是那么遙遠的未來,但它將只把大語言模型作為一個子模塊,因為通用人工智能的核心目標是完全不同的東西,它更接近強化學習。
現(xiàn)在你可以作為一個強化學習者從監(jiān)督學習中獲得很多好處。例如,你可以構(gòu)建一個世界的預(yù)測模型。你可以利用這個模型,這個模型可能是由與語言模型相同的基礎(chǔ)模型構(gòu)建的,你可以在這個世界模型中使用它來規(guī)劃未來的行動序列。
但現(xiàn)在情況確實不同了?,F(xiàn)在你需要有一些具體化的人工智能,比如機器人,在現(xiàn)實世界中運行。在現(xiàn)實世界中,你可以做到在電子游戲中做到的事情。在電子游戲中,你可以做一萬億次模擬,一萬億次試驗來優(yōu)化你的表現(xiàn)。每次你被擊中后,你又會復(fù)活。
現(xiàn)在,在現(xiàn)實世界中,你有一臺機器人,你做了三次簡單試驗后,一個手指的肌腱就斷了。你必須應(yīng)對現(xiàn)實世界中類似這樣的令人難以置信的挫折,也必須做好現(xiàn)實世界的執(zhí)行規(guī)劃來減少問題的出現(xiàn)。
你需要通過與世界的互動,對未來進行心理規(guī)劃,從而優(yōu)化你的表現(xiàn)。但當你通過行動收集新的訓(xùn)練示例時,也要非常高效。因為你希望最大限度地減少獲取新數(shù)據(jù)的工作量,以改善你的世界模型(你正在使用這些數(shù)據(jù)進行規(guī)劃)。
簡而言之,我現(xiàn)在提到的這些非常重要,而且有幾個提到的組件還不能達到比較好的工作效果。不過現(xiàn)有的神經(jīng)網(wǎng)絡(luò)可以以某種方式作為稍大系統(tǒng)的組件,來完成所有的任務(wù)。
這類系統(tǒng)的首次出現(xiàn)可以追溯到1990年,當時我可能是第一個在循環(huán)神經(jīng)網(wǎng)絡(luò)研究中使用“世界模型”這個詞的人,試圖為最大化獎勵的控制器規(guī)劃動作序列。但是這些更復(fù)雜的問題解決者和決策者與僅僅使用大型語言模型是有很大不同的。
Jürgen“世界模型”的結(jié)構(gòu)圖。來源:Jürgen與David Ha2018年發(fā)表的論文《World Models》
MLST:是的,我讀過你和David Ha的論文,那是好幾年前的事了。他是第一個使用基于想象力的強化學習模型來玩電腦游戲的人。
不過這是題外話。我想說的是,現(xiàn)在在硅谷,你只需要1000行代碼就能訓(xùn)練神經(jīng)網(wǎng)絡(luò),而且很容易就能賺到大把鈔票,擁有很高的地位。他們?yōu)槭裁催€要做其他事情呢?這是一個例子。
你已經(jīng)做了三分之一個世紀的工作,你也已經(jīng)考慮了下一步,我不知道他們是否只是在淡化這一點。他們?yōu)槭裁床蝗プ瞿切├щy的部分呢?也許是因為現(xiàn)在生活太輕松了,只要說著這就是AGI就夠了。
Jürgen Schmidhuber:是的,我猜許多現(xiàn)在過度炒作AGI的人正在為他們的下一個公司尋找融資,也有足夠多的容易上當受騙的風險投資者想要跳上這臺“大馬車”。
另一方面,我們目前擁有的技術(shù)遠遠超出了純粹的語言模型,原則上來說足以完成下一步工作。
就像我說的那樣,用來創(chuàng)建語言模型的技術(shù)也可以用來創(chuàng)建世界模型。重點在于,你如何學會以層次化、高效的方式使用這個世界模型來規(guī)劃導(dǎo)致成功的行動序列。你有一個想要解決的問題,但你不知道如何解決,也沒有人類老師的幫助。現(xiàn)在你想通過自己的實驗和這些心理規(guī)劃程序來弄清楚如何解決這個問題。
1990年,我們選擇了一種錯誤的、天真的方式想要解決這件事。我們建立了循環(huán)網(wǎng)絡(luò)控制器和循環(huán)網(wǎng)絡(luò)世界模型,用于規(guī)劃。我們做的是天真的事情,也就是一毫秒一毫秒地規(guī)劃。這意味著你要模擬你可能的未來的每一個小步驟,并且試圖在你的心理模擬中選擇一個你會獲得大量預(yù)測獎勵的步驟。這太愚蠢了,不是人類做事的方式。
當人類遇到一個問題,比如“我怎樣才能從這里到達北京?”時,他們會將問題分解成子目標。例如,他們會說:“好吧,首先……”但是,他們不會像這樣一步一步地計劃。他們不會說:“好的,首先我激活我的小指,然后……”他們會抓起手機,然后打車,然后在機場辦理登機手續(xù),接下來九個小時都不會發(fā)生什么,直到在北京下車。
所以,你并不是一毫秒一毫秒地模擬所有這些可能的幾率。
目前大多數(shù)強化學習仍在一步一步地進行模擬,例如,在國際象棋或圍棋中,你確實在對這些可能的未來進行蒙特卡洛采樣,然后選出一個看起來有希望的未來,你的世界模型會隨著時間的推移不斷改進,即使你做出了錯誤的決定,至少世界模型會變得更好。這樣,下次你就能做出更明智的決定。
但回到1990年,我們只能說這還不夠好。我們必須學習子調(diào)用。我們必須將這些長長的行動序列分解成塊。我們必須將整個輸入流分解成塊,將這些塊以某種方式分開,這些塊的抽象表示應(yīng)該是不同的,但它們對于這些特定序列是相似的。
然后你可以使用這些自適應(yīng)子代碼生成器,我們也在1990年有了,以一種新的方式將它們組合在一起,有效地和快速地解決你的問題。因為你正在引用你已經(jīng)學會的子程序,比如從這里到出租車站。
所以我們有那項技術(shù),但與我們后來在2015年所做的相比,它不夠聰明。
后來我們有了更好的方法來使用這些預(yù)測性野生模型,以抽象的方式進行規(guī)劃。因此,在2015年,我發(fā)表了論文《學會思考》,我認為這篇文章在今天仍然很重要,我想很多不知道這篇文章的人或許應(yīng)該讀一讀。
那么2015年的論文是關(guān)于什么的?
它關(guān)于一個強化學習機器,這個機器有一個世界預(yù)測模型。
這個模型試圖預(yù)測一切,但我們并不是真的對一切都感興趣。我們只是對它為了預(yù)測一切而創(chuàng)造的內(nèi)部表示感興趣。通常它不能預(yù)測一切,因為世界在許多方面都是不可預(yù)測的,但某些事情是可以預(yù)測的。而這些內(nèi)部表示中的一些變得真的可以預(yù)測,它包括你可以想象到的一切。
舉個例子,如果你必須正確預(yù)測這個像素,也許這取決于1000步之前發(fā)生的一些事情。因此,預(yù)測機的這些內(nèi)部表征,會隨著時間的推移而考慮到這一點。所以這些內(nèi)部分辨率它們會傳達與這個世界和這個特定像素相關(guān)的信息。但在跳轉(zhuǎn)時,你想以更聰明的方式進行規(guī)劃。
那要怎么做呢?控制器必須完成某項任務(wù),最大化它的回報。而不是一毫秒一毫秒地使用世界模型相反,它應(yīng)該忽略所有根本無法預(yù)測的東西,只關(guān)注這些抽象的、可預(yù)測的內(nèi)部概念,至于其他的,控制器必須了解它們是什么。
那又該如何學習呢?我能做什么?
你可以給它與世界模型的額外連接,讓它學會好奇地發(fā)送查詢。查詢只是數(shù)字向量,一開始,它不知道如何向這個野生模型發(fā)送好的查詢。然后,世界模型會反饋一些信息,因為你喚醒了一些內(nèi)部表征,這些信息會反饋回來。所以它們必須通過控制器所做的強化學習或類似的事情來學習。
因此,現(xiàn)在控制器本質(zhì)上是在通過說謊成為一個提示工程師。
那是我2015年的強化學習提示工程師,學習發(fā)送數(shù)據(jù)到墻模型,然后從角色模型中獲取數(shù)據(jù),這些數(shù)據(jù)在某種程度上應(yīng)該代表與之相關(guān)的算法信息。
因此,基本上控制器必須學習在這個龐大的世界模型中穿行,可能已經(jīng)看過所有YouTube視頻。有人必須學習以抽象的規(guī)劃方式處理這些內(nèi)部知識,并解釋返回的內(nèi)容。而AC測試是這個控制器是否能夠在沒有模型的情況下,通過將所有連接設(shè)置為零,或者通過某種方式學習到在世界模型中處理相關(guān)算法信息,這樣更便宜,從而更快地學習所需的內(nèi)容。
因此,學習是重要的。我相信這就是前進的方向。在機器人技術(shù)、強化學習、機器人及所有這些目前尚未有效的領(lǐng)域。
MLST:我可以回顧一下你前面說的一些事情嗎?因為你談到的抽象原則與生成對抗網(wǎng)絡(luò)非常相似,在這個游戲中你試圖增加算法信息或信息轉(zhuǎn)換率,我理解為粗化或抽象。
正如你所說,你從微觀動作空間開始,或者轉(zhuǎn)向動作抽象空間,在那里你實際上是在學習動作空間中的模式。這是有道理的,因為當你開車時,例如,你會考慮宏觀的東西,忽略路上的樹葉,你在考慮大局,你有這種粗化、這種分辨率的跳躍,取決于你如何看待問題。
根據(jù)我的理解,你正在學習思考,你剛才描述的控制器模式有點像是在建模這個過程。
Jürgen Schmidhuber:是的,這里的控制器只是試圖提取另一個網(wǎng)絡(luò)的算法信息,這個網(wǎng)絡(luò)可能接受過各種訓(xùn)練。
例如,正如我之前提到的,它可能是所有YouTube視頻的集合。在這些數(shù)十億的視頻中,有很多是關(guān)于人們?nèi)訓(xùn)|西的,比如機器人、籃球運動員、足球運動員等。
這些視頻包含了大量關(guān)于重力、世界運作方式以及三維特性的隱含信息。但控制器并不能直接訪問這些視頻隱含的信息。
控制器通過執(zhí)行器發(fā)送信號來進行操作,而這些執(zhí)行器可能與視頻中人類的操作方式不同,比如機器人只有三個手指而不是五個,但它們?nèi)匀辉谕粋€受重力影響的世界中工作。通過觀察這些視頻,我們可以學習如何在不同條件下進行操作,比如如何用三個手指進行查詢和提示。
你需要將這些觀察注入到世界模型中。你想要進行搜索,以解決模型中的關(guān)鍵問題,從而提取出控制器改進行為所需的有用信息。你可能只需要一些額外的信息,這些信息必須通過學習來獲得。
有些信息你不能立即用來提高投擲技能,但你可以稍微調(diào)整幾個參數(shù)位,這樣你就能比沒有這些參考信息時更快學會投擲球。在給定環(huán)境中找到正確的規(guī)劃算法,解決所有這些問題是非常復(fù)雜的,需要通過學習來實現(xiàn)。
你無法預(yù)先編程出一個完美的解決方案,因此你必須在特定的環(huán)境下學習,并考慮所有的資源限制,比如控制器中的神經(jīng)元數(shù)量和每毫秒的時間步數(shù)等。
你必須學習如何成為一個更好的提示工程師,發(fā)送正確的提示,并理解反饋的信息。
所以原則上,我認為這就是未來規(guī)劃、層次化和類比推理以及所有這些東西的核心。你需要構(gòu)建一個足夠通用的系統(tǒng),讓它能夠自主學習所有這些內(nèi)容。
這種方法不是像我早期在谷歌或博士后研究中那樣的通用規(guī)劃,而是更加實際的,能夠在有限資源和各種限制下運行的系統(tǒng)。在這種系統(tǒng)中,控制器需要學會如何更好地引導(dǎo)提示。
現(xiàn)在你給系統(tǒng)一系列問題,它可以重復(fù)利用之前學到的內(nèi)容,并不斷學習更多的子程序,這些子程序可以編碼在重構(gòu)的神經(jīng)網(wǎng)絡(luò)中。這些網(wǎng)絡(luò)是通用計算機,可以編碼所有層次化推理和子程序。原則上,它應(yīng)該能做得很好,但它并不像許多人癡迷的大型語言模型那樣的有限監(jiān)督技術(shù)一樣運行得很好。
MLST:是的,這是您又一次超越時代的思考。
一個月前,我采訪了一些多倫多的大學生,他們正在將控制理論應(yīng)用于大型語言模型提示,并用它來探索可達性空間。他們使用一個控制器來優(yōu)化語言模型的輸出,探索可能的標記空間。關(guān)鍵在于我們開始看到一種元架構(gòu),語言模型只是整個架構(gòu)的一部分。
我認為這種跳出思維定勢的思考方式真的非常有趣。
Jürgen Schmidhuber:是的,我們最近的一篇論文受到了2015年學習提示工程師的啟發(fā),就是我們的心智社會論文。我們不僅有控制器和一個模型,而是很多基礎(chǔ)模型。有些模型非常擅長計算機視覺,能從圖像中生成標題,另一些則擅長用自然語言回答問題。
現(xiàn)在你有一個由這些家伙組成的社會,你給他們一個他們無法單獨解決的問題,要求他們共同解決,那么他們會怎么做呢?
模型正在進行“頭腦風暴”。來源:Jürgen Schmidhuber等人2023年發(fā)表的論文《Mindstorms in Natural Language-Based Societies of Mind》
他們開始為彼此成為提示工程師。他們會進行一些我們稱之為“思維風暴”的活動。因為這個基于自然語言的思維社會的成員們在互相面試。你會怎么做,你建議我們應(yīng)該怎么做?
我們會有不同類型的社會。例如,我們有君主制,那里有一個國王,一個神經(jīng)網(wǎng)絡(luò)國王,根據(jù)下屬的建議決定接下來應(yīng)該做什么。我們還會有民主制,在這些不同的家伙之間有投票機制。他們把所有的想法都放在黑板上,吸收其他人的所有想法,最終得出一個通常相當令人信服的解決方案。
所以在各種應(yīng)用中,比如生成一個更好的圖像設(shè)計,展示那個或者在3D環(huán)境中操縱世界以實現(xiàn)某個目標等等,這種方式以一種開放的方式運作,并且打開了一系列新問題,比如,君主制是否比民主制更好?如果是的話,在什么條件下?反之亦然。
MLST:我感興趣的是,我認為獲取知識是一件非常重要的事情。比如,我在建立一家初創(chuàng)公司,我在建立一個YouTube頻道,我在學習如何剪輯視頻和做音頻工程等等。這其中有太多的嘗試和錯誤,因為推理、創(chuàng)造力和智慧就是要能有靈光一現(xiàn)的洞察力,并以這種令人難以置信的方式將你已有的許多知識組成一個整體。
當你看到它的時候,你就會有"啊哈"的一瞬間,然后你就再也看不到它了?,F(xiàn)在,它改變了你看待整個世界的方式。但有時也會有"啊哈時刻"。
但有時,通過我們的集體智慧,人們會嘗試很多不同的事情,我們會分享信息,進行評估,然后新的事情發(fā)生了,這種創(chuàng)造性的洞察力,然后它改變了整個世界,我們會利用這些知識并分享它。
因此,這是一個有趣的過程。
Jürgen Schmidhuber:是的,確實如此。根據(jù)別人的發(fā)現(xiàn),你也可以有"啊哈時刻"。當愛因斯坦通過廣義相對論發(fā)現(xiàn)了物理學的巨大簡化時,很多人都被深深吸引,并產(chǎn)生了這些內(nèi)在的"喜悅時刻"。一旦他們理解了其中的奧秘,通過這一個人的發(fā)現(xiàn),世界突然變得簡單了。
當時發(fā)生了什么?我們看到的是一個以新穎方式壓縮數(shù)據(jù)的時刻。事實上,所有的科學都是一部數(shù)據(jù)壓縮的發(fā)展史??茖W并不像我在1990年提出的那樣,只有這些生成對抗網(wǎng)絡(luò),其中的控制器只是試圖最大化與預(yù)測機試圖最小化的相同誤差函數(shù)。因此,主題預(yù)測器的誤差就是控制器的回報。這是一個相當有限的人工科學家。
你真正想做的是讓一個控制器創(chuàng)建動作序列,即通過實驗來獲得數(shù)據(jù),而不僅僅是不可預(yù)測的、令人驚訝的、對模型來說誤差很大的數(shù)據(jù)。你想創(chuàng)建的數(shù)據(jù)具有模型所不具備的規(guī)律性。
不規(guī)則性意味著你可以壓縮數(shù)據(jù)。所以,讓我們以我最喜歡的例子--蘋果掉落的視頻為例。有人通過他的行動和實驗生成了這些掉落的蘋果視頻。結(jié)果發(fā)現(xiàn),蘋果的掉落方式是相同的。你可以通過觀察視頻的前三幀來預(yù)測第四幀中的許多像素。盡管不是所有像素都可以預(yù)測,但許多像素的預(yù)測很準確,因此不需要額外存儲。這樣,你可以大大壓縮掉落蘋果的視頻,這說明編碼預(yù)測的神經(jīng)網(wǎng)絡(luò)可以非常簡單,可能只需要幾位信息來描述,因為你可以利用對重力的了解來大幅壓縮視頻。最初,你可能需要很多兆字節(jié)來存儲數(shù)據(jù),但由于你對重力有了深入了解,你只需要編碼模型預(yù)測的偏差。因此,如果模型很簡單,你可以節(jié)省大量的數(shù)據(jù)存儲空間。這就是人們發(fā)現(xiàn)重力的方式。
MLST:你用蘋果的例子真的很有趣,因為它讓我再次思考記憶和泛化的關(guān)系。在深度網(wǎng)絡(luò)中,我們使用歸納偏置,它們的形式是對稱性和尺度分離。例如,我們可以進行平移,即局部權(quán)重共享,從而實現(xiàn)平移等變性。這將允許模型使用更少的表示或容量來模擬不同位置的球。但是,這是否是一個連續(xù)的過程呢?因為我們可以一直走到最后,最終我們會得到一個幾乎沒有自由度的模型,仍然可以表示蘋果的下落。但是,這在表示或保真度方面存在一個連續(xù)譜。
Jürgen Schmidhuber:是的。而且,你還必須考慮到將內(nèi)部演示轉(zhuǎn)化為有意義的行動所需的時間。當嬰兒看著下面這些蘋果時,他們在做什么呢?他們也在學習預(yù)測同步像素,這也是他們學習的方式,壓縮。
現(xiàn)在他們對數(shù)學的平方定律和描述許多不同物體的引力的簡單的5符號定律一無所知。但原則上,他們知道這些蘋果掉落的速度會急劇加快。他們學習了這部分物理知識。
即使不能命名或?qū)⑵滢D(zhuǎn)化為符號,這不是目標,但它可以極大地壓縮。在400年前,開普勒還是一個嬰兒。他長大了后看到了數(shù)據(jù),行星環(huán)繞著太陽。這是嘈雜的數(shù)據(jù)。但后來他突然意識到數(shù)據(jù)存在規(guī)律性,因為一旦你意識到所有這些數(shù)據(jù)點都在橢圓上,你就可以極大地壓縮它們。有一個簡單的數(shù)學定律,他能夠根據(jù)這個簡單的洞察力做出各種預(yù)測。這些都是正確的。預(yù)測就是全部。
幾十年后,另一個家伙,牛頓,他看到下落的蘋果和這些橢圓上的行星,它們是由同一個簡單的東西驅(qū)動的。這說明許多額外的簡化和預(yù)測確實有效。
又過了300年左右,直到另一個人開始擔心與預(yù)測的偏差,整個事情變得越來越糟。傳統(tǒng)的世界模型變得越來越丑,因為你需要越來越多的信息來編碼這些與預(yù)測的偏差。因為如果你遠遠地觀察星星在做的事情,按照標準理論,它們在做一些不該做的事情。
然后他提出了這個超級簡化的理論,很多人認為它不簡單,但它非常簡單。你可以用一句話概括廣義相對論的本質(zhì)。它的基本意思是,不管你加速或減速有多難,或者你目前生活的環(huán)境中的重力有多大,光速總是看起來一樣的。
這就是廣義相對論背后的整個程序。如果你理解了這一點,你必須,你知道,學習十幾微積分來形式化它并從中推導(dǎo)出預(yù)測。但這只是基本洞察的副作用,它再次非常簡單。所以這個非常簡單的洞察再次允許大大壓縮數(shù)據(jù)。
所有的科學就是這樣,這就是數(shù)據(jù)壓縮進步的歷史。
正如我們試圖構(gòu)建人工科學家一樣,我們正在做的就是這個。
每當我們通過我們自己的數(shù)據(jù)收集程序,通過我們自己的實驗,每當我們生成具有以前未知規(guī)律性的數(shù)據(jù),我們就會發(fā)現(xiàn)這種可壓縮性。因為我們需要很多突觸和神經(jīng)元來存儲這些東西,但后來又不需要那么多。前后之間的差異,就是我們作為科學家的樂趣。
我們理解這個原理。我們只是構(gòu)建由相同愿望驅(qū)動的人工科學家,旨在沿著這些方向最大化洞察力、數(shù)據(jù)壓縮和進步。
我們已經(jīng)有了人工智能科學家。它們就像小型人工科學家,它們?yōu)樽约涸O(shè)定目標,為了最大化科學獎勵,它們樂于成為科學家。它們試圖發(fā)明實驗,以獲得具有某種特性的數(shù)據(jù)顯示出數(shù)據(jù)中存在的規(guī)律,而這些規(guī)律它們之前并不知道,但可以提取出來。
它們意識到,不知道的規(guī)律實際上讓它們能夠通過更好地預(yù)測數(shù)據(jù)來壓縮數(shù)據(jù),通過理解數(shù)據(jù)背后的規(guī)則來實現(xiàn)這一點,因此我們可以在人工系統(tǒng)中實現(xiàn)這些東西。
因此,我們已經(jīng)有了人工科學家,雖然它們的工作效果不如你所知道的ChatGPT,并且它的領(lǐng)域更為有限,僅僅是關(guān)于世界知識的處理。但這將會到來,它將改變一切。
MLST:盡管現(xiàn)代的大型語言模型如ChatGPT存在限制,但它們基于自注意力的Transformer是革命性的。你在大約三十年前就發(fā)表了首個Transformer變體,對此有何感想?它能做什么?
Jürgen Schmidhuber:1991年我發(fā)表了線性Transformer。這種線性Transformer實際上是一個神經(jīng)網(wǎng)絡(luò),內(nèi)部包含許多非線性操作,并且計算需求很低。線性Transformer可以基于當前聊天內(nèi)容來預(yù)測下一個詞。它學習生成“鍵”和“值”,并優(yōu)化注意力以減少預(yù)測錯誤。它將存儲和控制分離,并通過梯度下降調(diào)整權(quán)重,提高預(yù)測準確性。
MLST:你提到了1991年的那些突破。ChatGPT中有"T"(Transformer),還有"P"(預(yù)訓(xùn)練網(wǎng)絡(luò)),以及第一個生成對抗網(wǎng)絡(luò),GAN。你能多說一些嗎?
Jürgen Schmidhuber:1991年的工作為Transformer和預(yù)訓(xùn)練網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。同時,我提出了GANs,通過生成網(wǎng)絡(luò)和預(yù)測機的互動,讓機器人通過人工好奇心探索環(huán)境,這是深度學習和對抗學習的重要里程碑。
MLST:我還想談?wù)凩STM,因為它也誕生在1991年。
Jürgen Schmidhuber:對,我的學生會Sep Hochreiter在1991年提出了LSTM的早期概念。他通過引入殘差連接解決了梯度消失問題,這項技術(shù)后來發(fā)展成為廣泛認可的LSTM,并在1997年成為20世紀被引用最多的人工智能論文之一。
MLST:20世紀被引用最多的人工智能論文,你對此有何感想?
Jürgen Schmidhuber:LSTM的普及程度非常高,比如Facebook曾用它每天進行超過40億次翻譯,這比YouTube上最火視頻《Baby Shark》的點擊量增長還要快,顯示了LSTM在實際應(yīng)用中的廣泛影響力。
MLST:我聽說他正在研發(fā)一種更先進的LSTM版本,X LSTMs,能分享一些細節(jié)嗎?
Jürgen Schmidhuber:在討論X LSTMs之前,我想指出,早期的大型語言模型,包括谷歌的一些模型,都是基于LSTM構(gòu)建的。直到2000年代末,基于注意力機制的Transformer才開始成為主流。LSTM在某些方面比Transformer更高效,因為它支持線性擴展,而不是Transformer的二次方擴展。
此外,值得注意的是,循環(huán)神經(jīng)網(wǎng)絡(luò)(如LSTM)可以解決許多Transformer無法處理的問題。例如簡單的奇偶性問題,Transformer在泛化這一任務(wù)時表現(xiàn)不佳,而循環(huán)神經(jīng)網(wǎng)絡(luò)可以輕松解決這個問題。
另一方面,Transformer比LSTM更容易進行并行化,這一點非常重要,因為它可以充分利用現(xiàn)代的大規(guī)模并行計算架構(gòu),特別是Nvidia的GPU。
最近,Sep和他的團隊開發(fā)了X LSTM,它在多個語言處理基準上超越了Transformer,并且具有線性而非四次方的計算復(fù)雜度。
X LSTMs還引入了矩陣記憶功能,這使得它們能夠存儲比傳統(tǒng)LSTM更多的信息。這種增強的記憶能力對于理解和處理復(fù)雜的文本語義至關(guān)重要。
此外,X LSTMs的某些版本支持高度并行化,這使得它們能夠更有效地利用現(xiàn)代計算資源。
總的來說,X LSTMs旨在結(jié)合LSTM的序列處理優(yōu)勢和Transformer的可擴展性,提供更強大的語言處理能力。
MLST:聽說你的LSTM技術(shù)被蘋果、微軟和谷歌等科技巨頭用于開發(fā)語言模型,這是真的嗎?
Jürgen Schmidhuber:確實,許多早期的語言模型是基于LSTM的。例如,微軟的Tay聊天機器人,它通過不斷學習來改進,但也曾因用戶重新訓(xùn)練而出現(xiàn)問題。
LSTM沒有Transformer的某些限制,但并行化不如Transformer高效。
不過,我們開發(fā)的新技術(shù),如X LSTM,正在改變這一局面。
MLST:LSTM和共振流之間似乎有驚人的相似之處,尤其是在層間共享信息的概念上。這與你早期的“高速公路網(wǎng)絡(luò)”論文非常相似,能分享一下嗎?
Jürgen Schmidhuber:2015年,我們發(fā)表了高速公路網(wǎng)絡(luò),它實際上是一個始終開啟的門控網(wǎng)絡(luò)。共振流基本上是一個始終開啟的高速公路網(wǎng)絡(luò)。高速公路網(wǎng)絡(luò)結(jié)合了前饋和循環(huán)結(jié)構(gòu),使其能夠構(gòu)建非常深的網(wǎng)絡(luò)。這種設(shè)計是共振流的基礎(chǔ),通過調(diào)整門控機制,可以實現(xiàn)不同的網(wǎng)絡(luò)行為。
MLST:關(guān)于深度學習模型中的深度問題,我最近采訪了一些專家,他們提到深度網(wǎng)絡(luò)的某些神秘特性。你怎么看深度的作用及其重要性?
Jürgen Schmidhuber:深度網(wǎng)絡(luò)的效率和效果是一個復(fù)雜的話題。理論上,單層網(wǎng)絡(luò)可以通過增加隱藏單元來實現(xiàn)任何復(fù)雜的功能,但這需要大量的參數(shù)和數(shù)據(jù)。深層網(wǎng)絡(luò)通過較少的權(quán)重和參數(shù),可以在訓(xùn)練集上實現(xiàn)良好的性能,并可能在測試集上有更好的泛化能力。這符合奧卡姆剃刀原則,即在模型復(fù)雜度和性能之間尋求最佳平衡。盡管深層網(wǎng)絡(luò)在實際應(yīng)用中表現(xiàn)出色,但其背后的理論仍在不斷發(fā)展中。
MLST:Daniel Roberts有一個探討了神經(jīng)網(wǎng)絡(luò)的寬度和深度,尋找最優(yōu)配置以優(yōu)化訓(xùn)練。你對此了解嗎?
Jürgen Schmidhuber:我不太了解那篇特定的論文,但聽起來他的研究是基于梯度下降的傳統(tǒng)學習算法。我們從90年代初就開始研究如何找到簡單解決方案的網(wǎng)絡(luò),即具有低Kolmogorov復(fù)雜度的網(wǎng)絡(luò)。我們的目標是找到能夠生成這些網(wǎng)絡(luò)的最短程序,這與超泛化有關(guān),例如從極少的訓(xùn)練樣本中學習并泛化到更廣泛的情況。
MLST:你曾經(jīng)說生成神經(jīng)網(wǎng)絡(luò)的程序應(yīng)該盡可能小,以達到最小描述長度。
Jürgen Schmidhuber:是的,我在1994年的研究中首次探討了這一概念,尋找具有低Kolmogorov復(fù)雜度的解決方案。1997年,我進一步研究了如何找到這樣的神經(jīng)網(wǎng)絡(luò),不使用梯度下降,而是使用通用搜索原則。這種方法在程序空間中搜索,尋找能夠計算網(wǎng)絡(luò)權(quán)重矩陣的最短程序。這使得網(wǎng)絡(luò)能夠在測試集上以傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無法實現(xiàn)的方式泛化。盡管這種方法當時難以擴展,但現(xiàn)在我們有了更強的計算能力,可以重新考慮這些方法。
MLST:那么你能告訴我更多關(guān)于策略梯度的信息嗎?
Jürgen Schmidhuber:策略梯度在LSTM中的應(yīng)用非常重要,尤其是在需要記憶和決策的環(huán)境中,比如視頻游戲中。例如,DeepMind使用策略梯度訓(xùn)練的LSTM在星際爭霸游戲中戰(zhàn)勝了專業(yè)玩家,這比傳統(tǒng)的棋類游戲更具挑戰(zhàn)性。這種技術(shù)使得LSTM能夠處理復(fù)雜的情境記憶和決策,這是監(jiān)督學習中的Transformer難以實現(xiàn)的。
MLST:聽起來,像OpenAI和DeepMind這樣的主要人工智能實驗室都在使用你們開發(fā)的技術(shù)。
Jürgen Schmidhuber:確實,這些實驗室的技術(shù)基礎(chǔ)深受我們研究的影響。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。