0
本文作者: 劉欣 | 2025-09-28 11:10 |
在剛剛落幕的 RL China 2025 開幕式上,倫敦大學(xué)學(xué)院(UCL)汪軍教授與圖靈獎(jiǎng)得主、“強(qiáng)化學(xué)習(xí)之父” Richard Sutton 展開了一場(chǎng)跨越地域的思想對(duì)話,從強(qiáng)化學(xué)習(xí)(RL)的學(xué)科根基出發(fā),共探智能的本質(zhì)與未來方向。
汪軍教授深耕智能信息系統(tǒng)領(lǐng)域多年,現(xiàn)任 UCL 計(jì)算機(jī)系教授,Turing Fellow,是華人強(qiáng)化學(xué)習(xí)社區(qū) RL China 的聯(lián)合發(fā)起人。RL China 是由全球華人學(xué)者與強(qiáng)化學(xué)習(xí)相關(guān)從業(yè)者共同發(fā)起的非盈利性學(xué)術(shù)與技術(shù)交流平臺(tái),致力于推動(dòng)強(qiáng)化學(xué)習(xí)及決策智能領(lǐng)域的研究、應(yīng)用與教育。
Richard Sutton 是強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基者,這位美國(guó)計(jì)算機(jī)科學(xué)家現(xiàn)任阿爾伯塔大學(xué)計(jì)算機(jī)學(xué)教授,因提出時(shí)序差分學(xué)習(xí)、策略梯度方法等核心理論,被公認(rèn)為 “現(xiàn)代強(qiáng)化學(xué)習(xí)之父”。2024 年,他斬獲計(jì)算機(jī)領(lǐng)域最高榮譽(yù)——圖靈獎(jiǎng),這一獎(jiǎng)項(xiàng)不僅是對(duì)其在算法創(chuàng)新與基礎(chǔ)研究中突出貢獻(xiàn)的認(rèn)可,更標(biāo)志著強(qiáng)化學(xué)習(xí)作為 AI 核心分支的價(jià)值與影響力,以及整個(gè) RL 研究社區(qū)為人工智能發(fā)展奠定的基礎(chǔ)。
Richard 在對(duì)話中坦言:當(dāng)前人工智能行業(yè)的快速擴(kuò)張雖改變了人們從事的工作與生活感知,卻也在一定程度上分散了對(duì)基礎(chǔ)科學(xué)的關(guān)注,這對(duì)科學(xué)發(fā)展來說并非真正有益。我們必須對(duì)此進(jìn)行反擊,努力將目光投向理解思維如何運(yùn)作、智能如何運(yùn)作這一重大目標(biāo)。
在他看來,大模型并非真正理解智能的途徑。LLM 確實(shí)很有用,但它們?cè)谶\(yùn)行過程中是沒有學(xué)習(xí)能力的,一旦模型被訓(xùn)練完成,它們就不再學(xué)習(xí)了。事實(shí)上,它們也無法學(xué)習(xí),因?yàn)樗鼈儧]有目標(biāo),沒有獎(jiǎng)勵(lì)。它們只是在模仿人類,而人類是有目標(biāo)的,但 LLM 本身沒有目標(biāo),也無法判斷自己說的話是對(duì)是錯(cuò)。
人類語境中的目標(biāo)與意圖一般被理解為:對(duì)一種名為 “獎(jiǎng)勵(lì)” 的標(biāo)量信號(hào)的累積和的期望值進(jìn)行最大化,這是對(duì)智能問題一項(xiàng)極具價(jià)值的簡(jiǎn)化與提煉。要知道,智能就是與世界交互以達(dá)成目標(biāo),而你需要某種方式來定義這個(gè)目標(biāo)。所以,在強(qiáng)化學(xué)習(xí)的框架下,Richard 建議:所有目標(biāo)都可以被解讀為 “獎(jiǎng)勵(lì)”,一種單一的標(biāo)量數(shù)值。
正因如此, Richard 非常重視從經(jīng)驗(yàn)中學(xué)習(xí),他認(rèn)為,從某種意義上來說,RL 的核心在于,它最強(qiáng)大的思維方式來自于從經(jīng)驗(yàn)中學(xué)習(xí)的理念。而且既希望直接從經(jīng)驗(yàn)中學(xué)習(xí),也希望間接從經(jīng)驗(yàn)中學(xué)習(xí),讓自己的經(jīng)驗(yàn)?zāi)苄纬梢粋€(gè)世界模型,然后利用這個(gè)模型來規(guī)劃行為上的改進(jìn)。這種規(guī)劃就類似于推理,人們僅憑對(duì)世界的認(rèn)知就能想清楚該做什么。
而且智能的基本原則有限,梯度下降在其中至關(guān)重要。但行業(yè)熟練后很容易陷入只用梯度下降,而忽視其他可能性的局限中。實(shí)際上梯度下降、時(shí)序差分學(xué)習(xí)、搜索都是智能的基本原則的其中之一,其中搜索尤為關(guān)鍵。隨機(jī)權(quán)重是搜索的核心要素,它能讓模型探索更多可能性。因此,梯度下降算法中需要融入這種搜索成分,把搜索和梯度下降結(jié)合起來,其威力會(huì)遠(yuǎn)大于梯度下降單獨(dú)使用。
以下是此次對(duì)話的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:
01 對(duì)智能的思考
汪軍:可以簡(jiǎn)單介紹一下你 2023 年創(chuàng)建 Openmind Research Institute(開放思維研究所)的背景嗎?以及你想要實(shí)現(xiàn)的使命是什么?
Richard Sutton:Openmind Research Institute 的使命是理解智能,并與世界分享這種理解。嘗試與世界分享的原因是,人工智能已經(jīng)變得有點(diǎn)地緣政治化,各個(gè)國(guó)家都在試圖主導(dǎo)這個(gè)領(lǐng)域。當(dāng)然,許多不同的政治陣營(yíng)之間存在競(jìng)爭(zhēng),尤其是中美。任何一方都不應(yīng)該占據(jù)主導(dǎo)地位。
理解智能是對(duì)人類思維理解的根本性探索,每個(gè)人都應(yīng)該參與其中。這主要是一項(xiàng)科學(xué)探索,而不是為了追求產(chǎn)業(yè)發(fā)展。大家都應(yīng)該嘗試面對(duì)思維的根本問題,以及如何理解它、如何讓它更好地運(yùn)作,這樣我們才能更好地運(yùn)作,才能理解我們是什么,以及我們?cè)谟钪嬷邪缪菔裁唇巧?/p>
Openmind Research Institute 肯定是從小事做起,它是一個(gè)實(shí)驗(yàn)室,中心在加拿大阿爾伯塔省,但之后還會(huì)啟動(dòng)一個(gè)以新加坡為中心的新實(shí)驗(yàn)室。這樣一來,研究范圍就遍布全球了,每個(gè)實(shí)驗(yàn)室都會(huì)有一定數(shù)量的研究員,通常是剛獲得博士學(xué)位但想要從事基礎(chǔ)研究和人工智能的年輕人。
汪軍:這是要必須做的,而且非常及時(shí),因?yàn)楝F(xiàn)在有些研究社區(qū)甚至不發(fā)表論文。這談不上絕對(duì)的好壞,這些算法本質(zhì)上是特定時(shí)期的研究成果,問題在于,我們似乎已經(jīng)丟失了當(dāng)初驅(qū)動(dòng)其誕生的發(fā)展勢(shì)頭,這種狀態(tài)對(duì)整個(gè)研究學(xué)界來說是極不健康的。(Openmind Research Institute)這個(gè)想法讓一切都變得開放和獨(dú)立,讓科學(xué)回歸到純粹的科學(xué)好奇心,這很關(guān)鍵。我很高興現(xiàn)在一些基礎(chǔ)模型開始開源或開放參數(shù),情況變得越來越好了,希望 Openmind Research Institute 能在中國(guó)設(shè)立分支機(jī)構(gòu),鼓勵(lì)年輕人,讓年輕的研究人員回歸真正的科學(xué)追求,而不只是追求產(chǎn)業(yè)進(jìn)步。
我在 RL China 舉辦過一些會(huì)議研討會(huì),已經(jīng)舉辦了好幾年,還有這次夏令營(yíng)。大多數(shù)參會(huì)者都是年輕的研究員,尤其是在 RL 領(lǐng)域,以及從機(jī)器人技術(shù)到多智能體(Multi-Agent)系統(tǒng),再到核心領(lǐng)域。你對(duì)年輕的研究人員有什么想說的嗎?或者認(rèn)為他們應(yīng)該思考的根本問題是什么?
Richard Sutton:有一點(diǎn)很關(guān)鍵:要著眼于長(zhǎng)遠(yuǎn)目標(biāo)。
人工智能不是今年或明年就能實(shí)現(xiàn)的,它可能會(huì)在這個(gè)十年或下個(gè)十年完成,所以這是一個(gè)長(zhǎng)遠(yuǎn)目標(biāo),它就像一場(chǎng)馬拉松,而不是短跑比賽。尤其在人工智能的 RL 領(lǐng)域中,情況比較特殊:一方面,我們面臨著一個(gè)基礎(chǔ)性的科學(xué)難題;但另一方面,這個(gè)領(lǐng)域又已經(jīng)形成了龐大的產(chǎn)業(yè),有巨額資金源源不斷地投入到各類應(yīng)用中。單看人工智能這個(gè)行業(yè)的確十分龐大,它也確實(shí)改變了人們的感受以及人們可以從事的工作,但同時(shí)也在某種程度上減少了對(duì)基礎(chǔ)科學(xué)的關(guān)注。
它更像是一場(chǎng)快速的游戲,你可以很快就賺點(diǎn)錢退出。這對(duì)科學(xué)發(fā)展來說并非真正有益。
從宏觀角度來看,科學(xué)取得如此大的成功是件好事,這為該領(lǐng)域帶來了大量資金。但作為一門科學(xué),它在某種程度上改變了這個(gè)領(lǐng)域的性質(zhì),我們必須對(duì)此進(jìn)行反擊,努力將目光投向理解思維如何運(yùn)作、智能如何運(yùn)作這一重大目標(biāo),并不斷解決問題。既要著手解決那些我們已經(jīng)知道該怎么做的問題,更要持續(xù)關(guān)注那些我們還不知道該如何解決的問題。工業(yè)界傾向于關(guān)注我們已知的、我們今天能做什么;而科學(xué)界則關(guān)注我們尚不知道如何做的事情,是什么阻礙了我們深入理解。
汪軍:沒錯(cuò),我認(rèn)為在中國(guó)也有類似的情況。產(chǎn)業(yè)方的參與在某些方面確實(shí)非常有益,但另一方面,它在某種程度上會(huì)推動(dòng)甚至是迫使研究 (尤其是學(xué)術(shù)研究)聚焦于一些短期問題,這未必是好事。比如大模型(LLM),需要進(jìn)行預(yù)訓(xùn)練,還需要大量的計(jì)算資源。這確實(shí)是一部分人能做的事,但對(duì)于整個(gè)研究界來說,可能無法都投入其中。我們真正應(yīng)該關(guān)注的是超越 Transformer 的東西,超越你之前提出并研究過的重要學(xué)習(xí)領(lǐng)域。
Richard Sutton:讓我再次強(qiáng)調(diào)一下關(guān)于 LLM 的討論,LLM 在人工智能產(chǎn)業(yè)中占據(jù)主導(dǎo)地位,但我確實(shí)覺得它對(duì)科學(xué)造成了巨大的干擾。
所以我想對(duì)各位說的是,雖然 RL 可以作為 LLM 的一部分——這沒問題,而且 LLM 確實(shí)是一種與互聯(lián)網(wǎng)所有知識(shí)進(jìn)行交互的有效方式,它有很多優(yōu)點(diǎn)——但它在很大程度上分散了我們對(duì)理解智能問題的注意力。
我們必須把它放在一邊,不要走這條路。學(xué)生們對(duì) LLM 的關(guān)注和熱情,很難不想在此基礎(chǔ)上繼續(xù)研究,但它(大模型)并非真正理解智能的途徑。雖然 LLM 確實(shí)很有用,但它們?cè)谶\(yùn)行過程中是沒有學(xué)習(xí)能力的,機(jī)器學(xué)習(xí)確實(shí)被用于創(chuàng)建它們,但一旦模型被訓(xùn)練完成,它們就不再學(xué)習(xí)了。
事實(shí)上,它們也無法學(xué)習(xí),因?yàn)樗鼈儧]有目標(biāo),沒有獎(jiǎng)勵(lì)。它們只是在模仿人類,而人類是有目標(biāo)的,但 LLM 本身沒有目標(biāo),也無法判斷自己說的話是對(duì)是錯(cuò)。
我有一句用于人工智能研究的口號(hào),如果在網(wǎng)上搜索“Rich's slogan”之類的詞,就可以找到。其中一個(gè)核心口號(hào)就是:你不應(yīng)該要求你的人工智能知道一些它自己都無法判斷正確的事情。Agent(智能體)必須能夠驗(yàn)證它的知識(shí),LLM 無法驗(yàn)證它們的任何知識(shí),除了人類會(huì)說它正確之外,但這種正確沒有任何意義。
那么該如何驗(yàn)證你的知識(shí)呢?可能有一種行為方式:如果它沒有得到獎(jiǎng)勵(lì),你就知道這不是一個(gè)好的行為方式,這就給了你獎(jiǎng)勵(lì),給了你一個(gè)目標(biāo),或者你可能有一個(gè)世界的預(yù)測(cè)模型,你可能會(huì)預(yù)測(cè)某事會(huì)發(fā)生,然后從經(jīng)驗(yàn)中看到它確實(shí)發(fā)生了。但 LLM 不會(huì)這樣做,它們可能會(huì)說我預(yù)測(cè)了某事,但大模型無法將其與實(shí)際發(fā)生的事情進(jìn)行比較,因?yàn)榇竽P蜎]有持續(xù)的經(jīng)驗(yàn)流。
所以我非常重視從經(jīng)驗(yàn)中學(xué)習(xí),從某種意義上來說,RL 的核心在于,它最強(qiáng)大的思維方式來自于從經(jīng)驗(yàn)中學(xué)習(xí)的理念,這種理念實(shí)際上可以追溯到人工智能誕生之初。
艾倫·圖靈有一篇書面演講提到:我們想要的是一個(gè)能夠在1947年、甚至在人工智能出現(xiàn)之前,從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器。我們現(xiàn)在依然渴望這樣的機(jī)器,這仍然是核心,也是我們應(yīng)該努力的方向,這就是 RL 的意義所在,而這一點(diǎn)正是 LLM 所完全缺乏的。
02 強(qiáng)化學(xué)習(xí)的突破路徑
汪軍:你對(duì)經(jīng)驗(yàn)(experience)的定義是什么?我認(rèn)為圖靈在撰寫那篇論文時(shí)有著他自己對(duì)經(jīng)驗(yàn)的理解;另外,像 AlphaGo 那樣,通過自我對(duì)弈生成一系列軌跡數(shù)據(jù),這也算一種經(jīng)驗(yàn),而現(xiàn)在情況發(fā)生了什么變化呢?你認(rèn)為如今的經(jīng)驗(yàn)和過去一樣還是有所不同了?
Richard Sutton: 我認(rèn)為經(jīng)驗(yàn)這一概念非常自然,并且隨著時(shí)間推移一直以來都是如此。你的經(jīng)驗(yàn)并非某種怪異、模糊或難以捉摸的東西,它就是你在世界中生存時(shí)接收到的真實(shí)數(shù)據(jù)。你采取行動(dòng)、做各種事情,然后看到結(jié)果——這些就是你的觀察,同時(shí)你也會(huì)感受到獎(jiǎng)勵(lì)。這三組時(shí)間序列共同構(gòu)成了你的經(jīng)驗(yàn)。
實(shí)際上,至少?gòu)?agent 的視角以及在 RL 的思維框架下,除了你接收和生成的數(shù)據(jù)之外,再無其他東西。而且,你無法先驗(yàn)地去談?wù)摽臻g、物體、物理規(guī)律或幾何概念,因?yàn)槟銦o法直接接觸到這些東西;你能直接接觸的,只有你的觀察和行動(dòng)。而那些概念,不過是你為了解釋自身經(jīng)驗(yàn)、為經(jīng)驗(yàn)建立模型而編造的故事罷了。
經(jīng)驗(yàn)是根本性的,它是智能的核心。我們有時(shí)會(huì)說從經(jīng)驗(yàn)中學(xué)習(xí),但同樣重要的是,你的知識(shí)本身就與經(jīng)驗(yàn)相關(guān)。比如,當(dāng)你相信某件事時(shí),這個(gè)信念本質(zhì)上是關(guān)于未來你會(huì)接收到哪些觀察的預(yù)判。說到底,它就是一種理論:關(guān)于你未來會(huì)收到什么數(shù)據(jù)、會(huì)擁有怎樣的經(jīng)驗(yàn)的理論。
汪軍:你覺得樣本復(fù)雜度是人工智能領(lǐng)域里我們需要解決的一個(gè)問題嗎?還是說,你其實(shí)并不認(rèn)為這是個(gè)問題?
Richard Sutton:我們的算法學(xué)習(xí)效率確實(shí)不夠高,但我并不覺得這是 RL 獨(dú)有的問題。實(shí)際上,我們所有的算法學(xué)習(xí)效率都很低,所以必須解決這個(gè)問題。說到底,或許整個(gè)研究的核心就是要從經(jīng)驗(yàn)中高效學(xué)習(xí)——這正是我們研究者正在做的事,我們?cè)谂ふ夷茏屛覀儚慕?jīng)驗(yàn)中盡可能高效學(xué)習(xí)的算法。
在某種意義上,從獎(jiǎng)勵(lì)中學(xué)習(xí)比從指令中學(xué)習(xí)更困難,如果世界直接告訴你該做什么,學(xué)習(xí)起來會(huì)簡(jiǎn)單得多。但顯然,世界不會(huì)直接給出指令,世界只會(huì)給你拋出一個(gè)問題,你得自己弄明白該怎么做,所以這才是真正的問題所在。因此,我不會(huì)把這種問題看作是一種困難,而是一項(xiàng)挑戰(zhàn)。
汪軍:這兩個(gè)單一的獎(jiǎng)勵(lì)會(huì)是這個(gè)標(biāo)量嗎?要知道,獎(jiǎng)勵(lì)本身也分不同種類的
Richard Sutton:這就是我們所說的“獎(jiǎng)勵(lì)假設(shè)”了。我們所說的目標(biāo)與意圖,都可以被很好地理解為:對(duì)一種名為 “獎(jiǎng)勵(lì)” 的標(biāo)量信號(hào)的累積和的期望值進(jìn)行最大化,這是對(duì)智能問題一項(xiàng)極具價(jià)值的簡(jiǎn)化與提煉。要知道,智能就是與世界交互以達(dá)成目標(biāo),而你需要某種方式來定義這個(gè)目標(biāo)。
在強(qiáng)化學(xué)習(xí)中,我們建議:所有目標(biāo)都可以被解讀為 “獎(jiǎng)勵(lì)”,一種單一的標(biāo)量數(shù)值。
在你們看來,這樣認(rèn)為可能顯得有些淺薄,甚至格局不大。但我認(rèn)為,這恰恰是它極具智慧的部分——它非常清晰,高度簡(jiǎn)化,卻又似乎足夠完備。事實(shí)上,像風(fēng)險(xiǎn)考量、多目標(biāo)這類更復(fù)雜的設(shè)定,未必能讓系統(tǒng)變得更強(qiáng)大。阿爾伯塔大學(xué)(也就是我所在的大學(xué))的幾位研究者發(fā)表過一篇很棒的論文,名為《Settling the Reward Hypothesis》,這篇論文深入探討了這一假說,論證了我們并不需要多目標(biāo)、風(fēng)險(xiǎn)等復(fù)雜設(shè)定,單一獎(jiǎng)勵(lì)信號(hào)已足夠。
論文鏈接:https://arxiv.org/pdf/2212.10420
我還記得自己最初真正接受這一假設(shè)時(shí)的情景,它確實(shí)顯得有些格局不大。畢竟,我們的人生似乎承載著更宏大的目標(biāo):比如拯救世界、積累財(cái)富、保護(hù)生態(tài),或者養(yǎng)育家庭。我們有許多目標(biāo),而且它們似乎都與現(xiàn)實(shí)世界緊密相關(guān)、具體可感。但要打造算法、構(gòu)建智能,就必須將問題轉(zhuǎn)化為一種標(biāo)準(zhǔn)形式。獎(jiǎng)勵(lì)假設(shè)正是這樣一個(gè)極具價(jià)值的核心思想,它非常深刻,極大地幫助我們理解了智能究竟是什么。
汪軍:這種整合方式能否解決“獎(jiǎng)勵(lì)難以定義”或“獎(jiǎng)勵(lì)定義得非常模糊”的問題呢?你認(rèn)為,明確獎(jiǎng)勵(lì)是否已成為人工智能或任何學(xué)習(xí)算法的一種先決條件?
Richard Sutton:首先,我們先回歸自然、動(dòng)物和人類本身。沒人需要為我們制定獎(jiǎng)勵(lì),我們的獎(jiǎng)勵(lì)是進(jìn)化的產(chǎn)物。那我們的獎(jiǎng)勵(lì)到底是什么?并沒有一根線從外部接入我們的大腦,獎(jiǎng)勵(lì)究竟存在于何處呢?實(shí)際上,獎(jiǎng)勵(lì)是在你的顱骨內(nèi)部計(jì)算產(chǎn)生的。大腦中有一個(gè)區(qū)域,我認(rèn)為是下丘腦,它會(huì)計(jì)算一系列狀態(tài):你的身體狀況是否良好?血液中是否含有足夠的營(yíng)養(yǎng)?你是否脫離了痛苦?是否感到不適?體溫是否適宜?所有這些因素都會(huì)影響你的獎(jiǎng)勵(lì)信號(hào)。
所以,獎(jiǎng)勵(lì)信號(hào)存在于你的顱骨之內(nèi),它是你大腦(實(shí)際上也是你身體)的一部分。但我們不會(huì)把身體視為環(huán)境的一部分,而大腦中這個(gè)負(fù)責(zé)計(jì)算獎(jiǎng)勵(lì)的小區(qū)域,卻屬于環(huán)境的范疇。我們必須將其歸為環(huán)境的一部分,這樣它才不會(huì)受到 agent 的直接控制,agent 無法隨心所欲地將自身獎(jiǎng)勵(lì)調(diào)至高位,要讓獎(jiǎng)勵(lì)升高,它必須采取行動(dòng):比如避免痛苦、獲取食物以維持血糖在滿意水平,它必須通過行動(dòng)影響周圍的世界,這些影響再通過身體反饋,最終產(chǎn)生高獎(jiǎng)勵(lì)信號(hào)。
在那之后,當(dāng)我們打造工程化系統(tǒng)、希望人工智能完成特定任務(wù)時(shí),作為設(shè)計(jì)者,我們必須想清楚、明確自己真正希望達(dá)成的目標(biāo)是什么,并且得找到方法,將這個(gè)目標(biāo)轉(zhuǎn)化為獎(jiǎng)勵(lì)信號(hào)傳遞給 agent。這一步有時(shí)頗具挑戰(zhàn),有時(shí)又比較簡(jiǎn)單。比如,下國(guó)際象棋,贏得比賽你會(huì)得到獎(jiǎng)勵(lì);下圍棋,贏得比賽也會(huì)得到獎(jiǎng)勵(lì)。如果是企業(yè)想要盈利,你可以為成功賺錢的人提供獎(jiǎng)勵(lì)。能作為獎(jiǎng)勵(lì)的東西有很多,有時(shí)很簡(jiǎn)單,有時(shí)卻真的很難。難點(diǎn)部分在于,我們自己往往都難以確定最想讓人工智能完成的到底是什么。
我想說的是:人們常常有一種強(qiáng)烈的傾向,就是把問題的解決方案直接塞進(jìn)獎(jiǎng)勵(lì)里。比如,想讓 AI 下圍棋,你可能會(huì)忍不住在過程中設(shè)置一些額外獎(jiǎng)勵(lì),比如控制棋盤的特定區(qū)域或做出眼位就給獎(jiǎng)勵(lì),但這幾乎是錯(cuò)誤的。你應(yīng)該為自己真正想要的結(jié)果設(shè)置獎(jiǎng)勵(lì),對(duì)于圍棋而言,真正想要的就是贏棋,做出眼位只是通向贏棋的一條路徑。盡管你可能是想幫人工智能一把,這種嘗試也非常普遍,但這樣實(shí)際上改變了問題本身,而我們并不想改變問題。如果你想贏,就應(yīng)該只為贏設(shè)置獎(jiǎng)勵(lì)。
汪軍:你之前提到過要保持開放的心態(tài),并且也鼓勵(lì)那些剛拿到博士學(xué)位的年輕研究者這樣做,我最近看了一些研究提案,其中關(guān)于持續(xù)學(xué)習(xí)的一些想法我很喜歡,所以你能不能進(jìn)一步講講?
Richard Sutton:無論是阿爾伯塔省還是新加坡的研究項(xiàng)目都是從 RL 開始的,尤其是“阿爾伯塔人工智能研究計(jì)劃”(The Alberta Plan for AI Research),這是一份文件,你可以在 arXiv 上找到它。這份文件由 Michael Bowling、Patrick Plarskin 和我自己共同撰寫。在其中,我們?cè)噲D盡可能清晰地勾勒出從當(dāng)前階段邁向 full intelligent agent,即 the full AI 所需的步驟。這是一個(gè)包含 12 個(gè)步驟的計(jì)劃,這些步驟并非必須按順序執(zhí)行,但我目前正致力于第一步,并且熱切期待完成第一步后能開始著手第二步。
鏈接:https://arxiv.org/pdf/2208.11173
計(jì)劃的前期步驟都與使用函數(shù)近似(function approximation)進(jìn)行高效學(xué)習(xí)相關(guān),實(shí)際上也都圍繞 RL 展開,涉及持續(xù)學(xué)習(xí)(continual learning)、元學(xué)習(xí)(meta-learning)等方向——真正聚焦 RL 本身的內(nèi)容其實(shí)從第三步才開始。但歸根結(jié)底,整個(gè)計(jì)劃的目標(biāo)是打造一個(gè) RL agent:一個(gè)具備推理、規(guī)劃與學(xué)習(xí)能力的完整 agent。
此外,該計(jì)劃完全以獎(jiǎng)勵(lì)為核心基礎(chǔ),但在實(shí)踐過程中,會(huì)衍生出子目標(biāo)或輔助任務(wù),這些子目標(biāo)可以是我們?nèi)粘?huì)考慮的事情,比如拿起一個(gè)物體可能成為一個(gè)子任務(wù),高效行走是一個(gè)目標(biāo),下圍棋也可以是一個(gè)需要達(dá)成的子目標(biāo),甚至獲得學(xué)位?;旧夏阋徽熳龅乃惺?,步行去大學(xué)、喝杯水、找洗手間,這些都可以成為你努力達(dá)成并學(xué)習(xí)相關(guān)技能的目標(biāo)。而所有這些子目標(biāo)和技能,最終都服務(wù)于那一個(gè)核心目標(biāo),例如完成工作,這就是阿爾伯塔人工智能研究計(jì)劃的一部分內(nèi)容。
03 通用智能體的認(rèn)知轉(zhuǎn)向
汪軍:你提到了元學(xué)習(xí),關(guān)于如何讓 RL 在跨任務(wù)場(chǎng)景下更具通用性,你的看法是什么?如何讓它不僅能解決雅達(dá)利圍棋游戲這類特定任務(wù),還能具備更廣泛的通用性?你認(rèn)為元學(xué)習(xí)會(huì)是打造通用 agent 的有力候選方向嗎?還是說,我們需要其他完全不同的方法?
Richard Sutton:我們當(dāng)然想要打造通用 agent,但并不認(rèn)同“task”(任務(wù))這個(gè)概念。說實(shí)話,我覺得我們只是生活而已,我不覺得我有什么任務(wù)是需要單獨(dú)獎(jiǎng)勵(lì)的,我有自己的人生,有自己的獎(jiǎng)勵(lì)信號(hào),它會(huì)一直持續(xù)下去,雖然并非永恒,但會(huì)延續(xù)很長(zhǎng)時(shí)間。
每次聽到人們談?wù)摗皌ask”,我其實(shí)都不太清楚他們具體指什么,但我很清楚“skill”(技能)是什么。比如,我有熟練行走的技能,有找到去銀行路線的技能,還有做其他各種事情的技能。這些就像我之前提到的輔助性問題:拿起一個(gè)物體、找到去不同地方的路,等等。我會(huì)學(xué)習(xí)如何完成所有這些事,然后思考如何將這些技能組合起來,以獲得屬于自己的獎(jiǎng)勵(lì)。
通用性至關(guān)重要,我們確實(shí)追求通用性,但我們不想在“task”之間追求通用。因?yàn)椤皌ask”并非這一框架的組成部分,也不屬于 RL 的范疇,并不存在“task”這種概念,這里只有單一的獎(jiǎng)勵(lì)信號(hào),僅此而已。但我們確實(shí)需要探討泛化(generalization)。這里的泛化指的是狀態(tài)之間的泛化,在這個(gè)狀態(tài)下學(xué)會(huì)了該做什么,這會(huì)影響我對(duì)在另一個(gè)狀態(tài)下該做什么才正確的判斷。所以,泛化是在不同狀態(tài)間發(fā)生的,這正是泛化的核心價(jià)值所在,而這種泛化能力也將助力我們打造出通用 agent。
我們說的元學(xué)習(xí)是指:當(dāng)存在一個(gè)基礎(chǔ)學(xué)習(xí)過程,然后我們?cè)谶@個(gè)基礎(chǔ)之上再做一些操作時(shí),談?wù)撛獙W(xué)習(xí)才是恰當(dāng)?shù)?。我認(rèn)為最主要的例子是這樣的:比如我們通過調(diào)整模型權(quán)重來解決某個(gè)基礎(chǔ)學(xué)習(xí)任務(wù),不管這個(gè)基礎(chǔ)任務(wù)是監(jiān)督學(xué)習(xí)(supervised learning)還是 RL,在這個(gè)過程中,我們會(huì)涉及步長(zhǎng)(step sizes)以及其他超參數(shù)的設(shè)置。所以,這些步長(zhǎng)的調(diào)整就屬于元學(xué)習(xí)的一個(gè)例子。
我們的整個(gè)網(wǎng)絡(luò)都應(yīng)該設(shè)置步長(zhǎng),每個(gè)權(quán)重都該有自己專屬的步長(zhǎng),這些步長(zhǎng)必須通過自動(dòng)化流程來單獨(dú)調(diào)整,而不是由人工操作。這樣一來,如果你能調(diào)整這些步長(zhǎng),就能從中得知:這些權(quán)重不想調(diào)整,那些權(quán)重想調(diào)整。而當(dāng)你決定調(diào)整哪些權(quán)重時(shí),這些權(quán)重正是你要進(jìn)行泛化的依據(jù)。打個(gè)比方,你有很多特征,該基于哪些特征進(jìn)行泛化呢?答案就是那些步長(zhǎng)較高的特征。因此,這就把研究焦點(diǎn)引向了學(xué)習(xí)算法本身,也就是用于學(xué)習(xí)所有權(quán)重對(duì)應(yīng)步長(zhǎng)的元學(xué)習(xí)算法。
在所有算法中,我最愛的算法當(dāng)然是時(shí)序差分學(xué)習(xí)(Temporal Difference Learning),第二愛的算法是專門用來設(shè)置步長(zhǎng)的,它叫 Incremental Delta-Bar-Delta,簡(jiǎn)稱 IDBD。這是個(gè)1992年的老算法了,它的用途非常明確,就是用來設(shè)置步長(zhǎng),進(jìn)而決定泛化是如何發(fā)生的。再來聊聊 RL 中的偏置(bias),這篇論文提出了類似通過梯度下降(gradient descent)學(xué)習(xí)偏置的思路。也就是說,我們不再由人工編寫程序來設(shè)定偏置,而是讓系統(tǒng)自主學(xué)習(xí)如何泛化,這本質(zhì)上就是在學(xué)習(xí)偏置。IDBD 算法雖然是個(gè)老算法,但它已經(jīng)過一些改進(jìn),我們目前也在對(duì)它進(jìn)行更新,還在嘗試將其擴(kuò)展到深度學(xué)習(xí)領(lǐng)域,只是這項(xiàng)工作仍在進(jìn)行中,它有很大的潛力。
汪軍:之前我們聊到過學(xué)習(xí)效率,你也說過效率當(dāng)然是越高越好,而且這是機(jī)器學(xué)習(xí)領(lǐng)域的普遍問題,所以梯度下降在過去確實(shí)推動(dòng)了人工智能的發(fā)展。但另一方面,它或許并不是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)函數(shù)映射的高效方法。你認(rèn)為這是我們需要突破的瓶頸嗎?還是說,你覺得梯度下降仍是未來的發(fā)展方向?
Richard Sutton:如果我們?cè)囍釤捴悄芘c學(xué)習(xí)的幾條基本原則,梯度下降一定是其中之一,它的威力強(qiáng)大且至關(guān)重要。問題在于,當(dāng)我們熟練掌握梯度下降后,就開始覺得它無比出色,甚至可能認(rèn)為一切學(xué)習(xí)問題都能用梯度下降解決。而這恰恰是錯(cuò)誤所在,我們陷入了只用梯度下降,而排除所有其他可能性的局限中。
所以如果要列舉智能的基本原則,我認(rèn)為梯度下降、時(shí)序差分學(xué)習(xí)、搜索都是其中之一,此外還有其他原則,但不會(huì)太多了。而搜索尤其重要,其實(shí)搜索的影子已經(jīng)存在于反向傳播中了,訓(xùn)練開始時(shí),我們會(huì)給模型設(shè)置隨機(jī)的小權(quán)重,但也僅僅是在開始時(shí)這樣做。從那之后,模型就只會(huì)完全確定性地沿著梯度方向更新。
在過去幾年里,我們?cè)诔掷m(xù)學(xué)習(xí)領(lǐng)域取得了一點(diǎn)突破,我們對(duì)反向傳播進(jìn)行了改進(jìn),提出了持續(xù)反向傳播。這種方法下,模型不再是一直只沿著梯度更新,也不再只在初始階段設(shè)置隨機(jī)權(quán)重,而是在整個(gè)訓(xùn)練過程中持續(xù)重新注入隨機(jī)權(quán)重。也就是說,隨機(jī)化不再只發(fā)生在開頭,而是貫穿始終,這樣就是完全連續(xù)的。隨機(jī)權(quán)重正是搜索的核心要素,它能將模型推向隨機(jī)的方向,從而探索更多可能性。因此,我們的梯度下降算法中需要融入這種搜索成分,把搜索和梯度下降結(jié)合起來,其威力會(huì)遠(yuǎn)大于梯度下降單獨(dú)使用。
汪軍:你之前提到了時(shí)序差分學(xué)習(xí),你是如何發(fā)明時(shí)序差分學(xué)習(xí)的?這種決策—行動(dòng)的邏輯與整個(gè)控制領(lǐng)域息息相關(guān),他們一直在研究貝爾曼方程優(yōu)化等問題,而 RL 正是從這些基礎(chǔ)上發(fā)展而來的,時(shí)序差分學(xué)習(xí)是其中的關(guān)鍵。還有我之前提到過,你的一篇早期論文總是被我用作案例,這篇論文從心理學(xué)中的經(jīng)典條件反射、神經(jīng)科學(xué)等領(lǐng)域切入,然后將思路延伸到了計(jì)算機(jī)科學(xué)領(lǐng)域,這篇論文非常出色,能和我們多講講這篇論文以及背后的故事嗎?
Richard Sutton:時(shí)序差分學(xué)習(xí)的確源于經(jīng)典條件反射,它脫胎于心理學(xué),以及上世紀(jì)早期所有關(guān)于動(dòng)物學(xué)習(xí)的先驅(qū)性實(shí)驗(yàn)。經(jīng)典條件反射是巴甫洛夫在 19 世紀(jì) 90 年代左右提出的概念。我本科時(shí)學(xué)的就是心理學(xué),但我還是一直都在研究人工智能,只是在 70 年代,本科階段還沒法主修計(jì)算機(jī)科學(xué),必須選其他專業(yè),我很樂意主修心理學(xué),因?yàn)樵趯W(xué)習(xí)領(lǐng)域,尤其是在探索學(xué)習(xí)的基本原理方面,心理學(xué)家的思考是最深入的,他們?yōu)榇烁冻隽司薮笈?,提出了許多重要的觀點(diǎn),其中有一些觀點(diǎn)雖然沒有直接催生時(shí)序差分學(xué)習(xí),但已經(jīng)非常接近了。如果你仔細(xì)梳理所有的動(dòng)物實(shí)驗(yàn),試著從中提煉規(guī)律,就必然會(huì)走向時(shí)序差分學(xué)習(xí),它就是這樣誕生的。
直到后來我們才意識(shí)到,從動(dòng)態(tài)規(guī)劃和控制理論的角度來看,時(shí)序差分學(xué)習(xí)同樣說得通,但時(shí)序差分學(xué)習(xí)最初是源于經(jīng)驗(yàn)的產(chǎn)物。可以這樣理解二者的關(guān)系:動(dòng)態(tài)規(guī)劃的前提是,你已經(jīng)完全了解整個(gè)世界,你就能計(jì)算出最優(yōu)解;而時(shí)序差分學(xué)習(xí)則不同,即便我不知道世界是如何運(yùn)作的,我也能通過經(jīng)驗(yàn)而非知識(shí)達(dá)成與動(dòng)態(tài)規(guī)劃相同的目標(biāo)。
這一點(diǎn)太美妙了,因?yàn)樗馕吨醒芯恐悄芘c學(xué)習(xí)的學(xué)科實(shí)現(xiàn)了統(tǒng)一,時(shí)序差分學(xué)習(xí)的影響力非常深遠(yuǎn)?;氐缴窠?jīng)科學(xué)領(lǐng)域,它為研究者們觀察到的許多動(dòng)物學(xué)習(xí)新結(jié)果、新數(shù)據(jù)提供了合理解釋,如今已成為大腦獎(jiǎng)勵(lì)系統(tǒng)研究中占主導(dǎo)地位的標(biāo)準(zhǔn)模型與理論。我們能看到,人工智能、控制理論、神經(jīng)科學(xué)這些原本截然不同的學(xué)科,正成功地走向融合與交匯。我對(duì)此感到非常欣慰,這就像終于觸碰到了智能最根本的東西。
汪軍:我注意到的一點(diǎn)區(qū)別也就是無模型(model-free)和基于模型(model-based)的概念,你能再詳細(xì)解釋一下這個(gè)嗎?
Richard Sutton:首先,我們得明確一點(diǎn),我們兩者都需要兼顧。我們既希望直接從經(jīng)驗(yàn)中學(xué)習(xí),也希望間接從經(jīng)驗(yàn)中學(xué)習(xí),我們希望自己的經(jīng)驗(yàn)?zāi)苄纬梢粋€(gè)世界模型,然后利用這個(gè)模型來規(guī)劃行為上的改進(jìn)。這種規(guī)劃就類似于推理,我們僅憑對(duì)世界的認(rèn)知就能想清楚該做什么。這兩者我們都需要,而實(shí)現(xiàn)二者在某種意義上的統(tǒng)一,正是我們追求的“The Holy Grail”(圣杯),就是能夠同時(shí)進(jìn)行規(guī)劃和學(xué)習(xí),并在某種意義上將它們統(tǒng)一起來。
這種統(tǒng)一的開端是“dyna system”(動(dòng)力系統(tǒng)),在這個(gè)系統(tǒng)中,規(guī)劃的過程本身就帶有學(xué)習(xí)的屬性,不過這種學(xué)習(xí)是通過想象自己可能采取的行動(dòng)來完成的,這一點(diǎn)在心理學(xué)文獻(xiàn)中也有很好的體現(xiàn),RL 的目標(biāo)正是成為一種涵蓋所有智能形式的宏大理論。
汪軍:您有什么想對(duì)中國(guó)的 RL 社區(qū)說的嗎?您認(rèn)為這與您正在開展的 Openmind 使命有什么聯(lián)系?
Richard Sutton:我想補(bǔ)充一點(diǎn)我們尚未談及的核心內(nèi)容,得益于摩爾定律以及計(jì)算能力的日益普及,當(dāng)下正是宇宙中一個(gè)極其特殊的時(shí)代,在未來的一二十年里,我們將得以弄明白思維是如何運(yùn)作的。能生活在這樣一個(gè)時(shí)代,實(shí)在太令人驚嘆了。我曾將對(duì)智能的理解比作地球上生命的起源,我認(rèn)為這是一件具有同等重大意義的事件。我們將能夠設(shè)計(jì)出與人類自身一樣強(qiáng)大、甚至可能更強(qiáng)大的 agent,這真的是一件無比激動(dòng)人心的大事。如果說我最想表達(dá)什么,那就是我對(duì)此抱有極大的樂觀,我認(rèn)為一切都會(huì)變得非常好,這不僅將實(shí)現(xiàn)歷史上知識(shí)分子乃至普通人一直以來追尋的偉大探索目標(biāo),還將對(duì)世界的經(jīng)濟(jì)發(fā)展產(chǎn)生巨大的積極影響。
未來并非全都是一帆風(fēng)順的,肯定會(huì)面臨諸多挑戰(zhàn),但這并非因?yàn)槿斯ぶ悄軙?huì)帶來什么糟糕的結(jié)果,總的來說,它是一件極具積極意義的事。它將為我們帶來更深入的科學(xué)研究、更透徹的自我認(rèn)知,甚至有可能幫助我們更好地和平共處,而這正是 Openmind 使命的一部分。
每個(gè)人都能參與到這份理解中來,我們會(huì)展開合作,共同去探索人工智能的奧秘,共同收獲它帶來的成果,共同加深對(duì)自我的認(rèn)知,而且要明白,并非只有機(jī)器會(huì)變得智能,我們?nèi)祟愖陨硪矔?huì)通過增強(qiáng)手段變得更聰明。其實(shí)我們已經(jīng)在被增強(qiáng)了,電話在增強(qiáng)我們的溝通,眼鏡在增強(qiáng)我們的視力,一支鉛筆、一門能讓彼此交流的語言,這些都是對(duì)我們能力的增強(qiáng),人工智能實(shí)際上就是這一增強(qiáng)過程的延續(xù),所以人工智能的發(fā)展前景會(huì)非常好。我們應(yīng)當(dāng)為從事這項(xiàng)工作而感到由衷的喜悅,并為了全人類的福祉去推進(jìn)它的發(fā)展。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。