0
雷鋒網(wǎng) AI 科技評(píng)論按:最近,AI 系統(tǒng)已經(jīng)學(xué)會(huì)一系列游戲的玩法,如雅達(dá)利經(jīng)典游戲 Breakout 和 Pong。盡管這樣的表現(xiàn)令人印象深刻,但其實(shí)人工智能需要數(shù)千小時(shí)的游戲時(shí)間才能達(dá)到并超越人類(lèi)玩家的水平。相比之下,我們則可以在幾分鐘內(nèi)掌握以前從未玩過(guò)的游戲的基礎(chǔ)操作。DeepMind 對(duì)這個(gè)問(wèn)題進(jìn)行了研究,論文《Prefrontal cortex as a meta-reinforcement learning system》發(fā)表了在了《自然》神經(jīng)科學(xué)子刊上。隨著論文發(fā)表,DeepMind 也撰寫(xiě)了一篇解讀博客,介紹了論文的主要內(nèi)容。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
人類(lèi)只接受這么少的信息就能干這么多的事情,這項(xiàng)能力牽扯到了元學(xué)習(xí)理論,或者叫「學(xué)會(huì)學(xué)習(xí)」。我們?nèi)粘5膶W(xué)習(xí)有兩個(gè)時(shí)間尺度,短期學(xué)習(xí)中我們專注于學(xué)習(xí)具體的例子。而在長(zhǎng)期學(xué)習(xí)中,我們通常要學(xué)會(huì)抽象出規(guī)律和技巧來(lái)完成任務(wù)。我們之所以能如此高效的學(xué)習(xí)以及如此靈活而快速的應(yīng)用各種知識(shí)正是因?yàn)檫@種學(xué)習(xí)組合。在 AI 系統(tǒng)中重現(xiàn)這種元學(xué)習(xí)結(jié)構(gòu)或者叫元強(qiáng)化學(xué)習(xí)對(duì)于實(shí)現(xiàn)快速、一次性學(xué)習(xí)卓有成效(詳見(jiàn)我們的在 OpenAI 的論文及工作)。但是元學(xué)習(xí)這一過(guò)程具體的實(shí)現(xiàn)機(jī)制在神經(jīng)科學(xué)中依舊是未解之謎。
在 Jane Wang 團(tuán)隊(duì)新發(fā)表在《自然》神經(jīng)科學(xué)子刊上的論文中,他們?cè)?AI 研究中使用元強(qiáng)化學(xué)習(xí)架構(gòu)來(lái)探究大腦中的多巴胺在人類(lèi)學(xué)習(xí)過(guò)程中起到的作用。多巴胺通常被認(rèn)為是大腦的愉悅信號(hào),也經(jīng)常被認(rèn)為類(lèi)似于 AI 強(qiáng)化學(xué)習(xí)算法中的獎(jiǎng)勵(lì)函數(shù)。這些 AI 系統(tǒng)就是在獎(jiǎng)勵(lì)的指導(dǎo)下反復(fù)試驗(yàn)。他們認(rèn)為多巴胺的作用不僅僅是作為獎(jiǎng)勵(lì)來(lái)評(píng)估過(guò)去行為的價(jià)值,它在前額葉皮層區(qū)也發(fā)揮著不可或缺的作用,使人類(lèi)能夠有效,快速,靈活地學(xué)習(xí)新任務(wù)。
他們通過(guò)虛擬重建神經(jīng)科學(xué)領(lǐng)域的六個(gè)元學(xué)習(xí)實(shí)驗(yàn)來(lái)測(cè)試他們的理論,其中每個(gè)實(shí)驗(yàn)都需要一個(gè)代理程序來(lái)執(zhí)行基本原則(技能)相同但在某些維度上有所不同的任務(wù)。他們先使用標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)技術(shù)(代表多巴胺的作用)訓(xùn)練了一個(gè)遞歸的神經(jīng)網(wǎng)絡(luò)(代表前額皮質(zhì)),然后再對(duì)比遞歸網(wǎng)絡(luò)的活動(dòng)動(dòng)態(tài)與以前神經(jīng)科學(xué)實(shí)驗(yàn)真實(shí)數(shù)據(jù)的異同。遞歸網(wǎng)絡(luò)是元學(xué)習(xí)的優(yōu)秀代理程序,因?yàn)樗鼈兡軌騼?nèi)化過(guò)去的行為和觀察內(nèi)容,然后在訓(xùn)練其他任務(wù)時(shí)借鑒這些經(jīng)驗(yàn)。
類(lèi)比 20 世紀(jì) 40 年代的心理學(xué)測(cè)試—Harlow 實(shí)驗(yàn),他們重新創(chuàng)建了一個(gè)實(shí)驗(yàn)用于探索元學(xué)習(xí)的概念。在最初的 Harlow 實(shí)驗(yàn)中,一組猴子面前有兩個(gè)不同的供選擇的物品,其中一個(gè)可以給它們帶來(lái)食物獎(jiǎng)勵(lì)。然后實(shí)驗(yàn)人員將這兩個(gè)物品一左一右在猴子面前展示六次,每次物品的左右位置都是隨機(jī)的,所以猴子必須知道哪個(gè)物品可以帶來(lái)食物獎(jiǎng)勵(lì)。然后研究人員又展示了兩個(gè)全新的物品,依舊只有一個(gè)會(huì)帶來(lái)食物獎(jiǎng)勵(lì)。在這次訓(xùn)練過(guò)程中,猴子學(xué)會(huì)了一種策略來(lái)選擇獎(jiǎng)勵(lì)關(guān)聯(lián)物品:它第一次會(huì)隨機(jī)選擇,然后基于獎(jiǎng)勵(lì)反饋選擇特定物品,并不在乎在左側(cè)還是右側(cè)。實(shí)驗(yàn)表明,猴子可以領(lǐng)悟任務(wù)的基本原理,并學(xué)會(huì)抽象的規(guī)則結(jié)構(gòu),這其實(shí)就是學(xué)會(huì)學(xué)習(xí)。
當(dāng) Jane Wang 團(tuán)隊(duì)使用虛擬計(jì)算機(jī)屏幕和隨機(jī)選擇的圖像模擬一個(gè)非常相似的測(cè)試時(shí),他們發(fā)現(xiàn)他們的元強(qiáng)化學(xué)習(xí)代理程序的學(xué)習(xí)方式就像 Harlow 實(shí)驗(yàn)中的猴子一樣,即使換新圖像代理程序也能像猴子一樣適應(yīng)。
事實(shí)上,他們發(fā)現(xiàn)元強(qiáng)化學(xué)習(xí)代理程序?qū)W會(huì)了如何快速適應(yīng)擁有不同規(guī)則和結(jié)構(gòu)的任務(wù)。而且在它學(xué)會(huì)如何適應(yīng)各種任務(wù)的過(guò)程中它還學(xué)會(huì)了提高學(xué)習(xí)效率的通用方法。
重要的是,大多數(shù)學(xué)習(xí)都產(chǎn)生在遞歸網(wǎng)絡(luò)中,這為他們的看法提供了有力支撐,即多巴胺在元學(xué)習(xí)過(guò)程中扮演著超越以往認(rèn)知的更加重要的角色。多巴胺可以通過(guò)加強(qiáng)前額系統(tǒng)中的突觸聯(lián)系來(lái)增強(qiáng)特定的行為。在 AI 系統(tǒng)中,這意味著神經(jīng)網(wǎng)絡(luò)中的類(lèi)多巴胺獎(jiǎng)勵(lì)信號(hào)可以調(diào)整人工突觸權(quán)重,使系統(tǒng)可以學(xué)習(xí)解決任務(wù)的正確方法。然而,在 Jane Wang 團(tuán)隊(duì)的實(shí)驗(yàn)中,神經(jīng)網(wǎng)絡(luò)的權(quán)重被凍結(jié)了,這意味著權(quán)重在學(xué)習(xí)過(guò)程中不能被調(diào)整,然而,元強(qiáng)化學(xué)習(xí)代理程序仍然能夠解決并適應(yīng)新的任務(wù)。這表明類(lèi)多巴胺獎(jiǎng)勵(lì)不僅用于調(diào)整權(quán)重,還對(duì)抽象任務(wù)和規(guī)則結(jié)構(gòu)的重要信息進(jìn)行傳達(dá)和編碼,從而使系統(tǒng)更快適應(yīng)新任務(wù)。
神經(jīng)科學(xué)家很早就觀察到了類(lèi)似的前額葉皮層神經(jīng)激活模式,他們發(fā)現(xiàn)這種模式適應(yīng)性強(qiáng)并且很靈活,之后他們一直在努力尋找這種現(xiàn)象的原因。其中一種看法是前額葉皮層不依賴緩慢的突觸權(quán)重變化來(lái)學(xué)習(xí)規(guī)則結(jié)構(gòu),而是通過(guò)直接由多巴胺編碼的基于抽象模型的信息的來(lái)學(xué)習(xí)規(guī)則結(jié)構(gòu),這能更好的解釋多巴胺的功能多樣性。
為了證明元強(qiáng)化學(xué)習(xí)的關(guān)鍵成分也存在于大腦中,Jane Wang 團(tuán)隊(duì)提出了一種理論,該理論不僅與多巴胺和前額皮層的那套理論相符,而且還可以解釋一系列神經(jīng)科學(xué)和心理學(xué)的神秘發(fā)現(xiàn)。該理論重點(diǎn)揭示了大腦中基于模型的結(jié)構(gòu)化學(xué)習(xí)是如何出現(xiàn)的,為什么多巴胺含有基于模型的信息,以及前額葉皮質(zhì)中的神經(jīng)元如何根據(jù)學(xué)習(xí)信號(hào)進(jìn)行調(diào)整。人工智能的洞察力可以用來(lái)解釋神經(jīng)科學(xué)和心理學(xué)的發(fā)現(xiàn),也提升了每個(gè)領(lǐng)域研究成果的價(jià)值。展望未來(lái),他們?cè)谠O(shè)計(jì)新強(qiáng)化學(xué)習(xí)模型的時(shí)候可以從具體的大腦回路組織中獲得靈感,神經(jīng)科學(xué)與 AI 相得益彰。
論文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf
via DeepMind Blog,雷鋒網(wǎng)AI科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。