0
本文作者: 陳彩嫻 | 2021-12-23 15:12 |
強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域的「揚(yáng)名立萬(wàn)」,始于2016年DeepMind開(kāi)發(fā)的Alpha Go在圍棋競(jìng)賽中戰(zhàn)勝人類(lèi)世界冠軍李世石。
之后,強(qiáng)化學(xué)習(xí)被廣泛應(yīng)用于人工智能、機(jī)器人與自然科學(xué)等領(lǐng)域,并取得一系列突破性成果(如DeepMind的Alpha系列),引起了大批學(xué)者的研究興趣與廣泛關(guān)注。
事實(shí)上,強(qiáng)化學(xué)習(xí)的研究由來(lái)已久,遠(yuǎn)遠(yuǎn)早于2016年。自上世紀(jì)80年代以來(lái),強(qiáng)化學(xué)習(xí)的核心問(wèn)題,如探索效率、學(xué)習(xí)與規(guī)劃的規(guī)模與難度權(quán)衡,便在計(jì)算機(jī)科學(xué)、人工智能、控制理論、運(yùn)籌學(xué)與統(tǒng)計(jì)學(xué)等等領(lǐng)域得到了廣泛研究。
然而,強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論問(wèn)題是什么?該領(lǐng)域出色的通用算法應(yīng)具備哪些要素?如何設(shè)計(jì)高度可擴(kuò)展的強(qiáng)化學(xué)習(xí)算法?……在2019年以前,這一系列重要問(wèn)題均未得到很好的定義,強(qiáng)化學(xué)習(xí)也未形成一門(mén)獨(dú)立的研究學(xué)科。
在此契機(jī)下,2019年秋天,七位學(xué)者組織了西蒙斯強(qiáng)化學(xué)習(xí)理論大會(huì),召集了來(lái)自世界各地對(duì)強(qiáng)化學(xué)習(xí)感興趣的學(xué)者,共同探討與梳理強(qiáng)化學(xué)習(xí)的研究問(wèn)題。
與1956年的達(dá)特茅斯會(huì)議相似,該會(huì)議的參會(huì)者也是來(lái)自各個(gè)領(lǐng)域,有應(yīng)用數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家、理論計(jì)算機(jī)學(xué)家,還有通信學(xué)家、密碼學(xué)家、神經(jīng)學(xué)家等等,包括Michael Jordan、Martin Wainwright、Csaba Szepesvari、Ben Recht等等知名學(xué)者。
大會(huì)長(zhǎng)達(dá)半年,橫貫一學(xué)期,覆蓋四個(gè)分論壇,七位發(fā)起人梳理問(wèn)題,最終確立了強(qiáng)化學(xué)習(xí)領(lǐng)域的四大核心研究方向:在線強(qiáng)化學(xué)習(xí)、離線與基于模擬器的強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)與應(yīng)用強(qiáng)化學(xué)習(xí)。此舉打開(kāi)了科研人員研究強(qiáng)化學(xué)習(xí)理論與通用算法的大門(mén),此后,研究強(qiáng)化學(xué)習(xí)的論文在NeurIPS、ICML等國(guó)際頂會(huì)上井噴,越來(lái)越多學(xué)者參與其中,極大地推動(dòng)了強(qiáng)化學(xué)習(xí)學(xué)科的快速發(fā)展。
西蒙斯大會(huì)無(wú)疑是強(qiáng)化學(xué)習(xí)方向的「達(dá)特茅斯」。但與達(dá)特茅斯會(huì)議不同的是,西蒙斯大會(huì)的七位發(fā)起人中,有一位華人學(xué)者。她就是現(xiàn)任普林斯頓大學(xué)終身教授的知名青年科學(xué)家王夢(mèng)迪。
1、從控制論談起
求學(xué)期間,王夢(mèng)迪常被稱(chēng)為「天才少女」:
14歲上清華,18歲到麻省理工學(xué)院(MIT)讀博,師從美國(guó)國(guó)家工程院院士 Dimitri P.Bertsekas,23歲博士畢業(yè),24歲進(jìn)入普林斯頓任教、擔(dān)任博士生導(dǎo)師,29歲獲得終身教職,斬獲多個(gè)重要學(xué)術(shù)獎(jiǎng)項(xiàng),可謂一部活脫脫的「名校披襟斬棘之史」!
圖 / 2018年,王夢(mèng)迪入選「MIT TR35」中國(guó)區(qū)榜單
王夢(mèng)迪在人工智能領(lǐng)域的探索,始于清華大學(xué)自動(dòng)化系的本科就讀經(jīng)歷。
清華大學(xué)自動(dòng)化系組建于1970年,名師云集,引領(lǐng)著控制工程學(xué)科的科技創(chuàng)新,推動(dòng)現(xiàn)代化和人工智能科技進(jìn)程。控制論便是當(dāng)代人工智能的起源之一。
從原理上看,控制論與強(qiáng)化學(xué)習(xí)/人工智能系統(tǒng)有著緊密聯(lián)系。
如凱文·凱利在《失控》一書(shū)中所言,人工智能的雛形其實(shí)很簡(jiǎn)單:比方說(shuō),早期的抽水馬桶就是一個(gè)「人工智能系統(tǒng)」:只要摁一下沖水鍵,馬桶就能在失誤很小的情況下自動(dòng)完成沖水功能。但凡一個(gè)機(jī)制能通過(guò)反饋完成一個(gè)功能,就是人工智能。
圖 / Kevin Kelly發(fā)表于1992年的經(jīng)典科普著作《失控》
控制論的核心思路是對(duì)一個(gè)已知系統(tǒng)設(shè)計(jì)自我反饋機(jī)制以達(dá)到特定的目標(biāo)或最大/最小化目標(biāo)函數(shù):
人們用一組微分方程或拉普拉斯函數(shù)對(duì)需要控制的系統(tǒng)(如機(jī)械系統(tǒng)、電氣系統(tǒng)等)進(jìn)行完整的描述。當(dāng)系統(tǒng)的模型完全精確已知時(shí),早期研究者無(wú)需借助計(jì)算機(jī)就可以通過(guò)數(shù)學(xué)的運(yùn)算直接推導(dǎo)出該系統(tǒng)的最優(yōu)控制策略,從而在物理上設(shè)計(jì)一個(gè)反饋機(jī)制,隨著系統(tǒng)狀態(tài)變化給出不同的反饋,實(shí)現(xiàn)自動(dòng)控制。
同樣地,強(qiáng)化學(xué)習(xí)也是基于系統(tǒng)的狀態(tài),不斷對(duì)系統(tǒng)進(jìn)行動(dòng)態(tài)操控。區(qū)別在于,對(duì)于強(qiáng)化學(xué)習(xí)算法來(lái)說(shuō),待控制的系統(tǒng)是一個(gè)黑箱函數(shù),不具備完整的數(shù)學(xué)描述,難以直接求解最優(yōu)策略。所以,強(qiáng)化學(xué)習(xí)有潛力解決很多復(fù)雜但模糊的新問(wèn)題,比如游戲的最佳策略,蛋白質(zhì)的設(shè)計(jì)等等。
本科期間,王夢(mèng)迪便是從控制論出發(fā),首次接觸了強(qiáng)化學(xué)習(xí)算法。
清華自動(dòng)化系的本科畢業(yè)設(shè)計(jì)要做一個(gè)雙足行走的機(jī)器人,在機(jī)器人的髖關(guān)節(jié)中間加一個(gè)小小的電機(jī),目標(biāo)是用最小的能量讓機(jī)器人流暢地行走起來(lái)。假設(shè)機(jī)器腿是完美的剛體結(jié)構(gòu),腿部的擺動(dòng)可以用拉格朗日方程精確描述。這時(shí),經(jīng)典的控制論就可以找到最優(yōu)的控制策略。
圖 / 雙足機(jī)器人(圖源網(wǎng)絡(luò))
然而現(xiàn)實(shí)的場(chǎng)景往往不符合假設(shè),不存在精確的數(shù)學(xué)描述。課題中,要先不施加電機(jī)輸入,觀察機(jī)器人在斜坡如何利用重力和擺動(dòng)被動(dòng)走起來(lái);走起來(lái)后,收集它的行走軌跡數(shù)據(jù)。然后,再基于數(shù)據(jù),探索如何通過(guò)控制髖關(guān)節(jié)的電機(jī),設(shè)計(jì)一個(gè)自適應(yīng)的反饋系統(tǒng),讓機(jī)器人擺脫對(duì)重力的依賴(lài)、在平地上健步如飛。
面對(duì)這樣一個(gè)動(dòng)態(tài)過(guò)程,強(qiáng)化學(xué)習(xí)被派上用場(chǎng):如果把雙足機(jī)器人系統(tǒng)當(dāng)成一個(gè)黑箱函數(shù),基于價(jià)值函數(shù)和策略函數(shù)不斷迭代、更新、實(shí)驗(yàn)、逼近,就能通過(guò)不斷的試驗(yàn)進(jìn)行在線學(xué)習(xí),算出一個(gè)最適合雙足行走機(jī)器人的狀態(tài)-價(jià)值函數(shù),找到最優(yōu)控制策略。
圖 / 王夢(mèng)迪在 2017 年中國(guó)人工智能大會(huì)上作演講,談控制論與人工智能的關(guān)系
隨著控制問(wèn)題的復(fù)雜度不斷提升,控制算法對(duì)系統(tǒng)建模的依賴(lài)也需逐漸放松,注重通過(guò)實(shí)驗(yàn)來(lái)收集數(shù)據(jù)、從數(shù)據(jù)中總結(jié)模型信息、在線學(xué)習(xí)來(lái)逼近最優(yōu)系統(tǒng)操控策略的強(qiáng)化學(xué)習(xí)方法將在復(fù)雜系統(tǒng)中扮演越來(lái)越重要的角色。從這一點(diǎn)來(lái)看,控制論成就了人工智能的核心,而強(qiáng)化學(xué)習(xí)等新興方法又反哺了控制問(wèn)題的求索:
「比如,下棋本身無(wú)法用微分方程來(lái)描述,但我們可以一邊下、一邊收集下棋和對(duì)手的信息。當(dāng)我們對(duì)要控制的系統(tǒng)的先驗(yàn)知識(shí)越來(lái)越少時(shí),我們就越來(lái)越依賴(lài)于來(lái)自經(jīng)驗(yàn)與數(shù)據(jù)的近似,并利用大規(guī)模深度神經(jīng)網(wǎng)絡(luò)進(jìn)行高通量的計(jì)算、擬合和推理。」王夢(mèng)迪介紹。
基于反饋、優(yōu)化、乃至于深度學(xué)習(xí),現(xiàn)代人工智能早已改變了人類(lèi)的生活和認(rèn)知,從自動(dòng)駕駛到機(jī)器人流水線,從宏觀電網(wǎng)調(diào)度到微觀的蛋白質(zhì)優(yōu)化??刂普撝械脑S多經(jīng)典思想和方法,比如貝爾曼方程、模擬、反饋、系統(tǒng)辨識(shí)等方法,深刻影響了以深度強(qiáng)化學(xué)習(xí)為代表的現(xiàn)代人工智能研究上。
2、MIT讀博:科研觀的形成
在MIT讀博期間(2007-2013),王夢(mèng)迪師從 Dimitri P.Bertsekas教授,隸屬于信息與決策系統(tǒng)實(shí)驗(yàn)室(Laboratory for Information and Decision Systems, LIDS),主攻控制算法與隨機(jī)優(yōu)化問(wèn)題。
MIT 的 LIDS 實(shí)驗(yàn)室的研究傳承來(lái)自于維納與香農(nóng)。維納是控制論之父,而香農(nóng)是信息論之父,控制論和信息論,分別代表了工業(yè)自動(dòng)化時(shí)代和信息時(shí)代的開(kāi)端。自成立以來(lái),LIDS實(shí)驗(yàn)室的杰出科學(xué)家們便追求將控制論與信息論結(jié)合起來(lái),用于復(fù)雜系統(tǒng)的智能化和信息化。
王夢(mèng)迪的博士導(dǎo)師、美國(guó)國(guó)家工程院院士 Dimitri P.Bertsekas 是自動(dòng)控制領(lǐng)域的宗師,于控制論、優(yōu)化、運(yùn)籌、神經(jīng)網(wǎng)絡(luò)等多個(gè)領(lǐng)域做出過(guò)奠基性貢獻(xiàn)。
王夢(mèng)迪對(duì)AI科技評(píng)論回憶,讀博那會(huì),導(dǎo)師Bertsekas非常寬松。王夢(mèng)迪是他的關(guān)門(mén)弟子,他一直很鼓勵(lì)她的發(fā)散性思考,從不否定她的各種腦洞大開(kāi)的想法,這讓王夢(mèng)迪進(jìn)一步釋放了在清華時(shí)就開(kāi)始積淀的對(duì)開(kāi)創(chuàng)性的新問(wèn)題、新領(lǐng)域的追求:
「我現(xiàn)在回想起來(lái),他從來(lái)沒(méi)有說(shuō)過(guò)一句令我沮喪的話(huà)。如果我處在他的位置,可能對(duì)『我』會(huì)有挺多意見(jiàn)的?!?/p>
在Bertsekas的門(mén)下,王夢(mèng)迪更多是學(xué)習(xí)到了一種高級(jí)的研究品味。這是一種與大咖導(dǎo)師同行、耳濡目染之下培養(yǎng)的研究思路。
Bertsekas在應(yīng)用數(shù)學(xué)與系統(tǒng)控制方向均有極高的研究造詣,著有《概率導(dǎo)論》、《非線性規(guī)劃》、《隨機(jī)優(yōu)化控制》與《強(qiáng)化學(xué)習(xí)與最優(yōu)控制》等十多本著作與教材,是名副其實(shí)的大咖。在他的反復(fù)錘煉下,王夢(mèng)迪慢慢明白一項(xiàng)好的研究工作應(yīng)當(dāng)具備怎樣的標(biāo)準(zhǔn),「他是一點(diǎn)一點(diǎn)地把我拎到了那個(gè)高度?!?/p>
圖 / Dimitri P. Bertsekas
Bertsekas是2019年完成《強(qiáng)化學(xué)習(xí)與最優(yōu)控制》一書(shū),彼時(shí),王夢(mèng)迪已離開(kāi)導(dǎo)師的庇蔭許久,在強(qiáng)化學(xué)習(xí)這一她自己獨(dú)立拓展的領(lǐng)域打開(kāi)一片新的天地,成為了人工智能、強(qiáng)化學(xué)習(xí)領(lǐng)域能夠獨(dú)當(dāng)一面的學(xué)者。
對(duì)控制論與強(qiáng)化學(xué)習(xí)的關(guān)系思考,也使王夢(mèng)迪相信:學(xué)習(xí)效率更高、泛用性更強(qiáng)的算法,是人工智能的未來(lái)。
3、機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)理論探索
王夢(mèng)迪在2014年開(kāi)始進(jìn)入普林斯頓擔(dān)任助理教授,2019年成為普林斯頓大學(xué)的終身教授,之后王夢(mèng)迪加入了普林斯頓當(dāng)時(shí)剛成立不久的統(tǒng)計(jì)與機(jī)器學(xué)習(xí)中心(Center for Statistics and Machine Learning,CSML),是最早加入CSML的教授之一。
CSML的主要研究?jī)?nèi)容是開(kāi)發(fā)數(shù)據(jù)驅(qū)動(dòng)的現(xiàn)代機(jī)器學(xué)習(xí)算法,與王夢(mèng)迪的研究方向更契合。同樣是舉下棋的例子:就下棋而言,智能體的訓(xùn)練數(shù)據(jù)來(lái)自于游戲本身,每嘗試新的玩法、就會(huì)收集到新的數(shù)據(jù);在一個(gè)可以完美模擬的游戲環(huán)境中,智能體所收集的數(shù)據(jù)量甚至是無(wú)上限的。如何從模擬走向現(xiàn)實(shí),即「sim2real」,是人工智能領(lǐng)域面臨的難題之一。
自2015年DeepMind開(kāi)發(fā)的Alpha Go 在與世界圍棋冠軍李世石的對(duì)峙中取勝,強(qiáng)化學(xué)習(xí)便成為許多人工智能研究員的神往之地,王夢(mèng)迪也是其中之一。
圖 / 普林斯頓大學(xué)統(tǒng)計(jì)與機(jī)器學(xué)習(xí)中心(CSML)
在早期工作中,王夢(mèng)迪是將數(shù)學(xué)優(yōu)化方法與高維統(tǒng)計(jì)相結(jié)合,以解決大規(guī)模機(jī)器學(xué)習(xí)中的圖問(wèn)題。比如,當(dāng)圖問(wèn)題離散組合時(shí),如何利用問(wèn)題的特殊結(jié)構(gòu),將問(wèn)題進(jìn)行對(duì)偶分解,從而獲得一個(gè)出色的近似解。這一近似解借用了非凸優(yōu)化的對(duì)偶性,與非凸問(wèn)題的最優(yōu)解相近。
她探索過(guò)復(fù)雜的多層期望嵌套的隨機(jī)規(guī)劃問(wèn)題。通過(guò)巧妙的設(shè)計(jì)多層嵌套隨機(jī)梯度法,能夠在線的進(jìn)行迭代,最終拿到的估計(jì)的統(tǒng)計(jì)效果與離線進(jìn)行完整組合分析的效果一致。憑借這項(xiàng)研究,王夢(mèng)迪在2016年獲得三年頒發(fā)一次的國(guó)際數(shù)學(xué)規(guī)劃學(xué)會(huì)青年學(xué)者獎(jiǎng)(Young Researcher Prize in Continuous Optimization of the Mathematical Optimization Society)。
這些探索性的研究更加深了王夢(mèng)迪對(duì)隨機(jī)優(yōu)化理論與機(jī)器學(xué)習(xí)結(jié)合的興趣。接著,她又與斯坦福大學(xué)的葉蔭宇(馮諾伊曼理論獎(jiǎng)唯一華人獲得者)等人合作,研究馬爾可夫決策鏈(MDP)的理論復(fù)雜度與最優(yōu)算法。
MDP是強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,同時(shí),MDP的算法復(fù)雜度也是運(yùn)籌學(xué)領(lǐng)域的經(jīng)典問(wèn)題。他們要解決的問(wèn)題是:當(dāng)強(qiáng)化學(xué)習(xí)的樣本來(lái)自于馬爾可夫鏈時(shí),要如何研究一個(gè)算法的最優(yōu)收斂性與樣本復(fù)雜度?如何定義MDP問(wèn)題的最優(yōu)算法與計(jì)算復(fù)雜度?從上世紀(jì)70年代起,便有許多學(xué)者開(kāi)始研究這些問(wèn)題,但一直懸而未決。
王夢(mèng)迪與葉蔭宇等人合作,結(jié)合經(jīng)典的價(jià)值迭代算法,以及樣本與方差縮減技巧,首次提出了能基于樣本精確解決MDP的最優(yōu)快速收斂算法,將馬爾可夫決策鏈中的計(jì)算復(fù)雜度與樣本復(fù)雜度做到了最優(yōu)。他們的一系列工作(如“Near-Optimal Time and Sample Complexities for Solving Markov Decision Processes with a Generative Model”)于2019年發(fā)表在了計(jì)算機(jī)和機(jī)器學(xué)習(xí)頂會(huì)NeurIPS、SODA等上。
論文地址:https://arxiv.org/pdf/1806.01492.pdf
憑借在馬爾可夫決策鏈復(fù)雜度和在線強(qiáng)化學(xué)習(xí)上的一系列工作,王夢(mèng)迪在2018年入選了「麻省理工科技評(píng)論35歲以下創(chuàng)新35人(MIT TR35)」的中國(guó)區(qū)榜單。
后來(lái),她又在強(qiáng)化學(xué)習(xí)領(lǐng)域做了許多通用算法研究的工作,比如,在特征空間中進(jìn)行在線自學(xué)習(xí);再比如,探索強(qiáng)化學(xué)習(xí)的未知模:當(dāng)未知價(jià)值函數(shù)屬于一個(gè)無(wú)限維的抽象函數(shù)空間時(shí),要如何在這個(gè)空間里不斷迭代估計(jì),并用該空間的復(fù)雜度來(lái)描述強(qiáng)化學(xué)習(xí)算法的效率。這些早期工作,也成為理論強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基性工作。
2020年,DeepMind發(fā)布新一代強(qiáng)化學(xué)習(xí)系統(tǒng)Muzero。以往的強(qiáng)化學(xué)習(xí)算法如AlphaGo和AlphaZero往往只適用于單一類(lèi)別的游戲。Muzero僅使用像素和游戲分?jǐn)?shù)作為輸入,同時(shí)在Atari、圍棋、象棋等多個(gè)單人視頻游戲和雙人零和游戲上超越人類(lèi)水平,達(dá)到AI算法最強(qiáng)戰(zhàn)績(jī)。
那時(shí)王夢(mèng)迪正在DeepMind休學(xué)術(shù)假。她與團(tuán)隊(duì)成員聯(lián)合 DeepMind 的科學(xué)家從理論上證明并進(jìn)一步推廣了Muzero的泛用性,移除了“價(jià)值函數(shù)導(dǎo)向回歸”(value target regression)的特殊算法技巧,使得強(qiáng)化學(xué)習(xí)算法可以在任何一個(gè)黑箱環(huán)境中,對(duì)未知環(huán)境的變化進(jìn)行判斷、數(shù)據(jù)收集、并且構(gòu)造后驗(yàn)概率模型,在一個(gè)抽象的大的函數(shù)空間里不斷搜索、縮小模型范圍,對(duì)未知環(huán)境及其最優(yōu)策略快速逼近。
該算法同時(shí)結(jié)合了 model-based(基于環(huán)境模型的) 和 model-free(不基于環(huán)境模型而是基于價(jià)值函數(shù)逼近)的兩派強(qiáng)化學(xué)習(xí)算法各自的優(yōu)點(diǎn):對(duì)任意的黑箱環(huán)境進(jìn)行探索、建模、并且利用深度價(jià)值網(wǎng)絡(luò)快速訓(xùn)練、快速在線迭代策略,從而煉就了極強(qiáng)的泛化能力。這一系列新成果可以極大提高強(qiáng)化學(xué)習(xí)的效率,普適性,并降低對(duì)昂貴的算力和大規(guī)模數(shù)據(jù)資源的依賴(lài)。
論文地址:https://arxiv.org/abs/2006.01107
4、拓展強(qiáng)化學(xué)習(xí)在復(fù)雜現(xiàn)實(shí)場(chǎng)景中的通用性
所有強(qiáng)化學(xué)習(xí)的算法都受限于馬爾可夫決策過(guò)程中的獎(jiǎng)勵(lì)可加性 (reward additivity),即「目標(biāo)價(jià)值函數(shù)是每一步所得獎(jiǎng)勵(lì)的累加值期望」。獎(jiǎng)勵(lì)的可加性是貝爾曼方程(Bellman Equation)、控制論、乃至所有強(qiáng)化學(xué)習(xí)算法的數(shù)學(xué)基礎(chǔ)。
盡管獎(jiǎng)勵(lì)的可加性能推導(dǎo)出數(shù)學(xué)上優(yōu)美的貝爾曼方程,卻極大地限制了強(qiáng)化學(xué)習(xí)的應(yīng)用,因?yàn)樵诖罅康姆怯螒虻默F(xiàn)實(shí)場(chǎng)景中,目標(biāo)函數(shù)往往不是獎(jiǎng)勵(lì)的簡(jiǎn)單相加。在風(fēng)險(xiǎn)控制、策略模仿、團(tuán)隊(duì)協(xié)作等場(chǎng)景中,真正的目標(biāo)函數(shù)往往是關(guān)于狀態(tài)軌跡的復(fù)雜非線性函數(shù),如風(fēng)險(xiǎn)函數(shù)、散度等等,甚至包含復(fù)雜的非線性安全約束條件。由于缺乏可加性,這些重要的實(shí)際問(wèn)題無(wú)法用強(qiáng)化學(xué)習(xí)解決。
然而,當(dāng)可加性不再成立,強(qiáng)化學(xué)習(xí)和控制的數(shù)學(xué)基礎(chǔ)不復(fù)存在,我們熟悉的價(jià)值函數(shù)(Value Function)也不再存在。同時(shí),策略?xún)?yōu)化算法的基礎(chǔ)——強(qiáng)化學(xué)習(xí)之父Rich Sutton證明的策略梯度定理(Policy Gradient Theorem)也不復(fù)成立。
在智能決策領(lǐng)域,不滿(mǎn)足獎(jiǎng)勵(lì)可加性的問(wèn)題無(wú)解。
王夢(mèng)迪團(tuán)隊(duì)挑戰(zhàn)了這個(gè)全新的領(lǐng)域,拓展了強(qiáng)化學(xué)習(xí)的邊界。當(dāng)面對(duì)復(fù)雜目標(biāo)函數(shù)、獎(jiǎng)勵(lì)不再可加時(shí),王夢(mèng)迪團(tuán)隊(duì)利用數(shù)學(xué)對(duì)偶原理,重新定義了策略梯度,得到了全新的更泛用的變分策略梯度定理(Variational Policy Gradient Theorem)。他們證明,對(duì)于更復(fù)雜的目標(biāo)函數(shù),其策略梯度依然可以計(jì)算,并且其等價(jià)于一個(gè)極大極小值問(wèn)題的最優(yōu)解。被重新定義的策略梯度,帶來(lái)了全新的算法和應(yīng)用。也就是說(shuō),強(qiáng)化學(xué)習(xí)可以進(jìn)一步推廣到金融風(fēng)控、多智能體、模仿學(xué)習(xí)等現(xiàn)實(shí)場(chǎng)景中。
強(qiáng)化學(xué)習(xí)的邊界,從獎(jiǎng)勵(lì)可加的馬爾可夫決策過(guò)程,推廣到更一般性的、更復(fù)雜的策略?xún)?yōu)化問(wèn)題。這一系列工作收到了強(qiáng)化學(xué)習(xí)領(lǐng)域和數(shù)學(xué)優(yōu)化領(lǐng)域的關(guān)注,連續(xù)兩年在NeurIPS 2020與2021上被選為Spotlight Paper:
J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)
J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)
面向未來(lái),王夢(mèng)迪在強(qiáng)化學(xué)習(xí)中的另一項(xiàng)重要研究,便是數(shù)據(jù)降維(Dimensionality Reduction)和離線學(xué)習(xí) (Offline Learning)。
王夢(mèng)迪的研究路線一向清晰:從理論研究出發(fā),再將理論上的突破推向?qū)嶋H應(yīng)用?;陔x線數(shù)據(jù)的、在現(xiàn)實(shí)生活中落地的決策優(yōu)化問(wèn)題,便是王夢(mèng)迪團(tuán)隊(duì)的一塊「硬骨頭」。
如前所述,在常見(jiàn)的游戲AI任務(wù)中,智能體能夠通過(guò)不斷模擬實(shí)驗(yàn)來(lái)收集數(shù)據(jù),然后用這些數(shù)據(jù)來(lái)訓(xùn)練系統(tǒng)的策略網(wǎng)絡(luò)。數(shù)據(jù)越多,算力充足,則算法越強(qiáng),比如Alpha Go,AlphaStar,就能打敗人類(lèi)世界的冠軍戰(zhàn)隊(duì)。
但在現(xiàn)實(shí)生活中,許多關(guān)鍵領(lǐng)域,比如醫(yī)學(xué)與金融,并不具備像游戲般的完美模擬環(huán)境。因此,在模擬器上十分完美的強(qiáng)化學(xué)習(xí)算法,在現(xiàn)實(shí)生活中就未必能輕松地解決工程問(wèn)題,比如醫(yī)療場(chǎng)景中的策略?xún)?yōu)化、復(fù)雜電力系統(tǒng)的最優(yōu)控制等。這就是sim2real的難點(diǎn)。
王夢(mèng)迪曾參加過(guò)一些醫(yī)療領(lǐng)域和生物技術(shù)領(lǐng)域的人工智能探索。在這些項(xiàng)目中,她的任務(wù)是將病人的病例數(shù)據(jù)當(dāng)成「棋譜」,從中學(xué)習(xí)針對(duì)某一病例的診斷策略,并研究能否進(jìn)一步優(yōu)化診斷流程,降低病人的重癥率。與游戲中的智能體可以「盲目」嘗試、無(wú)限模擬不同,在醫(yī)學(xué)環(huán)境中,病人沒(méi)有辦法做新的實(shí)驗(yàn),而且數(shù)據(jù)可能極其有限。
在數(shù)據(jù)有限的情況下,研究者還能找到最優(yōu)策略嗎?亦或者是否可以退而求其次,將現(xiàn)有的策略進(jìn)行最大程度的提高?如果要繼續(xù)做實(shí)驗(yàn),那么應(yīng)該如何進(jìn)行,才能以最小的代價(jià)收集到這些數(shù)據(jù)?這些問(wèn)題,也就是「離線強(qiáng)化學(xué)習(xí)」所關(guān)心的問(wèn)題。
顯然,離線強(qiáng)化學(xué)習(xí)更看重「有效率」的嘗試。王夢(mèng)迪與團(tuán)隊(duì)通過(guò)數(shù)據(jù)降維的embedding方法,將數(shù)據(jù)從高維空間切換到低維空間,從而保留最有內(nèi)容的信息,規(guī)避數(shù)據(jù)的過(guò)度擬合現(xiàn)象,為離線強(qiáng)化學(xué)習(xí)的研究開(kāi)辟了新的道路。這些新探索在AI+醫(yī)療、新金融、AI「智造」等領(lǐng)域帶來(lái)新的可能性。
5、面向未來(lái)的AI
應(yīng)用數(shù)學(xué)和基礎(chǔ)理論,往往是發(fā)現(xiàn)通用算法的起點(diǎn)。研究問(wèn)題的通用性,逐漸拓寬研究的邊界,加速了學(xué)科的交流與合作,也成就了王夢(mèng)迪更大的研究世界觀。
強(qiáng)化學(xué)習(xí)、統(tǒng)計(jì)優(yōu)化是王夢(mèng)迪組的兩大研究方向,但她并沒(méi)有將自己局限于機(jī)器學(xué)習(xí)的范疇。
青年科學(xué)家如王夢(mèng)迪,成長(zhǎng)于學(xué)科漸趨深度融合的大環(huán)境,也擁有了更大的研究世界觀。在科研上,他們站在巨人的肩膀上,追求探索與創(chuàng)新的工作??鐚W(xué)科作為火花碰撞的主要口子之一,自然對(duì)新一代的研究員有著致命的吸引力。
如果說(shuō)達(dá)特茅斯會(huì)議的頭腦風(fēng)暴,是學(xué)科知識(shí)融合的起切口,那么,「AI for Science」(將人工智能應(yīng)用于科學(xué)研究)似乎是人工智能首次作為一門(mén)成熟的獨(dú)立學(xué)科,加入到學(xué)科間的交流中。科學(xué)領(lǐng)域的「大熔爐」是否會(huì)形成?答案仍未揭曉,但趨勢(shì)卻漸顯。
「普林斯頓以科學(xué)為本,也愿意站在一個(gè)更高的理論角度來(lái)思考學(xué)科的發(fā)展,對(duì)AI for Science十分關(guān)注?!雇鯄?mèng)迪談道。
王夢(mèng)迪對(duì)「AI for Science」的關(guān)注,始于2019年。那時(shí),王夢(mèng)迪在學(xué)術(shù)休假期間加盟DeepMind,兼職任高級(jí)研究科學(xué)家,也接觸到了許多將人工智能技術(shù)用于科學(xué)研究的工作,比如能夠預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的 AlphaFold,不久前用神經(jīng)網(wǎng)絡(luò)求解混合整數(shù)規(guī)劃(MIP)問(wèn)題等。
王夢(mèng)迪與團(tuán)隊(duì)追求創(chuàng)新研究,探索前人沒(méi)有涉足過(guò)的問(wèn)題。在她看來(lái),機(jī)器學(xué)習(xí)領(lǐng)域更多基礎(chǔ)問(wèn)題已經(jīng)解決,但在應(yīng)用中還有大片空白。比如,在 AI 與生物學(xué)、AI與醫(yī)療、AI與材料等的結(jié)合研究中,學(xué)科間的融合是一大難點(diǎn)。
在與跨學(xué)科的科學(xué)家合作的過(guò)程中,王夢(mèng)迪的一個(gè)感受是:兩個(gè)領(lǐng)域的學(xué)者在定義問(wèn)題的語(yǔ)言與方式上十分不同:
「機(jī)器學(xué)習(xí)的研究者習(xí)慣一上來(lái)就先問(wèn)數(shù)據(jù)是什么、輸入輸出是什么,而自然科學(xué)的科學(xué)家可能對(duì)『輸入』的概念很模糊。尤其是當(dāng)數(shù)據(jù)少時(shí),我們會(huì)需要對(duì)數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),了解其他關(guān)聯(lián)數(shù)據(jù),分析數(shù)據(jù)之間的相似性,尋找內(nèi)在邏輯和圖譜等等。所以,要設(shè)計(jì)機(jī)器學(xué)習(xí)算法來(lái)輔助science,還要有大量溝通。」
不過(guò),王夢(mèng)迪并不沮喪。DeepMind是將人工智能應(yīng)用在科學(xué)研究上的領(lǐng)頭羊。來(lái)自 DeepMind 與其他機(jī)器學(xué)習(xí)領(lǐng)域的科學(xué)家的自信也感染了王夢(mèng)迪:
「DeepMind的價(jià)值觀就是要推動(dòng)人類(lèi)文明的進(jìn)步。我感覺(jué)研究人工智能的學(xué)者都非常自信,覺(jué)得自己有能力解決世界上最難的問(wèn)題。這種自信非常棒,會(huì)給予自己主觀能動(dòng)性,也會(huì)感染其他學(xué)者,幫助不同學(xué)科的人更快、更好地聯(lián)合在一起,去解決原先以為難于登天的問(wèn)題?!?/p>
近日,王夢(mèng)迪與團(tuán)隊(duì)在這方面也取得了不錯(cuò)的成果:他們將單細(xì)胞的狀態(tài)(來(lái)自于單細(xì)胞的逆轉(zhuǎn)因子測(cè)序)當(dāng)成一個(gè)系統(tǒng)來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)建模,通過(guò)高通量的單細(xì)胞測(cè)序數(shù)據(jù)來(lái)重建一個(gè)單細(xì)胞的狀態(tài)變化軌跡,甚至找到它的重要隱變量,從而預(yù)測(cè)干細(xì)胞的分化和癌癥細(xì)胞的病變。他們用深度學(xué)習(xí)的方法優(yōu)化堿基序列和蛋白質(zhì)氨基酸序列,輔助開(kāi)發(fā)新的基因編輯、基因治療工具。
問(wèn)及為何「AI for Science」的首選領(lǐng)域是結(jié)構(gòu)生物學(xué),王夢(mèng)迪解釋?zhuān)褐饕蚴墙Y(jié)構(gòu)領(lǐng)域的數(shù)據(jù)相對(duì)多;即使沒(méi)有數(shù)據(jù),還可以用分子動(dòng)力學(xué)進(jìn)行計(jì)算模擬。很多AI在藥物發(fā)現(xiàn)上的突破,即是從這個(gè)角度出發(fā),用深度學(xué)習(xí)進(jìn)行加速,做泛化性處理。然而在數(shù)據(jù)量更稀少的問(wèn)題上,還有大片空白等待探索。
談起DeepMind,王夢(mèng)迪非常愛(ài)戴,這個(gè)由世界頂級(jí)科學(xué)家創(chuàng)立的科研機(jī)構(gòu)在用 AI 推動(dòng)科學(xué)進(jìn)步、社會(huì)進(jìn)步的進(jìn)程上敢為天下先,給全世界的學(xué)者帶來(lái)了信心。但與此同時(shí),DeepMind也無(wú)需被過(guò)度神化:「單就強(qiáng)化學(xué)習(xí)的應(yīng)用技術(shù)而言,國(guó)內(nèi)的領(lǐng)頭羊,比如騰訊 AI Lab、阿里達(dá)摩院、滴滴等,并不比DeepMind差。」
追溯DeepMind發(fā)展飛快的更深一層原因,是 DeepMind 的科學(xué)家在母公司谷歌的支持下,能夠自由地探索研究。相比之下,「國(guó)內(nèi)應(yīng)該沒(méi)有一個(gè) AI 機(jī)構(gòu)能像 DeepMind 一樣拿到那么多沒(méi)有限制的資源。所以,從資源投入的角度來(lái)看,將任何一個(gè)以前的研究機(jī)構(gòu)與 DeepMind 比都是不公平的?!?/p>
6、青年學(xué)者的樂(lè)觀主義
王夢(mèng)迪對(duì)人工智能的未來(lái)十分樂(lè)觀。
她認(rèn)為,機(jī)器學(xué)習(xí)仍在快速發(fā)展,當(dāng)越來(lái)越多學(xué)科與知識(shí)融入其中,也必然產(chǎn)生越來(lái)越多的新問(wèn)題。從這個(gè)角度來(lái)看,后繼者在可以前人的基礎(chǔ)上開(kāi)辟新的道路,深度學(xué)習(xí)的瓶頸未必是人工智能研究的瓶頸。年輕的科學(xué)家們有機(jī)會(huì)拓展機(jī)器學(xué)習(xí)的邊界、甚至科學(xué)的邊界,在AI的大領(lǐng)域中找到自己的位置。
也許是年齡與所帶領(lǐng)的博士生相仿,王夢(mèng)迪似乎更能理解學(xué)生的想法,愿意支持學(xué)生做各種各樣的選擇。無(wú)論是進(jìn)入學(xué)術(shù)界傳承衣缽,亦或進(jìn)入工業(yè)界推動(dòng)技術(shù)落地;是做應(yīng)用和產(chǎn)品,還是理論研究,她認(rèn)為,這些方式都能推動(dòng)人工智能發(fā)展,無(wú)以臧否。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
這一點(diǎn),顯然是受到了Bertsekas的影響。在她讀博時(shí),導(dǎo)師便從未否定過(guò)她的想法,而是支持她做任何事情。
她所指導(dǎo)的許多博士生與博士后,如今也已卓有成就,比如楊林,加入了UCLA擔(dān)任助理教授,是NeurIPS 2020論文入選最多的華人學(xué)者(9篇);酈旭東,如今已是復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院的副教授;張君宇,現(xiàn)任新加坡國(guó)立大學(xué)副教授;郝博韜, 如今是DeepMind的強(qiáng)化學(xué)習(xí)科學(xué)家;Saeed Ghadimi,現(xiàn)任Waterloo大學(xué)商學(xué)院教授。
圖 / 王夢(mèng)迪(最右)在普林斯頓任教
王夢(mèng)迪對(duì)AI人才的發(fā)展也是樂(lè)觀的。她相信,當(dāng)AI被應(yīng)用于越來(lái)越多的領(lǐng)域,AI的研究人才必然是時(shí)代發(fā)展的中流砥柱。只是,AI人才要掌握的知識(shí)與技能能將不斷增多,跨學(xué)科知識(shí)的學(xué)習(xí)大概率是新的突破口之一。雷峰網(wǎng)
而與此同時(shí),年輕的學(xué)者也生活在一個(gè)有機(jī)會(huì)接觸到多學(xué)科知識(shí)的時(shí)代。在學(xué)科深度融合的洪流中,個(gè)體的成長(zhǎng)道路畢竟更寬廣。雷峰網(wǎng)
所以,「年輕人就應(yīng)該樂(lè)觀,世界屬于他們。」王夢(mèng)迪談道。
參考鏈接:
1. https://www.tsinghua.edu.cn/info/1673/69827.htm
2. https://simons.berkeley.edu/programs/rl20
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。