UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

本文作者：賴文昕

2025-02-27 19:15

導(dǎo)語：導(dǎo)語：他們構(gòu)成中國強(qiáng)化學(xué)習(xí)研究的半壁江山。

作者 | 賴文昕

編輯 | 陳彩嫻

作為一支在 AI 領(lǐng)域歷經(jīng)數(shù)十年的研究分支，強(qiáng)化學(xué)習(xí)一直在歷久彌新。

從推薦系統(tǒng)到強(qiáng)化學(xué)習(xí)

2006 年暑假的一個(gè)午后，汪軍踏上了從荷蘭小城代爾夫特開往首都阿姆斯特丹的火車，他將在阿姆斯特丹換乘飛機(jī)，飛往美國西雅圖參加第 29 屆國際計(jì)算機(jī)協(xié)會(huì)信息檢索大會(huì)（ACM SIGIR）。

此時(shí)的信息檢索領(lǐng)域如日中天，加上微軟、雅虎和谷歌三巨頭最核心的業(yè)務(wù)也是搜索，ACM SIGIR 每年都能匯集學(xué)術(shù)界與工業(yè)界的最高人才，來開一場信息檢索界的“年會(huì)”。

在華盛頓大學(xué)的會(huì)場里，汪軍在一片掌聲中獲得了最佳博士聯(lián)盟獎(jiǎng)，于博士畢業(yè)的前一年拿下了信息檢索領(lǐng)域博士的最高榮譽(yù)。

這位意氣風(fēng)發(fā)的青年此刻并未想到，自己將會(huì)在 15 年后再獲得時(shí)間檢驗(yàn)獎(jiǎng)的榮譽(yù)提名——2021 年的汪軍已轉(zhuǎn)向強(qiáng)化學(xué)習(xí)（RL）數(shù)年，作為發(fā)起人之一成立了華人強(qiáng)化學(xué)習(xí)社區(qū)RL China，為國內(nèi)強(qiáng)化學(xué)習(xí)研究培養(yǎng)了一批優(yōu)秀的青年人才，成為領(lǐng)域的“一代宗師”。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

汪軍

汪軍出生于江蘇南京，1993 年從金陵中學(xué)畢業(yè)后開始在東南大學(xué)攻讀電子工程專業(yè)。本科畢業(yè)后，他先在工業(yè)界工作三年，又于 2000 年重返學(xué)術(shù)界，在新加坡國立大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系讀研。

千禧年正值數(shù)字視頻興起，主要播放格式為 DVD、MPEG。彼時(shí)在計(jì)算機(jī)視覺領(lǐng)域占據(jù)主導(dǎo)地位的，是基于手工特征和傳統(tǒng)機(jī)器學(xué)習(xí)算法的方法，如在圖像匹配、分類等任務(wù)中取得了較好效果的 SIFT 特征、支持向量機(jī)等，神經(jīng)網(wǎng)絡(luò)則被認(rèn)為是一個(gè)相對(duì)復(fù)雜和難以解釋的 “黑盒” 。

此時(shí)汪軍已開始運(yùn)用神經(jīng)網(wǎng)絡(luò)開展計(jì)算機(jī)視覺領(lǐng)域的研究，師從印度教授、現(xiàn)新加坡國家人工智能中心副主席 Mohan Kankanhalli。

作為汪軍學(xué)術(shù)生涯的首位伯樂，Kankanhalli 引領(lǐng)他進(jìn)入學(xué)術(shù)圈，經(jīng)常鼓勵(lì)他自由探索，對(duì)其影響深遠(yuǎn)。在導(dǎo)師指導(dǎo)下，汪軍的碩士論文聚焦通過不經(jīng)過解碼，直接利用神經(jīng)網(wǎng)絡(luò)從壓縮視頻中識(shí)別其中的模式、人臉、物體等內(nèi)容。

2003 年碩士畢業(yè)后，汪軍來到荷蘭的代爾夫特理工大學(xué)讀博，師從機(jī)器學(xué)習(xí)教授 Marcel J. T. Reinders，在其指導(dǎo)下開始參與 CACTUS 項(xiàng)目。

該項(xiàng)目核心關(guān)注在自組織無線環(huán)境里，通過個(gè)性化、智能且具備情境感知能力的可穿戴設(shè)備，解決人機(jī)交互與計(jì)算機(jī)網(wǎng)絡(luò)交互在技術(shù)及可用性上的難題。其中一項(xiàng)關(guān)鍵內(nèi)容為，依據(jù)用戶當(dāng)前狀態(tài)，判斷是否應(yīng)推送不同信息。

作為一項(xiàng)推薦系統(tǒng)工作，該系統(tǒng)還與信息檢索緊密關(guān)聯(lián)，本質(zhì)上源于其中最基本的用戶需求。此需求可表現(xiàn)為關(guān)鍵詞，如通過用戶以往的興趣愛好、歷史瀏覽記錄等尋找到新信息，結(jié)合已知與未知部分，其中衡量它們之間相關(guān)性的指標(biāo)是核心所在。

隨著研究推進(jìn)，這個(gè)大項(xiàng)目范圍逐步收窄，發(fā)展成為個(gè)性化推薦系統(tǒng)，汪軍也在此過程中逐漸確認(rèn)了自己對(duì)推薦系統(tǒng)與信息檢索的興趣。

博士期間，指導(dǎo)汪軍學(xué)習(xí)主流信息檢索知識(shí)的是荷蘭信息檢索領(lǐng)域的知名教授 Arjen P. de Vries，在他的牽線下，汪軍結(jié)識(shí)了信息檢索大牛 Stephen Robertson，并在 2006 年隨之前往微軟劍橋研究院實(shí)習(xí)。

Stephen Robertson 發(fā)明了搜索領(lǐng)域最出色的算法 BM25，該算法基于概率統(tǒng)計(jì)等原理創(chuàng)建了一種排名方法，在神經(jīng)網(wǎng)絡(luò)興起前廣泛應(yīng)用于全球信息檢索領(lǐng)域并主導(dǎo)著該領(lǐng)域的技術(shù)方向，在大多數(shù)情況下，只要合理使用其公式，搜索結(jié)果通常能達(dá)到較好的效果。

對(duì)汪軍而言，Robertson 是自己的第二位伯樂。在微軟劍橋研究院時(shí)，Robertson 常常同他講解信息檢索的核心知識(shí)，兩人就統(tǒng)一模型（Unified Model）展開合作，在信息檢索領(lǐng)域取得了不少理論突破。

過去傳統(tǒng)的概率檢索模型存在面向文檔和面向查詢兩種不同的視角，統(tǒng)一模型則將兩種視角統(tǒng)一起來，以創(chuàng)建一個(gè)更完善的檢索模型。沿著這一道路開展推薦系統(tǒng)研究，汪軍在博士階段便逐漸涵蓋了信息檢索領(lǐng)域的所有基礎(chǔ)問題。

獲得 ACM SIGIR 2006 最佳博士聯(lián)盟獎(jiǎng)后不久，一心想做老師的汪軍收到了倫敦大學(xué)學(xué)院（UCL）的 offer，并在 2007 年成為計(jì)算機(jī)系的一名講師。

剛成為“青椒”的汪軍正值想法豐富、動(dòng)手能力強(qiáng)之際，立即啟動(dòng)了推薦系統(tǒng)方向的新研究。

此前 Robertson 曾提出概率排序原理（PRP），其核心為信息檢索系統(tǒng)應(yīng)按照文檔與用戶信息需求的相關(guān)概率降序?qū)ξ臋n進(jìn)行排序，以實(shí)現(xiàn)信息檢索系統(tǒng)的整體有效性（如期望精度）最大化。

汪軍認(rèn)為此理論存在不足，還得考慮上不確定性，便創(chuàng)新地將經(jīng)濟(jì)學(xué)理論引入信息檢索領(lǐng)域，在 2009 年發(fā)表了“Portfolio Theory of Information Retrieval”一文—— 11年后，此工作被 SIGIR 評(píng)為時(shí)間檢驗(yàn)獎(jiǎng)的第二名。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

論文鏈接：https://lintool.github.io/robust04-analysis-papers/p115-wang.pdf

簡單來說，就像投資時(shí)“不把所有錢都投進(jìn)一個(gè)籃子”，不能只買谷歌股票，還要買可口可樂或其他各類股票。搜索領(lǐng)域同理，比如當(dāng)輸入“jaguar”時(shí)，因無法確定其指汽車品牌捷豹還是動(dòng)物美洲豹，最佳做法是讓搜索結(jié)果多樣化，排序時(shí)，第一條可排動(dòng)物相關(guān)內(nèi)容，第二條排車相關(guān)，第三個(gè)及后續(xù)結(jié)果也都要注重多樣性。

與 PRP 相比，此方法的優(yōu)勢(shì)在于它突破了單一排名指標(biāo)的局限，不僅考慮了文檔相關(guān)度預(yù)測的不確定性，還考慮了檢索文檔之間的相關(guān)性，通過平衡排序列表的整體相關(guān)度和風(fēng)險(xiǎn)水平來進(jìn)行文檔排序，能更全面地處理文檔排序問題，還從數(shù)學(xué)上量化了多樣化的益處并有效降低排序風(fēng)險(xiǎn)。

這項(xiàng)工作完成后，汪軍認(rèn)為信息檢索領(lǐng)域已無太多本質(zhì)問題可研究，而互聯(lián)網(wǎng)中的搜索推薦和廣告推薦發(fā)展良好，且廣告尤其吸引他。

雖然廣告本質(zhì)仍屬信息檢索范疇，但融入了如博弈論等經(jīng)濟(jì)因素。從收益最大化角度，廣告推薦不僅要考慮相關(guān)性，還得兼顧經(jīng)濟(jì)價(jià)值，有時(shí)即便內(nèi)容相關(guān)，若預(yù)算用盡也不會(huì)被推薦。于是，汪軍開始研究廣告競價(jià)機(jī)制，如排名競價(jià)、實(shí)時(shí)競價(jià)。

在鉆研的過程中，汪軍發(fā)現(xiàn)：廣告領(lǐng)域技術(shù)的本質(zhì)就是強(qiáng)化學(xué)習(xí)。

一是做決策以最大化獎(jiǎng)勵(lì)，即最大化經(jīng)濟(jì)價(jià)值或獎(jiǎng)懲收益。廣告的目標(biāo)是最大化用戶互動(dòng)以促購買，同時(shí)兼顧預(yù)算，在既定預(yù)算下追求最優(yōu)表現(xiàn)，或在預(yù)算最小化時(shí)提升效果，這和強(qiáng)化學(xué)習(xí)思路一致。具體來說，用戶從點(diǎn)擊廣告到真正購買中的延遲，就類似于AlphaGo下棋時(shí)當(dāng)下決策影響未來收益，雙方都涉及如何評(píng)估優(yōu)化當(dāng)下決策對(duì)未來的作用。

二是多智能體博弈。在廣告領(lǐng)域，廣告主間是排名競價(jià)關(guān)系，例如當(dāng)用戶與鞋子相關(guān)的關(guān)鍵詞時(shí)，眾多賣鞋廣告主都想投放廣告，彼此競爭，這就是多智能體強(qiáng)化學(xué)習(xí)。

就這樣，強(qiáng)化學(xué)習(xí)的種子埋在了汪軍心里。

UCL 強(qiáng)化學(xué)習(xí)開拓者

2011 年，汪軍升職為 UCL 的高級(jí)講師，并迎來了一位熱衷于圍棋的新同事 David Silver。

David Silver 于 1998 年劍橋本科畢業(yè)后同好友 Demis Hassabis 共同創(chuàng)立電子游戲公司 Elixir Studios，又在 2004 年到阿爾伯塔大學(xué)攻讀強(qiáng)化學(xué)習(xí)的博士，師從強(qiáng)化學(xué)習(xí)之父 Richard Sutton，期間發(fā)表了“在 9×9 計(jì)算機(jī)圍棋中達(dá)到大師級(jí)水平” 的論文，其開發(fā)的 Mogo 程序是當(dāng)時(shí)最強(qiáng)的圍棋程序之一。

來到 UCL 后，Silver 延續(xù)RL在圍棋上的應(yīng)用，并受 Hassabis 之邀為 DeepMind 提供咨詢，啟動(dòng) AlphaGo 項(xiàng)目；而在隔壁辦公室的汪軍，則開始接觸到RL在信息檢索和排序中的應(yīng)用，遂請(qǐng) Silver 來擔(dān)任學(xué)生 Marc Sloan 的二導(dǎo)。

兩人常探討強(qiáng)化學(xué)習(xí)的相關(guān)邏輯及它在搜索排序等問題中的應(yīng)用，此時(shí)汪軍雖對(duì)RL的理解還不深，但通過討論逐漸覺得這個(gè)領(lǐng)域很有意思，便開始用它來探索在新興交叉研究領(lǐng)域——計(jì)算廣告市場中的應(yīng)用。

和傳統(tǒng)的監(jiān)督學(xué)習(xí)相比，強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)觀察和反饋。計(jì)算廣告生態(tài)系統(tǒng)中數(shù)據(jù)量大，開放性高，決策機(jī)會(huì)多，同時(shí)監(jiān)管較弱，是絕佳的產(chǎn)學(xué)研相結(jié)合的平臺(tái)。2012年，汪軍的學(xué)生袁帥發(fā)表了一篇利用隱馬爾可夫鏈選擇廣告的文章，揭開了團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)引入計(jì)算廣告的序幕。

隨著對(duì)計(jì)算廣告市場的了解不斷加深，汪軍的視野也在快速拓展，新的火花在概念的連接中不斷迸發(fā)出來。他的妻子在投行工作，在翻看其大學(xué)金融專業(yè)的教材時(shí)，汪軍了解到二級(jí)市場、現(xiàn)貨與期貨市場等概念，由此聯(lián)想到廣告領(lǐng)域——廣告通常是實(shí)時(shí)交易，沒有未來市場，但實(shí)際上，大廣告主常提前預(yù)定廣告位，剩余不確定流量才放入實(shí)時(shí)競價(jià)平臺(tái)，類似期貨市場。

汪軍和學(xué)生陳博為據(jù)此研究出新的定價(jià)方法，創(chuàng)造了廣告期貨/期權(quán)的新產(chǎn)品。文章發(fā)表后，不但獲得了最佳論文獎(jiǎng)，也引起了在劍橋讀 MBA 的 Rael Cline 的注意。Rael主動(dòng)聯(lián)系汪軍提出合作，二人便于 2014 年夏天一起創(chuàng)辦了 AI 廣告公司 MediaGamma。袁帥和陳博為作為初創(chuàng)員工，一起加入了公司。

MediaGamma的故事延續(xù)了七年多時(shí)間。在這期間，這群充滿樂觀精神的學(xué)院派創(chuàng)業(yè)者嘗試了很多主意：從一開始的廣告期權(quán)交易所，到后來專為廣告主服務(wù)的需方平臺(tái)（Demand Side Platform），再到后來專注于開發(fā)算法系統(tǒng)，細(xì)致分解計(jì)算廣告中的競價(jià)過程，當(dāng)然其中也包括了將RL算法應(yīng)用于出價(jià)決策——這也是強(qiáng)化學(xué)習(xí)首次在廣告實(shí)時(shí)交易中得以商用。

MediaGamma公司始于學(xué)術(shù)思維的結(jié)晶，慢慢發(fā)展成一個(gè)絕佳的試驗(yàn)場：它提供了開放的平臺(tái)和數(shù)據(jù)，多樣而實(shí)際的商業(yè)問題，給了汪軍和學(xué)生們充分的挑戰(zhàn)和鍛煉。袁帥也從一名博士生和工程師，成長為公司數(shù)據(jù)科學(xué)業(yè)務(wù)的領(lǐng)頭人。

MediaGamma也為汪軍的碩士生、博士生提供了實(shí)習(xí)機(jī)會(huì)。其中一位，也是首位緊隨他從推薦系統(tǒng)轉(zhuǎn)向廣告領(lǐng)域再到強(qiáng)化學(xué)習(xí)的得意門生，便是張偉楠。

2012 年 3 月，上海交大研一學(xué)生張偉楠讀到汪軍的一篇推薦系統(tǒng)論文，覺得思路新穎，當(dāng)周就發(fā)郵件提問。他本科就讀于 ACM 班，畢業(yè)前以第一作者完成三篇推薦系統(tǒng)相關(guān)論文，并在研一陸續(xù)發(fā)表。同汪軍的交流讓他獲益匪淺，于是向交大了解留學(xué)交換事宜。

張偉楠原本計(jì)劃本科畢業(yè)后出國，卻因金融危機(jī)導(dǎo)致上一屆學(xué)生出國情況不佳，大三時(shí)選擇了保研，但他一直想多接觸國際化環(huán)境與頂尖人才，也有師長建議從事科研最好有海外博士學(xué)位。思索再三，他覺得還是要出國深造，在和 ACM 班總教頭俞勇溝通后，他決定未來學(xué)成回國為實(shí)驗(yàn)室出力。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

張偉楠

9 月，張偉楠抵達(dá)倫敦開啟博士研究。博士剛開始，張偉楠的研究仍舊集中在推薦系統(tǒng)領(lǐng)域，與另一位博士生趙曉雪（現(xiàn)甲骨文首席數(shù)據(jù)科學(xué)家）合作研究了交互式推薦系統(tǒng)的序貫決策優(yōu)化算法，并拓展了投資組合理論在投資推薦領(lǐng)域的應(yīng)用。

張偉楠穩(wěn)扎穩(wěn)打、極有計(jì)劃，在清楚自己目標(biāo)外還會(huì)和導(dǎo)師同步自己的最新想法，讓汪軍特別放心。來到 UCL 第一年的某一天，張偉楠和汪軍午飯后在校園外散步，汪軍建議張偉楠做互聯(lián)網(wǎng)廣告。

當(dāng)時(shí)互聯(lián)網(wǎng)廣告正興起，學(xué)術(shù)界和產(chǎn)業(yè)界結(jié)合緊密，論文發(fā)表增多，新技術(shù)實(shí)時(shí)競價(jià)廣告（RTB）也剛出現(xiàn)，不僅要預(yù)測用戶對(duì)廣告的喜好，還需實(shí)時(shí)做出價(jià)決策——這個(gè)決策優(yōu)化和多方博弈拍賣過程的本質(zhì)，讓強(qiáng)化學(xué)習(xí)研究變得重要。

起初張偉楠有些猶豫，雖然自己本科在微軟亞洲研究院實(shí)習(xí)時(shí)發(fā)表過一篇廣告競價(jià)優(yōu)化的論文，但因?yàn)閷W(xué)術(shù)界總是拿不到和價(jià)格相關(guān)的廣告數(shù)據(jù)集，做廣告相關(guān)的研究會(huì)很困難，因此博士第一年時(shí)仍主要做交互式推薦系統(tǒng)。

2013 年，汪軍讓他和學(xué)長袁帥合作，參加全球?qū)崟r(shí)競價(jià)廣告算法大賽，二人獲得最終賽季總冠軍，在過程中接觸到業(yè)界一手的關(guān)鍵廣告出價(jià)數(shù)據(jù)，借此又發(fā)表了幾篇論文。自此，張偉楠正式轉(zhuǎn)向互聯(lián)網(wǎng)廣告競價(jià)領(lǐng)域，博士論文主題也定為互聯(lián)網(wǎng)廣告出價(jià)算法而非推薦系統(tǒng)。

當(dāng)時(shí)的主流是，實(shí)際優(yōu)化廣告出價(jià)時(shí)，常把建模做泛化和數(shù)值優(yōu)化結(jié)合。前者捕捉數(shù)據(jù)規(guī)律模式，為后者提供出價(jià)范圍和策略指導(dǎo)，后者在此基礎(chǔ)上精細(xì)調(diào)整出價(jià)，實(shí)現(xiàn)更好的廣告投放效果和經(jīng)濟(jì)效益。

汪軍和張偉楠起初考慮用強(qiáng)化學(xué)習(xí)而非此方法，可全球強(qiáng)化學(xué)習(xí)仍處于“玩具”階段，多是簡單表格型，學(xué)術(shù)性強(qiáng)，不適用于廣告這類實(shí)際領(lǐng)域。

直到 2013 年 12 月，David Silver 在 DeepMind 和團(tuán)隊(duì)發(fā)表了大名鼎鼎的 DQN 算法，首次成功將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合，在Atari 2600游戲中超越人類水平——?jiǎng)傉Q生的深度強(qiáng)化學(xué)習(xí)能處理更實(shí)際的任務(wù)。

此時(shí)在 UCL 研究RL的唯有汪軍和 Silver 二人，DQN 算法吸引了一波機(jī)器學(xué)習(xí)牛人相繼投入深度強(qiáng)化學(xué)習(xí)，其中就包括了微軟劍橋研究院。在汪軍建議下，張偉楠在 2014 年 9 月加入實(shí)習(xí)，跟隨 Thore Graepel、Katja Hofmann 和 Ulrich Paquet，參與了為 Xbox 打造音樂推薦系統(tǒng)的項(xiàng)目。

三人如今均為RL大牛：Thore Graepel 在微軟工作 12 年，曾開發(fā) Windows 圍棋游戲 AI，2015 年到 DeepMind 組建多智能體強(qiáng)化學(xué)習(xí)組，兩年后發(fā)表該領(lǐng)域首篇文章，又帶出 AlphaZero；Ulrich Paquet 任頂會(huì) NeurIPS 2024 的程序主席；Katja Hofmann 則是微軟RL的核心成員。

在三位的指導(dǎo)下，張偉楠對(duì)RL有了更深的理解。2016 年秋，他結(jié)束了三年多的博士生活回到母校上海交大任教，開始帶學(xué)生鉆研RL，是最早歸國的RL學(xué)者之一。

汪軍認(rèn)為生成式對(duì)抗網(wǎng)絡(luò)（GAN）頗具潛力，建議張偉楠朝此方向探索。幾人提出了結(jié)合GAN和RL的思路：由于離散數(shù)據(jù)無法像圖片或語音那樣直接求導(dǎo)，傳統(tǒng)GAN方法難以直接應(yīng)用，而強(qiáng)化學(xué)習(xí)中的策略梯度算法天然適合處理離散數(shù)據(jù)，因?yàn)樗梢灾苯觾?yōu)化離散動(dòng)作分布，從分布層面調(diào)整結(jié)果。

就這樣，張偉楠同學(xué)生于瀾濤、導(dǎo)師汪軍、俞勇一起創(chuàng)新性地將策略梯度方法應(yīng)用于離散數(shù)據(jù)生成（如文本和音符），在 AAAI 2017 發(fā)表SeqGAN，獲得極大的關(guān)注，目前引用次數(shù)已超3000。

值得一提的是，現(xiàn)在已成為范式的基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）同SeqGAN背后的思考邏輯出奇一致，都是通過RL方法優(yōu)化生成模型，利用外部反饋信號(hào)（判別器或人類反饋）解決離散數(shù)據(jù)生成的挑戰(zhàn)。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

論文鏈接：https://arxiv.org/abs/1609.05473

同年，師生二人還合作了 IRGAN，汪軍提出將 GAN 和 RL 結(jié)合，在信息檢索領(lǐng)域提出了一種創(chuàng)新的生成式方法：與只使用生成模型或判別模型的傳統(tǒng)方法不同，IRGAN框架通過GAN的思想將雙方統(tǒng)一在一個(gè)對(duì)抗性訓(xùn)練框架中，通過對(duì)抗性訓(xùn)練融合了彼此的優(yōu)點(diǎn)，對(duì)于生成器采用了基于策略梯度的RL來訓(xùn)練，在三種典型的信息檢索任務(wù)上（四個(gè)數(shù)據(jù)集）得到了更顯著的效果——作為 SIGIR 2017 唯一的滿分論文，IRGAN 還被提名為最佳論文。

多智能體：“三折疊”黑盒

與卷文章的實(shí)驗(yàn)室風(fēng)格不同，汪軍會(huì)在給予整體方向指導(dǎo)、親自推導(dǎo)公式、探索新課題之余，讓每個(gè)學(xué)生自由探索自己感興趣的領(lǐng)域。

不少學(xué)生與他的初見在倫敦泰特現(xiàn)代藝術(shù)館。汪軍會(huì)先帶學(xué)生看展，再坐下來喝咖啡，告訴他們做研究就像欣賞藝術(shù)品一樣，讀博第一年不必急于出成果，探索興趣、明確問題，遠(yuǎn)比發(fā)論文更有價(jià)值。

除了讓讀博充滿樂趣外，在溫穎、楊耀東看來，導(dǎo)師汪軍的學(xué)術(shù)品位極高，總能先人一步探索有潛力的方向。

轉(zhuǎn)向強(qiáng)化學(xué)習(xí)后，汪軍選擇了鮮少人涉足的多智能體領(lǐng)域，最核心的原因是其在互聯(lián)網(wǎng)廣告領(lǐng)域的經(jīng)驗(yàn)：廣告主競拍廣告位就是典型的多智能體博弈場景。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)本就是黑盒，深度強(qiáng)化學(xué)習(xí)在其基礎(chǔ)上增加了環(huán)境動(dòng)態(tài)交互的黑盒，多智能體強(qiáng)化學(xué)習(xí)又在這兩層黑盒之上加入多智能體博弈的黑盒，難以把握博弈收斂的納什均衡點(diǎn)，是最難的學(xué)習(xí)范式。

*納什均衡點(diǎn)是博弈中各參與者策略組合達(dá)到的穩(wěn)定狀態(tài)，即任何參與者單方面改變策略都無法使自身獲益，以“囚徒困境”中兩囚徒都坦白的策略組合為例，它在多領(lǐng)域被用于分析博弈行為與預(yù)測結(jié)果。

第一個(gè)跟隨汪軍鉆研多智能體的學(xué)生是溫穎。

溫穎 2015 年本科畢業(yè)于北京郵電大學(xué)的電子商務(wù)及法律專業(yè)，因?qū)W校整體偏通信與計(jì)算機(jī)的氛圍，所學(xué)內(nèi)容涵蓋計(jì)算機(jī)、通信、經(jīng)管等多領(lǐng)域知識(shí)，因此曾跟著軟件工程和計(jì)算機(jī)學(xué)院老師做過不少數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)分析的科研項(xiàng)目，是位不拘小節(jié)的編程大牛。

保研清華后，溫穎先后在百度、亞馬遜等大廠研發(fā)部實(shí)習(xí)，在了解國內(nèi)碼農(nóng)工作模式后，又萌生了出國看看的想法。2015 年 7 月，他趕在碩士項(xiàng)目申請(qǐng)季截止（當(dāng)時(shí)唯一未截止的項(xiàng)目是 UCL）前提交申請(qǐng)。剛在清華報(bào)到交完學(xué)費(fèi)，溫穎就收到 UCL 錄取郵件，于是放棄保研機(jī)會(huì)，火速辦理簽證，在 10 月 UCL 報(bào)到截止前一天抵達(dá)了倫敦。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

溫穎

此時(shí)英偉達(dá)推出Titan X GPU使算力大幅提升，CUDA 生態(tài)變好，谷歌也剛推出深度學(xué)習(xí)框架 TensorFlow，深度學(xué)習(xí)得以在學(xué)術(shù)界大規(guī)模興起。

溫穎的碩士方向?yàn)榫W(wǎng)絡(luò)科學(xué)與大數(shù)據(jù)分析，汪軍是其項(xiàng)目主任，張偉楠也會(huì)指導(dǎo)他做研究。師兄弟二人初見時(shí)，張偉楠還拿著剛打印出來的 TensorFlow 使用文檔，稱它為未來的方向。

碩士的一年間，溫穎跟張偉楠一起嘗試用深度學(xué)習(xí)做計(jì)算廣告、自然語言理解，溫穎出色的編程和工程能力讓張偉楠印象深刻，便推薦他加入汪軍組讀博。

對(duì)于是否繼續(xù)深造，溫穎起初因?qū)W費(fèi)高昂而猶豫，在爭取到學(xué)院的Feldman計(jì)算統(tǒng)計(jì)獎(jiǎng)學(xué)金（EU/UK費(fèi)率）后，汪軍又提出讓他去 Media Gamma 實(shí)習(xí)，讓公司幫他出剩下的學(xué)費(fèi)（國際學(xué)生學(xué)費(fèi)），就這樣，溫穎于 2016 年秋留在 UCL 讀博。

此時(shí)汪軍剛升為教授，有更多的資源“搞點(diǎn)大事”，便決定正式讓學(xué)生們主攻多智能體強(qiáng)化學(xué)習(xí)，將博弈思想融入其中。

年初 AlphaGo 問世后，溫穎聽了 David Silver 的講座深受觸動(dòng)，與汪軍確定該方向，成為其首個(gè)研究多智能體的學(xué)生。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

2016年的一場學(xué)術(shù)會(huì)議上，汪軍結(jié)識(shí)了彼時(shí)為阿里認(rèn)知計(jì)算實(shí)驗(yàn)室負(fù)責(zé)人的袁泉，二人都對(duì)多智能體很感興趣，便決定讓倆團(tuán)隊(duì)圍繞星際爭霸游戲開展合作，溫穎也因其出色的工程能力成為項(xiàng)目主力。

2017年秋，團(tuán)隊(duì)推出多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)BiCNet，專注于復(fù)雜環(huán)境中的協(xié)同與競爭策略優(yōu)化，在星際爭霸游戲中它通過雙向通信，建模智能體間的相互影響，使智能體能夠?qū)W習(xí)協(xié)同作戰(zhàn)、資源分配和戰(zhàn)術(shù)決策，并通過生成多樣化策略池確保在面對(duì)不同對(duì)手時(shí)快速適應(yīng)并做出最優(yōu)決策。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

論文鏈接：https://arxiv.org/pdf/1703.10069

可惜的是，盡管BiCNet比2019年發(fā)布的AlphaStar要早上兩年，但因只聚焦星際爭霸的小規(guī)模對(duì)戰(zhàn)，且沒有足夠的資源去擴(kuò)展規(guī)模做全局游戲，未能獲得更大的影響力。不過，袁泉也在此項(xiàng)目后離開阿里創(chuàng)立啟元世界，并在2020年6月發(fā)布AI智能體，使其成為繼DeepMind后全球唯二用AI擊敗人類選手的企業(yè)。

此后，溫穎的研究聚焦于多智能體之間的相互影響建模，將認(rèn)知層次應(yīng)用于多智能體強(qiáng)化學(xué)習(xí)，幫助智能體在合作場景中制定更優(yōu)策略；關(guān)注策略之間的相互影響，通過探索策略空間，使智能體在接觸豐富策略后學(xué)到最佳應(yīng)對(duì)策略，從而保證性能下限——這種建模方法在微觀和宏觀層面都顯著提升了多智能體系統(tǒng)的表現(xiàn)。

隨著溫穎一同加入汪軍組讀博的是楊耀東。

2013 年，楊耀東在中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系本科畢業(yè)后，來到帝國理工學(xué)院深造。畢業(yè)后，他就職于美國國際集團(tuán)（AIG）科學(xué)部門開發(fā)由機(jī)器學(xué)習(xí)風(fēng)險(xiǎn)定價(jià)模型。

在加入U(xiǎn)CL前，他對(duì)深度學(xué)習(xí)極有熱情，2015年在一次AIG資助的位于愛丁堡大學(xué)主辦的深度學(xué)習(xí)研討會(huì)上結(jié)識(shí)了張偉楠，以愛好者的身份請(qǐng)教最新技術(shù)動(dòng)態(tài)。后經(jīng)張偉楠推薦，到汪軍組讀博。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

楊耀東

進(jìn)組后，楊耀東的第一篇論文探索如何用RL和多智能體系統(tǒng)模擬自然界捕食者與獵物間的動(dòng)態(tài)關(guān)系，如狼與兔的周期性循環(huán)。與傳統(tǒng)依賴微分方程的方法不同，他通過RL讓智能體自主決策，仿真自然行為軌跡。這項(xiàng)工作讓他深刻體會(huì)到RL的魅力，認(rèn)為其從決策角度逼近真實(shí)人類社會(huì)，也奠定了他多智能體強(qiáng)化學(xué)習(xí)的研究方向。

這項(xiàng)工作完成后，楊耀東和汪軍討論新課題時(shí)發(fā)現(xiàn)：少量智能體的情況較為簡單，但若數(shù)量增加到成百上千甚至上萬后，缺少“C位”角色主導(dǎo)的情況將極為復(fù)雜。

面對(duì)這個(gè)問題，楊耀東提出引入“平均場博弈（Mean Field Game）”理論來解決。以股票市場為例，每個(gè)投資者的行為復(fù)雜且相互影響，但通過平均場方法，可以將所有投資者視為一個(gè)整體，計(jì)算群體的統(tǒng)計(jì)行為，并假設(shè)個(gè)體行為受群體行為影響，這種方法通過動(dòng)態(tài)迭代關(guān)系描述個(gè)體與群體之間的相互作用。

楊耀東是第一個(gè)將平均場博弈引入機(jī)器學(xué)習(xí)的學(xué)者，首創(chuàng)平均場論RL算法（Mean Field MARL），通過將大規(guī)模智能體系統(tǒng)（百萬級(jí)）簡化為群體行為模型，成功降低了計(jì)算復(fù)雜度，為處理超大規(guī)模多智能體系統(tǒng)提供了新的理論框架和實(shí)用工具。

這一創(chuàng)新在多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域具有重要意義，中了頂會(huì)ICML 2018的Oral。楊耀東反應(yīng)敏捷、掌握的知識(shí)非常豐富，汪軍曾夸贊他“很少有不知道的paper，有時(shí)比我知道的還多?！绷暌院螅瑮钜珫|持續(xù)相關(guān)領(lǐng)域研究，并指導(dǎo)學(xué)生完成了多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域華人首篇Nature Machine Intelligence。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

在ICML 2018會(huì)議現(xiàn)場與Mean Field RL展板合照

論文鏈接：http://proceedings.mlr.press/v80/yang18d/yang18d.pdf

除了溫、楊二人外，張海峰和田政也是在2016年加入了汪軍組。

張海峰2012年本科畢業(yè)于北大后繼續(xù)留校讀博，師從李文新教授研究游戲智能體，主要接觸蒙特卡洛樹搜索等傳統(tǒng)算法。2017年，他到UCL交換，與汪軍合作研究博弈環(huán)境生成，利用RL自動(dòng)生成游戲關(guān)卡，并在IJCAI發(fā)表論文。2018年博士畢業(yè)后，他再到汪軍組做博士后，提出雙層RL模型，用于多智能體系統(tǒng)中的斯塔克爾伯格均衡（Stackelberg Game），以自動(dòng)駕駛為例研究車輛并道決策。

田政本碩均在UCL就讀，博士期間先研究“快思慢想”理論，提出類似AlphaZero的RL算法EXIT，在棋盤游戲Hex中擊敗AI程序MOHEX 1.0。加入汪軍團(tuán)隊(duì)后，他專注于多智能體強(qiáng)化學(xué)習(xí)，特別是橋牌叫牌策略，通過叫牌傳遞隱藏信息并合作取得優(yōu)勢(shì)。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

張海峰、田政

陳旭和杜雅麗則在2019年加入汪軍組做博士后。

陳旭在清華博士期間專攻信息檢索和推薦系統(tǒng)，被汪軍2017年發(fā)表的IRGAN所吸引，十分欣賞利用對(duì)抗學(xué)習(xí)來提升信息檢索性能的想法，于是選擇加入U(xiǎn)CL做博士后研究員。

加入汪軍實(shí)驗(yàn)室后，他一方面拓展強(qiáng)化學(xué)習(xí)理論，將離散時(shí)間馬爾可夫決策過程延伸至連續(xù)時(shí)間半馬爾可夫決策過程，并擴(kuò)展有限時(shí)間界至連續(xù)時(shí)間界；另一方面，他將強(qiáng)化學(xué)習(xí)應(yīng)用于推薦算法，針對(duì)用戶多維度興趣問題，如旅客對(duì)酒店的多維度評(píng)價(jià)，提出基于多目標(biāo)優(yōu)化的強(qiáng)化學(xué)習(xí)算法，將用戶行為建模為序列決策過程，實(shí)現(xiàn)動(dòng)態(tài)多目標(biāo)策略優(yōu)化。

杜雅麗在悉尼科技大學(xué)讀博，博士后期時(shí)在騰訊AI Lab實(shí)習(xí)，研究強(qiáng)化學(xué)習(xí)在星際爭霸中的應(yīng)用，尤其是多智能體的微操控制。來到UCL后，她聚焦于多智能體通信網(wǎng)絡(luò)構(gòu)建、多智能體能力評(píng)估等研究，也和溫穎合作探索強(qiáng)化學(xué)習(xí)在游戲的應(yīng)用。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

陳旭、杜雅麗

汪軍對(duì)學(xué)生們的一大影響是對(duì)學(xué)術(shù)的執(zhí)著追求與前瞻性。張海峰評(píng)價(jià)，汪軍總能提出新穎想法，雖部分想法超前，但激勵(lì)學(xué)生深入探索、調(diào)研并完善，因此能在單智能體應(yīng)用盛行時(shí)，率先投身多智能體強(qiáng)化學(xué)習(xí)研究，終成開路人。

在學(xué)生培養(yǎng)上，汪軍老師會(huì)根據(jù)學(xué)生興趣細(xì)分研究領(lǐng)域，如陳旭側(cè)重RL在推薦系統(tǒng)的應(yīng)用，張海峰關(guān)注博弈，杜雅麗和溫穎聚焦游戲領(lǐng)域等等。

張偉楠形容汪軍“像李白一樣灑脫隨性”，他記得，汪軍不熱衷申請(qǐng)項(xiàng)目、周旋于會(huì)議和同行間，經(jīng)費(fèi)雖不寬裕，作為大牛卻始終堅(jiān)守科研一線推導(dǎo)公式、指導(dǎo)學(xué)生，“有著低調(diào)做人、高調(diào)做事的處世哲學(xué)?！睏钜珫|形容。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

每周一次的深度學(xué)習(xí)研討會(huì)

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

在UCL, Bloomsbury Campus

本土崛起

強(qiáng)化學(xué)習(xí)在國內(nèi)真正開始受重視始于2016年AlphaGO戰(zhàn)勝李世石的那一刻。

這一年，張偉楠回到母校上海交大任教，既和汪軍繼續(xù)保持合作推進(jìn)SeqGAN和IRGAN，也開始帶學(xué)生鉆研強(qiáng)化學(xué)習(xí)。

此時(shí)國內(nèi)開設(shè)RL課程的高校寥寥無幾，更沒有系統(tǒng)教材和足夠的老師，張偉楠便常在夏令營等非正式場合和學(xué)生們講解RL的基礎(chǔ)理論與前沿論文，還在2018年暑期邀請(qǐng)汪軍來到上交大授課，講RL、多智能體博弈論及其最新應(yīng)用。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

但這顯然不夠，學(xué)習(xí)材料和老師的稀缺讓學(xué)生們只能在摸索中前行，直至 2019 年，情況才迎來實(shí)質(zhì)性轉(zhuǎn)變。

9月，UCL 人工智能中心正式成立，隨即與 DeepMind 深化合作。DeepMind 研究員擔(dān)綱RL課程，汪軍則負(fù)責(zé)后續(xù)的多智能體課。

了解國內(nèi)情況后，汪軍萌生了舉辦免費(fèi)線上夏令營的想法，希望將自己在UCL中教授的內(nèi)容推廣開來，幫助中國學(xué)子更好地學(xué)習(xí)RL并深入了解此學(xué)術(shù)領(lǐng)域。

在和學(xué)生們的微信群里，汪軍分享了這個(gè)主意，眾人積極獻(xiàn)策，提出各種命名建議。經(jīng)過一番討論，最終定下了張偉楠提議的“RL China”這個(gè)名字。

RL China由汪軍發(fā)起，在早期推廣中由張偉楠和張海峰負(fù)責(zé)拉人，張海峰還負(fù)責(zé)安排日程、發(fā)布報(bào)名通知等具體運(yùn)營。

2019年底張海峰回國，次年在汪軍的引薦下加入中科院自動(dòng)化研究所，成立了專注于多智能體研究的群體決策智能團(tuán)隊(duì)，強(qiáng)化了自動(dòng)化所彼時(shí)未及NLP、圖像那般繁榮的博弈決策研究。

半年后，RL China第一屆暑期課推出，除了張偉楠、張海峰與楊耀東這三位汪軍的學(xué)生外，北大盧宗青、天津大學(xué)郝建業(yè)、新加坡南洋理工大學(xué)安波、南京大學(xué)俞揚(yáng)和清華張崇潔等人也受邀參與其中，為報(bào)名的同學(xué)無償直播講課。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

反響熱烈的首期RL China讓汪軍等人確信此活動(dòng)的必要性，又在2021年擴(kuò)大了規(guī)模，國內(nèi)外的授課教師數(shù)量增至三十余位，課程涵蓋強(qiáng)化學(xué)習(xí)、博弈論、多智能體等，還有華為等企業(yè)的應(yīng)用類課堂。

除了舉辦年度論壇之外，RLChina每周還組織學(xué)生研討，由國內(nèi)外十幾個(gè)強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)輪流主持，直播平臺(tái)上的觀看人數(shù)最高時(shí)能達(dá)十萬人次。

張海峰一直負(fù)責(zé)組織RLChina的各項(xiàng)活動(dòng)，他認(rèn)為投入精力在國內(nèi)推廣RL意義重大，“因?yàn)樗芫奂贻p教師和學(xué)生交流，加強(qiáng)學(xué)術(shù)界與產(chǎn)業(yè)界聯(lián)系?！?nbsp;

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

與此同時(shí)，國內(nèi)的RL教材也不再局限于搬運(yùn)海外論文，而是逐步平衡好理論和實(shí)操。

張偉楠自2019年在交大開設(shè)RL課程后，有不少學(xué)生反映課后編程實(shí)踐與課堂內(nèi)容存在明顯脫節(jié)，在課上證明了策略梯度定理和學(xué)習(xí)了策略梯度算法后，課后作業(yè)仍難以自己寫代碼實(shí)現(xiàn)策略并在游戲環(huán)境中獲得高分。

為解決這一問題，張偉楠借鑒了ACM班學(xué)長李沐出版深度學(xué)習(xí)書籍的方式，采用相似的形式編寫強(qiáng)化學(xué)習(xí)教案，每介紹一種方法，先講解原理和公式推導(dǎo)，再附上可運(yùn)行的Python代碼，學(xué)生可在網(wǎng)頁上直接運(yùn)行代碼并查看結(jié)果，即時(shí)驗(yàn)證所學(xué)原理。

在ACM班創(chuàng)始人俞勇的鼓勵(lì)下，張偉楠和助教們將經(jīng)過幾年迭代的講義和代碼作業(yè)整理成書，于2022年5月出版了《動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)》，此書至今銷量已超2.5萬冊(cè)，年銷量在全國強(qiáng)化學(xué)習(xí)領(lǐng)域排名第一。

而除了教學(xué)外，汪軍與他的學(xué)生們對(duì)RL在具體領(lǐng)域的應(yīng)用探索，同樣為RL的本土崛起出了一份力，尤其是RL和大模型及具身智能領(lǐng)域的結(jié)合。

回到2019年，汪軍擔(dān)任了華為諾亞方舟實(shí)驗(yàn)室的決策推理首席科學(xué)家，為華為內(nèi)部業(yè)務(wù)如5G網(wǎng)絡(luò)控制和自動(dòng)駕駛仿真提供多智能體解決方案，楊耀東和溫穎也先后加入，參與了內(nèi)部名為“LANDING RL（強(qiáng)化學(xué)習(xí)落地）”的大項(xiàng)目，項(xiàng)目最終雖沒成功，但幾人對(duì)強(qiáng)化學(xué)習(xí)落地場景的瓶頸都有了新的認(rèn)識(shí)。

2020 年 6 月，GPT-3 問世。汪軍注意到，大模型的Transformer架構(gòu)具有自回歸形式和良好的通用泛化性，恰好可以解決傳統(tǒng)RL在不同環(huán)境策略間的遷移存在的泛化難題。

于是在2021年，汪軍召集了張偉楠、楊耀東和溫穎三人，開始籌集資金，決定以創(chuàng)業(yè)的形式啟動(dòng)大模型研究——訓(xùn)練決策大模型極消耗資源，需投入海量算力。

他們希望構(gòu)建通用決策模型而非語言模型，所開發(fā)的“多智能體Transformer（MAT）”輸入和輸出更復(fù)雜，包括圖像、連續(xù)值（如機(jī)械臂關(guān)節(jié)狀態(tài)）、文本和離散動(dòng)作，初步成果還發(fā)表在了NeurIPS 2022。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

項(xiàng)目鏈接：https://sites.google.com/view/multi-agent-transformer

在MAT基礎(chǔ)上，團(tuán)隊(duì)22年進(jìn)一步推出了數(shù)字大腦決策大模型（DB1），進(jìn)一步驗(yàn)證了預(yù)訓(xùn)練模型在文本、圖 - 文、強(qiáng)化學(xué)習(xí)決策、運(yùn)籌優(yōu)化決策方面應(yīng)用的潛力。盡管DB1模型參數(shù)量達(dá)十多億，數(shù)據(jù)量達(dá)100T，但并未實(shí)現(xiàn)預(yù)期同語言模型一般的泛化效果。

問題在于，不同模態(tài)數(shù)據(jù)的信息力度難以對(duì)齊，理論上需要長段連續(xù)數(shù)據(jù)才能提取語義信息，而他們直接將數(shù)據(jù)強(qiáng)行輸入同一維度，雖在幾百個(gè)任務(wù)上有效，但未能實(shí)現(xiàn)跨模態(tài)或組合泛化，這也是DeepMind同年推出的通才大模型Gato同樣沒能解決的問題。

同期，在自動(dòng)化所的張海峰也和汪軍合作了端到端決策大模型的工作，具體涉及機(jī)械臂操控、星際爭霸游戲仿真、運(yùn)籌優(yōu)化等跨度較大的領(lǐng)域，劍指通用大模型?？梢哉f，汪軍等人所探索的，就是如今具身智能的雛形。

張海峰認(rèn)為汪軍既具超前想法又重落地性，“他2017年就關(guān)注機(jī)器意識(shí)，2021年做決策大模型，領(lǐng)先行業(yè)數(shù)年。通常有超前想法的人不太考慮落地，但汪老師與產(chǎn)業(yè)界聯(lián)系緊密，無論是與華為等企業(yè)合作還是個(gè)人創(chuàng)業(yè)，都顯示他對(duì)產(chǎn)業(yè)界的熟悉?！?/p>

在汪軍的一眾學(xué)生中，扎根具身智能最深的當(dāng)屬楊耀東。

博士畢業(yè)期間，楊耀東先在華為諾亞方舟實(shí)驗(yàn)室從事RL研究，隨后又到倫敦國王學(xué)院（KCL）任助理教授，并在2022年1月回國加入北大人工智能研究院任教。

談及跳出舒適區(qū)涉足硬件的原因，楊耀東表示，只將RL應(yīng)用于游戲并非智能的最終形態(tài)，無法推動(dòng)行業(yè)發(fā)展；而雙手作為人的智慧終端，智能體難以比擬，且根據(jù)莫拉維克悖論，即機(jī)器人處理復(fù)雜任務(wù)容易，執(zhí)行簡單日常動(dòng)作卻困難；更重要的是，在試驗(yàn)中用RL做靈巧手操作能實(shí)現(xiàn)兒童精細(xì)運(yùn)動(dòng)技能評(píng)估量表的極多操作，也證實(shí)了其可行性。

受北京市科委資助，他牽頭了《基于認(rèn)知推理的具身智能可泛化靈巧操作技術(shù)研究》并與同年齡段的北大助理教授朱毅鑫、董豪、王鶴一起探索類人靈巧雙手操作。

半年后，團(tuán)隊(duì)實(shí)現(xiàn)了第一個(gè)雙手拋接球demo，楊耀東立刻給汪軍發(fā)了一條微信，分享真正把多智能體強(qiáng)化學(xué)習(xí)用到真實(shí)場景中的喜悅，“讓AI控制高自由度的機(jī)械手達(dá)到人的靈巧度十分不容易。”此時(shí)距離智元機(jī)器人和銀河通用的正式成立還有一年多的時(shí)間，用RL實(shí)現(xiàn)靈巧手操作也尚未成為產(chǎn)業(yè)共識(shí)。

通往AGI的最后一公里

強(qiáng)化學(xué)習(xí)在過去十年中經(jīng)歷了從爆發(fā)式興起到反思調(diào)整，再到技術(shù)突破與場景落地的完整周期。

2016年，AlphaGo擊敗圍棋世界冠軍李世石，成為人工智能史上的里程碑，其結(jié)合蒙特卡洛樹搜索與深度強(qiáng)化學(xué)習(xí)的技術(shù)引發(fā)全球關(guān)注，推動(dòng)學(xué)術(shù)界和工業(yè)界對(duì)RL的廣泛投入。

然而，隨著技術(shù)熱潮褪去，2016年至2019年間，RL逐漸暴露出采樣效率低下、真實(shí)場景應(yīng)用成本高昂等問題。例如，訓(xùn)練一個(gè)游戲智能體需數(shù)百萬次交互，而機(jī)器人領(lǐng)域的實(shí)驗(yàn)可能因策略錯(cuò)誤導(dǎo)致設(shè)備損壞，單次實(shí)驗(yàn)成本高達(dá)數(shù)十萬美元。這一時(shí)期，研究者開始轉(zhuǎn)向離線強(qiáng)化學(xué)習(xí)（如BCQ、CQL算法）以降低交互成本，同時(shí)探索分層強(qiáng)化學(xué)習(xí)（如FeUdal Networks）和多智能體協(xié)作（如MADDPG）來應(yīng)對(duì)復(fù)雜任務(wù)。

2019年后，RL進(jìn)入復(fù)蘇與擴(kuò)展階段，并開始滲透至真實(shí)場景：OpenAI的Dactyl（2019）通過RL訓(xùn)練機(jī)械手完成精細(xì)操作，波士頓動(dòng)力將其應(yīng)用于四足機(jī)器人運(yùn)動(dòng)優(yōu)化；Waymo等公司將RL用于自動(dòng)駕駛決策系統(tǒng)，處理復(fù)雜交通場景；阿里、谷歌通過RL優(yōu)化動(dòng)態(tài)推薦策略等等。

不難發(fā)現(xiàn)，作為最早涉足RL的華人學(xué)者，汪軍及其學(xué)生一脈同樣沿襲了相似的發(fā)展脈絡(luò)，帶領(lǐng)著中國RL逐步追趕上國際最前沿。

2022年底，橫空出世的ChatGPT更是為這群高歌猛進(jìn)的RL信徒們注入了一劑強(qiáng)心針，眾人在RL與大模型技術(shù)融合的新趨勢(shì)中開始發(fā)力。

汪軍首先讓公司全面轉(zhuǎn)向以語言模型為中心的決策智能體，但仍希望實(shí)現(xiàn)決策任務(wù)而非僅文本生成，其研發(fā)的語言智能體已具備基礎(chǔ)對(duì)話能力和統(tǒng)一語義空間，計(jì)劃將不同模態(tài)和粒度的信息映射到語言空間，實(shí)現(xiàn)組合泛化?？上У氖牵疚茨艿鹊?023年上半年開始的大模型窗口期，在年初宣告了結(jié)束。

在學(xué)術(shù)上，組里的主力軍們都在汪軍的指導(dǎo)下成果斐然。

馮熙棟在元強(qiáng)化學(xué)習(xí)（Meta RL）已小有成果，圍繞多智能體交互與元梯度估計(jì)偏差發(fā)表過兩篇文章。

22年底Chat GPT的出現(xiàn)讓他意識(shí)到LLM的泛化能力遠(yuǎn)超傳統(tǒng)元強(qiáng)化學(xué)習(xí)。在汪軍的提議下遂轉(zhuǎn)向強(qiáng)化學(xué)習(xí)與語言模型的融合研究。他的第一篇工作將國際象棋作為包含驗(yàn)場。論文深入研究了了整個(gè)機(jī)器學(xué)習(xí)流程，包含數(shù)百萬局對(duì)弈數(shù)據(jù)及對(duì)應(yīng)的語言數(shù)據(jù)集，對(duì)應(yīng)的語言模型和生成模型訓(xùn)練，以及評(píng)估模型策略的基準(zhǔn)設(shè)計(jì)。

馮熙棟也因此獲得了23年底Google DeepMind關(guān)于國際象棋的實(shí)習(xí)生項(xiàng)目名額，實(shí)習(xí)大半年后順利轉(zhuǎn)正，留在了discovery組，參與語言模型，生成模型與強(qiáng)化學(xué)習(xí)結(jié)合的研究。

汪軍也鼓勵(lì)學(xué)生們從不同的角度上去理解智能體和環(huán)境的交互決策的合理性，并將其用于強(qiáng)化學(xué)習(xí)與智能體突破。在汪軍的啟發(fā)下，楊夢(mèng)月在博士期間的研究聚焦于可信AI，因果分析。從因果表示學(xué)習(xí)開始，進(jìn)一步的延伸到對(duì)智能體交互的世界環(huán)境的因果理解，即因果世界模型，以輔助智能體決策的可解釋性和可信研究。

楊夢(mèng)月于2024年底加入布里斯托大學(xué)工程數(shù)學(xué)作為助理教授，她目前也將研究拓展到基于大模型下的廣義的世界模擬中的因果探索。

和二人同屆的李錫涵則關(guān)注學(xué)習(xí)優(yōu)化、偏向于解決實(shí)際問題的應(yīng)用，比如對(duì)芯片邏輯電路的優(yōu)化，提出了類似LLM的生成式神經(jīng)模型“Circuit Transformer”，通過精心設(shè)計(jì)的解碼機(jī)制和馬爾可夫決策過程，嚴(yán)格生成與給定布爾函數(shù)等價(jià)且更緊湊的邏輯電路，目標(biāo)是做出“EDA（電子設(shè)計(jì)自動(dòng)化）領(lǐng)域的AlphaGo ”。

目前，李錫涵正與華為諾亞方舟實(shí)驗(yàn)室合作，繼續(xù)探索芯片研究。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

馮熙棟、楊夢(mèng)月、李錫涵

大洋彼岸，2020年回國加入人大高瓴人工智能研究院的陳旭，在推進(jìn)RL、因果推斷在推薦系統(tǒng)方向的應(yīng)用之余，也開始關(guān)注大模型，如角色扮演能力使大模型行為更貼近人類。同時(shí)，他還和社會(huì)學(xué)等人文社科合作，利用大模型智能體進(jìn)行社會(huì)仿真，以進(jìn)行低成本、快速的社會(huì)實(shí)踐和模擬調(diào)查。

楊耀東則對(duì)Chat GPT的RLHF技術(shù)感到十分驚艷，于是只留下一個(gè)多智能體習(xí)方向的博士生，其余人all in強(qiáng)化學(xué)習(xí)的對(duì)齊方向，成為國內(nèi)最早做對(duì)齊的學(xué)者之一。在ChatGPT發(fā)布兩個(gè)月后，楊耀東團(tuán)隊(duì)首先復(fù)現(xiàn)了RLHF模型后訓(xùn)練對(duì)齊的效果。

楊耀東隨后與當(dāng)時(shí)尚未成立百川智能的王小川一同探討，兩位“RL信徒”迅速達(dá)成共識(shí)：這是通向AGI的重要環(huán)節(jié)。三年后，OpenAI O3、DeepSeek R1的誕生也印證了該認(rèn)知。與百川智能的合作也讓楊耀東意識(shí)到AI浪潮發(fā)生在業(yè)界而非學(xué)界，再次埋下了創(chuàng)業(yè)的種子。

隨后在2024年具身智能的窗口期，楊耀東與梁一韜，溫穎一同參與了靈初智能，創(chuàng)建了北大-靈初靈巧操作聯(lián)合實(shí)驗(yàn)室，探索類人靈巧操作的具身智能產(chǎn)品，目前已推出了Psi - P0 規(guī)劃模型和Psi - C0 控制模型。

此外，楊耀東還和杜雅麗合作，發(fā)表了華人首篇多智能體強(qiáng)化學(xué)習(xí)方向的Nature Machine Intelligence子刊，打破DeepMind的壟斷，該論文也成為Nature Machine Intelligence創(chuàng)刊以來最受關(guān)注下載量最高的強(qiáng)化學(xué)習(xí)方向論文。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

論文鏈接：https://www.nature.com/articles/s42256-024-00879-7

去年10月，汪軍來到溫暖的花城廣州，在港科大做RL China的開幕致辭。這是RL China第二年開始辦線下活動(dòng)，參加人數(shù)也倍增至500有余。

汪軍希望未來每一年都采用線下方式舉辦，逐漸形成一個(gè)真正的RL學(xué)術(shù)會(huì)議或?qū)W生營，幫助縮短與國外存在的差距。

張偉楠指出，相比西方學(xué)者自上世紀(jì)八十年代的深厚積淀，國內(nèi)2016年才起步的研究仍存在思維深度與技術(shù)底蘊(yùn)的差距——這種差距既體現(xiàn)在頂級(jí)會(huì)議核心圈的中國聲音稀缺，也反映在學(xué)術(shù)生態(tài)的脆弱性：當(dāng)計(jì)算機(jī)視覺等領(lǐng)域提供更輕松的就業(yè)通道時(shí)，許多強(qiáng)化學(xué)習(xí)研究者選擇轉(zhuǎn)行。

作為將深度強(qiáng)化學(xué)習(xí)引入中國的先驅(qū)，汪軍及其學(xué)生們?cè)?016-2020年間的影響力甚至早于伯克利系學(xué)者的集體歸國潮。他們借RL China點(diǎn)燃了第一把火，培養(yǎng)更多強(qiáng)化學(xué)習(xí)方向的學(xué)者與教師，讓該學(xué)科在國內(nèi)百所學(xué)校開設(shè)，并推動(dòng)技術(shù)落地產(chǎn)業(yè)，實(shí)現(xiàn)變革。

UCL強(qiáng)化學(xué)習(xí)派：汪軍與他的學(xué)生們

汪軍的學(xué)生們還談到，汪軍總是活躍在科研一線探索，手把手教學(xué)生推公式，完全沒有“學(xué)術(shù)大?！钡募茏樱彩掠H力親為，總是“樣樣通、樣樣精”，從信息檢索到推薦系統(tǒng)再到多智能體強(qiáng)化學(xué)習(xí)都能碩果累累。

知行合一的學(xué)術(shù)基因會(huì)在新一代學(xué)者身上延續(xù)。在楊耀東看來，汪軍是他科研和為人處世上的領(lǐng)路人，當(dāng)自己成為導(dǎo)師后，也希望對(duì)博士生傳遞一個(gè)核心理念，“五年后你們帶不走任何算法代碼，唯有兩樣?xùn)|西真正屬于你們——辨別研究方向的學(xué)術(shù)品味，以及決定學(xué)術(shù)生命長度的學(xué)術(shù)道德和規(guī)范?！?nbsp;

袁帥、陳博為、趙曉雪、張偉楠、楊耀東、溫穎、張海峰、田政、陳旭、杜雅麗、馮熙棟、楊夢(mèng)月、李錫涵等人從UCL的汪軍組走出，以強(qiáng)化學(xué)習(xí)為根系成長為多個(gè)方向的先行者，在中國強(qiáng)化學(xué)習(xí)領(lǐng)域形成了重要的影響。

“在邁向AGI的路上，無論是哪種智能，強(qiáng)化學(xué)習(xí)這一步都不可或缺?！?/p>

UCL的故事已告一段落，但以強(qiáng)化學(xué)習(xí)為根基的他們，仍在續(xù)寫著新的篇章。

（雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))前編輯張進(jìn)對(duì)本文亦有貢獻(xiàn)）

關(guān)于強(qiáng)化學(xué)習(xí)的更多故事，歡迎與本文雷峰網(wǎng)作者 anna042023 交流

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。