汪昭然：構(gòu)建“元宇宙”和理論基礎(chǔ)，讓深度強化學(xué)習(xí)從虛擬走進現(xiàn)實

本文作者：我在思考中

2021-07-12 15:07

導(dǎo)語：要實現(xiàn)強化學(xué)習(xí)在現(xiàn)實世界中的落地，算法只是第二步。

作者 | 陳彩嫻

深度強化學(xué)習(xí)的故事，可以追溯到2015年：

當(dāng)時，位于英國倫敦的一家小公司 DeepMind 在《Nature》上發(fā)表了一篇文章“Human-level control through deep reinforcement learning”，提出了一種新算法叫 Deep Q-Network（簡稱“DQN”），應(yīng)用在 Atari 2600 游戲時，在49個游戲水平中超過了人類。

DQN 的強大之處是什么呢？它沒有受到任何人為干預(yù)，不清楚游戲規(guī)則，完全靠自己摸索學(xué)習(xí)，找出在這個游戲中取勝的最優(yōu)策略。

但那時人們還不知道這究竟意味著什么，直到第二年，這家公司將DQN應(yīng)用在 Alpha Go 上，讓 Alpha Go 與世界圍棋冠軍李世石對戰(zhàn)，以 4:1 的成績打敗李世石，人們才驚呼：這、這、人工智能這“小子”不簡單呀！…

接著，深度強化學(xué)習(xí)又被應(yīng)用于德州撲克、星際爭霸、王者榮耀等游戲中，不斷挑戰(zhàn)人類玩家，甚至以高超的水平多次蒙混過關(guān)，當(dāng)起“職業(yè)冒充”排位賽選手，且沒有被人類發(fā)現(xiàn)…

然而，當(dāng)深度強化學(xué)習(xí)在虛擬世界混得風(fēng)生水起時，它在現(xiàn)實世界的存在感卻幾乎為零。雖然強化學(xué)習(xí)很早就被谷歌、阿里等公司應(yīng)用于廣告推薦、以達到利潤最優(yōu)目標(biāo)，但它的決策潛能還遠(yuǎn)遠(yuǎn)沒有被挖掘出來。比如，在醫(yī)療、金融、交通、電網(wǎng)等關(guān)乎國計民生的領(lǐng)域，深度強化學(xué)習(xí)對人類的幫助是極少的。

在汪昭然看來，這與深度強化學(xué)習(xí)當(dāng)前的兩大缺陷有關(guān)：一是樣本效率與計算效率低；二是缺乏可信度，算法的安全性與魯棒性低。要將深度強化學(xué)習(xí)從虛擬世界轉(zhuǎn)到現(xiàn)實世界，一要建立理論框架，二要提高樣本效率與計算效率。

汪昭然目前在美國西北大學(xué)任教，是工業(yè)工程及管理科學(xué)系（在運籌科學(xué)領(lǐng)域排名美國和世界前三）和計算機科學(xué)系的終身軌助理教授，同時隸屬于該校的深度學(xué)習(xí)中心和優(yōu)化及統(tǒng)計學(xué)習(xí)中心。

他的長期研究目標(biāo)是開發(fā)出新一代數(shù)據(jù)驅(qū)動的決策智能，推進深度強化學(xué)習(xí)在現(xiàn)實世界中的落地。

1

元宇宙

“你知道Metaverse嗎？”

在談到模擬器/仿真器（simulator）前，汪昭然興致沖沖地介紹最近炒得很火的一個概念，叫“Metaverse”（也就是“元宇宙”）。“Metaverse”是從《第二人生》（Second Life）游戲里面延伸出來的一個概念，指的是：現(xiàn)實世界中的所有事物都能在虛擬世界中找到一個對應(yīng)物。最為我們熟悉的，大約是電影《頭號玩家》里的場景：

汪昭然：構(gòu)建“元宇宙”和理論基礎(chǔ)，讓深度強化學(xué)習(xí)從虛擬走進現(xiàn)實

圖注：《頭號玩家》電影海報

事實上，在工業(yè)界也有一個相似的概念，叫“數(shù)字孿生”（Digital Twins），指人們用軟件來模仿和增強人類世界的行為。就像 Roblox這個游戲，玩家可以在虛擬世界中打造任何事物，比如造一座小城市，但他們所打造的靈感往往是來源于對現(xiàn)實生活的觀察。

那么，“元宇宙”、“數(shù)字孿生”這些概念與深度強化學(xué)習(xí)有什么關(guān)系呢？

事實上，“模仿”在深度強化學(xué)習(xí)的研究中非常重要：在研究者將深度強化學(xué)習(xí)技術(shù)落地在現(xiàn)實世界中時，為了避免災(zāi)難性的操作后果，他們往往要先做一個模擬器來模擬現(xiàn)實的物理世界，讓算法在與人類直接交互前，先與虛擬的智能體進行交互試驗，在不斷的試錯實驗中找到行為主體的最優(yōu)策略。

正如《頭號玩家》的名牌口號一樣：“Accept your reality, or fight for a better one.”（要么接受當(dāng)前的現(xiàn)實，要么打造一個更好的現(xiàn)實。）深度強化學(xué)習(xí)的哲學(xué)本質(zhì)也是如此：沒有最好，只有更好。

開發(fā)可微分模擬器也是汪昭然目前的研究工作之一，但并不是他的最終目標(biāo)。

汪昭然的本科就讀于清華大學(xué)電子工程系，是南方某省市的理科市狀元，但他不愿意談?wù)撆c狀元有關(guān)的事情：“這個不用寫，如果考得不好，那可能就進不了清華電子系了呀。”

接著，他又強調(diào)了一遍：“我的長期研究目標(biāo)，就是開發(fā)出新一代數(shù)據(jù)驅(qū)動的決策智能，包括理論、算法與系統(tǒng)三個層面。”

事實上，汪昭然第一次接觸深度強化學(xué)習(xí)，是2017年在騰訊人工智能實驗室（當(dāng)時由張潼領(lǐng)導(dǎo)）工作的那一年。那時候，他還沒有從普林斯頓大學(xué)運籌與金融工程系獲得博士學(xué)位，但已獲得美國西北大學(xué)的教職offer。時間充裕，他就去了騰訊訪學(xué)。

當(dāng)時Alpha Go的傳說還未遠(yuǎn)去，汪昭然自然有所耳聞。在騰訊實驗室，他參與了王者榮耀等即時戰(zhàn)略游戲項目的開發(fā)，使用的主要工具正是多智能體的深度強化學(xué)習(xí)。他發(fā)現(xiàn)深度強化學(xué)習(xí)與他讀博時的研究方向有許多能夠結(jié)合的地方，因此想用讀博時的一些研究工具來解決深度強化學(xué)習(xí)里的問題。

雖然他所就讀的博士項目叫“運籌與金融工程系”（Operations Research & Financial Engineering，簡稱“ORFE”），但該系所研究的方向不僅包括金融數(shù)學(xué)、隨機分析等金融專業(yè)，還有機器學(xué)習(xí)、運籌學(xué)、優(yōu)化、概率論與統(tǒng)計學(xué)等等。汪昭然所在的組是統(tǒng)計與機器學(xué)習(xí)大組，隸屬于 StatLab，王夢迪也在領(lǐng)導(dǎo)該實驗室。

汪昭然：構(gòu)建“元宇宙”和理論基礎(chǔ)，讓深度強化學(xué)習(xí)從虛擬走進現(xiàn)實

圖注：普林斯頓大學(xué)Sherrerd Hall（ORFE所在大樓）

雖然他的夢想起源于游戲世界，但汪昭然的“野心”并不是在游戲中打造出實力與人類玩家媲美的機器人玩家，而是琢磨著如何將在游戲中已有出色表現(xiàn)的深度強化學(xué)習(xí)技術(shù)遷移到現(xiàn)實世界中，尤其是關(guān)鍵的社會領(lǐng)域，比如醫(yī)療、交通、金融、電網(wǎng)等。

在深度強化學(xué)習(xí)領(lǐng)域，“Sim2Real”（全稱為“Simulation to reality”，從虛擬到現(xiàn)實）是一個新興的研究話題。這個概念首先由谷歌在CVPR 2018上提出，其中一個重要的實現(xiàn)途徑就是通過模擬來學(xué)習(xí)復(fù)雜行為。

為什么游戲中的模擬可以應(yīng)用于現(xiàn)實模擬？汪昭然的回答是：

機器人用到的經(jīng)典力學(xué)模擬器與Roblox的模擬碰撞是完全類似的，只是兩者的實現(xiàn)不同，側(cè)重點也不同，但原理是相通的。再比如，策略類的游戲就相當(dāng)于運籌領(lǐng)域中的最優(yōu)策略研究，供應(yīng)鏈優(yōu)化或者動態(tài)定價與在星際爭霸里造基地，在數(shù)學(xué)上是完全相通的。

這也意味著，在虛擬游戲中用于尋找最優(yōu)策略的深度強化學(xué)習(xí)技術(shù)，同樣有望于應(yīng)用在現(xiàn)實生活的工程類項目中，比如車輛調(diào)度。最為我們熟悉的交通案例，就是滴滴出行的平臺派單優(yōu)化，其幕后推手正是強化學(xué)習(xí)領(lǐng)域的專家葉杰平。

深度強化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)的表征學(xué)習(xí)能力與強化學(xué)習(xí)的決策能力，被外界寄予“通往通用人工智能”的期望。去年10月，Alpha Go的創(chuàng)始人David Silver等人發(fā)表了一篇文章，“Reward is Enough”，認(rèn)為基于獎勵機制的強化學(xué)習(xí)已經(jīng)足以通往通用人工智能。

但是，對于實現(xiàn)通用人工智能，汪昭然認(rèn)為要分三個階段去實現(xiàn)：

1）首先，能不能打造一個類似《頭號玩家》的元宇宙，在虛擬世界中取得比人類更好的成績？

2）其次，如果在虛擬世界中已有超越人類的表現(xiàn)，那么如何將同樣的行為切換到現(xiàn)實世界中？也就是所謂的“Sim2Real”問題；

3）最后，從虛擬到現(xiàn)實的過程中會出現(xiàn)許多新的問題，尤其是算法的魯棒性、可靠性與安全性，機器如何做出公平、公正、公開的決策？

第二步“Sim2Real”（從虛擬到現(xiàn)實）是深度強化學(xué)習(xí)在游戲以外的領(lǐng)域順利落地的主要瓶頸，而瓶頸存在的主要原因有兩點：一是計算效率與樣本效率低；二是僅基于獎勵所取得的強化學(xué)習(xí)策略缺少對安全性與魯棒性的考慮。

為了解決第二步，汪昭然與合作者除了開發(fā)類似“Metaverse”的可微分模擬器，還希望從理論的角度出發(fā)，在計算資源與數(shù)據(jù)缺乏的情況下，減少虛擬與現(xiàn)實之間的鴻溝。他們的工作獲得了2020年亞馬遜機器學(xué)習(xí)研究獎。

2

理論基礎(chǔ)

2018年，汪昭然從普林斯頓大學(xué)博士畢業(yè)，加入西北大學(xué)擔(dān)任教職。雖然他研究深度強化學(xué)習(xí)的時間不過三年左右，但已是該領(lǐng)域的知名青年學(xué)者之一，近兩年在NeurIPS、ICML等機器學(xué)習(xí)頂會上的表現(xiàn)更是十分突出。

汪昭然：構(gòu)建“元宇宙”和理論基礎(chǔ)，讓深度強化學(xué)習(xí)從虛擬走進現(xiàn)實

圖注：美國西北大學(xué)校園

為了解決深度強化學(xué)習(xí)現(xiàn)有的兩大問題（效率與可信度），他的研究思路是：先打好理論基礎(chǔ)，然后用理論指導(dǎo)算法與大規(guī)模系統(tǒng)的設(shè)計，再將算法與系統(tǒng)應(yīng)用于現(xiàn)實世界。在汪昭然看來，要實現(xiàn)“Sim2Real”的目標(biāo)，夯實理論基礎(chǔ)必不可缺。

我們?nèi)绾卫斫馍疃葟娀瘜W(xué)習(xí)的兩大問題？

首先是低效率：汪昭然介紹，深度強化學(xué)習(xí)要在現(xiàn)實世界中取得成功，需要數(shù)百萬、甚至數(shù)十億的數(shù)據(jù)點。這些數(shù)據(jù)點通過在給定先驗下與特定的模擬器（比如《星際爭霸》中的游戲引擎）交互而獲得，過程需要數(shù)天或數(shù)周時間，即使在大規(guī)模并行計算機架構(gòu)上也是如此。由此可見，深度強化學(xué)習(xí)的樣本效率與計算效率是非常低的。

其次，僅僅基于獎勵（如Atari的總分）來衡量深度強化學(xué)習(xí)的成功，這種理論在現(xiàn)實世界中是非常危險的。比如，在醫(yī)療領(lǐng)域，要獲得更高的獎勵，意味著疾病的程度恢復(fù)更好，風(fēng)險是服用過量的藥劑；在交通領(lǐng)域，更高的獎勵等同于更快到達目的地，風(fēng)險可能是要超速行駛，這就沒有考慮到人類的生命安全。

當(dāng)深度強化學(xué)習(xí)技術(shù)被應(yīng)用于社會系統(tǒng)的設(shè)計與優(yōu)化時，缺乏效率和可信度將為落地帶來更大的阻礙。一個混合自治的社會系統(tǒng)通常涉及到大量智能體，包括人類（只能通過激勵來驅(qū)動）和機器（可以直接控制）。例如，優(yōu)步、Lyft 和滴滴等拼車平臺不僅涉及到人類司機，還包括了自動駕駛汽車；電力網(wǎng)絡(luò)不僅包括人類消費者，還包括自動發(fā)電機。

汪昭然：構(gòu)建“元宇宙”和理論基礎(chǔ)，讓深度強化學(xué)習(xí)從虛擬走進現(xiàn)實

（此處插敘一個“冷知識”：國家電網(wǎng)是隱形的人工智能巨無霸）

用深度強化學(xué)習(xí)控制大量機器時，比如協(xié)調(diào)電網(wǎng)中的發(fā)電機，樣本效率與計算效率的阻礙會變得更加明顯，因為當(dāng)大量智能體同時存在時，聯(lián)合狀態(tài)行為空間的容量會呈現(xiàn)指數(shù)級增長，也就是所謂的“多智能體詛咒”（“curse of many agents”）。如果不考慮安全性和魯棒性，那么深度強化學(xué)習(xí)在現(xiàn)實生活中的落地也許會帶來災(zāi)難性的影響。

“不用那么多的計算量與樣本量，能不能使算法達到出色的性能？”這是汪昭然的研究核心。他解釋：

深度強化學(xué)習(xí)與深度學(xué)習(xí)不一樣的地方在于：深度學(xué)習(xí)在許多模型上的性能已經(jīng)很好，大家更多時候是想解釋為什么性能這么好；而深度強化學(xué)習(xí)的一些算法在實際使用中的性能并不好，魯棒性比較差，只要換一個系統(tǒng)、換一個環(huán)境，表現(xiàn)可能就會下降。

所以，他們的思路是用理論來指導(dǎo)算法的設(shè)計，在算法應(yīng)用到新的環(huán)境前就能知道算法的性能是好是壞。汪昭然認(rèn)為，完善的理論框架對算法性能的衡量是必要的：

我們不能說一個算法在某個數(shù)據(jù)集上的表現(xiàn)好，就說這個算法好。在一些特定的應(yīng)用下，比如醫(yī)療與金融，這是很危險的，可能會有生命危險或金錢損失的風(fēng)險，所以我們必須要有一個理論框架，根據(jù)框架下的細(xì)節(jié)來分析這個算法。在設(shè)計算法時，不僅要可解釋，我們還要知道這個算法在什么情況下表現(xiàn)好、最好能到多好。

在這個思路下，他們確實設(shè)計出了性能比較好的算法，比如在深度強化學(xué)習(xí)中加入樂觀探索（optimistic exploration）和悲觀正則（pessimistic regularization），能在一系列基準(zhǔn)測試上打敗現(xiàn)有最好算法。

總的來說，汪昭然的科研專注于兩方面：

建立深度增強學(xué)習(xí)的理論框架，讓深度增強學(xué)習(xí)在計算復(fù)雜度上和樣本復(fù)雜度層面更有效率。在理論的指導(dǎo)下，提出一系列安全性、可靠性、數(shù)據(jù)消耗量都有保障的算法，以幫助深度增強學(xué)習(xí)落地醫(yī)療與金融領(lǐng)域。
拓展深度增強學(xué)習(xí)的算法框架，設(shè)計和優(yōu)化社會規(guī)模的多智能體系統(tǒng)（比如供應(yīng)鏈與拼車系統(tǒng)）。在理論的指導(dǎo)下，提出一系列基于動態(tài)博弈論的多智能體深度增強學(xué)習(xí)算法，以幫助深度增強學(xué)習(xí)落地這些大規(guī)模社會系統(tǒng)。

除了實現(xiàn)深度強化學(xué)習(xí)在現(xiàn)實世界中的落地，汪昭然還希望將深度強化學(xué)習(xí)與非凸優(yōu)化、非參數(shù)統(tǒng)計、因果推理、隨機博弈與社會科學(xué)等多個領(lǐng)域結(jié)合起來，開拓一個新的子領(lǐng)域，叫做“社會深度強化學(xué)習(xí)”（societal deep reinforcement learning）。

汪昭然談道：“我們的終極目標(biāo)，就是希望在多智能體強化學(xué)習(xí)的框架下解決社會決策的問題，讓社會更美好。”

3

成就

那么，截至目前，汪昭然在深度強化學(xué)習(xí)的理論研究上取得了哪些成果？

他的理論研究分為三個方面：

第一，神經(jīng)網(wǎng)絡(luò)中的“超參數(shù)化”（Overparameterization）：如何通過超參數(shù)化提高計算效率，在有限的計算時間內(nèi)獲得較好的策略？

第二，在線“樂觀主義”（Optimism）：如何通過樂觀主義來提高在線樣本效率？當(dāng)智能體與環(huán)境進行在線交互時，它需要不斷探索可能的失敗，收集數(shù)據(jù)，在不斷學(xué)習(xí)的過程中獲得越來越好的結(jié)果，讓“遺憾”（即“regret”）越來越小。比如，智能體學(xué)炒股，在虧了很多錢后，它終于學(xué)會如何賺錢，并賺得越來越多。

第三，離線“悲觀主義”/“謹(jǐn)慎主義”（Pessimism）。所謂離線，就是在智能體不與環(huán)境進行交互的情況下利用已有的數(shù)據(jù)得到一個好的策略。在某些情況下，未掌握策略能力前與環(huán)境交互是危險的，比如“在線”學(xué)車，在馬路上邊開車邊學(xué)習(xí)，可能會連環(huán)相撞。

汪昭然：構(gòu)建“元宇宙”和理論基礎(chǔ)，讓深度強化學(xué)習(xí)從虛擬走進現(xiàn)實

圖注：汪昭然的研究規(guī)劃

在這三個方向中，汪昭然最滿意的貢獻是提出悲觀主義理論框架。與在線學(xué)習(xí)的樂觀主義框架不同，樂觀主義崇尚探索、能容忍犯錯，而悲觀主義的哲學(xué)是“小心為妙”，沒試過的情況不要亂試，避免踩雷。

汪昭然談?wù)摚?nbsp;

其實離線情況在現(xiàn)實中更常見。比如醫(yī)療，如果病人一般服用的是有效藥劑A，醫(yī)生就不會貿(mào)然嘗試給病人服用藥劑B，不可能冒險拿病人的生命去試驗；比如交通，如果你下班時常走一條不怎么堵車的路線回家，你就不會突發(fā)奇想去試新的路線，因為可能有堵車的風(fēng)險

傳統(tǒng)的樂觀理論忽略了這一點，因為游戲?qū)儆谠诰€學(xué)習(xí)情況，有很多模擬器，可以不斷去試，但在現(xiàn)實生活中，有很多情況是試不起的，會付出很大的代價。

在 ICML 2021 上，汪昭然團隊便針對“離線學(xué)習(xí)時應(yīng)該使用什么樣的算法框架”，發(fā)表了一篇工作，叫“Is Pessimism Provably Efficient for Offline RL?”。針對離線學(xué)習(xí)缺少數(shù)據(jù)的情況，這篇文章提出了“值迭代算法的悲觀變量”（PEVI），包含一個不確定性量詞作為懲罰函數(shù)。

他們假定覆蓋到的數(shù)據(jù)集有限，為一般的馬爾可夫決策過程 (MDP) 建立了 PEVI 次優(yōu)性的數(shù)據(jù)依賴上限。結(jié)果證明，當(dāng) PEVI 用于線性MDP時，在維度與范圍的乘法因子影響下，它能匹配到信息理論的下限。換句話說，悲觀主義不僅被證明有效，而且能夠?qū)⒆顑?yōu)解進行極小極大。

而且，在給定數(shù)據(jù)集時，學(xué)習(xí)到的策略會成為所有策略中的No.1。他們的理論分析證明了悲觀主義在消除虛假相關(guān)性上的關(guān)鍵作用。

不同的理論框架會產(chǎn)生不同的算法設(shè)計。汪昭然的步驟是：從理論到算法，設(shè)計出安全、魯棒的算法，再往上的第三層則是設(shè)法在多智能體交互的場景下制定出一個既能提高效率、又不失公平與安全的社會決策。

在一個多智能體系統(tǒng)中，每個參與者都有自己的意圖，都想優(yōu)化自己的利益。比如，在外賣系統(tǒng)中，有騎手、商家和買家，你如何動態(tài)設(shè)計一個高效又合理的機制，既能提高騎手的送餐速度，又不危害騎手的生命安全，同時令商家與買家滿意？

汪昭然觀察到，目前深度強化學(xué)習(xí)的算法設(shè)計一塊已有許多出色的研究成果，但第三層的社會決策制定則是剛剛起步，它的發(fā)展需要來自系統(tǒng)與模擬器的支持。近幾年來，他們在理論與算法層面已進行了較深入的探索，之后的兩年會集中在多智能體系統(tǒng)決策一塊。

正如前面所述，模擬器的設(shè)計也是一個難題?！叭绾卧O(shè)計一個模擬器，讓它能夠服務(wù)于深度強化學(xué)習(xí)或優(yōu)化類的算法，讓模擬器與算法結(jié)合地更緊密？”汪昭然談道，仿真器（即模擬器）本就承擔(dān)著連接現(xiàn)實與算法的責(zé)任，算法是在模擬器里學(xué)到的，如果模擬器能更多地反映現(xiàn)實，那么學(xué)到的算法也會更適合現(xiàn)實世界。

在某種程度上，深度強化學(xué)習(xí)可以被歸類為“合作人工智能”問題，即人與機器如何合作；也可以從博弈論的角度看，將深度強化學(xué)習(xí)看作不同智能體之間的博弈。在他們?nèi)ツ甑囊粋€工作“End-to-End Learning and Intervention in Games”中，他們用了一個雙層優(yōu)化的算法。雙層優(yōu)化的性質(zhì)與經(jīng)濟學(xué)領(lǐng)域的斯塔克伯格博弈（Stackelberg Game）方法相似：假設(shè)有一個絕對的市場/政府領(lǐng)導(dǎo)者，下屬有許多獨立的運轉(zhuǎn)體，處于領(lǐng)導(dǎo)地位的智能體要做出更好的決策。

汪昭然介紹，事實上，這類問題對于強化學(xué)習(xí)是新的，但之前在經(jīng)濟與運籌領(lǐng)域已經(jīng)進行了許多研究。在計算機科學(xué)技術(shù)發(fā)展起來后，我們有了許多計算與數(shù)據(jù)，便思考能否通過電腦計算來取代手算，在復(fù)雜的情況下也能得到一個好的策略。比如，拼車平臺上，如果乘客的上車地點比較偏遠(yuǎn)，能否調(diào)高價格，激勵司機接單；或送餐平臺上，如果是送餐高峰期，能否調(diào)高配送配，激勵騎手送餐。

他認(rèn)為，人機博弈，不僅是人類適應(yīng)機器，機器也要適應(yīng)人類：

比如，如果機器對騎手的要求太高，騎手在某段路線騎得飛快，或者逆行，就會造成許多不安全的問題。在人機博弈中，算法對現(xiàn)實因素的考慮太少，其中也是因為缺少數(shù)據(jù)和仿真器去盡可能反映出問題。

4

總結(jié)

事實上，我們應(yīng)該如何評論一個決策的好壞？

汪昭然認(rèn)為，悲觀主義的理論框架是通用的，因為每個行業(yè)都會面臨數(shù)據(jù)匱乏、或不允許收集數(shù)據(jù)的問題，這時候，我們可以從已有的落地方案中抽取本質(zhì)，形成統(tǒng)一的解決方案。

一個形象（可能有點“悲觀”）的例子是：你永遠(yuǎn)只吃一樣不會讓你拉肚子的食物，一年365天，年年如此，天天如此…雖然你會膩，但你能生存下去。

而雖然有了理論與算法的支撐，但社會決策的評價標(biāo)準(zhǔn)仍是空白的?！翱刂普撟畛晒Φ睦泳褪前讶祟愃蜕显虑?，但深度強化學(xué)習(xí)在交通領(lǐng)域的決策，如車輛調(diào)度、騎手調(diào)度等，還沒有一個完善的標(biāo)準(zhǔn)?！蓖粽讶唤忉?。

在深度強化學(xué)習(xí)中，因果推斷也是非常重要的部分?！昂芏鄷r候，數(shù)據(jù)是會騙人的，”汪昭然舉例：在出門前，你看了天氣預(yù)報，上班途中遇到堵車，你會以為是天氣不好造成的，其實是因為有輛汽車恰好出現(xiàn)了故障，堵在路中間。在做決策時，我們很難捕捉到所有數(shù)據(jù)，從而混淆了相關(guān)性與因果性，最后得出有失偏頗的結(jié)論。

除了深度學(xué)習(xí)與強化學(xué)習(xí)的知識，汪昭然認(rèn)為，要讓深度強化學(xué)習(xí)具備強大的決策能力，還需要結(jié)合統(tǒng)計學(xué)、計量經(jīng)濟學(xué)、博弈論（如多智能體博弈時的獎勵機制設(shè)計、雙智能體的“囚徒困境”原理）以及能夠挖掘有用信息的信息論。

最后，有興趣進行學(xué)術(shù)訪問、申請讀博、研究合作的朋友，可以通過郵箱與汪老師聯(lián)系：zhaoranwang@gmail.com。

作者注：人物/采訪、交流、爆料、抬杠，歡迎添加微信（302703941）。

相關(guān)鏈接：https://www.sciencedirect.com/science/article/pii/S0004370221000862

https://mp.weixin.qq.com/s/Afq-jTPfh3Mz3EGOHHBTsw

相關(guān)閱讀