0
本文作者: 我在思考中 | 2021-07-12 15:07 |
作者 | 陳彩嫻
深度強(qiáng)化學(xué)習(xí)的故事,可以追溯到2015年:
當(dāng)時(shí),位于英國(guó)倫敦的一家小公司 DeepMind 在《Nature》上發(fā)表了一篇文章“Human-level control through deep reinforcement learning”,提出了一種新算法叫 Deep Q-Network(簡(jiǎn)稱“DQN”),應(yīng)用在 Atari 2600 游戲時(shí),在49個(gè)游戲水平中超過(guò)了人類。
DQN 的強(qiáng)大之處是什么呢?它沒(méi)有受到任何人為干預(yù),不清楚游戲規(guī)則,完全靠自己摸索學(xué)習(xí),找出在這個(gè)游戲中取勝的最優(yōu)策略。
但那時(shí)人們還不知道這究竟意味著什么,直到第二年,這家公司將DQN應(yīng)用在 Alpha Go 上,讓 Alpha Go 與世界圍棋冠軍李世石對(duì)戰(zhàn),以 4:1 的成績(jī)打敗李世石,人們才驚呼:這、這、人工智能這“小子”不簡(jiǎn)單呀!…
接著,深度強(qiáng)化學(xué)習(xí)又被應(yīng)用于德州撲克、星際爭(zhēng)霸、王者榮耀等游戲中,不斷挑戰(zhàn)人類玩家,甚至以高超的水平多次蒙混過(guò)關(guān),當(dāng)起“職業(yè)冒充”排位賽選手,且沒(méi)有被人類發(fā)現(xiàn)…
然而,當(dāng)深度強(qiáng)化學(xué)習(xí)在虛擬世界混得風(fēng)生水起時(shí),它在現(xiàn)實(shí)世界的存在感卻幾乎為零。雖然強(qiáng)化學(xué)習(xí)很早就被谷歌、阿里等公司應(yīng)用于廣告推薦、以達(dá)到利潤(rùn)最優(yōu)目標(biāo),但它的決策潛能還遠(yuǎn)遠(yuǎn)沒(méi)有被挖掘出來(lái)。比如,在醫(yī)療、金融、交通、電網(wǎng)等關(guān)乎國(guó)計(jì)民生的領(lǐng)域,深度強(qiáng)化學(xué)習(xí)對(duì)人類的幫助是極少的。
在汪昭然看來(lái),這與深度強(qiáng)化學(xué)習(xí)當(dāng)前的兩大缺陷有關(guān):一是樣本效率與計(jì)算效率低;二是缺乏可信度,算法的安全性與魯棒性低。要將深度強(qiáng)化學(xué)習(xí)從虛擬世界轉(zhuǎn)到現(xiàn)實(shí)世界,一要建立理論框架,二要提高樣本效率與計(jì)算效率。
汪昭然目前在美國(guó)西北大學(xué)任教,是工業(yè)工程及管理科學(xué)系(在運(yùn)籌科學(xué)領(lǐng)域排名美國(guó)和世界前三)和計(jì)算機(jī)科學(xué)系的終身軌助理教授,同時(shí)隸屬于該校的深度學(xué)習(xí)中心和優(yōu)化及統(tǒng)計(jì)學(xué)習(xí)中心。
他的長(zhǎng)期研究目標(biāo)是開(kāi)發(fā)出新一代數(shù)據(jù)驅(qū)動(dòng)的決策智能,推進(jìn)深度強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界中的落地。
元宇宙
“你知道Metaverse嗎?”
在談到模擬器/仿真器(simulator)前,汪昭然興致沖沖地介紹最近炒得很火的一個(gè)概念,叫“Metaverse”(也就是“元宇宙”)。“Metaverse”是從《第二人生》(Second Life)游戲里面延伸出來(lái)的一個(gè)概念,指的是:現(xiàn)實(shí)世界中的所有事物都能在虛擬世界中找到一個(gè)對(duì)應(yīng)物。最為我們熟悉的,大約是電影《頭號(hào)玩家》里的場(chǎng)景:
圖注:《頭號(hào)玩家》電影海報(bào)
事實(shí)上,在工業(yè)界也有一個(gè)相似的概念,叫“數(shù)字孿生”(Digital Twins),指人們用軟件來(lái)模仿和增強(qiáng)人類世界的行為。就像 Roblox這個(gè)游戲,玩家可以在虛擬世界中打造任何事物,比如造一座小城市,但他們所打造的靈感往往是來(lái)源于對(duì)現(xiàn)實(shí)生活的觀察。
那么,“元宇宙”、“數(shù)字孿生”這些概念與深度強(qiáng)化學(xué)習(xí)有什么關(guān)系呢?
事實(shí)上,“模仿”在深度強(qiáng)化學(xué)習(xí)的研究中非常重要:在研究者將深度強(qiáng)化學(xué)習(xí)技術(shù)落地在現(xiàn)實(shí)世界中時(shí),為了避免災(zāi)難性的操作后果,他們往往要先做一個(gè)模擬器來(lái)模擬現(xiàn)實(shí)的物理世界,讓算法在與人類直接交互前,先與虛擬的智能體進(jìn)行交互試驗(yàn),在不斷的試錯(cuò)實(shí)驗(yàn)中找到行為主體的最優(yōu)策略。
正如《頭號(hào)玩家》的名牌口號(hào)一樣:“Accept your reality, or fight for a better one.”(要么接受當(dāng)前的現(xiàn)實(shí),要么打造一個(gè)更好的現(xiàn)實(shí)。)深度強(qiáng)化學(xué)習(xí)的哲學(xué)本質(zhì)也是如此:沒(méi)有最好,只有更好。
開(kāi)發(fā)可微分模擬器也是汪昭然目前的研究工作之一,但并不是他的最終目標(biāo)。
汪昭然的本科就讀于清華大學(xué)電子工程系,是南方某省市的理科市狀元,但他不愿意談?wù)撆c狀元有關(guān)的事情:“這個(gè)不用寫,如果考得不好,那可能就進(jìn)不了清華電子系了呀。”
接著,他又強(qiáng)調(diào)了一遍:“我的長(zhǎng)期研究目標(biāo),就是開(kāi)發(fā)出新一代數(shù)據(jù)驅(qū)動(dòng)的決策智能,包括理論、算法與系統(tǒng)三個(gè)層面?!?/span>
事實(shí)上,汪昭然第一次接觸深度強(qiáng)化學(xué)習(xí),是2017年在騰訊人工智能實(shí)驗(yàn)室(當(dāng)時(shí)由張潼領(lǐng)導(dǎo))工作的那一年。那時(shí)候,他還沒(méi)有從普林斯頓大學(xué)運(yùn)籌與金融工程系獲得博士學(xué)位,但已獲得美國(guó)西北大學(xué)的教職offer。時(shí)間充裕,他就去了騰訊訪學(xué)。
當(dāng)時(shí)Alpha Go的傳說(shuō)還未遠(yuǎn)去,汪昭然自然有所耳聞。在騰訊實(shí)驗(yàn)室,他參與了王者榮耀等即時(shí)戰(zhàn)略游戲項(xiàng)目的開(kāi)發(fā),使用的主要工具正是多智能體的深度強(qiáng)化學(xué)習(xí)。他發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)與他讀博時(shí)的研究方向有許多能夠結(jié)合的地方,因此想用讀博時(shí)的一些研究工具來(lái)解決深度強(qiáng)化學(xué)習(xí)里的問(wèn)題。
雖然他所就讀的博士項(xiàng)目叫“運(yùn)籌與金融工程系”(Operations Research & Financial Engineering,簡(jiǎn)稱“ORFE”),但該系所研究的方向不僅包括金融數(shù)學(xué)、隨機(jī)分析等金融專業(yè),還有機(jī)器學(xué)習(xí)、運(yùn)籌學(xué)、優(yōu)化、概率論與統(tǒng)計(jì)學(xué)等等。汪昭然所在的組是統(tǒng)計(jì)與機(jī)器學(xué)習(xí)大組,隸屬于 StatLab,王夢(mèng)迪也在領(lǐng)導(dǎo)該實(shí)驗(yàn)室。
圖注:普林斯頓大學(xué)Sherrerd Hall(ORFE所在大樓)
雖然他的夢(mèng)想起源于游戲世界,但汪昭然的“野心”并不是在游戲中打造出實(shí)力與人類玩家媲美的機(jī)器人玩家,而是琢磨著如何將在游戲中已有出色表現(xiàn)的深度強(qiáng)化學(xué)習(xí)技術(shù)遷移到現(xiàn)實(shí)世界中,尤其是關(guān)鍵的社會(huì)領(lǐng)域,比如醫(yī)療、交通、金融、電網(wǎng)等。
在深度強(qiáng)化學(xué)習(xí)領(lǐng)域,“Sim2Real”(全稱為“Simulation to reality”,從虛擬到現(xiàn)實(shí))是一個(gè)新興的研究話題。這個(gè)概念首先由谷歌在CVPR 2018上提出,其中一個(gè)重要的實(shí)現(xiàn)途徑就是通過(guò)模擬來(lái)學(xué)習(xí)復(fù)雜行為。
為什么游戲中的模擬可以應(yīng)用于現(xiàn)實(shí)模擬?汪昭然的回答是:
機(jī)器人用到的經(jīng)典力學(xué)模擬器與Roblox的模擬碰撞是完全類似的,只是兩者的實(shí)現(xiàn)不同,側(cè)重點(diǎn)也不同,但原理是相通的。再比如,策略類的游戲就相當(dāng)于運(yùn)籌領(lǐng)域中的最優(yōu)策略研究,供應(yīng)鏈優(yōu)化或者動(dòng)態(tài)定價(jià)與在星際爭(zhēng)霸里造基地,在數(shù)學(xué)上是完全相通的。
這也意味著,在虛擬游戲中用于尋找最優(yōu)策略的深度強(qiáng)化學(xué)習(xí)技術(shù),同樣有望于應(yīng)用在現(xiàn)實(shí)生活的工程類項(xiàng)目中,比如車輛調(diào)度。最為我們熟悉的交通案例,就是滴滴出行的平臺(tái)派單優(yōu)化,其幕后推手正是強(qiáng)化學(xué)習(xí)領(lǐng)域的專家葉杰平。
深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)的表征學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策能力,被外界寄予“通往通用人工智能”的期望。去年10月,Alpha Go的創(chuàng)始人David Silver等人發(fā)表了一篇文章,“Reward is Enough”,認(rèn)為基于獎(jiǎng)勵(lì)機(jī)制的強(qiáng)化學(xué)習(xí)已經(jīng)足以通往通用人工智能。
但是,對(duì)于實(shí)現(xiàn)通用人工智能,汪昭然認(rèn)為要分三個(gè)階段去實(shí)現(xiàn):
1)首先,能不能打造一個(gè)類似《頭號(hào)玩家》的元宇宙,在虛擬世界中取得比人類更好的成績(jī)?
2)其次,如果在虛擬世界中已有超越人類的表現(xiàn),那么如何將同樣的行為切換到現(xiàn)實(shí)世界中?也就是所謂的“Sim2Real”問(wèn)題;
3)最后,從虛擬到現(xiàn)實(shí)的過(guò)程中會(huì)出現(xiàn)許多新的問(wèn)題,尤其是算法的魯棒性、可靠性與安全性,機(jī)器如何做出公平、公正、公開(kāi)的決策?
第二步“Sim2Real”(從虛擬到現(xiàn)實(shí))是深度強(qiáng)化學(xué)習(xí)在游戲以外的領(lǐng)域順利落地的主要瓶頸,而瓶頸存在的主要原因有兩點(diǎn):一是計(jì)算效率與樣本效率低;二是僅基于獎(jiǎng)勵(lì)所取得的強(qiáng)化學(xué)習(xí)策略缺少對(duì)安全性與魯棒性的考慮。
為了解決第二步,汪昭然與合作者除了開(kāi)發(fā)類似“Metaverse”的可微分模擬器,還希望從理論的角度出發(fā),在計(jì)算資源與數(shù)據(jù)缺乏的情況下,減少虛擬與現(xiàn)實(shí)之間的鴻溝。他們的工作獲得了2020年亞馬遜機(jī)器學(xué)習(xí)研究獎(jiǎng)。
理論基礎(chǔ)
2018年,汪昭然從普林斯頓大學(xué)博士畢業(yè),加入西北大學(xué)擔(dān)任教職。雖然他研究深度強(qiáng)化學(xué)習(xí)的時(shí)間不過(guò)三年左右,但已是該領(lǐng)域的知名青年學(xué)者之一,近兩年在NeurIPS、ICML等機(jī)器學(xué)習(xí)頂會(huì)上的表現(xiàn)更是十分突出。
圖注:美國(guó)西北大學(xué)校園
為了解決深度強(qiáng)化學(xué)習(xí)現(xiàn)有的兩大問(wèn)題(效率與可信度),他的研究思路是:先打好理論基礎(chǔ),然后用理論指導(dǎo)算法與大規(guī)模系統(tǒng)的設(shè)計(jì),再將算法與系統(tǒng)應(yīng)用于現(xiàn)實(shí)世界。在汪昭然看來(lái),要實(shí)現(xiàn)“Sim2Real”的目標(biāo),夯實(shí)理論基礎(chǔ)必不可缺。
我們?nèi)绾卫斫馍疃葟?qiáng)化學(xué)習(xí)的兩大問(wèn)題?
首先是低效率:汪昭然介紹,深度強(qiáng)化學(xué)習(xí)要在現(xiàn)實(shí)世界中取得成功,需要數(shù)百萬(wàn)、甚至數(shù)十億的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)點(diǎn)通過(guò)在給定先驗(yàn)下與特定的模擬器(比如《星際爭(zhēng)霸》中的游戲引擎)交互而獲得,過(guò)程需要數(shù)天或數(shù)周時(shí)間,即使在大規(guī)模并行計(jì)算機(jī)架構(gòu)上也是如此。由此可見(jiàn),深度強(qiáng)化學(xué)習(xí)的樣本效率與計(jì)算效率是非常低的。
其次,僅僅基于獎(jiǎng)勵(lì)(如Atari的總分)來(lái)衡量深度強(qiáng)化學(xué)習(xí)的成功,這種理論在現(xiàn)實(shí)世界中是非常危險(xiǎn)的。比如,在醫(yī)療領(lǐng)域,要獲得更高的獎(jiǎng)勵(lì),意味著疾病的程度恢復(fù)更好,風(fēng)險(xiǎn)是服用過(guò)量的藥劑;在交通領(lǐng)域,更高的獎(jiǎng)勵(lì)等同于更快到達(dá)目的地,風(fēng)險(xiǎn)可能是要超速行駛,這就沒(méi)有考慮到人類的生命安全。
當(dāng)深度強(qiáng)化學(xué)習(xí)技術(shù)被應(yīng)用于社會(huì)系統(tǒng)的設(shè)計(jì)與優(yōu)化時(shí),缺乏效率和可信度將為落地帶來(lái)更大的阻礙。一個(gè)混合自治的社會(huì)系統(tǒng)通常涉及到大量智能體,包括人類(只能通過(guò)激勵(lì)來(lái)驅(qū)動(dòng))和機(jī)器(可以直接控制)。例如,優(yōu)步、Lyft 和滴滴等拼車平臺(tái)不僅涉及到人類司機(jī),還包括了自動(dòng)駕駛汽車;電力網(wǎng)絡(luò)不僅包括人類消費(fèi)者,還包括自動(dòng)發(fā)電機(jī)。
(此處插敘一個(gè)“冷知識(shí)”:國(guó)家電網(wǎng)是隱形的人工智能巨無(wú)霸)
用深度強(qiáng)化學(xué)習(xí)控制大量機(jī)器時(shí),比如協(xié)調(diào)電網(wǎng)中的發(fā)電機(jī),樣本效率與計(jì)算效率的阻礙會(huì)變得更加明顯,因?yàn)楫?dāng)大量智能體同時(shí)存在時(shí),聯(lián)合狀態(tài)行為空間的容量會(huì)呈現(xiàn)指數(shù)級(jí)增長(zhǎng),也就是所謂的“多智能體詛咒”(“curse of many agents”)。如果不考慮安全性和魯棒性,那么深度強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)生活中的落地也許會(huì)帶來(lái)災(zāi)難性的影響。
“不用那么多的計(jì)算量與樣本量,能不能使算法達(dá)到出色的性能?”這是汪昭然的研究核心。他解釋:
深度強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)不一樣的地方在于:深度學(xué)習(xí)在許多模型上的性能已經(jīng)很好,大家更多時(shí)候是想解釋為什么性能這么好;而深度強(qiáng)化學(xué)習(xí)的一些算法在實(shí)際使用中的性能并不好,魯棒性比較差,只要換一個(gè)系統(tǒng)、換一個(gè)環(huán)境,表現(xiàn)可能就會(huì)下降。
所以,他們的思路是用理論來(lái)指導(dǎo)算法的設(shè)計(jì),在算法應(yīng)用到新的環(huán)境前就能知道算法的性能是好是壞。汪昭然認(rèn)為,完善的理論框架對(duì)算法性能的衡量是必要的:
我們不能說(shuō)一個(gè)算法在某個(gè)數(shù)據(jù)集上的表現(xiàn)好,就說(shuō)這個(gè)算法好。在一些特定的應(yīng)用下,比如醫(yī)療與金融,這是很危險(xiǎn)的,可能會(huì)有生命危險(xiǎn)或金錢損失的風(fēng)險(xiǎn),所以我們必須要有一個(gè)理論框架,根據(jù)框架下的細(xì)節(jié)來(lái)分析這個(gè)算法。在設(shè)計(jì)算法時(shí),不僅要可解釋,我們還要知道這個(gè)算法在什么情況下表現(xiàn)好、最好能到多好。
在這個(gè)思路下,他們確實(shí)設(shè)計(jì)出了性能比較好的算法,比如在深度強(qiáng)化學(xué)習(xí)中加入樂(lè)觀探索(optimistic exploration)和悲觀正則(pessimistic regularization),能在一系列基準(zhǔn)測(cè)試上打敗現(xiàn)有最好算法。
總的來(lái)說(shuō),汪昭然的科研專注于兩方面:
建立深度增強(qiáng)學(xué)習(xí)的理論框架,讓深度增強(qiáng)學(xué)習(xí)在計(jì)算復(fù)雜度上和樣本復(fù)雜度層面更有效率。在理論的指導(dǎo)下,提出一系列安全性、可靠性、數(shù)據(jù)消耗量都有保障的算法,以幫助深度增強(qiáng)學(xué)習(xí)落地醫(yī)療與金融領(lǐng)域。
拓展深度增強(qiáng)學(xué)習(xí)的算法框架,設(shè)計(jì)和優(yōu)化社會(huì)規(guī)模的多智能體系統(tǒng)(比如供應(yīng)鏈與拼車系統(tǒng))。在理論的指導(dǎo)下,提出一系列基于動(dòng)態(tài)博弈論的多智能體深度增強(qiáng)學(xué)習(xí)算法,以幫助深度增強(qiáng)學(xué)習(xí)落地這些大規(guī)模社會(huì)系統(tǒng)。
除了實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界中的落地,汪昭然還希望將深度強(qiáng)化學(xué)習(xí)與非凸優(yōu)化、非參數(shù)統(tǒng)計(jì)、因果推理、隨機(jī)博弈與社會(huì)科學(xué)等多個(gè)領(lǐng)域結(jié)合起來(lái),開(kāi)拓一個(gè)新的子領(lǐng)域,叫做“社會(huì)深度強(qiáng)化學(xué)習(xí)”(societal deep reinforcement learning)。
汪昭然談道:“我們的終極目標(biāo),就是希望在多智能體強(qiáng)化學(xué)習(xí)的框架下解決社會(huì)決策的問(wèn)題,讓社會(huì)更美好?!?/span>
成就
那么,截至目前,汪昭然在深度強(qiáng)化學(xué)習(xí)的理論研究上取得了哪些成果?
他的理論研究分為三個(gè)方面:
第一,神經(jīng)網(wǎng)絡(luò)中的“超參數(shù)化”(Overparameterization):如何通過(guò)超參數(shù)化提高計(jì)算效率,在有限的計(jì)算時(shí)間內(nèi)獲得較好的策略?
第二,在線“樂(lè)觀主義”(Optimism):如何通過(guò)樂(lè)觀主義來(lái)提高在線樣本效率?當(dāng)智能體與環(huán)境進(jìn)行在線交互時(shí),它需要不斷探索可能的失敗,收集數(shù)據(jù),在不斷學(xué)習(xí)的過(guò)程中獲得越來(lái)越好的結(jié)果,讓“遺憾”(即“regret”)越來(lái)越小。比如,智能體學(xué)炒股,在虧了很多錢后,它終于學(xué)會(huì)如何賺錢,并賺得越來(lái)越多。
第三,離線“悲觀主義”/“謹(jǐn)慎主義”(Pessimism)。所謂離線,就是在智能體不與環(huán)境進(jìn)行交互的情況下利用已有的數(shù)據(jù)得到一個(gè)好的策略。在某些情況下,未掌握策略能力前與環(huán)境交互是危險(xiǎn)的,比如“在線”學(xué)車,在馬路上邊開(kāi)車邊學(xué)習(xí),可能會(huì)連環(huán)相撞。
圖注:汪昭然的研究規(guī)劃
在這三個(gè)方向中,汪昭然最滿意的貢獻(xiàn)是提出悲觀主義理論框架。與在線學(xué)習(xí)的樂(lè)觀主義框架不同,樂(lè)觀主義崇尚探索、能容忍犯錯(cuò),而悲觀主義的哲學(xué)是“小心為妙”,沒(méi)試過(guò)的情況不要亂試,避免踩雷。
汪昭然談?wù)摚?nbsp;
其實(shí)離線情況在現(xiàn)實(shí)中更常見(jiàn)。比如醫(yī)療,如果病人一般服用的是有效藥劑A,醫(yī)生就不會(huì)貿(mào)然嘗試給病人服用藥劑B,不可能冒險(xiǎn)拿病人的生命去試驗(yàn);比如交通,如果你下班時(shí)常走一條不怎么堵車的路線回家,你就不會(huì)突發(fā)奇想去試新的路線,因?yàn)榭赡苡卸萝嚨娘L(fēng)險(xiǎn)
傳統(tǒng)的樂(lè)觀理論忽略了這一點(diǎn),因?yàn)橛螒驅(qū)儆谠诰€學(xué)習(xí)情況,有很多模擬器,可以不斷去試,但在現(xiàn)實(shí)生活中,有很多情況是試不起的,會(huì)付出很大的代價(jià)。
在 ICML 2021 上,汪昭然團(tuán)隊(duì)便針對(duì)“離線學(xué)習(xí)時(shí)應(yīng)該使用什么樣的算法框架”,發(fā)表了一篇工作,叫“Is Pessimism Provably Efficient for Offline RL?”。針對(duì)離線學(xué)習(xí)缺少數(shù)據(jù)的情況,這篇文章提出了“值迭代算法的悲觀變量”(PEVI),包含一個(gè)不確定性量詞作為懲罰函數(shù)。
他們假定覆蓋到的數(shù)據(jù)集有限,為一般的馬爾可夫決策過(guò)程 (MDP) 建立了 PEVI 次優(yōu)性的數(shù)據(jù)依賴上限。結(jié)果證明,當(dāng) PEVI 用于線性MDP時(shí),在維度與范圍的乘法因子影響下,它能匹配到信息理論的下限。換句話說(shuō),悲觀主義不僅被證明有效,而且能夠?qū)⒆顑?yōu)解進(jìn)行極小極大。
而且,在給定數(shù)據(jù)集時(shí),學(xué)習(xí)到的策略會(huì)成為所有策略中的No.1。他們的理論分析證明了悲觀主義在消除虛假相關(guān)性上的關(guān)鍵作用。
不同的理論框架會(huì)產(chǎn)生不同的算法設(shè)計(jì)。汪昭然的步驟是:從理論到算法,設(shè)計(jì)出安全、魯棒的算法,再往上的第三層則是設(shè)法在多智能體交互的場(chǎng)景下制定出一個(gè)既能提高效率、又不失公平與安全的社會(huì)決策。
在一個(gè)多智能體系統(tǒng)中,每個(gè)參與者都有自己的意圖,都想優(yōu)化自己的利益。比如,在外賣系統(tǒng)中,有騎手、商家和買家,你如何動(dòng)態(tài)設(shè)計(jì)一個(gè)高效又合理的機(jī)制,既能提高騎手的送餐速度,又不危害騎手的生命安全,同時(shí)令商家與買家滿意?
汪昭然觀察到,目前深度強(qiáng)化學(xué)習(xí)的算法設(shè)計(jì)一塊已有許多出色的研究成果,但第三層的社會(huì)決策制定則是剛剛起步,它的發(fā)展需要來(lái)自系統(tǒng)與模擬器的支持。近幾年來(lái),他們?cè)诶碚撆c算法層面已進(jìn)行了較深入的探索,之后的兩年會(huì)集中在多智能體系統(tǒng)決策一塊。
正如前面所述,模擬器的設(shè)計(jì)也是一個(gè)難題?!叭绾卧O(shè)計(jì)一個(gè)模擬器,讓它能夠服務(wù)于深度強(qiáng)化學(xué)習(xí)或優(yōu)化類的算法,讓模擬器與算法結(jié)合地更緊密?”汪昭然談道,仿真器(即模擬器)本就承擔(dān)著連接現(xiàn)實(shí)與算法的責(zé)任,算法是在模擬器里學(xué)到的,如果模擬器能更多地反映現(xiàn)實(shí),那么學(xué)到的算法也會(huì)更適合現(xiàn)實(shí)世界。
在某種程度上,深度強(qiáng)化學(xué)習(xí)可以被歸類為“合作人工智能”問(wèn)題,即人與機(jī)器如何合作;也可以從博弈論的角度看,將深度強(qiáng)化學(xué)習(xí)看作不同智能體之間的博弈。在他們?nèi)ツ甑囊粋€(gè)工作“End-to-End Learning and Intervention in Games”中,他們用了一個(gè)雙層優(yōu)化的算法。雙層優(yōu)化的性質(zhì)與經(jīng)濟(jì)學(xué)領(lǐng)域的斯塔克伯格博弈(Stackelberg Game)方法相似:假設(shè)有一個(gè)絕對(duì)的市場(chǎng)/政府領(lǐng)導(dǎo)者,下屬有許多獨(dú)立的運(yùn)轉(zhuǎn)體,處于領(lǐng)導(dǎo)地位的智能體要做出更好的決策。
汪昭然介紹,事實(shí)上,這類問(wèn)題對(duì)于強(qiáng)化學(xué)習(xí)是新的,但之前在經(jīng)濟(jì)與運(yùn)籌領(lǐng)域已經(jīng)進(jìn)行了許多研究。在計(jì)算機(jī)科學(xué)技術(shù)發(fā)展起來(lái)后,我們有了許多計(jì)算與數(shù)據(jù),便思考能否通過(guò)電腦計(jì)算來(lái)取代手算,在復(fù)雜的情況下也能得到一個(gè)好的策略。比如,拼車平臺(tái)上,如果乘客的上車地點(diǎn)比較偏遠(yuǎn),能否調(diào)高價(jià)格,激勵(lì)司機(jī)接單;或送餐平臺(tái)上,如果是送餐高峰期,能否調(diào)高配送配,激勵(lì)騎手送餐。
他認(rèn)為,人機(jī)博弈,不僅是人類適應(yīng)機(jī)器,機(jī)器也要適應(yīng)人類:
比如,如果機(jī)器對(duì)騎手的要求太高,騎手在某段路線騎得飛快,或者逆行,就會(huì)造成許多不安全的問(wèn)題。在人機(jī)博弈中,算法對(duì)現(xiàn)實(shí)因素的考慮太少,其中也是因?yàn)槿鄙贁?shù)據(jù)和仿真器去盡可能反映出問(wèn)題。
總結(jié)
事實(shí)上,我們應(yīng)該如何評(píng)論一個(gè)決策的好壞?
汪昭然認(rèn)為,悲觀主義的理論框架是通用的,因?yàn)槊總€(gè)行業(yè)都會(huì)面臨數(shù)據(jù)匱乏、或不允許收集數(shù)據(jù)的問(wèn)題,這時(shí)候,我們可以從已有的落地方案中抽取本質(zhì),形成統(tǒng)一的解決方案。
一個(gè)形象(可能有點(diǎn)“悲觀”)的例子是:你永遠(yuǎn)只吃一樣不會(huì)讓你拉肚子的食物,一年365天,年年如此,天天如此…雖然你會(huì)膩,但你能生存下去。
而雖然有了理論與算法的支撐,但社會(huì)決策的評(píng)價(jià)標(biāo)準(zhǔn)仍是空白的?!翱刂普撟畛晒Φ睦泳褪前讶祟愃蜕显虑?,但深度強(qiáng)化學(xué)習(xí)在交通領(lǐng)域的決策,如車輛調(diào)度、騎手調(diào)度等,還沒(méi)有一個(gè)完善的標(biāo)準(zhǔn)?!蓖粽讶唤忉?。
在深度強(qiáng)化學(xué)習(xí)中,因果推斷也是非常重要的部分?!昂芏鄷r(shí)候,數(shù)據(jù)是會(huì)騙人的,”汪昭然舉例:在出門前,你看了天氣預(yù)報(bào),上班途中遇到堵車,你會(huì)以為是天氣不好造成的,其實(shí)是因?yàn)橛休v汽車恰好出現(xiàn)了故障,堵在路中間。在做決策時(shí),我們很難捕捉到所有數(shù)據(jù),從而混淆了相關(guān)性與因果性,最后得出有失偏頗的結(jié)論。
除了深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的知識(shí),汪昭然認(rèn)為,要讓深度強(qiáng)化學(xué)習(xí)具備強(qiáng)大的決策能力,還需要結(jié)合統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、博弈論(如多智能體博弈時(shí)的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)、雙智能體的“囚徒困境”原理)以及能夠挖掘有用信息的信息論。
最后,有興趣進(jìn)行學(xué)術(shù)訪問(wèn)、申請(qǐng)讀博、研究合作的朋友,可以通過(guò)郵箱與汪老師聯(lián)系:zhaoranwang@gmail.com。
作者注:人物/采訪、交流、爆料、抬杠,歡迎添加微信(302703941)。
相關(guān)閱讀
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。