丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

本文作者: 我在思考中 2021-08-19 17:41
導(dǎo)語:2019年郝建業(yè)的團(tuán)隊(duì)獲得了第一屆DAI最佳論文獎(jiǎng),距離他那篇研究多智能體系統(tǒng)中的“囚徒困境”論文的發(fā)表時(shí)間,已經(jīng)整整過去了11年。
郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

作者 | 青暮

編輯 | 王曄

2019年郝建業(yè)的團(tuán)隊(duì)獲得了第一屆DAI最佳論文獎(jiǎng),距離他那篇研究多智能體系統(tǒng)中的“囚徒困境”論文的發(fā)表時(shí)間,已經(jīng)整整過去了11年。

郝建業(yè)也沒有想到,當(dāng)初那篇只是基于簡單博弈場景的研究成果,幾乎被遺忘。如今通過結(jié)合深度強(qiáng)化學(xué)習(xí),用于處理更復(fù)雜的場景,竟一下子成為了聚光燈下的寵兒,“仔細(xì)看DAI這篇文章里面的一些設(shè)計(jì),其實(shí)都能在我以前的工作里找到原型。”

相對(duì)于以前的工作,這篇DAI 2019論文提出的模型,在參數(shù)空間上更加復(fù)雜,“盡管仍然是demo,但也是從理論走向?qū)嵺`的關(guān)鍵一步。”

在近期,AI科技評(píng)論與天津大學(xué)副教授、華為諾亞方舟實(shí)驗(yàn)室科學(xué)家郝建業(yè)進(jìn)行了交流,談了談他從讀博到科研工作期間的學(xué)術(shù)歷程,試圖理解他在十幾年內(nèi),從簡單的囚徒困境,跨越到復(fù)雜的囚徒困境,乃至自動(dòng)駕駛等實(shí)際場景的研究和落地時(shí),背后所付出的汗水,支撐他的信念,以及多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的時(shí)代剪影。


1

困于表格的囚徒

2009年7月,郝建業(yè)入學(xué)香港中文大學(xué)攻讀博士學(xué)位,拜師梁浩鋒,開啟了多智能體系統(tǒng)和強(qiáng)化學(xué)習(xí)的研究之路。在當(dāng)時(shí),多智能體系統(tǒng)以及強(qiáng)化學(xué)習(xí)這兩個(gè)方向都還屬于冷門領(lǐng)域。

梁浩鋒教授是香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系教授和社會(huì)學(xué)系教授,研究領(lǐng)域包括多智能體系統(tǒng)、博弈論分析、本體(知識(shí)圖譜)和大數(shù)據(jù)分析等。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

在郝建業(yè)的印象中,當(dāng)時(shí)這兩個(gè)方向的研究對(duì)象也還很簡單,一般這些博弈問題都能以表格的形式表示。在深度強(qiáng)化學(xué)習(xí)概念還沒有形成的那個(gè)時(shí)期,學(xué)者們研究的場景都是相當(dāng)局限的,也就是基于表格的強(qiáng)化學(xué)習(xí)。

著名的囚徒困境就是一個(gè)典型的博弈場景,可以用下表來表示,在逼供場景下,囚徒有兩個(gè)選擇。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

在囚徒困境問題中,囚徒不僅困于監(jiān)獄,亦困于僅有兩個(gè)選擇。但這些研究更多是在提出新的概念、范式、機(jī)制,偏向于理論,對(duì)于博弈論而言仍然具有很大的貢獻(xiàn)。

而彼時(shí)更受歡迎的是不包括深度學(xué)習(xí)的模式識(shí)別,數(shù)據(jù)挖掘等方向,但在梁教授的引導(dǎo)下,郝建業(yè)還是慢慢喜歡上了這兩個(gè)冷門方向。


2

長期主義

然而在剛?cè)雽W(xué)時(shí),郝建業(yè)在數(shù)學(xué)和領(lǐng)域知識(shí)方面還是個(gè)“菜鳥”。

比如博弈論是多智能體系統(tǒng)中最關(guān)鍵的一套數(shù)學(xué)工具,為此,梁教授甚至專門為他開設(shè)了個(gè)人課堂。

看論文也是一門必修課,郝建業(yè)看遍了AAMAS近一兩年的幾乎所有相關(guān)論文,“泛讀的至少幾百篇,精讀的也有幾十篇。”按照當(dāng)年打印論文的習(xí)慣,這些論文大概得有半米的高度。AAMAS是多智能體領(lǐng)域最有影響力的會(huì)議,亦屬于機(jī)器人領(lǐng)域頂會(huì)。

堅(jiān)持啃論文差不多一年時(shí)間以后,郝建業(yè)才初步對(duì)多智能體方向建立了系統(tǒng)的認(rèn)知,以及了解自己到底對(duì)哪個(gè)topic感興趣。

“興趣應(yīng)該是做的過程中慢慢培養(yǎng)起來的。當(dāng)你對(duì)某樣?xùn)|西一無所知的時(shí)候,也很難引發(fā)興趣,而只是知道一個(gè)名詞而已。比如現(xiàn)在很多學(xué)生說對(duì)人工智能感興趣,但是你問對(duì)方‘什么是人工智能’,對(duì)方經(jīng)常都答不上來,這種其實(shí)不是真正的興趣,只是一時(shí)好奇?!?/span>在與梁教授的接觸中,郝建業(yè)才慢慢領(lǐng)悟到這個(gè)道理。

回溯至更早期時(shí)光,他恍然大悟。本科期間,他在香港理工大學(xué)張大鵬教授哈爾濱工業(yè)大學(xué)左旺孟教授指導(dǎo)下做研究時(shí),“盡管對(duì)AI沒什么認(rèn)知,但興趣就是在那個(gè)時(shí)候萌芽的。”

梁教授奉行“大方向把控,小方向自由”的培養(yǎng)風(fēng)格,因此會(huì)讓學(xué)生花費(fèi)大量時(shí)間自己去找方向,同時(shí)實(shí)驗(yàn)室的大方向都會(huì)聚焦在多智能體系統(tǒng)上?!斑@種培養(yǎng)方式,讓我養(yǎng)成了非常獨(dú)立的科研風(fēng)格?!?/span>

如果導(dǎo)師在方方面面都管的太細(xì),容易造成學(xué)生被動(dòng),視野狹窄。“有了獨(dú)立的思考方式,和廣闊的研究視野和對(duì)方向脈絡(luò)的把握,就知道怎么規(guī)劃自己的未來方向,以及在做戰(zhàn)略轉(zhuǎn)型、跨界研究的時(shí)候,都能心中有數(shù)?!?/span>

這種自由又不同于放任的散養(yǎng)模式,在具體執(zhí)行層面,梁教授可謂細(xì)致入微,在郝建業(yè)寫的第一篇論文上,梁教授就加上了密密麻麻的紅色批注。


3

更加自由的囚徒

在博士期間,郝建業(yè)選擇了公平性和社會(huì)利益最優(yōu),作為多智能體系統(tǒng)領(lǐng)域下的研究方向。

在那時(shí)候,團(tuán)隊(duì)以及相關(guān)領(lǐng)域的學(xué)者,都在研究怎么用強(qiáng)化學(xué)習(xí)等方法,在不同的博弈環(huán)境下快速學(xué)習(xí)到納什均衡。“納什均衡是博弈論里最核心的概念,甚至上世紀(jì)90年代的很多相關(guān)工作都沿著這個(gè)方向來做。”

在博弈論中,納什均衡是指在包含兩個(gè)或以上參與者的非合作博弈中,假設(shè)每個(gè)參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以通過單方面改變自身策略使自身受益。

囚徒困境中兩個(gè)囚徒都選擇招供的策略,就是一個(gè)典型的納什均衡解。兩個(gè)囚徒無法與對(duì)方進(jìn)行合作(或溝通),此時(shí)選擇招供就會(huì)比不招供收益更大。

那么,這類研究存在什么問題呢?很明顯,均衡解雖然穩(wěn)定,但不一定是最好的解。在囚徒困境中,雙方都不招供其實(shí)才是全局最優(yōu)解,而全局最優(yōu)解又存在不穩(wěn)定的問題。此外,公平性問題也是存在的,即在一個(gè)均衡點(diǎn)上,每一方的利益不一定對(duì)等。

因此,郝建業(yè)就在探索,怎么用強(qiáng)化學(xué)習(xí)的方法,讓智能體有意愿、有動(dòng)力、有理性地去學(xué)習(xí)到社會(huì)全局最優(yōu)的、公平的解,以及研究是否存在新型的均衡解,即保留原始均衡穩(wěn)定性的特點(diǎn),同時(shí)有具備公平性,社會(huì)最優(yōu)等屬性,也就是從“策略層面”而言的均衡 (strategy equilibrium)。

而當(dāng)初那些基于表格的toy example,在深度強(qiáng)化學(xué)習(xí)的助力下,得以應(yīng)對(duì)更加復(fù)雜的場景,智能體也得以產(chǎn)生更加多樣化和靈活的決策?!胺催^來說,如果我們細(xì)看現(xiàn)在的深度強(qiáng)化學(xué)習(xí)的代表工作,很多其實(shí)都是借鑒了上世紀(jì)90年代至2010年之前的工作,并擴(kuò)展了深度學(xué)習(xí)方法?!?/span>然而目前大部分深度強(qiáng)化學(xué)習(xí)下的工作還沒有走到關(guān)注“策略均衡”的階段,還停留在類比于“基于表格強(qiáng)化學(xué)習(xí)的多智能體系統(tǒng)研究“相對(duì)早期的階段。

郝建業(yè)將“從簡單到復(fù)雜”的理念貫徹至今,并在2019年首屆國際分布式AI大會(huì)上,以復(fù)雜場景的囚徒困境研究獲得了DAI最佳論文獎(jiǎng)。這一次,囚徒不再限于兩個(gè)選擇,而是無限個(gè),雖然這也只讓其更自由了一點(diǎn)點(diǎn)。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

經(jīng)典囚徒困境對(duì)囚徒的決策選擇做了很大限制,要么合作,要么背叛。但囚徒困境并不是憑空捏造的思維游戲,不只有《蝙蝠俠前傳2》中的小丑會(huì)玩。

在現(xiàn)實(shí)世界,也存在因?yàn)闊o法完全信任或推測對(duì)方心理,導(dǎo)致選擇相信就可能遭遇損失的情況。可以說,存在競爭和信任危機(jī)時(shí)都容易引發(fā)囚徒困境,比如戰(zhàn)爭,乃至任何形式的合作關(guān)系。畢竟,合作意味著妥協(xié),意味著出讓部分利益,這就讓背叛者有機(jī)可乘。在論文中,郝建業(yè)等人將這種背叛行為稱之為“剝削”。

因此,在這項(xiàng)工作中,郝建業(yè)等人應(yīng)用深度強(qiáng)化學(xué)習(xí),探索了在復(fù)雜場景下,能抵抗對(duì)手剝削,同時(shí)又能適當(dāng)合作的智能體策略。這其中的關(guān)鍵點(diǎn),就在于推測對(duì)手心理

他們提出了一個(gè)合作度檢測網(wǎng)絡(luò),它相當(dāng)于一個(gè)心理模型。給定對(duì)方的一系列動(dòng)作,來預(yù)測對(duì)方的合作程度。該網(wǎng)絡(luò)結(jié)合了LSTM自編碼器,可以保證對(duì)觀察到的動(dòng)作進(jìn)行有效的特征提取,加快心理模型的訓(xùn)練速度,提高魯棒性。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

合作度檢測網(wǎng)絡(luò)

比如在 Apple-Pear 游戲中,有一個(gè)紅蘋果和一個(gè)綠梨。藍(lán)色智能體喜歡蘋果,而紅色智能體喜歡梨。每個(gè)智能體有四個(gè)動(dòng)作:上、下、左、右,每走一步都會(huì)產(chǎn)生 0.01 的成本。當(dāng)智能體走到水果對(duì)應(yīng)方格時(shí),就能收集到水果。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

當(dāng)藍(lán)色(紅色)智能體單獨(dú)收集一個(gè)蘋果(梨)時(shí),它會(huì)獲得更高的獎(jiǎng)勵(lì) 1。當(dāng)智能體收集到不喜歡的水果時(shí),則只能獲得更低的獎(jiǎng)勵(lì) 0.5。但是,當(dāng)它們分享一個(gè)梨或一個(gè)蘋果時(shí),它們都會(huì)獲得相應(yīng)獎(jiǎng)勵(lì)的一半。

以合作度為度量,智能體可以產(chǎn)生更加多樣化的決策。實(shí)驗(yàn)結(jié)果也不意外地顯示,這兩個(gè)智能體合作程度越高,總體獎(jiǎng)勵(lì)越高。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

郝建業(yè)將這種博弈場景稱之為序列囚徒困境(SPD),它更加接近于現(xiàn)實(shí)世界中的博弈過程,即結(jié)合觀察來隨時(shí)調(diào)整策略。

訓(xùn)練方面,該方法包括兩個(gè)階段:離線和在線階段。離線階段生成不同合作度的策略并訓(xùn)練合作度檢測網(wǎng)絡(luò)。在線階段則根據(jù)檢測到的對(duì)手的合作程度,從連續(xù)的候選范圍中自適應(yīng)地選擇具有適當(dāng)合作程度的策略。

直觀地說,該算法是面向合作的,并且對(duì)對(duì)手的自私、剝削行為也有防御能力。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

論文地址:http://ala2018.it.nuigalway.ie/papers/ALA_2018_paper_18.pdf

科研更像是在撒播種子,學(xué)者們依靠期望和想象去支撐意志力,從而堅(jiān)持不懈地耕耘。這一過程存在太大的不確定性,但每次或隔一個(gè)月、或隔十年回到原野時(shí),都期盼能看到令人出乎意料的景觀。

郝建業(yè)坦言,“盡管最初只是非常簡單的模型,但時(shí)間的力量以及外部環(huán)境的助推,可以令其茁壯成長,并最終在現(xiàn)實(shí)中變成讓我們驚嘆的樣子。”

他沒有僅僅滿足于增加問題復(fù)雜度,而是進(jìn)一步將目光聚焦到了更貼近現(xiàn)實(shí)的層面——研究自動(dòng)駕駛場景的多智能體系統(tǒng)。


4

邁向自動(dòng)駕駛

在華為諾亞方舟實(shí)驗(yàn)室,他和團(tuán)隊(duì)與上海交通大學(xué)、倫敦大學(xué)學(xué)院合作開發(fā)了一個(gè)自動(dòng)駕駛模擬仿真平臺(tái)——SMARTS。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶


SMARTS針對(duì)的是仿真平臺(tái)的兩個(gè)限制性問題,一個(gè)是環(huán)境單一,比如大部分仿真平臺(tái)都只設(shè)置了晴天的天氣;另一個(gè)則是缺少與其它智能體的互動(dòng)場景,比如下圖中的“雙重合并”。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

可以說,多樣的互動(dòng)場景是SMARTS的一大特色。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

SMARTS的相關(guān)論文“SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving”發(fā)表在機(jī)器人頂會(huì)之一CoRL 2020上,并斬獲最佳系統(tǒng)論文獎(jiǎng)。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

論文地址:https://arxiv.org/pdf/2010.09776.pdf

缺乏互動(dòng)場景研究會(huì)導(dǎo)致一個(gè)問題,即自動(dòng)駕駛汽車在遭遇復(fù)雜場景時(shí),通常選擇更加保守的策略,比如放慢速度,而不是主動(dòng)尋找另一條出路。即便是采用了保守的方案,也不見得安全。

在 2018 年的加利福尼亞州,57% 的自動(dòng)駕駛汽車事故是追尾事故,29% 是側(cè)滑事故。所有這些都是其他汽車造成的,因此可以歸因于自動(dòng)駕駛汽車的保守性。

類比于自動(dòng)駕駛汽車的L0-L5級(jí)別,郝建業(yè)等人在這項(xiàng)研究中提出了“多智能體學(xué)習(xí)級(jí)別”,或簡稱“M級(jí)別”

其中,M0級(jí)別的智能體為完全遵守規(guī)則的保守派;M1級(jí)別的智能體可以在線學(xué)習(xí),以增加應(yīng)對(duì)未知情況的能力;M2級(jí)別的智能體要學(xué)會(huì)建模其他智能體,但還沒有直接的信息交換;M3級(jí)別的智能體在訓(xùn)練期間會(huì)進(jìn)行信息交換,在部署時(shí)則不需要;M4級(jí)別的智能體需要學(xué)會(huì)應(yīng)對(duì)局域交互場景,比如十字路口會(huì)車,找到符合納什均衡或其他均衡的策略;M5級(jí)別的智能體則需要在滿足全局最優(yōu)的前提下,去學(xué)習(xí)局域決策。

郝建業(yè)等人認(rèn)為,迄今為止,自動(dòng)駕駛研究主要集中在 M0,對(duì) M1 和 M2 的嘗試非常有限,而一個(gè)關(guān)鍵原因是缺乏對(duì)道路上的異構(gòu)智能體之間交互的合適模擬??磥磉@個(gè)標(biāo)準(zhǔn)相比“L級(jí)別”要更加嚴(yán)苛。

在第二屆DAI(DAI 2020)上,華為諾亞基于該平臺(tái)舉辦了自動(dòng)駕駛挑戰(zhàn)賽,郝建業(yè)回憶道,“比賽中,選手們沒有局限于強(qiáng)化學(xué)習(xí),提出了多種不同的解決方案,這是一個(gè)很好的現(xiàn)象?!?/span>

他進(jìn)一步說道,“SMARTS有兩方面的價(jià)值,一方面是它作為平臺(tái),可以讓所有做相關(guān)研究的人針對(duì)自動(dòng)駕駛的不同場景做相關(guān)算法的研究。另一方面,我們希望通過這個(gè)平臺(tái),生成多樣化的真實(shí)社會(huì)模型,從而讓自動(dòng)駕駛算法在現(xiàn)實(shí)落地中安全、有效?!?/span>

17世紀(jì),當(dāng)伽利略觀察金屬球在光滑的斜面上滾過時(shí),不會(huì)想到這背后的物理學(xué)支撐著如今在天空中飛馳的蜻蜓狀龐然巨物。

多智能體強(qiáng)化學(xué)習(xí)從最初的表格學(xué)習(xí),進(jìn)化到今天的自動(dòng)駕駛模擬,亦宛如完成了《2001太空漫游》中的史詩級(jí)蒙太奇一般。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

相信時(shí)間之力量的信念,或許有一部分來自郝建業(yè)在MIT期間受到的潛移默化的影響。


5

MIT往事

2013年,郝建業(yè)博士畢業(yè)于香港中文大學(xué),畢業(yè)后遠(yuǎn)走美國,在MIT CSAIL做博士后研究。

“CSAIL給我的整體感覺是,學(xué)術(shù)氛圍非常濃厚。他們有最頂尖的人才,學(xué)生、老師之間交流起來沒有隔閡,沒有輩分顧慮,非常舒服,學(xué)術(shù)合作的效率也非常高?!?/span>

這種濃厚可以用“聽不完的講座,參加不完的學(xué)術(shù)競賽和研討會(huì)”來形容,也可以借鑒一句名言來體會(huì)。MIT第十三任校長、計(jì)算機(jī)科學(xué)與工程系教授Jerome Weisner曾經(jīng)說過“Getting an education from MIT is like taking a drinkfrom a fire hose.”這句話是說,在麻省理工學(xué)院讀書就像是從消防栓里喝水,“想想消防栓的水量,那是根本喝不完的?!?/span>

郝建業(yè)提到了一個(gè)有趣的細(xì)節(jié)。MIT CSAIL的學(xué)術(shù)大牛非常多,隨隨便便就能遇到,可能是你在食堂吃飯的時(shí)候,也可能是你在運(yùn)動(dòng)場上散步的時(shí)候,“我有一次在電梯里遇到了一位老學(xué)者Silvio Micali,其貌不揚(yáng),當(dāng)時(shí)沒注意,結(jié)果上課的時(shí)候才發(fā)現(xiàn),那是我們的授課老師,而且拿了當(dāng)年的圖靈獎(jiǎng)。”

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

Silvio Micali

“不僅是學(xué)校和老師,MIT整體的學(xué)術(shù)氛圍也造就了實(shí)驗(yàn)室博士生非常務(wù)實(shí)的研究風(fēng)格,希望博士期間作出有影響力的工作,而不是盲目于發(fā)論文。如果沒有做出自己滿意的成果,很多學(xué)生會(huì)主動(dòng)要求延畢,7年畢業(yè)對(duì)于他們而言是很正常的。”

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

如果一個(gè)MIT博士生畢業(yè)時(shí)的學(xué)術(shù)成果不行,就會(huì)被評(píng)價(jià)學(xué)術(shù)潛力一般,這對(duì)以后的發(fā)展會(huì)有很大影響?!耙虼?,他們情愿延期一到兩年,拿出有代表性的成果,再去找教職,或進(jìn)入市場競爭?!?/span>

所謂的代表性成果,不是看論文數(shù)量,而是看工作的價(jià)值,“價(jià)值是要往長遠(yuǎn)去看的,不管是學(xué)術(shù)層面的奠基性作用,還是應(yīng)用層面的普惠意義?!?/span>

在博士后期間,團(tuán)隊(duì)研究課題聚焦在基于AI+形式化的方法來實(shí)現(xiàn)CPS系統(tǒng)安全,團(tuán)隊(duì)大部分成員包括郝建業(yè)的導(dǎo)師、MIT計(jì)算機(jī)科學(xué)系教授Daniel Jackson,主要專注的領(lǐng)域是形式化驗(yàn)證。


6

形式化的強(qiáng)化學(xué)習(xí)

形式化驗(yàn)證即是用數(shù)學(xué)方法驗(yàn)證系統(tǒng)是否存在bug,比如在CPU設(shè)計(jì)中用計(jì)算機(jī)模擬驗(yàn)證是否存在潛在問題。因此,形式化驗(yàn)證也可以叫軟件模擬,重點(diǎn)在于預(yù)防錯(cuò)誤發(fā)生

在這里,郝建業(yè)探索了另一條研究道路——學(xué)科交叉。其實(shí),在博士期間,他就在廣泛地做多學(xué)科閱讀,比如微觀經(jīng)濟(jì)學(xué)、行為科學(xué)等等,“多智能體系統(tǒng)是一個(gè)交叉學(xué)科,不會(huì)局限于計(jì)算機(jī)科學(xué)?!?/span>

甚至在本科大三實(shí)習(xí)期間,郝建業(yè)第一次接觸科研,也就是走進(jìn)香港理工大學(xué)張大鵬教授的實(shí)驗(yàn)室時(shí),做的也不是多智能體系統(tǒng)研究,而是生物信息學(xué)方面的工作,這也是他在哈工大王寬全教授指導(dǎo)下研究的方向。當(dāng)時(shí)他做的課題是基于傳統(tǒng)機(jī)器學(xué)習(xí)的舌頭病變檢測,除了數(shù)據(jù)準(zhǔn)備,也要做特征提取。在郝建業(yè)的思維里,“AI不只有端到端,不只有深度學(xué)習(xí)”的思想,從那時(shí)候就埋下了種子。

Daniel Jackson的指導(dǎo)下,郝建業(yè)探索了將多智能體系統(tǒng)和形式化驗(yàn)證結(jié)合的方向,并卓有成效。

以智能交通為例,郝建業(yè)研究了如何在所有行人、車輛等智能體都遵循相同交通規(guī)則的前提下,保證行人、車輛之間都不會(huì)相撞,并找到滿足條件的最少規(guī)則。這里,相撞即是形式化驗(yàn)證中要尋找的bug

例如,為避免碰撞,兩列自主列車在同一條隧道中行駛,可以執(zhí)行“如果在隧道內(nèi)觀察到另一列列車,則不應(yīng)允許移動(dòng)動(dòng)作”的規(guī)則。也就是說,這項(xiàng)工作嘗試讓AI自動(dòng)設(shè)計(jì)最適合的交通規(guī)則,并能夠自動(dòng)化驗(yàn)證該套規(guī)則是否安全可靠。

在形式化規(guī)則約束下,對(duì)于交通系統(tǒng)中的每輛車而言,它們都只知道在當(dāng)前局部場景下應(yīng)該遵守的規(guī)則,和可選的決策,而不知道遠(yuǎn)處其它智能體的情況,但最終整個(gè)交通系統(tǒng)的效率能達(dá)到全局最優(yōu)。研究結(jié)果也顯示,AI找到的規(guī)則和手動(dòng)設(shè)計(jì)的規(guī)則效果相當(dāng)。

而反觀現(xiàn)實(shí)中常見的堵車問題,郝建業(yè)指出,“這本質(zhì)上其實(shí)是缺乏規(guī)則共識(shí)。”每個(gè)人心中對(duì)于規(guī)則的認(rèn)可程度都不一樣,導(dǎo)致單一的形式化系統(tǒng)的預(yù)測在現(xiàn)實(shí)中根本匹配不上。人與自動(dòng)駕駛汽車之間也存在類似關(guān)系,“有一個(gè)說法是,只有真人駕駛汽車的道路,與只有自動(dòng)駕駛汽車的道路,在通暢度上也會(huì)更好?!?/span>

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

”多閱讀交叉學(xué)科的文章,對(duì)以后的工作會(huì)有長期的啟發(fā)性影響。”郝建業(yè)在博士期間受到的提點(diǎn),終于在這一刻有了真實(shí)的感悟。

在華為,郝建業(yè)也進(jìn)一步將相關(guān)技術(shù)應(yīng)用到了自動(dòng)駕駛技術(shù)的研發(fā)上,“由于可以保證車輛之間不碰撞,形式化系統(tǒng)的結(jié)合對(duì)于自動(dòng)駕駛的安全性非常重要?!?/span>

郝建業(yè)認(rèn)為,“仿真技術(shù)形式化驗(yàn)證是兩條差別比較大的路線,可以說是兩個(gè)極端。其中基于深度強(qiáng)化學(xué)習(xí)的仿真技術(shù)笨一點(diǎn),一般通過遍歷所有可能場景來尋找可行的方案,而形式化驗(yàn)證則精一點(diǎn),可以從理論上直接保證結(jié)果是可靠的,“但它們都是值得探索的方向,是互補(bǔ)的。”

在論文中,郝建業(yè)研究的也是相對(duì)簡單的場景。而如今,這項(xiàng)技術(shù)對(duì)于智能電網(wǎng)乃至智慧城市的開發(fā)都已具有非常重要的啟發(fā)意義。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

論文地址:https://groups.csail.mit.edu/sdg/pubs/2016/norms-fse16.pdf

多學(xué)科交叉的有效性或許也可以從歷史中尋找淵源。博弈論最早起源于經(jīng)濟(jì)學(xué),但它的創(chuàng)始人,實(shí)際上是計(jì)算機(jī)之父馮·諾依曼,博弈論與計(jì)算機(jī)科學(xué)之間或許早就暗藏千絲萬縷的聯(lián)系,如今終于在AI時(shí)代被放大。

計(jì)算機(jī)科學(xué)在艾倫·圖靈提出圖靈機(jī)概念后,早就有了統(tǒng)治科學(xué)世界的野心。哪怕十分簡陋,如今做科研誰能離開計(jì)算機(jī)呢?深度學(xué)習(xí)正好在人們困惑、嘲笑計(jì)算機(jī)只能處理代碼,不能理解感官世界的豐富時(shí),提供了一個(gè)連接橋梁。似乎在神經(jīng)網(wǎng)絡(luò)中,萬物都能被統(tǒng)一為無數(shù)的電脈沖,不同學(xué)科之間的隔閡亦不再厚重和神秘。


7

進(jìn)化的強(qiáng)化學(xué)習(xí)

游戲是一個(gè)龐大的虛擬世界,疫情的到來更是將無數(shù)被困現(xiàn)實(shí)的新玩家涌入,讓這個(gè)虛擬世界急速擴(kuò)張,而里面24小時(shí)活躍著的玩家、NPC都是多智能體系統(tǒng)天然的研究對(duì)象。

在與網(wǎng)易伏羲人工智能實(shí)驗(yàn)室、南洋理工大學(xué)等合作完成的論文“Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning”中,郝建業(yè)等人延續(xù)多學(xué)科交叉道路,研究了如何將演化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來,提出了動(dòng)態(tài)游戲測試框架Wuji,從而將游戲測試自動(dòng)化,并提高效率。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

論文地址:https://nos.netease.com/mg-file/mg/neteasegamecampus/art_works/20200812/202008122020238586.pdf

測試游戲潛在bug的一個(gè)難點(diǎn),就是觸發(fā),“有些bug可能非常隱蔽,大部分玩家都不會(huì)觸發(fā),比如它可能在某個(gè)難度很高的關(guān)卡中,而一旦觸發(fā)就會(huì)帶來非常不好的體驗(yàn)?!?/span>

而現(xiàn)有深度強(qiáng)化學(xué)習(xí)主要聚焦于贏得勝利,獲取高分,因此在開發(fā)探索能力上受限于目標(biāo),也就是獎(jiǎng)勵(lì)函數(shù)的設(shè)置。

例如,下圖展示了一個(gè)簡單的迷宮游戲,其中機(jī)器人需要尋找左上角的黃金。如果機(jī)器人到達(dá)圖中標(biāo)記的綠點(diǎn)、黃點(diǎn)或紅點(diǎn),就會(huì)觸發(fā)錯(cuò)誤。機(jī)器人可以輕松到達(dá)黃點(diǎn),因?yàn)樗鼈兛拷跏嘉恢?。然而,綠點(diǎn)和紅點(diǎn)更難到達(dá),因?yàn)樾枰业礁珳?zhǔn)的路徑,或者距離目標(biāo)太遠(yuǎn)。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

強(qiáng)化學(xué)習(xí)算法的兩大階段是探索(exploration)和利用(exploitation),演化算法相當(dāng)于提升了強(qiáng)化學(xué)習(xí)算法的探索能力,從而得以遍歷不同的策略,觸及角落中隱藏的bug。這樣的策略,其實(shí)也相當(dāng)于一種游戲測試腳本,腳本指導(dǎo)智能體去玩游戲,遍歷各種場景和各種互動(dòng)。

為了實(shí)現(xiàn)目標(biāo),Wuji不僅考慮完成任務(wù),還考慮尋找不同的方向,這兩種策略相輔相成。比如在迷宮游戲中,完成任務(wù)的策略有助于達(dá)到一般隨機(jī)策略難以覆蓋的綠點(diǎn),探索的策略則有助于觸及可能不在游戲主線中的紅點(diǎn)。

當(dāng)時(shí)這項(xiàng)成果稱得上是業(yè)界第一個(gè)利用機(jī)器學(xué)習(xí)方法進(jìn)行游戲測試的工具,幫助游戲測試人員發(fā)現(xiàn)了大量多人在線游戲中之前未知的bug。相關(guān)論文也在軟件工程頂級(jí)會(huì)議ASE 2019中獲得了ACM SIGSOFT 杰出論文獎(jiǎng)。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

部分測試場景示例


8

智能體的存在性

多智能體系統(tǒng)研究是一個(gè)非常復(fù)雜的全局優(yōu)化問題,它不像圖像識(shí)別、語音生成、文本生成,通常只有固定的少量輸入、輸出端口,而是有多少智能體,就得有多少的輸入、輸出。

系統(tǒng)除了要滿足全局優(yōu)化目標(biāo),即社會(huì)利益最優(yōu),還需要考慮每個(gè)智能體的利益問題,這就涉及到了公平性,也因此郝建業(yè)格外注重這兩個(gè)方面。甚至要考慮存在性問題,把多智能體系統(tǒng)類比為神經(jīng)網(wǎng)絡(luò),一個(gè)智能體在某些場景下是不能像一個(gè)神經(jīng)元那樣被輕易dropout的。映射到真實(shí)世界的人類社會(huì),在滿足社會(huì)、企業(yè)利益目標(biāo)的時(shí)候,一個(gè)普通人也不該被輕易地剝削或犧牲。

事實(shí)上,這一點(diǎn)在斯坦福大學(xué)計(jì)算機(jī)科學(xué)名譽(yù)教授Yoav Shoham于2006年發(fā)表的一篇論文中就有提到,即多智能體學(xué)習(xí)研究的其中一個(gè)重要目標(biāo)——解釋現(xiàn)實(shí)世界,Yoav Shoham稱之為描述性范式。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

當(dāng)時(shí)多智能體系統(tǒng)已經(jīng)受到了學(xué)界廣泛關(guān)注和研究,但圈子內(nèi)的學(xué)者也都在困惑,這些研究的意義是什么?
針對(duì)此現(xiàn)象,Yoav Shoham在這篇論文中提出了驚世之問:“If multi-agent learning is the answer, what is the question?”
他通過總結(jié)當(dāng)時(shí)的領(lǐng)域研究工作,提出了多智能體學(xué)習(xí)的5大目標(biāo):1. 計(jì)算性 2. 描述性 3. 規(guī)范性 4. 規(guī)定性,合作性 5. 規(guī)定性,非合作性。
這篇論文在當(dāng)時(shí)領(lǐng)域內(nèi)引發(fā)了很大反響,并對(duì)往后多智能體系統(tǒng)的研究產(chǎn)生了重要的指導(dǎo)作用。
郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶
論文地址:http://robotics.stanford.edu/users/shoham/www%20papers/LearningInMAS.pdf
在考慮每個(gè)智能體存在性的前提下,郝建業(yè)還談?wù)摿?/span>多智能體的通訊問題,并指深度強(qiáng)化學(xué)習(xí)和表征學(xué)習(xí),將是多智能體系統(tǒng)未來的重要方向。
類比于多模態(tài)學(xué)習(xí)中以向量空間作為共同表征空間,郝建業(yè)也認(rèn)為智能體之間應(yīng)該形成共同語言。
智能體不僅需要為自己建模,為對(duì)環(huán)境的觀察建模,還需要為其它智能體建模,為其它智能體對(duì)環(huán)境的觀察建模,形成心理模型。通過頻繁通訊,對(duì)于某一事件,讓每個(gè)智能體學(xué)習(xí)到在所有智能體中都不變的表示,這個(gè)智能體也就有了共同語言,“這種表征不受觀察方式的限制,每個(gè)智能體都能理解。”
這是郝建業(yè)在華為諾亞天津大學(xué)的團(tuán)隊(duì)都在重點(diǎn)關(guān)注的方向,“我取名叫自監(jiān)督強(qiáng)化學(xué)習(xí),也可以叫強(qiáng)化學(xué)習(xí)的表征學(xué)習(xí)?!?/span>
這種表征不僅具有還原性的特點(diǎn),”比如在一個(gè)房間里有不同位置的攝像頭,我們分別用不同的攝像頭都能還原出房間的原本樣貌,即原始信息?!斑€具有功能性的特點(diǎn),在原始信息的基礎(chǔ)上,我們還需要知道,在某個(gè)目標(biāo)限制下,哪些方面才是最重要的,”這可以叫功能性注意力,比如我需要喝水的時(shí)候,不會(huì)管是杯子還是瓶子裝的水,我需要的是能盛住水的容器?!盎诠δ苄宰⒁饬Φ臎Q策,有助于提高泛化性。

9

時(shí)間的力量
回望十余年來的學(xué)術(shù)生涯,正是因?yàn)?/span>相信時(shí)間的力量,理解了多智能體系統(tǒng)的交叉學(xué)科本質(zhì),才讓郝建業(yè)不受限于象牙塔,逐漸走出小圈子,讓自己那片小小的原野變得廣袤,并看著當(dāng)初撒下的一粒粒種子生根發(fā)芽,終成參天大樹。
在華為諾亞方舟實(shí)驗(yàn)室,郝建業(yè)繼續(xù)踐行著這個(gè)理念。他告訴我們,如今由他擔(dān)任負(fù)責(zé)人的決策與推理實(shí)驗(yàn)室有5個(gè)研究方向的規(guī)劃:
首先是多智能體系統(tǒng),涉及了多智能體協(xié)作、聯(lián)邦學(xué)習(xí)、合作式與非合作式博弈等方面;第二是學(xué)習(xí)優(yōu)化,涉及了白盒優(yōu)化、黑盒優(yōu)化等方面;第三是知識(shí)表征與推理,涉及了表征學(xué)習(xí)與因果發(fā)現(xiàn)等方面;第四是安全控制,涉及數(shù)據(jù)中心安全等方面;最后是建模仿真,涉及基于AI的各種復(fù)雜數(shù)學(xué)模型求解等方面。
“我們內(nèi)部圍繞這5大方向都在開展基礎(chǔ)研究,并用于解決很多實(shí)際業(yè)務(wù)問題。比如多智能體系統(tǒng)研究可用于5G網(wǎng)絡(luò)參數(shù)優(yōu)化,學(xué)習(xí)優(yōu)化研究可用于各種復(fù)雜的白盒和黑盒控制決策優(yōu)化場景,如自動(dòng)駕駛、無線優(yōu)化、芯片設(shè)計(jì)、物流優(yōu)化等,知識(shí)表征與推理研究可用于故障的根因定位和診斷修復(fù)等,安全控制研究可用于數(shù)據(jù)中心控制,自動(dòng)駕駛等重要場景,建模仿真研究可用于自動(dòng)駕駛仿真、無線、芯片設(shè)計(jì)等,”郝建業(yè)說道,“諾亞作為一個(gè)企業(yè)的研究院,在基礎(chǔ)研究和工程落地方面結(jié)合的非常好,每個(gè)研究員在這里結(jié)合自身優(yōu)勢特長,在研究和落地之間找到適合自己的平衡點(diǎn)?!?/span>
在新一代AI學(xué)子培養(yǎng)上,郝建業(yè)依然秉承恩師梁浩鋒執(zhí)著于細(xì)節(jié)的信念,強(qiáng)調(diào)養(yǎng)成科研好習(xí)慣的重要性,“科研習(xí)慣和興趣都很重要。第一個(gè)是有動(dòng)力,第二個(gè)是要有好的做科研的方式,包括思維方式,包括系統(tǒng)的從發(fā)現(xiàn)問題到分析問題到解決問題的一套方法論。”
2015年入職天津大學(xué)至今,郝建業(yè)領(lǐng)導(dǎo)著深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,亦不忘“大方向把控,小方向自由”,“我們實(shí)驗(yàn)室的研究方向比較聚焦,每個(gè)人做的課題有所差異,但都圍繞著單智能體、多智能體系統(tǒng),以及深度強(qiáng)化學(xué)習(xí)?!?/span>
基礎(chǔ)當(dāng)然也不能忽視。在多智能體系統(tǒng)方面,郝建業(yè)會(huì)要求學(xué)生讀Yoav ShohamKevin Leyton-Brown編寫的《Multiagent Systems:Algorithmic,Game-Theoretic, and Logical Foundations》在強(qiáng)化學(xué)習(xí)方面,他會(huì)要求學(xué)生讀Richard Sutton的《Reinforcement Learning》,并輔以David Silver的同名視頻課程的課件。
同時(shí),他也不忘提醒學(xué)生堅(jiān)持長期主義,“要做有價(jià)值的課題,而不是去跟風(fēng)寫大家都在搶著發(fā)的論文。”
“還要避免閉門造車”,他經(jīng)常跟學(xué)生說,“養(yǎng)成獨(dú)立思考習(xí)慣很重要,但也要多跟導(dǎo)師交流,要有勇氣走出實(shí)驗(yàn)室,從實(shí)際問題出發(fā)提煉有價(jià)值的抽象問題?!?/span>
郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶
最后,對(duì)強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)方向感興趣的同學(xué),歡迎聯(lián)系報(bào)考,也歡迎從事相關(guān)研究(不局限于強(qiáng)化學(xué)習(xí))的同學(xué)來諾亞方舟實(shí)驗(yàn)室實(shí)習(xí):jianye.hao@tju.edu.cn
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

郝建業(yè):從囚徒困境到自動(dòng)駕駛,蟄伏數(shù)十載的多智能體強(qiáng)化學(xué)習(xí),期待破繭成蝶

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說