丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

本文作者: 楊文 編輯:郭奕欣 2017-07-09 14:08 專(zhuān)題:GAIR 2017
導(dǎo)語(yǔ):倫敦大學(xué)學(xué)院汪軍教授在2017 GAIR峰會(huì)上的分享精華。

雷鋒網(wǎng)AI科技評(píng)論按:7月7號(hào),全球人工智能和機(jī)器人峰會(huì)在深圳如期舉辦,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的這次大會(huì)共聚集了來(lái)自全球30多位AI領(lǐng)域科學(xué)家、近300家AI明星企業(yè)。雷鋒網(wǎng)最近將會(huì)陸續(xù)放出峰會(huì)上的精華內(nèi)容,回饋給長(zhǎng)期以來(lái)支持雷鋒網(wǎng)的讀者們!

今天介紹的這位嘉賓是來(lái)自倫敦大學(xué)學(xué)院的汪軍教授,分享主題為“群體智能”。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

汪軍, 倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系教授、互聯(lián)網(wǎng)科學(xué)與大數(shù)據(jù)分析專(zhuān)業(yè)主任。主要研究智能信息系統(tǒng),主要包括數(shù)據(jù)挖掘,計(jì)算廣告學(xué),推薦系統(tǒng),機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí),生成模型等等。他發(fā)表了100多篇學(xué)術(shù)論文,多次獲得最佳論文獎(jiǎng)。是國(guó)際公認(rèn)的計(jì)算廣告學(xué)和智能推薦系統(tǒng)專(zhuān)家。

人工智能進(jìn)入2.0時(shí)代,多智體互相協(xié)作,互相競(jìng)爭(zhēng)就是將來(lái)發(fā)展的一個(gè)方向。汪軍教授從多智體群體的特征切入,介紹了多智體的強(qiáng)化學(xué)習(xí)特性。具體表現(xiàn)為:在同一環(huán)境下,不同的智體既可以單獨(dú)處理各自的任務(wù),又可以聯(lián)合在一起處理優(yōu)化一個(gè)主要的目標(biāo)方程,而且會(huì)根據(jù)具體的情況會(huì)有不同的變化。

互聯(lián)網(wǎng)廣告中運(yùn)用到強(qiáng)化學(xué)習(xí),效果就比較明顯。通過(guò)對(duì)投放廣告后的用戶(hù)反饋的不斷學(xué)習(xí),最終就可以快速精準(zhǔn)幫助企業(yè)找到目標(biāo)用戶(hù)。

在既要競(jìng)爭(zhēng),又要合作的場(chǎng)景下,AI智體處理起來(lái)就比較困難。他們和阿里合作開(kāi)發(fā)了一套AI打星際爭(zhēng)霸的系統(tǒng),目的就是希望能找到計(jì)算量又小,多智體之間又能協(xié)同配合的方式。

如何讓數(shù)量巨大的智體協(xié)同?

像一些網(wǎng)約車(chē)APP,每個(gè)用戶(hù)終端,司機(jī)手上的終端,都可以視為一個(gè)智能體,它可以?xún)?yōu)化資源配置,決定什么價(jià)錢(qián)是用戶(hù)可以接受的。這些上千萬(wàn)級(jí)的智體是需要一個(gè)人工智能合作的系統(tǒng)層面上的分析的。共享單車(chē)在這方面的需求尤甚。

智能體強(qiáng)化學(xué)習(xí)模型是否可以從自然界得到啟發(fā)?

汪軍教授講到了一個(gè)生物界的self-organisation(自組織)理論,當(dāng)一些小的智體遵循這個(gè)規(guī)則的時(shí)候,就會(huì)體現(xiàn)一個(gè)種群的特質(zhì)。這些模型可以用宏觀的事情解決宏觀的問(wèn)題,但是缺少一種微觀的方法去觀察這個(gè)世界。微觀的東西和宏觀的現(xiàn)象有什么關(guān)系,值得大家以后研究。

Lotka-Volterra模型,該模型描述的是:相互競(jìng)爭(zhēng)的兩個(gè)種群,它們種群數(shù)量之間的動(dòng)態(tài)關(guān)系。汪軍教授在此模型上做了一個(gè)創(chuàng)新,提出了老虎-羊-兔子模型。如果給智體強(qiáng)化學(xué)習(xí)能力以后,就和LV模型中的猞猁抓兔子的動(dòng)態(tài)顯現(xiàn)十分相似。當(dāng)智體之間聯(lián)合一起優(yōu)化某一個(gè)目標(biāo)或單獨(dú)優(yōu)化自己的目標(biāo),出現(xiàn)這兩種情況的時(shí)候,作為一個(gè)群體,他們就有了內(nèi)在的規(guī)律。如果找到這些規(guī)律,對(duì)開(kāi)發(fā)智體模型是非常有幫助的。

強(qiáng)化學(xué)習(xí)里面的環(huán)境

以宜家為例:在宜家的的熱力圖上,可以看出商場(chǎng)內(nèi)的活動(dòng)是非常平均的,平均的好處是每個(gè)地方都放了不同的東西,用戶(hù)都兼顧到了。但是如果開(kāi)發(fā)一個(gè)強(qiáng)化學(xué)習(xí)的算法,讓環(huán)境也能跟著用戶(hù)的變化而變化,把路徑安排最優(yōu),自然最好。

以分揀機(jī)器人為例:單個(gè)智體(機(jī)器人)要進(jìn)行優(yōu)化,以最快路徑分揀快遞,這個(gè)環(huán)境未必是最優(yōu)。根據(jù)貨物的統(tǒng)計(jì)特性來(lái)考量和設(shè)計(jì)將一些投放的洞放在一起,避免機(jī)器碰上,這樣就可以?xún)?yōu)化這個(gè)場(chǎng)景。

以迷宮為例:一個(gè)人工智體,需要最快找到出口,分兩個(gè)不同的維度,一個(gè)是給定一個(gè)環(huán)境,人工智體通過(guò)強(qiáng)化學(xué)習(xí)找到最優(yōu)的策略走出來(lái),另一個(gè)是當(dāng)智體的智能水平不再增長(zhǎng),就可以來(lái)優(yōu)化環(huán)境,使它最小概率或更難出去。后來(lái)發(fā)現(xiàn)通過(guò)強(qiáng)化學(xué)習(xí)的人工智體通過(guò)智體間的交互就能學(xué)會(huì)對(duì)環(huán)境優(yōu)化。

以下為現(xiàn)場(chǎng)演講全文,雷鋒網(wǎng)做了不改動(dòng)原意的編輯整理:

大家好!很高興到這里來(lái)跟大家分享我們?cè)赨CL做的工作。今天我主要想講的是“群體智能”,潘院士今天早上講了人工智能2.0其中的一個(gè)方向,就是有多個(gè)智體互相協(xié)作、互相競(jìng)爭(zhēng),甚至是從社會(huì)學(xué)角度來(lái)講,作為一個(gè)群體,它的動(dòng)態(tài)系統(tǒng),它們整個(gè)群體的特性是什么,我希望給大家做一個(gè)介紹。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

在我講之前,大概介紹一下UCL是什么。我經(jīng)?;貒?guó)在做報(bào)告的時(shí)候,大家問(wèn)你從哪里來(lái)?我說(shuō)我是UCL來(lái)的,大家會(huì)說(shuō):“是加州大學(xué)嗎?”我說(shuō):“不是,我們?cè)趥惗?,我們學(xué)校的中文翻譯叫倫敦大學(xué)學(xué)院。”我們相對(duì)來(lái)說(shuō)還是比較低調(diào)的,我們的學(xué)術(shù)水平在英國(guó)還是不錯(cuò)的,在最近一次評(píng)比當(dāng)中,我們是超過(guò)劍橋和牛津的,我們學(xué)院有29個(gè)諾貝爾獎(jiǎng)獲得者,比如說(shuō)光纖之父高錕當(dāng)時(shí)就在我們學(xué)校電子系,當(dāng)時(shí)他的老板有一個(gè)想法是說(shuō)從理論上證明有一種物質(zhì)在通訊傳播的時(shí)候有一種特性,他就找到了光纖。

今天想聚焦的是強(qiáng)化學(xué)習(xí)??赡艽蠹叶剂私釧lphaGo,其中里面核心的一個(gè)技術(shù)就叫強(qiáng)化學(xué)習(xí),它與模式識(shí)別的差別是:它相對(duì)來(lái)說(shuō)比較容易,當(dāng)你沒(méi)有數(shù)據(jù)和沒(méi)有訓(xùn)練數(shù)據(jù)集的情況下,同樣可以工作。這個(gè)系統(tǒng)可以直接和環(huán)境進(jìn)行交互,獲得它的反饋信息,在跟它交互當(dāng)中,它不斷地學(xué),不斷地把智能的東西學(xué)出來(lái),所以更加自然,在用到實(shí)際場(chǎng)景的情況下也會(huì)更加靈活。它主要的特性是:一般來(lái)說(shuō)把它的目標(biāo)方程定義成一個(gè)長(zhǎng)期的Reward(獎(jiǎng)勵(lì))的方式,通過(guò)它可以得到一個(gè)優(yōu)化的策略。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

今天重點(diǎn)講的是多智能體的強(qiáng)化學(xué)習(xí),就是說(shuō)在同樣的環(huán)境下有一個(gè)智能體,當(dāng)然也可以有很多智能體,它們單獨(dú)的和環(huán)境進(jìn)行交互,有一種情況下是它們各自?xún)?yōu)化自己的目標(biāo),但是這些目標(biāo)之間有些約束,或者是它們聯(lián)合起來(lái)優(yōu)化一個(gè)主要的目標(biāo)方程,根據(jù)具體的情況它會(huì)有不同的變化。

其中有一個(gè)方面我們過(guò)去做了很多工作,就是互聯(lián)網(wǎng)廣告。我們是比較早的在互聯(lián)網(wǎng)廣告中用上了強(qiáng)化學(xué)習(xí)的方法,目前我們可以在10毫秒之內(nèi)做好決策,我們可以達(dá)到每天100億的流量的情況下進(jìn)行分析,可以幫助廣告主精準(zhǔn)投放,在環(huán)境交互的情況下,根據(jù)投放廣告以后用戶(hù)的反饋,它有不斷的學(xué)習(xí)。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

另外一個(gè)場(chǎng)景是星際爭(zhēng)霸游戲,這個(gè)場(chǎng)景大家比較熟悉,我們通過(guò)對(duì)星際爭(zhēng)霸里面的英雄的控制,可以找到多智體的規(guī)律,可以學(xué)習(xí)他們?cè)趺礃雍献?,怎么樣和敵人?jìng)爭(zhēng),怎么樣通訊。這個(gè)是我們最近幾個(gè)月跟阿里開(kāi)發(fā)的一套人工智能打星際的系統(tǒng),開(kāi)發(fā)這個(gè)系統(tǒng)的其中一個(gè)最重要的原因就是想解決人工智能智體之間的通訊問(wèn)題。當(dāng)他們想一起合作起來(lái)攻打?qū)Ψ降臅r(shí)候,他們必須要有效的合作,我們希望在計(jì)算的時(shí)候,計(jì)算量相對(duì)比較小,同時(shí)又達(dá)到他們的協(xié)同目的,這時(shí)候我們就用了一個(gè)雙向連通的方式,發(fā)現(xiàn)它的效果是非常明顯的。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

在目前多智體強(qiáng)化學(xué)習(xí)的還是研究處于非常初步的階段。今天我大概講兩個(gè)方面的問(wèn)題,第一個(gè)是大家目前的研究都是主要集中在少量的多智體之間的協(xié)同。如果是上萬(wàn)個(gè)的情況下,效果就不是很明顯,看實(shí)際場(chǎng)景,特別是現(xiàn)在有很多這樣的場(chǎng)景,它的人工智體的合作可能需要百萬(wàn)甚至上千萬(wàn)級(jí)的人工智體。舉個(gè)簡(jiǎn)單的例子,比如網(wǎng)約車(chē)APP,每個(gè)用戶(hù)手上的終端,或者每個(gè)司機(jī)手上的終端,你可以想象成它是一個(gè)智能體,它可以做出決定,到底什么樣的價(jià)錢(qián)我可以接受,甚至可以從系統(tǒng)層面給一些什么機(jī)制,能夠把它的資源條線分配得比較好,因?yàn)橛行└叻鍫顟B(tài)下,我的出租車(chē)比較少,但是需求量又比較大,而在其它的一些時(shí)候,可能出租車(chē)很多,但是需求量不是很大,怎么樣調(diào)配,有一種機(jī)制能夠把這個(gè)調(diào)配弄均勻。這其實(shí)是需要有一個(gè)非常大的人工智能合作的系統(tǒng)層面的分析。共享單車(chē)的情況更加明顯,你可以想象如果給每個(gè)自行車(chē)裝了小的芯片或者計(jì)算機(jī),它就是一個(gè)很智能的東西,可以根據(jù)它目前的情況,優(yōu)化它的分布情況。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

現(xiàn)在如果要做一個(gè)強(qiáng)化學(xué)習(xí)的模型,這個(gè)模型必須要可以處理百萬(wàn)級(jí)的智體,應(yīng)該怎么去做?我們可以從自然界里面獲得一些啟發(fā)。如果我們?nèi)タ瓷鷳B(tài)學(xué)的研究會(huì)發(fā)現(xiàn),很多動(dòng)物或者植物有它們獨(dú)特的性質(zhì),特別是在宏觀種群的級(jí)別上面,它們有一定的規(guī)律,而其中有一個(gè)理論叫做Self-organisation,它的理論是說(shuō)一些規(guī)律歸結(jié)于一些非常簡(jiǎn)單的規(guī)則,當(dāng)這些小的智體遵循它的時(shí)候,就會(huì)體現(xiàn)出一個(gè)種群的特質(zhì)。但是這些模型有一個(gè)很顯著的問(wèn)題,它可以用宏觀的事情解決宏觀的現(xiàn)象,但是缺少一種微觀的方法去觀察這個(gè)世界。比如說(shuō)每個(gè)個(gè)體有它自己的興趣,有它自己的優(yōu)化方程,這個(gè)微觀的東西和宏觀的現(xiàn)象之間有什么關(guān)系?目前為止大家的研究還是比較少的。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

舉一個(gè)簡(jiǎn)單的例子,其中有一個(gè)比較有名的模型簡(jiǎn)稱(chēng)LV (Lotka-Volterra) 模型,這是兩個(gè)人的名字組合,一個(gè)是數(shù)學(xué)家、一個(gè)是生物學(xué)家,以他們的名字命名這個(gè)模型。這個(gè)模型是在描述在競(jìng)爭(zhēng)的兩個(gè)種群的情況下,它們的種群數(shù)量之間的動(dòng)態(tài)關(guān)系。在自然界里面,生物學(xué)家或者是生態(tài)學(xué)家發(fā)現(xiàn),種群之間的數(shù)量不是一個(gè)靜態(tài)的過(guò)程,其實(shí)是一個(gè)動(dòng)態(tài)的、互相約束的過(guò)程。比如說(shuō)猞猁是兔子的天敵,假設(shè)只有猞猁和兔子之間的關(guān)系,其它的因素不考慮,我們會(huì)發(fā)現(xiàn)當(dāng)猞猁的數(shù)量提高的時(shí)候,兔子的數(shù)量相對(duì)來(lái)說(shuō)就要降低,當(dāng)猞猁的數(shù)量降低的時(shí)候,兔子的數(shù)量就會(huì)增高,它們就形成了一種互動(dòng)的關(guān)系,這種關(guān)系就可以用LV模型描述。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

從我們的角度來(lái)考慮,如果人工智能體是智慧的,它形成了一個(gè)群落,形成了一個(gè)智體的網(wǎng)絡(luò),形成一個(gè)種類(lèi),它的內(nèi)在規(guī)律是什么?我們會(huì)不會(huì)發(fā)現(xiàn)跟自然界中一樣的規(guī)律呢?或者說(shuō)它有不同的特性?怎么樣去學(xué)習(xí)它們?我們就把強(qiáng)化學(xué)習(xí)作為每個(gè)個(gè)體興趣的驅(qū)動(dòng),把它放到簡(jiǎn)單的生物學(xué)環(huán)境下。我們做一個(gè)捕獵的環(huán)境,里面有老虎、羊,老虎來(lái)捕羊,這樣可以保持老虎生存下去,羊當(dāng)然要躲,老虎去逮它。我們把這個(gè)模型做大,比如說(shuō)有100萬(wàn)頭老虎,我們以?xún)?nèi)在驅(qū)動(dòng)的方式來(lái)驅(qū)動(dòng),看看種群當(dāng)中有什么樣的情況發(fā)生。我們用了一個(gè)比較簡(jiǎn)單的模型,現(xiàn)在用的是一個(gè)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的模型,每個(gè)老虎的輸出就是它的移動(dòng)的方向,還有一個(gè)就是它決定是不是和其它老虎一起組成團(tuán)隊(duì)去抓這個(gè)羊,還是它單獨(dú)抓這個(gè)羊。給了它這些決定,我們讓它在這個(gè)情況下想,要生存應(yīng)該怎么辦,強(qiáng)化學(xué)習(xí)告訴ta3應(yīng)該怎么辦,通過(guò)這個(gè)基礎(chǔ)上,它就自然而然去學(xué)習(xí)它的生存的法則。

我們第一個(gè)實(shí)驗(yàn)做的是什么呢?我們不讓它有任何智能,用一個(gè)最簡(jiǎn)單的情況,讓它的行動(dòng)隨機(jī),或者它的行動(dòng)不遵循一個(gè)學(xué)習(xí)和環(huán)境變化。我們發(fā)現(xiàn)很有意思的一點(diǎn),人工智能或者說(shuō)我們?nèi)藶樯傻纳鷳B(tài)系統(tǒng)很快就不平衡了,主要的原因是微觀上沒(méi)有一個(gè)機(jī)制,在老虎這里沒(méi)有動(dòng)態(tài)的過(guò)程讓它適應(yīng)新的環(huán)境。

然后我們就給老虎學(xué)習(xí)的能力,發(fā)現(xiàn)它表現(xiàn)出的現(xiàn)象跟自然界里面的猞猁抓兔子的情況非常相似。有一點(diǎn)也覺(jué)得很意外,我們感覺(jué)一般來(lái)說(shuō)當(dāng)你的強(qiáng)化學(xué)習(xí)達(dá)到了最優(yōu)點(diǎn),它就停在那個(gè)地方。但是這個(gè)實(shí)驗(yàn)告訴我們,它是一個(gè)動(dòng)態(tài)的平衡,我們把老虎和羊的數(shù)量用一個(gè)圖反應(yīng)出來(lái),就會(huì)發(fā)現(xiàn)它形成一種圈狀的形式,這個(gè)形式和這個(gè)LV模型非常相似。當(dāng)然我們的情況是相對(duì)來(lái)說(shuō)比那個(gè)LV模型要復(fù)雜一點(diǎn),因?yàn)長(zhǎng)V模型是一次性的一個(gè)簡(jiǎn)化模型,而我們這個(gè)地方考慮了各種情況,可以發(fā)現(xiàn)大致上它們是一個(gè)吻合的情況。所以我們發(fā)現(xiàn)在種群的情況下,如果有一個(gè)人工智體形成了種群,它和自然界有一定的內(nèi)在聯(lián)系。

這個(gè)研究很有意思的一點(diǎn)是,當(dāng)人工智能在普遍被應(yīng)用的情況下,我們突然發(fā)現(xiàn)一個(gè)場(chǎng)景,有很多人類(lèi),同樣有很多人工智體,它們之間可以通訊,它們之間可以聯(lián)合在一起優(yōu)化某一個(gè)目標(biāo),或者它們單獨(dú)優(yōu)化它們自己的目標(biāo)。當(dāng)出現(xiàn)這種情況的時(shí)候,作為一個(gè)群體,他們有他們內(nèi)在的規(guī)律,作為我們?nèi)祟?lèi),我們有內(nèi)在的規(guī)律,把這些規(guī)律找到,對(duì)于我們?nèi)ラ_(kāi)發(fā)一些新的模型、新的計(jì)算機(jī)人工智能的方法是非常有幫助的。

下一個(gè)實(shí)驗(yàn)我們做的是觀察它的合作關(guān)系,它們能不能生成一個(gè)小團(tuán)隊(duì)去一起捕羊。我們把這個(gè)問(wèn)題做得稍微復(fù)雜一點(diǎn),加上了兔子,把兔子加進(jìn)去之后,我們會(huì)發(fā)現(xiàn)當(dāng)兔子數(shù)量非常高的時(shí)候,老虎種群里面去合作的數(shù)量非常迅速的降低,降低到零。因?yàn)橥米酉鄬?duì)容易捕獲,老虎不愿意組成群去抓羊。當(dāng)兔子的數(shù)量慢慢減少的時(shí)候,愿意合作的老虎又開(kāi)始增加了,所以它是一個(gè)動(dòng)態(tài)的過(guò)程。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

強(qiáng)化學(xué)習(xí)里面有一個(gè)環(huán)境,在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)的模型里面,假設(shè)這個(gè)環(huán)境是不變的,或者說(shuō)這個(gè)環(huán)境有它一定的概率在不斷變化,這個(gè)概率是不變的,我不一定知道它,但它不是一個(gè)Designable(可人為設(shè)定的),也就是說(shuō)它不是去設(shè)計(jì)這個(gè)環(huán)境,而是更加適應(yīng)這個(gè)環(huán)境。但實(shí)際情況下發(fā)現(xiàn),很多場(chǎng)景下,這個(gè)環(huán)境本身也需要一個(gè)適應(yīng)的過(guò)程。舉個(gè)例子,這是宜家他們的一個(gè)購(gòu)物平面圖,這里畫(huà)的是它的熱力圖,是根據(jù)用戶(hù)在它的購(gòu)物商場(chǎng)里面活動(dòng)的數(shù)量畫(huà)的。這是一個(gè)非常好的設(shè)計(jì),中間是吃飯的地方,人當(dāng)然會(huì)很多,這個(gè)熱力圖其它的地方相對(duì)是比較平均的,平均的好處是你在各個(gè)地方放不同的東西,用戶(hù)都兼顧到了,所以從這個(gè)分布來(lái)講,這是很好的情況。但是這也是要設(shè)計(jì)的,你不可能說(shuō)一開(kāi)始的路徑安排就是最優(yōu)化的。我們可以開(kāi)發(fā)一個(gè)強(qiáng)化學(xué)習(xí)的算法,讓它強(qiáng)化學(xué)習(xí)這個(gè)環(huán)境也能根據(jù)這個(gè)用戶(hù)的變化而變化。這是一個(gè)建筑系的教授進(jìn)行的研究,他們做了一個(gè)地圖模擬人在店鋪里面走的情況,根據(jù)熱力圖反饋到鋪面設(shè)計(jì),來(lái)優(yōu)化用戶(hù)在這里面待的時(shí)間,或者說(shuō)最大化用戶(hù)可能消費(fèi)的情況,可以通過(guò)那個(gè)情況進(jìn)行一些優(yōu)化。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

另外一個(gè)例子是分揀機(jī)器人,它首先是每個(gè)單體要進(jìn)行一些優(yōu)化,以最快的路徑分揀到每個(gè)洞,每個(gè)洞對(duì)應(yīng)的都是不同的城市。這個(gè)環(huán)境不是最優(yōu)的,有可能這個(gè)機(jī)器人送到北京的信,另外一個(gè)機(jī)器人送到南京的信,它們可能會(huì)碰上,這個(gè)效率就不會(huì)很高。根據(jù)貨物的統(tǒng)計(jì)特性,設(shè)計(jì)我把南京的洞放在北京旁邊還是放在上海旁邊,所以這個(gè)環(huán)境也是需要很好的考量和設(shè)計(jì)的。所以在標(biāo)準(zhǔn)的強(qiáng)化設(shè)計(jì)下你沒(méi)法做設(shè)計(jì),于是我們做了一個(gè)新的設(shè)計(jì),我們叫Learning  to  design  environments(學(xué)習(xí)設(shè)計(jì)環(huán)境),可以?xún)?yōu)化這個(gè)場(chǎng)景。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

舉一個(gè)簡(jiǎn)單的例子,假設(shè)來(lái)設(shè)計(jì)迷宮,我可以說(shuō)我有一個(gè)人工智體,它的目的就是以最快的效率找到出口。環(huán)境是知道你的智體的智能水平,根據(jù)你的情況來(lái)設(shè)計(jì)迷宮,使得你最困難或者最小的概率可以出去。所以它們是一個(gè)競(jìng)爭(zhēng)的關(guān)系。怎么優(yōu)化呢?你會(huì)發(fā)現(xiàn),它在兩個(gè)不同的維度進(jìn)行。在人工智體的情況下,它給定一個(gè)環(huán)境情況,想以最快的效率、最優(yōu)的策略走出來(lái)。當(dāng)你把這個(gè)人工智體學(xué)到的東西定住以后,你就可以在另外一個(gè)維度優(yōu)化環(huán)境,我現(xiàn)在這個(gè)人工智體是這樣的屬性,我能不能根據(jù)的它的屬性使得它的環(huán)境更困難,所以在這兩個(gè)維度互相競(jìng)爭(zhēng)、互相迭代,就可以達(dá)到優(yōu)化的情況。這里舉的例子是迷宮,當(dāng)然還可以有其它的場(chǎng)景,比如說(shuō)可以是機(jī)器人,也可以是宜家,當(dāng)然也可以是其它的場(chǎng)景。

我們發(fā)現(xiàn)很有意思的是,如圖中所述,左上角是根據(jù)不同的人工智體的能力,會(huì)發(fā)現(xiàn)它學(xué)出來(lái)的環(huán)境是不一樣的,比如說(shuō)最左上角是我們有最優(yōu)的一個(gè)人工智能體,在這個(gè)情況下,我們發(fā)現(xiàn)我們學(xué)出來(lái)這個(gè)迷宮的情況是在這個(gè)給定的8×8的方塊下,它從入口到出口的路徑是最長(zhǎng)的,我們沒(méi)有告訴你這個(gè)環(huán)境就要這樣優(yōu)化,它通過(guò)根據(jù)人工智能體之間的交互就學(xué)到了這一點(diǎn)。右上角是用了一個(gè)DQN模型,這個(gè)模型是一個(gè)概率性的模型,也就是說(shuō)這個(gè)智體在每次選擇走的時(shí)候,它有一定的概率走上走下,有一定的隨機(jī)性,你會(huì)發(fā)現(xiàn)在這個(gè)情況下,學(xué)到的環(huán)境有很多岔路,這個(gè)岔路就是為了讓有隨機(jī)的人工智能體陷到一些支路里面,所以這樣的環(huán)境對(duì)它來(lái)說(shuō)是最困難的。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

大家研究現(xiàn)在的這個(gè)趨勢(shì),如果和人的智慧來(lái)比的話,其實(shí)差的還是非常遠(yuǎn)的。我非常同意笛卡兒說(shuō)的一句話:“機(jī)器和人的能力差別非常大,其中有一個(gè)最重要的問(wèn)題是意識(shí)(Conscience)......”我們現(xiàn)在還不是很清楚,我跟認(rèn)知學(xué)家進(jìn)行交流,認(rèn)知學(xué)家經(jīng)常會(huì)說(shuō),在他們的心里面有一個(gè)夢(mèng)想,就想研究認(rèn)知,研究意識(shí),但是他又沒(méi)法去研究,因?yàn)樗麤](méi)有一個(gè)很好的手段,連意識(shí)是什么東西大家都定義得不是很清楚。雖然我們?cè)谌斯ぶ悄芊矫妫◤?qiáng)化學(xué)習(xí)這一塊,做了很多的突破,但是離真正意義上的人工智能還是很遠(yuǎn)的,我們還要不斷地進(jìn)行努力。

我的分享到此結(jié)束,謝謝大家!

雷鋒網(wǎng)編輯整理

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)