0
本文作者: 楊文 | 編輯:郭奕欣 | 2017-07-09 14:08 | 專題:GAIR 2017 |
雷鋒網AI科技評論按:7月7號,全球人工智能和機器人峰會在深圳如期舉辦,由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)承辦的這次大會共聚集了來自全球30多位AI領域科學家、近300家AI明星企業(yè)。雷鋒網最近將會陸續(xù)放出峰會上的精華內容,回饋給長期以來支持雷鋒網的讀者們!
今天介紹的這位嘉賓是來自倫敦大學學院的汪軍教授,分享主題為“群體智能”。
汪軍, 倫敦大學學院(UCL)計算機系教授、互聯(lián)網科學與大數(shù)據(jù)分析專業(yè)主任。主要研究智能信息系統(tǒng),主要包括數(shù)據(jù)挖掘,計算廣告學,推薦系統(tǒng),機器學習,強化學習,生成模型等等。他發(fā)表了100多篇學術論文,多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統(tǒng)專家。
人工智能進入2.0時代,多智體互相協(xié)作,互相競爭就是將來發(fā)展的一個方向。汪軍教授從多智體群體的特征切入,介紹了多智體的強化學習特性。具體表現(xiàn)為:在同一環(huán)境下,不同的智體既可以單獨處理各自的任務,又可以聯(lián)合在一起處理優(yōu)化一個主要的目標方程,而且會根據(jù)具體的情況會有不同的變化。
互聯(lián)網廣告中運用到強化學習,效果就比較明顯。通過對投放廣告后的用戶反饋的不斷學習,最終就可以快速精準幫助企業(yè)找到目標用戶。
在既要競爭,又要合作的場景下,AI智體處理起來就比較困難。他們和阿里合作開發(fā)了一套AI打星際爭霸的系統(tǒng),目的就是希望能找到計算量又小,多智體之間又能協(xié)同配合的方式。
像一些網約車APP,每個用戶終端,司機手上的終端,都可以視為一個智能體,它可以優(yōu)化資源配置,決定什么價錢是用戶可以接受的。這些上千萬級的智體是需要一個人工智能合作的系統(tǒng)層面上的分析的。共享單車在這方面的需求尤甚。
汪軍教授講到了一個生物界的self-organisation(自組織)理論,當一些小的智體遵循這個規(guī)則的時候,就會體現(xiàn)一個種群的特質。這些模型可以用宏觀的事情解決宏觀的問題,但是缺少一種微觀的方法去觀察這個世界。微觀的東西和宏觀的現(xiàn)象有什么關系,值得大家以后研究。
Lotka-Volterra模型,該模型描述的是:相互競爭的兩個種群,它們種群數(shù)量之間的動態(tài)關系。汪軍教授在此模型上做了一個創(chuàng)新,提出了老虎-羊-兔子模型。如果給智體強化學習能力以后,就和LV模型中的猞猁抓兔子的動態(tài)顯現(xiàn)十分相似。當智體之間聯(lián)合一起優(yōu)化某一個目標或單獨優(yōu)化自己的目標,出現(xiàn)這兩種情況的時候,作為一個群體,他們就有了內在的規(guī)律。如果找到這些規(guī)律,對開發(fā)智體模型是非常有幫助的。
以宜家為例:在宜家的的熱力圖上,可以看出商場內的活動是非常平均的,平均的好處是每個地方都放了不同的東西,用戶都兼顧到了。但是如果開發(fā)一個強化學習的算法,讓環(huán)境也能跟著用戶的變化而變化,把路徑安排最優(yōu),自然最好。
以分揀機器人為例:單個智體(機器人)要進行優(yōu)化,以最快路徑分揀快遞,這個環(huán)境未必是最優(yōu)。根據(jù)貨物的統(tǒng)計特性來考量和設計將一些投放的洞放在一起,避免機器碰上,這樣就可以優(yōu)化這個場景。
以迷宮為例:一個人工智體,需要最快找到出口,分兩個不同的維度,一個是給定一個環(huán)境,人工智體通過強化學習找到最優(yōu)的策略走出來,另一個是當智體的智能水平不再增長,就可以來優(yōu)化環(huán)境,使它最小概率或更難出去。后來發(fā)現(xiàn)通過強化學習的人工智體通過智體間的交互就能學會對環(huán)境優(yōu)化。
以下為現(xiàn)場演講全文,雷鋒網做了不改動原意的編輯整理:
大家好!很高興到這里來跟大家分享我們在UCL做的工作。今天我主要想講的是“群體智能”,潘院士今天早上講了人工智能2.0其中的一個方向,就是有多個智體互相協(xié)作、互相競爭,甚至是從社會學角度來講,作為一個群體,它的動態(tài)系統(tǒng),它們整個群體的特性是什么,我希望給大家做一個介紹。
在我講之前,大概介紹一下UCL是什么。我經常回國在做報告的時候,大家問你從哪里來?我說我是UCL來的,大家會說:“是加州大學嗎?”我說:“不是,我們在倫敦,我們學校的中文翻譯叫倫敦大學學院?!蔽覀兿鄬碚f還是比較低調的,我們的學術水平在英國還是不錯的,在最近一次評比當中,我們是超過劍橋和牛津的,我們學院有29個諾貝爾獎獲得者,比如說光纖之父高錕當時就在我們學校電子系,當時他的老板有一個想法是說從理論上證明有一種物質在通訊傳播的時候有一種特性,他就找到了光纖。
今天想聚焦的是強化學習??赡艽蠹叶剂私釧lphaGo,其中里面核心的一個技術就叫強化學習,它與模式識別的差別是:它相對來說比較容易,當你沒有數(shù)據(jù)和沒有訓練數(shù)據(jù)集的情況下,同樣可以工作。這個系統(tǒng)可以直接和環(huán)境進行交互,獲得它的反饋信息,在跟它交互當中,它不斷地學,不斷地把智能的東西學出來,所以更加自然,在用到實際場景的情況下也會更加靈活。它主要的特性是:一般來說把它的目標方程定義成一個長期的Reward(獎勵)的方式,通過它可以得到一個優(yōu)化的策略。
今天重點講的是多智能體的強化學習,就是說在同樣的環(huán)境下有一個智能體,當然也可以有很多智能體,它們單獨的和環(huán)境進行交互,有一種情況下是它們各自優(yōu)化自己的目標,但是這些目標之間有些約束,或者是它們聯(lián)合起來優(yōu)化一個主要的目標方程,根據(jù)具體的情況它會有不同的變化。
其中有一個方面我們過去做了很多工作,就是互聯(lián)網廣告。我們是比較早的在互聯(lián)網廣告中用上了強化學習的方法,目前我們可以在10毫秒之內做好決策,我們可以達到每天100億的流量的情況下進行分析,可以幫助廣告主精準投放,在環(huán)境交互的情況下,根據(jù)投放廣告以后用戶的反饋,它有不斷的學習。
另外一個場景是星際爭霸游戲,這個場景大家比較熟悉,我們通過對星際爭霸里面的英雄的控制,可以找到多智體的規(guī)律,可以學習他們怎么樣合作,怎么樣和敵人競爭,怎么樣通訊。這個是我們最近幾個月跟阿里開發(fā)的一套人工智能打星際的系統(tǒng),開發(fā)這個系統(tǒng)的其中一個最重要的原因就是想解決人工智能智體之間的通訊問題。當他們想一起合作起來攻打對方的時候,他們必須要有效的合作,我們希望在計算的時候,計算量相對比較小,同時又達到他們的協(xié)同目的,這時候我們就用了一個雙向連通的方式,發(fā)現(xiàn)它的效果是非常明顯的。
在目前多智體強化學習的還是研究處于非常初步的階段。今天我大概講兩個方面的問題,第一個是大家目前的研究都是主要集中在少量的多智體之間的協(xié)同。如果是上萬個的情況下,效果就不是很明顯,看實際場景,特別是現(xiàn)在有很多這樣的場景,它的人工智體的合作可能需要百萬甚至上千萬級的人工智體。舉個簡單的例子,比如網約車APP,每個用戶手上的終端,或者每個司機手上的終端,你可以想象成它是一個智能體,它可以做出決定,到底什么樣的價錢我可以接受,甚至可以從系統(tǒng)層面給一些什么機制,能夠把它的資源條線分配得比較好,因為有些高峰狀態(tài)下,我的出租車比較少,但是需求量又比較大,而在其它的一些時候,可能出租車很多,但是需求量不是很大,怎么樣調配,有一種機制能夠把這個調配弄均勻。這其實是需要有一個非常大的人工智能合作的系統(tǒng)層面的分析。共享單車的情況更加明顯,你可以想象如果給每個自行車裝了小的芯片或者計算機,它就是一個很智能的東西,可以根據(jù)它目前的情況,優(yōu)化它的分布情況。
現(xiàn)在如果要做一個強化學習的模型,這個模型必須要可以處理百萬級的智體,應該怎么去做?我們可以從自然界里面獲得一些啟發(fā)。如果我們去看生態(tài)學的研究會發(fā)現(xiàn),很多動物或者植物有它們獨特的性質,特別是在宏觀種群的級別上面,它們有一定的規(guī)律,而其中有一個理論叫做Self-organisation,它的理論是說一些規(guī)律歸結于一些非常簡單的規(guī)則,當這些小的智體遵循它的時候,就會體現(xiàn)出一個種群的特質。但是這些模型有一個很顯著的問題,它可以用宏觀的事情解決宏觀的現(xiàn)象,但是缺少一種微觀的方法去觀察這個世界。比如說每個個體有它自己的興趣,有它自己的優(yōu)化方程,這個微觀的東西和宏觀的現(xiàn)象之間有什么關系?目前為止大家的研究還是比較少的。
舉一個簡單的例子,其中有一個比較有名的模型簡稱LV (Lotka-Volterra) 模型,這是兩個人的名字組合,一個是數(shù)學家、一個是生物學家,以他們的名字命名這個模型。這個模型是在描述在競爭的兩個種群的情況下,它們的種群數(shù)量之間的動態(tài)關系。在自然界里面,生物學家或者是生態(tài)學家發(fā)現(xiàn),種群之間的數(shù)量不是一個靜態(tài)的過程,其實是一個動態(tài)的、互相約束的過程。比如說猞猁是兔子的天敵,假設只有猞猁和兔子之間的關系,其它的因素不考慮,我們會發(fā)現(xiàn)當猞猁的數(shù)量提高的時候,兔子的數(shù)量相對來說就要降低,當猞猁的數(shù)量降低的時候,兔子的數(shù)量就會增高,它們就形成了一種互動的關系,這種關系就可以用LV模型描述。
從我們的角度來考慮,如果人工智能體是智慧的,它形成了一個群落,形成了一個智體的網絡,形成一個種類,它的內在規(guī)律是什么?我們會不會發(fā)現(xiàn)跟自然界中一樣的規(guī)律呢?或者說它有不同的特性?怎么樣去學習它們?我們就把強化學習作為每個個體興趣的驅動,把它放到簡單的生物學環(huán)境下。我們做一個捕獵的環(huán)境,里面有老虎、羊,老虎來捕羊,這樣可以保持老虎生存下去,羊當然要躲,老虎去逮它。我們把這個模型做大,比如說有100萬頭老虎,我們以內在驅動的方式來驅動,看看種群當中有什么樣的情況發(fā)生。我們用了一個比較簡單的模型,現(xiàn)在用的是一個深度學習和強化學習結合的模型,每個老虎的輸出就是它的移動的方向,還有一個就是它決定是不是和其它老虎一起組成團隊去抓這個羊,還是它單獨抓這個羊。給了它這些決定,我們讓它在這個情況下想,要生存應該怎么辦,強化學習告訴ta3應該怎么辦,通過這個基礎上,它就自然而然去學習它的生存的法則。
我們第一個實驗做的是什么呢?我們不讓它有任何智能,用一個最簡單的情況,讓它的行動隨機,或者它的行動不遵循一個學習和環(huán)境變化。我們發(fā)現(xiàn)很有意思的一點,人工智能或者說我們人為生成的生態(tài)系統(tǒng)很快就不平衡了,主要的原因是微觀上沒有一個機制,在老虎這里沒有動態(tài)的過程讓它適應新的環(huán)境。
然后我們就給老虎學習的能力,發(fā)現(xiàn)它表現(xiàn)出的現(xiàn)象跟自然界里面的猞猁抓兔子的情況非常相似。有一點也覺得很意外,我們感覺一般來說當你的強化學習達到了最優(yōu)點,它就停在那個地方。但是這個實驗告訴我們,它是一個動態(tài)的平衡,我們把老虎和羊的數(shù)量用一個圖反應出來,就會發(fā)現(xiàn)它形成一種圈狀的形式,這個形式和這個LV模型非常相似。當然我們的情況是相對來說比那個LV模型要復雜一點,因為LV模型是一次性的一個簡化模型,而我們這個地方考慮了各種情況,可以發(fā)現(xiàn)大致上它們是一個吻合的情況。所以我們發(fā)現(xiàn)在種群的情況下,如果有一個人工智體形成了種群,它和自然界有一定的內在聯(lián)系。
這個研究很有意思的一點是,當人工智能在普遍被應用的情況下,我們突然發(fā)現(xiàn)一個場景,有很多人類,同樣有很多人工智體,它們之間可以通訊,它們之間可以聯(lián)合在一起優(yōu)化某一個目標,或者它們單獨優(yōu)化它們自己的目標。當出現(xiàn)這種情況的時候,作為一個群體,他們有他們內在的規(guī)律,作為我們人類,我們有內在的規(guī)律,把這些規(guī)律找到,對于我們去開發(fā)一些新的模型、新的計算機人工智能的方法是非常有幫助的。
下一個實驗我們做的是觀察它的合作關系,它們能不能生成一個小團隊去一起捕羊。我們把這個問題做得稍微復雜一點,加上了兔子,把兔子加進去之后,我們會發(fā)現(xiàn)當兔子數(shù)量非常高的時候,老虎種群里面去合作的數(shù)量非常迅速的降低,降低到零。因為兔子相對容易捕獲,老虎不愿意組成群去抓羊。當兔子的數(shù)量慢慢減少的時候,愿意合作的老虎又開始增加了,所以它是一個動態(tài)的過程。
強化學習里面有一個環(huán)境,在標準的強化學習的模型里面,假設這個環(huán)境是不變的,或者說這個環(huán)境有它一定的概率在不斷變化,這個概率是不變的,我不一定知道它,但它不是一個Designable(可人為設定的),也就是說它不是去設計這個環(huán)境,而是更加適應這個環(huán)境。但實際情況下發(fā)現(xiàn),很多場景下,這個環(huán)境本身也需要一個適應的過程。舉個例子,這是宜家他們的一個購物平面圖,這里畫的是它的熱力圖,是根據(jù)用戶在它的購物商場里面活動的數(shù)量畫的。這是一個非常好的設計,中間是吃飯的地方,人當然會很多,這個熱力圖其它的地方相對是比較平均的,平均的好處是你在各個地方放不同的東西,用戶都兼顧到了,所以從這個分布來講,這是很好的情況。但是這也是要設計的,你不可能說一開始的路徑安排就是最優(yōu)化的。我們可以開發(fā)一個強化學習的算法,讓它強化學習這個環(huán)境也能根據(jù)這個用戶的變化而變化。這是一個建筑系的教授進行的研究,他們做了一個地圖模擬人在店鋪里面走的情況,根據(jù)熱力圖反饋到鋪面設計,來優(yōu)化用戶在這里面待的時間,或者說最大化用戶可能消費的情況,可以通過那個情況進行一些優(yōu)化。
另外一個例子是分揀機器人,它首先是每個單體要進行一些優(yōu)化,以最快的路徑分揀到每個洞,每個洞對應的都是不同的城市。這個環(huán)境不是最優(yōu)的,有可能這個機器人送到北京的信,另外一個機器人送到南京的信,它們可能會碰上,這個效率就不會很高。根據(jù)貨物的統(tǒng)計特性,設計我把南京的洞放在北京旁邊還是放在上海旁邊,所以這個環(huán)境也是需要很好的考量和設計的。所以在標準的強化設計下你沒法做設計,于是我們做了一個新的設計,我們叫Learning to design environments(學習設計環(huán)境),可以優(yōu)化這個場景。
舉一個簡單的例子,假設來設計迷宮,我可以說我有一個人工智體,它的目的就是以最快的效率找到出口。環(huán)境是知道你的智體的智能水平,根據(jù)你的情況來設計迷宮,使得你最困難或者最小的概率可以出去。所以它們是一個競爭的關系。怎么優(yōu)化呢?你會發(fā)現(xiàn),它在兩個不同的維度進行。在人工智體的情況下,它給定一個環(huán)境情況,想以最快的效率、最優(yōu)的策略走出來。當你把這個人工智體學到的東西定住以后,你就可以在另外一個維度優(yōu)化環(huán)境,我現(xiàn)在這個人工智體是這樣的屬性,我能不能根據(jù)的它的屬性使得它的環(huán)境更困難,所以在這兩個維度互相競爭、互相迭代,就可以達到優(yōu)化的情況。這里舉的例子是迷宮,當然還可以有其它的場景,比如說可以是機器人,也可以是宜家,當然也可以是其它的場景。
我們發(fā)現(xiàn)很有意思的是,如圖中所述,左上角是根據(jù)不同的人工智體的能力,會發(fā)現(xiàn)它學出來的環(huán)境是不一樣的,比如說最左上角是我們有最優(yōu)的一個人工智能體,在這個情況下,我們發(fā)現(xiàn)我們學出來這個迷宮的情況是在這個給定的8×8的方塊下,它從入口到出口的路徑是最長的,我們沒有告訴你這個環(huán)境就要這樣優(yōu)化,它通過根據(jù)人工智能體之間的交互就學到了這一點。右上角是用了一個DQN模型,這個模型是一個概率性的模型,也就是說這個智體在每次選擇走的時候,它有一定的概率走上走下,有一定的隨機性,你會發(fā)現(xiàn)在這個情況下,學到的環(huán)境有很多岔路,這個岔路就是為了讓有隨機的人工智能體陷到一些支路里面,所以這樣的環(huán)境對它來說是最困難的。
大家研究現(xiàn)在的這個趨勢,如果和人的智慧來比的話,其實差的還是非常遠的。我非常同意笛卡兒說的一句話:“機器和人的能力差別非常大,其中有一個最重要的問題是意識(Conscience)......”我們現(xiàn)在還不是很清楚,我跟認知學家進行交流,認知學家經常會說,在他們的心里面有一個夢想,就想研究認知,研究意識,但是他又沒法去研究,因為他沒有一個很好的手段,連意識是什么東西大家都定義得不是很清楚。雖然我們在人工智能方面,包括強化學習這一塊,做了很多的突破,但是離真正意義上的人工智能還是很遠的,我們還要不斷地進行努力。
我的分享到此結束,謝謝大家!
雷鋒網編輯整理
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。