丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給嘉嘉
發(fā)送

0

北京大學(xué)王亦洲分享:基于對抗博弈的主動跟蹤算法研究

本文作者: 嘉嘉 2022-06-30 17:49 專題:IEEE X ATEC科技思享會
導(dǎo)語:如何構(gòu)建多智能體博弈機(jī)制,以實(shí)現(xiàn)魯棒的主動目標(biāo)跟蹤。

IEEE x ATEC

IEEE x ATEC科技思享會是由專業(yè)技術(shù)學(xué)會IEEE與前沿科技探索社區(qū)ATEC聯(lián)合主辦的技術(shù)沙龍。邀請行業(yè)專家學(xué)者分享前沿探索和技術(shù)實(shí)踐,助力數(shù)字化發(fā)展。

在社會數(shù)字化進(jìn)程中,隨著網(wǎng)絡(luò)化、智能化服務(wù)的不斷深入,伴隨服務(wù)衍生出的各類風(fēng)險不容忽視。本期分享會的主題是《網(wǎng)絡(luò)欺詐的風(fēng)險與對抗》。五位嘉賓將從不同的技術(shù)領(lǐng)域和觀察視角,圍繞網(wǎng)絡(luò)欺詐場景下的風(fēng)險及對抗技術(shù)展開分享。

以下是王亦洲教授的演講。

北京大學(xué)王亦洲分享:基于對抗博弈的主動跟蹤算法研究

 演講嘉賓 | 王亦洲

北京大學(xué)博雅特聘教授、前沿計算研究中心副主任

ATEC科技精英賽高級咨詢委員會專家

《基于對抗博弈的主動跟蹤算法研究》

大家好,我是北京大學(xué)的王亦洲。今天我將主要介紹如何構(gòu)建多智能體博弈機(jī)制,以實(shí)現(xiàn)魯棒的主動目標(biāo)跟蹤。具體而言,我將先簡要介紹主動目標(biāo)跟蹤任務(wù)和虛擬環(huán)境等前期工作,再重點(diǎn)介紹四種多智能體博弈機(jī)制用于主動目標(biāo)跟蹤。

 主動跟蹤簡介 

主動跟蹤在日常生活中是一種較為常見的現(xiàn)象和技能,比如自動駕駛的跟車、無人機(jī)在天空跟蹤一些目標(biāo)、視頻監(jiān)控時鎖定一些目標(biāo)、云臺照相機(jī)跟蹤動作等。在計算機(jī)視覺領(lǐng)域,主動跟蹤也是一個比較前沿的研究課題。但要真正實(shí)現(xiàn)主動目標(biāo)跟蹤,會遇到很多不同的挑戰(zhàn)。比如,在錄制一些比較驚險刺激的特技鏡頭時,攝影師不僅要讓相機(jī)對準(zhǔn)演員,還要同步適應(yīng)復(fù)雜的地形環(huán)境,調(diào)動四肢跟隨演員移動,其技術(shù)難度可能要比演員表演特技還高,并且在整個過程中,從感知到動作都需要十分快速精準(zhǔn)執(zhí)行。然而,這對于現(xiàn)階段的機(jī)器人而言,幾乎是一件不可能完成的任務(wù)。要真正實(shí)現(xiàn)復(fù)雜場景下的主動目標(biāo),我們的模型需要適應(yīng)多樣的工作環(huán)境(包括不同的天氣、光照條件);還要克服障礙物遮擋(即避障),比如遇到障礙物時,要找到最短路徑繞過障礙物;也要克服動態(tài)干擾物的影響,避免混淆。如果是多相機(jī)跟蹤的場景,還需考慮如何實(shí)現(xiàn)高效的多智能體協(xié)作,這些都是主動跟蹤的一些挑戰(zhàn)。傳統(tǒng)的方法,主動跟蹤分成兩個部分,一個是叫這個passive tracker,算法先對這個輸入的圖像鎖定里面的目標(biāo)物體,比如以bounding box的形式,根據(jù)bounding box的運(yùn)動,然后再輸入到控制器里面,調(diào)整照相機(jī)的運(yùn)動。

我們提出的方法,是一個端到端(End-to-End)跟蹤方法。輸入圖像序列,直接輸出動作。感知和決策可以同步優(yōu)化,互相適應(yīng),對應(yīng)的中間表示也會更加緊湊。要訓(xùn)練這種端到端的感知—決策網(wǎng)絡(luò),當(dāng)前流行的有兩種方法,一種是模仿學(xué)習(xí)Imitation Learning(IL),一種是強(qiáng)化學(xué)習(xí)Reinforcement Learning(RL)。模仿學(xué)習(xí)樣本效率會高一些,但是需要引入專家數(shù)據(jù)進(jìn)行訓(xùn)練,且不可避免的存在數(shù)據(jù)分布的偏差,模型的泛化性會比較差。對于跟蹤模型來說,模型的泛化能力是至關(guān)重要的。因此我們采用強(qiáng)化學(xué)習(xí),我們只需要設(shè)計一個簡單的獎賞函數(shù),機(jī)器人在環(huán)境中自主探索,就可以在試錯中學(xué)習(xí)技能。

 有效虛擬環(huán)境的構(gòu)建 

我們讓機(jī)器人在一個場景中運(yùn)動時,如果是一個真實(shí)的場景,因?yàn)闄C(jī)器人的成本高,機(jī)器人在場景中運(yùn)動時或許會造成一些損壞,實(shí)驗(yàn)的負(fù)擔(dān)也比較大,所以代價非常高昂。我們提出構(gòu)建UnrealCV虛擬環(huán)境,讓機(jī)器人在里面進(jìn)行主動學(xué)習(xí),我們可以從中獲取高逼真的視覺觀測、精準(zhǔn)的ground truth、以及進(jìn)行實(shí)時的交互,包括多智能體的交互。這個項(xiàng)目已經(jīng)開源。因?yàn)槲覀內(nèi)粘I钪械沫h(huán)境是多變的,在近真實(shí)的環(huán)境當(dāng)中可以模擬日常生活環(huán)境的一些變化,不光是室內(nèi)的還有室外的、室外天氣的變化、室內(nèi)光照的變化,環(huán)境的各種appearance、各種texture,甚至還有物理屬性都可以調(diào)整。在虛擬環(huán)境中不僅可以學(xué)到地球上的物理,甚至可以學(xué)習(xí)火星上、月球上的物理。所以這種近真實(shí)的環(huán)境,盡管可能是對真實(shí)環(huán)境的一種建模、某種意義上的一種簡約,但其實(shí)它有更豐富的potential,能夠更多地改變環(huán)境,讓機(jī)器人能夠適應(yīng)各種變化,在這里面學(xué)的技能有可能泛化能力更強(qiáng)。因此,我們認(rèn)為機(jī)器人或智能體所處的環(huán)境復(fù)雜性決定它最終訓(xùn)練出來的智能水平。

下面我將簡單介紹一下,把認(rèn)知心理學(xué)的一些機(jī)制引入到主動跟蹤場景下,提高跟蹤器的跟蹤水平的一系列工作。我將介紹四種工作:第一種是一跟一的跟蹤;第二種還是一跟一,但是會有一些和目標(biāo)非常相似的干擾物進(jìn)來;第三個工作是多個攝像頭跟蹤一個目標(biāo);最后一個是多跟多,比如N個攝像頭跟M個目標(biāo)物體。

 一對一的跟蹤策略 

首先介紹一跟一。在一跟一里面我們引入了Theory of Mind(心智理論),心理學(xué)的一種機(jī)制,它是人類所具有的能夠認(rèn)知別人的心理狀態(tài)的一種本領(lǐng),比如我在跟別人交流過程中我能夠知道對方的信念、意圖、甚至他的知識。有了這種能力,能夠幫助多智能體提高交流的效率。我們將這種機(jī)制應(yīng)用到主動跟蹤的過程當(dāng)中。這里面的目標(biāo)和跟蹤器,是兩個進(jìn)行競爭的agents。目標(biāo)的任務(wù)就是逃跑,從跟蹤者的視野當(dāng)中逃掉;跟蹤者要始終鎖定目標(biāo),他們倆成了一個博弈對。我們在這里面引入了Theory of Mind,產(chǎn)生一個更聰明的逃跑者,它不光要根據(jù)自己看到的環(huán)境來選擇路徑,他還能夠知道跟蹤者現(xiàn)在所觀察到的一些景象,猜測跟蹤者的策略是什么。即在腦子里猜想你會怎么跟蹤我。把Theory of Mind引入到跟蹤的博弈當(dāng)中,我們希望能夠訓(xùn)練出Target有更好的擺脫策略。因?yàn)樗鼈兊哪芰Χ际菑牧汩_始同步增長的,逃跑者與追蹤者在學(xué)習(xí)的過程當(dāng)中能力此消彼長。這個博弈機(jī)制是非對稱的,因?yàn)槲覀兊淖罱K目標(biāo)是為了訓(xùn)練跟蹤器,因此我們將圍繞如何訓(xùn)練一個更適合跟蹤器學(xué)習(xí)的目標(biāo)模型改進(jìn)我們的對抗機(jī)制,包括了獎賞函數(shù)結(jié)構(gòu)和目標(biāo)的模型設(shè)計。

要實(shí)現(xiàn)競爭機(jī)制,最關(guān)鍵的是要設(shè)計獎賞函數(shù)(Reward Structure)。一般來說,純對抗競爭的獎賞函數(shù),就是一個零和獎賞結(jié)構(gòu)。但如果是零和博弈的話,目標(biāo)會在一開始就跑的很遠(yuǎn),這反而導(dǎo)致跟蹤器學(xué)習(xí)效率降低。因此,我們考慮當(dāng)目標(biāo)移動到觀測范圍外,將在原來的基礎(chǔ)上增加一個額外的懲罰項(xiàng),懲罰項(xiàng)的取值取決于目標(biāo)與跟蹤器的觀測邊界的距離。為了讓目標(biāo)能夠?qū)W到有針對性的對抗策略,我們進(jìn)一步提出了tracker-aware target。它的設(shè)計思想就是孫子兵法中的知己知彼,百戰(zhàn)不殆的思想。如果從認(rèn)知心理學(xué)的角度來說,就是要去理解預(yù)估對手的mental  state/ intention,只要比對手多一階的思考,就可以找到有效的對抗策略。比如說,當(dāng)跟蹤器根據(jù)圖像推測估計目標(biāo)要從畫面中心往左走時,它就會傾向于向左轉(zhuǎn)。如果此時我們的目標(biāo)能多思考一階,能夠想到跟蹤器有向左轉(zhuǎn)的傾向,那么它就可以反過來輸出一個向右轉(zhuǎn)的動作,就可以導(dǎo)致跟蹤誤差增大。具體實(shí)現(xiàn)時,我們就讓目標(biāo)除了其自身的視覺觀測外,還額外獲得了跟蹤器的觀測和動作輸出作為模型的輸入。我們在這里還引入了一個輔助任務(wù),也就是預(yù)測跟蹤器的即時獎賞值,來對跟蹤器的動態(tài)特性進(jìn)行隱式的建模。我們把這個算法放到了包括城市環(huán)境、下雪的村莊、地下車庫、花園以及城市街道的近真實(shí)的虛擬環(huán)境中,隨后發(fā)現(xiàn),盡管我們是在不真實(shí)的虛擬環(huán)境下訓(xùn)練的,但是遷移到近真實(shí)的虛擬環(huán)境下,還是能夠非常好的跟蹤到目標(biāo)物體。

 一對多的跟蹤策略 

接下來還是一對一的跟蹤,但是有了干擾者的參與,也就形成了一種一對多的博弈機(jī)制。例如在足球直播中,跟蹤器會將邊線裁判的光頭誤識別成足球。同時,我們在實(shí)驗(yàn)中發(fā)現(xiàn),現(xiàn)有的SOTA模型也十分容易被場景中相近的物體誤導(dǎo)迷惑,最終導(dǎo)致跟丟。針對此問題,我們提出了一種混合博弈的解決策略,里面包括了Targets和Tracker的競爭關(guān)系,還有干擾者和Targets之間的合作關(guān)系,即他們要合作起來一起欺騙Tracker。Reward方面,Targets和Tracker,可以是零和博弈或者是前面介紹的混合Reward Structure;Distractor和Target 之間形成一個合作策略。Distractors的獎賞是它是不是能夠吸引Tracker的注意,是不是跑到了Tracker視野里比較中心的位置,越靠近中心越說明Tracker把它認(rèn)成了Target,它這時候獲得的Reward就更高。所以在這種Reward Structure下面,我們訓(xùn)練Tracker、Target和Distractors,它們各有各的策略。我們采用了兩種訓(xùn)練方法,一種是在抽象的環(huán)境下先訓(xùn)練Meta Policies,有了這個Meta Policies以后,它作為一個teacher,這時我們引入視覺輸入來訓(xùn)練作為student在真實(shí)視覺環(huán)境下面如何跟蹤。這時候student的跟蹤策略要和作為teacher的Meta Policies的策略相接近。我們用K-L Divergence來描述他們的差異,我們要minimize這個差異,通過這兩個訓(xùn)練過程,最后訓(xùn)練出三種角色各自的策略。我們發(fā)現(xiàn)在訓(xùn)練過程中,出現(xiàn)的干擾現(xiàn)象越來越多。也就是說Distractors越來越會參與干擾了,它的干擾技能提升了。一些SOTA或者一些現(xiàn)有的先進(jìn)方法在這個過程當(dāng)中,隨著干擾的增多,它們的performance就下降了。我們提出的這個方法,它的performance不太受干擾的一個影響。在混合博弈下面,最后訓(xùn)練出的Tracker和現(xiàn)有的一些方法有明顯的優(yōu)勢。

 多對一的跟蹤策略 

接下來是多個攝像機(jī)跟蹤一個Target,這種場景通常發(fā)生在一個video surveillance的情況下。在此場景里有一個可疑人物或目標(biāo)人物,我們在大范圍場景下面布置多臺攝像頭,場景里面非常復(fù)雜、容易有這種障礙物,它能夠利用這些障礙物進(jìn)行隱蔽,這時能不能在多個攝像頭下始終不把它給丟掉。這里我們引用了一種心理學(xué)的機(jī)制,叫Herd mentality(羊群效應(yīng)),即一種從眾心理,就是一個人在人群中決策時,往往會受到多數(shù)人的干擾,產(chǎn)生從眾心理。假如在這個環(huán)境中,我們布置了四個攝像頭,如果有三臺攝像頭能夠比較好地看到Target,即使有一個攝像頭因?yàn)檎趽醯脑蚰壳翱床坏?,它根?jù)其他三個攝像頭的指向,也能把這個攝像頭的角度瞄準(zhǔn)到他們指向的位置。這時候,當(dāng)Target出現(xiàn)時,它就能夠很快地恢復(fù)跟蹤,這樣對整個系統(tǒng)的跟蹤的穩(wěn)定性會有所提升。對于這種情況,我們設(shè)計了一個模型。跟蹤模式分為兩種,在可見目標(biāo)情況下采用基于視覺的跟蹤。看不到的情況下,會根據(jù)其它攝像頭的pose指向的位置決定該跟蹤器所指向的位置,有一個switcher決定采用哪個跟蹤模式。我們在這個環(huán)境當(dāng)中把它部署下去,發(fā)現(xiàn)跟蹤的效果也非常好。

 多對多的跟蹤策略 

最后看一下多個攝像頭跟蹤多個目標(biāo)的模型。它其實(shí)是解決一個coverage的問題,比如四個攝像頭要跟蹤六個物體時,在資源有限情況下,能夠最大程度把這個物體給覆蓋住。這里面我們采取的機(jī)制是hierarchical機(jī)制。在社會形成結(jié)構(gòu)的過程中,有一些是leader,有一些是稍微處在底層一點(diǎn)的執(zhí)行者。這種分層機(jī)制可以對復(fù)雜任務(wù)進(jìn)行結(jié)構(gòu)化分解,具有分工明確、理性決策、權(quán)責(zé)劃分清楚等優(yōu)點(diǎn)。因此,我們考慮借鑒這種機(jī)制,設(shè)計一種可計算多智能體分層模型。該框架主要分兩層,包括了一個集中式的協(xié)調(diào)者(coordinator)和多個分布式的執(zhí)行者(executor)。當(dāng)運(yùn)行時,協(xié)調(diào)者收集各個執(zhí)行者的觀測信息,進(jìn)行全局規(guī)劃,為每個執(zhí)行者分配特定的任務(wù)目標(biāo), 也就是指定需要跟蹤的具體目標(biāo);每個執(zhí)行者在分配到具體任務(wù)以后,通過采取一系列基本動作(即左轉(zhuǎn)/右轉(zhuǎn)/保持不變)來成指定的跟蹤任務(wù)。然后重復(fù)這兩個步驟。這樣,目標(biāo)覆蓋問題將分解為不同時間尺度的兩個子任務(wù),也就是目標(biāo)分配和目標(biāo)跟蹤。此時,協(xié)調(diào)者和執(zhí)行者均可以直接采用當(dāng)前流行的單智能體強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練優(yōu)化。這里,協(xié)調(diào)者的團(tuán)隊(duì)獎賞取決于覆蓋率;每個執(zhí)行者的獎賞只跟相機(jī)與被分配的目標(biāo)之間的角度偏差有關(guān)。

為了實(shí)現(xiàn)可擴(kuò)展泛化的分層結(jié)構(gòu),我們?nèi)孕枰朔蓚€挑戰(zhàn):1)對于協(xié)調(diào)者,需要能夠靈活處理可變數(shù)量的傳感器和目標(biāo)之間分配,因?yàn)椴煌瑘鼍跋孪鄼C(jī)網(wǎng)絡(luò)和目標(biāo)分布會有很大差異;2)對于執(zhí)行者,需要能夠在給定任何目標(biāo)組合時,都能表現(xiàn)良好。就像軍隊(duì)中的士兵要無條件服從上級命令,執(zhí)行任務(wù)。為此,我們采取了一系列實(shí)用方法來應(yīng)對這些挑戰(zhàn),采用了自注意力模塊來處理變長的輸入并獲得一個與輸入順序無關(guān)的狀態(tài)表示。為了更好的估計全局價值,我們對每一對傳感器——目標(biāo)分配的邊際貢獻(xiàn)(marginal contribution)進(jìn)行了近似估計(approximate marginal contribution, AMC),從而更精確地估計和分解全局價值,引導(dǎo)協(xié)調(diào)者學(xué)習(xí)更有效的分配策略。對于執(zhí)行者,提出了基于目標(biāo)條件的過濾器以去除與被分配目標(biāo)無關(guān)的觀測信息,從而提高執(zhí)行者策略的魯棒性。考慮到訓(xùn)練的穩(wěn)定性,整體訓(xùn)練策略采用了二階段分步訓(xùn)練方式進(jìn)行。對目標(biāo)集進(jìn)行采樣,生成偽目標(biāo)來訓(xùn)練執(zhí)行者策略;然后利用現(xiàn)有的執(zhí)行者策略來訓(xùn)練協(xié)調(diào)策略。從而避免共同訓(xùn)練時,協(xié)調(diào)者和執(zhí)行者因探索時不可避免的隨機(jī)性導(dǎo)致訓(xùn)練不穩(wěn)定。

最后,我們把Theory of Mind也引入到這個工作里面。這種猜想和協(xié)商的機(jī)制,我們管它叫ToM2C(Target-oriented Multi-agent Communication and Cooperation with Theory of Mind)。要解決一個問題,給定輸入以后,我們通過融合其他人的輸入來猜想其他人想跟蹤的目標(biāo),再有選擇地和目標(biāo)不一致的對象進(jìn)行溝通,最后在Decision Maker的module來最終決定誰跟誰的策略,最終取得了非常好的跟蹤效果。

 總 結(jié) 

我們把心理學(xué)的認(rèn)知機(jī)制和博弈論結(jié)合在一起來解決主動跟蹤問題,一系列工作取得了比較好的一個跟蹤效果。對于長期目標(biāo),我希望融合機(jī)器人學(xué)、博弈論、信息論、社會心理學(xué)等領(lǐng)域知識,最終構(gòu)建多功能、會合作、有溫度的通用機(jī)器人,服務(wù)人類社會發(fā)展。我的報告就到此結(jié)束,謝謝大家。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說