丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給晟煒
發(fā)送

0

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

本文作者: 晟煒 編輯:幸麗娟 2019-08-03 14:49
導(dǎo)語:在合作任務(wù)與對抗任務(wù)中的方式各有不同!

隨著機器人技術(shù)的發(fā)展,機器人在實際生活中發(fā)會越來越重要的作用。它不僅只是根據(jù)人類的指令來行動,更開始在人機協(xié)同工作中開始發(fā)揮引導(dǎo)人類工作的作用。本文介紹了斯坦福  AI 研究院的研究人員如何應(yīng)用領(lǐng)導(dǎo)者-跟隨者圖(LFG)來更好地發(fā)揮機器人在團隊中的領(lǐng)導(dǎo)作用。

我們的生活大多圍繞著團隊協(xié)作。例如,我們在與人群協(xié)作或影響人群時,既能夠以顯而易見的方式(如一起做飯時),也能夠以不易察覺的方式(如在高速公路上共享車道時)。隨著機器人越來越融入社會,它們應(yīng)該能夠很好地與人類群體協(xié)作。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

團體協(xié)作的例子包括協(xié)作烹飪、抗議和在擁擠的空間中穿行。

然而,要影響人群是具有挑戰(zhàn)性的。例如,想象一下在一個志愿搜救任務(wù)中,無人機學(xué)習(xí)關(guān)于目標(biāo)位置的最新信息(如下面的藍色標(biāo)記所示)。假設(shè)沒有直接的通訊方式,無人機應(yīng)該如何帶領(lǐng)志愿者前往那個地點?

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

藍色箭頭表示所需路徑,紅色箭頭表示當(dāng)前人類志愿者的次優(yōu)路徑。

無人機領(lǐng)導(dǎo)團隊的一種方式,是分別對每個個體進行建模并單獨施加影響。其中,無人機建模的用意在于理解并預(yù)測某個人的行為。然而,獨立于他人的建模和影響并不能很好地擴展到人數(shù)更多的個體,而且我們無法在進行在線快速計算。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

一個為每個志愿者單獨建模的無人機。這種方法不適用于大量智能體。

影響人類團隊的另一種方法是放棄任何建模,直接從對團隊的觀察中學(xué)習(xí)策略或行動規(guī)劃。這種方法為人數(shù)同樣多的團隊提供了一個合理的解決方案。但是,添加或減去一個團隊成員會改變模型的輸入大小,并且需要重新訓(xùn)練模型。 

我們?nèi)〉贸晒缦拢?/p>

  • 引入了一種可以用可伸縮的方式為人群交互建模的方法。

  • 描述了機器人如何利用這些知識影響人類團隊。

人類群體的潛在結(jié)構(gòu)

與為群體中的每個個體建模不同,我們的核心思想是關(guān)注個體之間的建模關(guān)系。當(dāng)在群體中互動時,我們不再孤立地行動,而是根據(jù)他人的行動有條件地行動。這些依賴關(guān)系提供了一種結(jié)構(gòu),我們可以使用這種結(jié)構(gòu)來形成對他人的期望,并據(jù)此行事。在更大的范圍內(nèi),這允許我們發(fā)展出規(guī)范、慣例,甚至文化。這些依賴關(guān)系對機器人很有用。因為它們提供了豐富的信息源,可以幫助機器人建模和預(yù)測人類行為。我們稱這些依賴關(guān)系為潛在結(jié)構(gòu)。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

日本(左)和印度(右)形成了不同的駕駛文化。

潛在結(jié)構(gòu)的一個重要例子是領(lǐng)導(dǎo)和跟隨行為。我們可以很容易地組成團隊,并決定是否應(yīng)該跟隨或帶領(lǐng)團隊高效地完成任務(wù)。例如,在搜救任務(wù)中,一旦發(fā)現(xiàn)目標(biāo)的新信息,人類就能自發(fā)地成為領(lǐng)導(dǎo)者。我們還默默地協(xié)調(diào)領(lǐng)導(dǎo)和跟隨策略。舉個例子,當(dāng)司機開車時,他們會跟隨對方穿過車道。在工作中,我們將重點建模潛在的引導(dǎo)和跟隨結(jié)構(gòu),并將它作為一個運行示例。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

在搜救任務(wù)中,志愿者之間潛在的領(lǐng)導(dǎo)和跟隨結(jié)構(gòu)的例子(左圖),以及車輛在交通中相互跟隨的例子(右圖)。

那么我們該如何對這些潛在結(jié)構(gòu)進行建模呢?理想模型應(yīng)該具有哪些性質(zhì)呢?在討論如何建立潛在結(jié)構(gòu)模型之前,讓我們先確定一些必備要素?

  • 復(fù)雜性:由于這些結(jié)構(gòu)通常是隱式形成的,我們的模型應(yīng)該足夠復(fù)雜,能夠捕獲個體之間的復(fù)雜關(guān)系。

  • 可伸縮性:模型應(yīng)該能夠適應(yīng)不斷變化的智能體數(shù)量。

潛在結(jié)構(gòu)建模

最簡單的情況

我們使用監(jiān)督學(xué)習(xí)方法來估計兩個人類智能體之間的關(guān)系。回到必備要素的討論,這解決了復(fù)雜性的問題,因為使用基于學(xué)習(xí)的方法允許我們捕獲這對組合可能擁有的復(fù)雜關(guān)系。使用模擬器,我們可以要求參與者演示我們想要度量的期望關(guān)系,例如領(lǐng)導(dǎo)和跟隨。

我們將搜救任務(wù)抽象為一個游戲,其中目標(biāo)代表潛在的幸存者位置。在下面的例子中,參與者被要求互相領(lǐng)導(dǎo)和跟隨,以便集體決定要達成的目標(biāo)。與人有關(guān)的數(shù)據(jù)通常充滿噪音,很難大規(guī)模收集。為了彌補這個缺點,我們用模擬的人類數(shù)據(jù)擴充了我們的數(shù)據(jù)集。然后,我們將這些數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)模塊。這些模塊經(jīng)過訓(xùn)練,可以預(yù)測前導(dǎo)關(guān)系和后導(dǎo)關(guān)系。這為我們提供了一個模型,可以評估每個智能體以及目標(biāo)成為智能體的領(lǐng)導(dǎo)者的可能性。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

該網(wǎng)絡(luò)預(yù)測玩家 2 的領(lǐng)導(dǎo)者是玩家 1。

擴大團隊規(guī)模

現(xiàn)在,我們?nèi)绾谓o一個更大的團隊建模呢?使用上面的模型,我們可以通過計算所有智能體和目標(biāo)之間成對關(guān)系的得分,將多個人類之間的關(guān)系表示為一個圖。每個描述的邊都有一個由我們訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)分配的概率(概率在下面的圖中抽象出來)。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

我們計算了所有可能的領(lǐng)導(dǎo)者和追隨者之間的領(lǐng)導(dǎo)者-追隨者關(guān)系的兩兩權(quán)重。

然后利用圖論算法對原始圖進行剪枝,得到最大似然圖。例如,我們可以貪婪地為每個智能體選擇權(quán)重最高的出邊(outgoing edge )。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

剩下的圖中,粗體邊表示最有可能的邊。我們稱這個圖為領(lǐng)導(dǎo)者-追隨者圖(LFG)。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?


領(lǐng)導(dǎo)者-追隨者圖(LFG)。我們可以使用 LFG 來確定最有影響力的領(lǐng)導(dǎo)者,即擁有最多追隨者的智能體。

由于我們可以很容易地對實時變換的智能體數(shù)量進行建模,因此圖結(jié)構(gòu)可以隨著智能體數(shù)量的變化而伸縮。例如,在下一個時間步長 $kth$ 中添加一個智能體所需要的時間與智能體程序的數(shù)量 $n$ 和目標(biāo)的數(shù)量 $m$ 線性相關(guān)。在實踐中,這需要以毫秒為單位來計算。

我們的模型泛化后有多準(zhǔn)確?

通過將領(lǐng)導(dǎo)者-追隨者圖所做的預(yù)測與真實落地的預(yù)測進行比較,來評估我們的模型泛化的準(zhǔn)確性。用模擬數(shù)據(jù)和同時包含模擬和真實人類數(shù)據(jù)的數(shù)據(jù)(混合數(shù)據(jù))進行訓(xùn)練實驗。我們發(fā)現(xiàn),訓(xùn)練更多的智能體有助于模型的推廣。這表明,需要權(quán)衡使用較少的智能體進行訓(xùn)練還是使用量較多的智能體進行訓(xùn)練(這需要收集更多的數(shù)據(jù))。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

潛在結(jié)構(gòu)對機器人有什么用?

機器人可以利用潛在結(jié)構(gòu)來推斷團隊的有用信息。例如,在領(lǐng)導(dǎo)和跟隨的例子中,我們可以識別諸如智能體的目標(biāo)或誰是最有影響力的領(lǐng)導(dǎo)者之類的信息。這些信息允許機器人識別對任務(wù)至關(guān)重要的關(guān)鍵目標(biāo)或智能體。考慮到這一點,機器人可以采取行動來達到預(yù)期的結(jié)果。下面是機器人利用圖形結(jié)構(gòu)影響人類團隊的兩項任務(wù):

A.合作任務(wù)

在許多現(xiàn)實生活場景中,能夠帶領(lǐng)一組人實現(xiàn)目標(biāo)是很有用的。例如,在搜救任務(wù)中,擁有更多幸存者位置信息的機器人應(yīng)該能夠領(lǐng)導(dǎo)團隊。我們已經(jīng)創(chuàng)建了一個類似的場景,其中有兩個目標(biāo),幸存者的潛在位置,以及一個知道幸存者所在位置的機器人。機器人試圖通過帶領(lǐng)所有隊友到達目標(biāo)位置來最大化聯(lián)合效用。為了影響團隊,機器人使用領(lǐng)導(dǎo)者-跟隨者圖來推斷當(dāng)前最有影響力的領(lǐng)導(dǎo)者是誰。然后機器人選擇采取最大化最具影響力的領(lǐng)導(dǎo)者實現(xiàn)最優(yōu)目標(biāo)的概率的動作。

在下面的圖中,綠色的圓圈代表位置(或目標(biāo)),橙色的圓圈代表模擬的人類智能體,黑色的圓圈代表機器人。機器人正試圖帶領(lǐng)團隊走向更理想的底部位置。我們將使用圖結(jié)構(gòu)的機器人(上)與貪婪地瞄準(zhǔn)最優(yōu)目標(biāo)的機器人(下)進行對比。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

上方圖中,機器人向底部移動,并圍繞底部移動,這是最優(yōu)的目標(biāo),目的是引導(dǎo)推斷出的領(lǐng)導(dǎo)者向目標(biāo)移動。下方圖中,機器人直接朝底部目標(biāo)前進,沒有任何積極影響隊友的企圖。

如果大多數(shù)人首先與底層目標(biāo)發(fā)生沖突,機器人就會成功;如果大多數(shù)人與次優(yōu)目標(biāo)發(fā)生沖突,機器人就會失敗。下面是一個圖表,它記錄了使用圖形表示的機器人與使用其他基線策略的機器人的成功率。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

超過100個合作游戲的成功率,其中n=4個玩家,目標(biāo)不同

我們發(fā)現(xiàn),在具有大量潛在目標(biāo)的更困難的場景中,圖形表示是有用的。

B .對抗任務(wù)

機器人也可能想要阻止人類團隊達成集體目標(biāo)。例如,想象一個奪旗游戲,一個機器人隊友試圖阻止對手奪旗。

我們創(chuàng)造了一個類似的任務(wù),一個機器人想要阻止一個人類團隊達成目標(biāo)。為了讓團隊陷入停滯,敵對型機器人使用領(lǐng)導(dǎo)者-追隨者圖來識別當(dāng)前最有影響力的領(lǐng)導(dǎo)者是誰。然后,機器人選擇采取能夠引導(dǎo)其推斷出的最有影響力的領(lǐng)導(dǎo)者偏離目標(biāo)的最大化概率的行動。下圖左邊顯示了機器人的動作示例。在右邊,我們展示了一個簡單策略的例子,一個機器人隨機選擇一個玩家,并試圖阻止它,但沒有成功。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

上方圖中,機器人使用領(lǐng)導(dǎo)者-追隨者圖來采取行動,阻止推斷出來的領(lǐng)導(dǎo)者達到目標(biāo)。下方圖中,機器人沒能成功地跟隨一名玩家以阻止他達到目標(biāo)。

通過阻止玩家達到目標(biāo),機器人試圖盡可能延長游戲時間。這是一個使用圖形表示與其他基線策略進行比較的機器人的圖。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

使用領(lǐng)導(dǎo)者-追隨者圖 (LFG)的兩種策略比其他基線方法成功地延長了游戲時間。

我們發(fā)現(xiàn),與其他基準(zhǔn)策略相比,使用我們的圖形表示的機器人在延長游戲時間方面最為成功。

接下來是什么?

我們引入了一種可伸縮的方法,表示團隊中的固有結(jié)構(gòu)。然后,我們演示了如何使用這個結(jié)構(gòu)來設(shè)計智能影響行為。對于未來的工作,我們感興趣的有以下幾點:

  • 實際實驗。我們正在微型群機器人上實現(xiàn)我們的算法,這樣就可以用真實的機器人和人類進行人機合作實驗。

  • 改變工作領(lǐng)域和結(jié)構(gòu)。在更多類型的潛在結(jié)構(gòu)(例如,團隊成員如何信任彼此)和不同領(lǐng)域(例如,驅(qū)動,部分可觀察的設(shè)置)上測試我們的框架是很好的。

想要了解更多,可閱讀論文原文:

Influencing Leading and Following in Human-Robot Teams, Minae Kwon*, Mengxi Li*, Alexandre Bucquet, Dorsa Sadigh Proceedings of Robotics: Science and Systems (RSS), June 2019

via:http://ai.stanford.edu/blog/influencelead/   雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機器人在人機協(xié)作團隊中成“領(lǐng)導(dǎo)”?工作原理為何?

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說