丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

<label id="zp8sy"><meter id="zp8sy"></meter></label>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發(fā)私信給岑大師

發(fā)送

0

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

本文作者：岑大師

2017-11-18 14:12

導語：當人們試圖與機器人共事時，許多沖突都來自于雙方對彼此的不了解，如果機器人能夠理解它可能對人類情緒造成的影響，就有望解決這一問題。

本文為近日召開的CoRL 2017大會上，MIT TR 35得主、UC Berkeley助理教授 Anca Dragan 所做的演講整理，雷鋒網作為受邀媒體參加了CoRL大會，并與Anca Dragan進行了交流。在雷鋒網將于1月舉辦的GAIR硅谷智能駕駛峰會上，Anca Dragan也將出席并發(fā)表演講。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan現(xiàn)任UC Berkeley的電子工程與計算機科學助理教授及InterACT實驗室主任。為了令機器人更好地協(xié)同人類工作，Anca Dragan帶領InterACT實驗室開始專注于人機交互算法的研究，試圖將復雜或模糊的人類行為轉化為機器人能理解的簡易數學模型，通過建立博弈理論和動力系統(tǒng)理論，聚焦于發(fā)現(xiàn)或學習人類行為模型，并計算連續(xù)狀態(tài)和行動空間。

MIT科技評論給她評的獎項為“遠見者”，稱“她致力于確保機器人與人類可以和諧地共同生活”。在獲獎報道中，Anca Dragan表示：

當人們試圖與機器人共事時，許多沖突都來自于雙方對彼此的不了解，如果機器人能夠理解它可能對人類情緒造成的影響，就有望解決這一問題。

Anca Dragan認為，機器人與人工智能的正確觀點應該是機器人試圖優(yōu)化人的目標函數。機器人不應該將任何客觀的功能視為理所當然，而應該與人類一起去發(fā)現(xiàn)他們真正想要的是什么。該研究在短期之內最重要的應用莫過于幫助自動駕駛汽車與傳統(tǒng)汽車預判對方可能的行為，而在演講中，Anca Dragan也多次提到了這一點。以下即為雷鋒網整理的演講內容摘要：

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan的PPT題目為《人類進入機器人方程》。在傳統(tǒng)的機器人路徑規(guī)劃問題中，機器人通常將人類視為和其他不能移動的物體一樣的避障目標，而Anca希望將人類作為機器人決策的一個“變量”實現(xiàn)和人類的最優(yōu)交互。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

最簡單的狀態(tài)，只有機器人和交互的物體，則機器人的效用函數為U_R，該效用函數包含的變量包括初始狀態(tài)x₀以及運動軌跡u_R。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

但現(xiàn)實中，機器人需要和三類不同的人打交道：在運行環(huán)境中的其他人、其使用者，以及其設計者。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

出于安全的考慮，以往通常將人視為機器人行動和路線規(guī)劃中需要避讓的“障礙物”；

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

但在人類交互當中往往存在某種博弈行為，如這個超車變道的例子，黑色小車意圖超車，但銀色卡車寸步不讓。如果我們與他人的交互都像這個司機一樣，則會造成許多沖突，但無人駕駛車不會像小汽車司機這樣做，他們會感知到這里可能沒有足夠的超車空間，會選擇減速在卡車后變道；

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

如果我們將人視為需要規(guī)避的障礙物進行建模，那意味著我們將人類視為這個例子中不會改變主意的卡車司機一樣進行建模。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

另一個Google Car無法順利通過四面都有停車標志的十字路口的例子。在這個例子中，傳感器會一直探測到有人類司機并進行避讓，而人類司機可以通過一寸一寸向前挪動讓Google無法行動。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

漫畫：“你先走還是我先走？”在圖中，無人車讓人類先走，但行人并不打算走而是揮舞手臂，則會讓無人車困惑。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

機器人與人類的互動。此時機器人的效用函數U_R包含三個變量：初始狀態(tài)x_0、機器人運動軌跡u_R以及人類運動軌跡u_H，此時人類的效用函數U_H也包含三個變量：初始狀態(tài)x₀、人類運動軌跡u_H以及覺察到有機器人后的隱形影響因子θ_H；

我們現(xiàn)在在做的研究：人并不是障礙，而是將其視為需要通過自己效用函數進行優(yōu)化的智能體，但我們并不知道其效用函數，參數是隱藏的；機器通過人的動作估計隱藏狀態(tài)，估計其下一步行為，如果機器人對人的下一步動作有估計，那么機器人會將其加入到自己的效用函數中：如果這件事情發(fā)生，我應該怎么做才是最好的選擇。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca 6年前做的研究，與人類內部狀態(tài)的相互作用，機器預測我要做什么，并幫我更好實現(xiàn)目標。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

以及最近的Paper。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

當人類也考慮機器人的行為來調整自己的行為時，其效用函數U_H變?yōu)樗膫€變量：初始狀態(tài)x₀、人類運動軌跡u_H、機器人運動軌跡U_R及覺察到有機器人后的隱形影響因子θ_H。有不少證據表明人們實際上并不一定去在博弈中實現(xiàn)均衡，因為人類是通過計算達到平衡的。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

我們如何說明機器人對人類行為的影響？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

例如，在這個軌道車的例子中，你的效用函數和你如何動操作桿有關；

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

再看一個無人車與人類司機交互的例子。上圖中的橙色汽車是無人駕駛車，U_R是無人駕駛車軌跡，U_H是人類駕駛軌跡，如果我們考慮的是在特定的U_R下，U_H應該如何達到最優(yōu)，這樣人類可以更好地響應機器人的行為。

在這個例子中，這是一個保證效率和安全的博弈。人類的參數是隱藏的，我們通過反向優(yōu)化控制來猜測這些數據，機器人收集這些展示人們將如何與機器人互動的數據，設置一個最大似然觀察，然后機器人去解決這個嵌套優(yōu)化問題，即當人不可避免地受到我所做的事情的影響時，我該怎么做才能最大限度地將我的效用最大化？最終會達到人和機器人的和諧協(xié)作。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

接下來Anca展示了一些簡化后的例子。如果將人類車輛當做一個需要避障的目標并推斷其行為，無人車通常在人類車輛后變道。在少數情況下，人類車輛之前有充足的空間的時候，無人車會超車變道，因為在這個嵌套優(yōu)化中，機器人知道，如果它按這一方式超車變道，那么人的反應就是放慢速度，讓無人車進入。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

在這一模式中，機器人不再處于被動狀態(tài)，而是更好地和人進行互動。Anca稱她最喜歡的一個例子是，仍然是四面停止標志的十字路口，當處于僵持、沒有乘客的無人車（橙色）需要表示“你先走”的時候，無人車會稍稍后退，在這個路口中，人類司機同樣在進行效率和安全的博弈，而當無人車后退的時候，車輛相撞的幾率變小，此時人類司機就會通過路口，達到人類車輛效用函數的最大化。這是一個無人車影響人類效用函數的例子，同時也是很令人驚異的發(fā)現(xiàn)，因為人類司機從不會通過后退表示讓對方先走。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

同樣在這個漫畫的例子中，無人車也可以通過稍稍后退讓行人先走打破僵局。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

三種模型下，真實用戶不同反應的影響。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

這一模型仍然存在某些局限性，如效用局限于已知的Feature的線性組合，假設感知問題已經得到解決，對車輛運行進行了簡化，等等。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？而且我們不能用一些線下訓練的模型來用來套到實際的駕駛中，萬一遇到之前那個不肯避讓的二愣子卡車司機就麻煩了。所以需要對每個司機的行為進行具體的估計。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

通過對人類司機駕駛軌跡的觀察，可以推斷出司機的駕駛風格：比較激進或者比較保守，并采取正確的策略，如判斷對方是一個保守型的司機的時候，在其前面變道超車對方通常會避讓。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

像這種情況的激進型司機，無人車只能放棄變道。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

而在十字路口的例子中，無人車需要判斷這個司機是否注意其他車輛的動作。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

在優(yōu)化之外的緊急場景的系統(tǒng)協(xié)調策略又是怎樣的呢？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

當僅和最終用戶交互的時候，無需考慮兩個效用函數，只需要和人類站一邊考慮U_H最大化即可。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

上述討論的很多都是機器人如何估計人類隱藏參數的研究，另一種方式則是人如何思考與機器人互動中的參數的推斷，這方面的研究一直在進行，而且需要機器人有更多的表現(xiàn)力。對于不同人，機器人同樣的動作也會產生不同的后果，即便人類無法正確推斷機器人行為的時候，至少要讓他們知道發(fā)生了什么事，你想做的是什么，為什么交互沒有取得更好的結果等等。機器人需要注意這個更微妙的影響，因為它決定了人們是否了解機器人正在做什么，是否有信心在執(zhí)行任務等。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

然而我們（設計者）在為機器人指定效用函數的時候做的不怎么樣，機器人的獎勵值通常具有不確定性，這往往會帶來出人意料的結果。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

例如在OpenAI的一篇論文中，白色小船的目標是在游戲中獲得盡可能多的分，但在這里白色小船卻偏離了賽道打起圈子（因為能不斷吃到寶箱）。

另一個例子，如果設定一個吸塵機器人的獎勵函數是吸盡量多的灰塵，那么機器人會不會在吸完灰塵后把手機起來的灰塵倒出來，然后繼續(xù)吸塵以達到最大的獎勵值？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

又或者，像迪士尼動畫片米奇用魔法教一把掃把幫其挑水，最后這把掃把不斷挑水（獲得最大獎勵值）把整個屋子給淹了一樣；

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

讓我們來分析一下這是如何產生的。例如小船游戲的例子，當設置得分為獎勵值，當機器發(fā)現(xiàn)有兩個策略：1）排名第一但僅獲得20分；2）排名靠后但能獲得50分，機器人選擇的是后者。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

這樣，設計者需要改變獎勵值（找到真正的獎勵值）以使得機器人按預定目標進行決策，或者讓機器人能夠推測到設計者的真正意圖。但二者均有不足之處。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

另一個包含草地、灰塵、熔巖和最終目標的導航場景的例子。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

假設訓練時的狀態(tài)，獎勵函數是盡可能少走草地得分越高的話，結果會如上圖所示（此時沒有出現(xiàn)熔巖）。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

策略1：設計師有基于指標的指示器，并建立從原始觀察值到指標的分類器，此時將訓練的模型放到有巖漿的例子中時，機器人往往會越過巖漿到達終點（并非想要的結果）

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

策略2：而如果設定反向激勵，機器人會對訓練時未出現(xiàn)的元素敬而遠之，機器人不知道巖漿是好雞還是懷，也可能如上圖所示錯過“金礦”。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

通過以上例子，說明需要在訓練環(huán)境的背景下對特定的獎勵進行觀察找到真正的獎勵，而在執(zhí)行中人類的指導則是找到真正獎勵的關鍵（如迪士尼動畫片中，米奇讓掃把停止打水）。

Anca Dragan CoRL 演講解讀：機器人與人類如何相互影響及更好協(xié)作？

這樣，機器人可以從從豐富的指導模式中學習。

簡單來說，如果機器人能夠理解它可能對人類情緒造成的影響，就可以更好地進行決策，并在更廣泛的領域于人類更有效進行協(xié)作，給我們生活帶來更多便利與驚喜。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

分享：

相關文章

岑大師

發(fā)私信

當月熱門文章

最新文章

熱門搜索

三星小米區(qū)塊鏈大數據 DeepMind Google Glass iCloud Pinterest AIoT 傅盛博世

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現(xiàn)在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說