機(jī)器人落地「秘訣」：持續(xù)學(xué)習(xí)、知識(shí)遷移和自主參與

本文作者：我在思考中

2022-05-30 10:09

導(dǎo)語(yǔ)：亞馬遜機(jī)器人實(shí)驗(yàn)室的三位頂級(jí)科學(xué)家，在 ICRA 會(huì)議上探討了機(jī)器人的現(xiàn)有挑戰(zhàn)。

亞馬遜機(jī)器人實(shí)驗(yàn)室的三位頂級(jí)科學(xué)家，在 ICRA 會(huì)議上探討了機(jī)器人的現(xiàn)有挑戰(zhàn)。

編譯 | 劉冰一

編輯 | 陳彩嫻

2022年5月23日，一年一度的機(jī)器人技術(shù)領(lǐng)域的頂級(jí)國(guó)際會(huì)議 ICRA 2022 (IEEE International Conference on Robotics and Automation) 在美國(guó)費(fèi)城如期舉行。

這是ICRA舉辦的第39個(gè)年頭。ICRA 是 IEEE 機(jī)器人和自動(dòng)化學(xué)會(huì)的旗艦會(huì)議，也是機(jī)器人研究者展示和討論他們工作的主要國(guó)際論壇。

在今年的ICRA上，亞馬遜的三位首席機(jī)器人專家，Sidd Srinivasa、 Tye Brady 和 Philipp Michel 簡(jiǎn)單討論了在現(xiàn)實(shí)世界中構(gòu)建人機(jī)互動(dòng)的機(jī)器人系統(tǒng)所面臨的挑戰(zhàn)。

機(jī)器人落地「秘訣」：持續(xù)學(xué)習(xí)、知識(shí)遷移和自主參與

圖注：從左到右為亞馬遜機(jī)器人人工智能主管 Sidd Srinivasa，亞馬遜機(jī)器人公司（全球）首席技術(shù)專家 Tye Brady，以及亞馬遜 Scout 應(yīng)用科學(xué)高級(jí)經(jīng)理 Philipp Michel

Sidd Srinivasa是全球知名的機(jī)器人專家，IEEE Fellow，現(xiàn)任華盛頓大學(xué)波音特聘教授，同時(shí)是 Amazon 機(jī)器人人工智能項(xiàng)目的負(fù)責(zé)人，負(fù)責(zé)管理協(xié)助 Amazon 物流中心員工的自主機(jī)器人的算法，研究可以收拾和包裝產(chǎn)品的機(jī)器人和可自主搬卸和運(yùn)輸貨物的推車式機(jī)器人。

Tye Brady是亞馬遜機(jī)器人公司（全球）首席技術(shù)專家，MIT航空航天工程碩士背景。而Philipp Michel與Sidd Srinivasa同為CMU機(jī)器人研究所的博士校友，是亞馬遜Scout機(jī)器人項(xiàng)目的高級(jí)經(jīng)理。

在探討解決機(jī)器人落地挑戰(zhàn)的問題上，他們提出了自己的看法。AI科技評(píng)論作了不改原意的整理，如下：

Q: 你們?cè)跈C(jī)器人領(lǐng)域的研究分別解決不同的問題，這些問題之間有什么相同點(diǎn)？

Sidd Srinivasa：機(jī)器人研究的一個(gè)重要難點(diǎn)是：我們生活在一個(gè)開放的世界中。我們甚至不知道即將面對(duì)的「輸入」是什么。在我們的營(yíng)運(yùn)中心，我需要操控超過2000萬(wàn)件物品，而且這些物品還以每天成千上百件的數(shù)量在增加。大部分時(shí)候，我們的機(jī)器人并不清楚它們所拾起的物品是什么，但它們需要小心地拾起物品，并在不損壞物品的前提下將物品進(jìn)行快速包裝。

Philipp Michel：對(duì)于Scout來(lái)說(shuō)，難點(diǎn)是在人行道上遇到的物體，以及運(yùn)送的環(huán)境。我們?cè)诿绹?guó)四個(gè)州都部署了私人送貨設(shè)備。天氣狀況、光照條件……我們從一開始就明確要處理大量的變量，使機(jī)器人能夠適應(yīng)復(fù)雜的環(huán)境。

Tye Brady：在開發(fā)執(zhí)行機(jī)器人的過程中，我們有一個(gè)顯著的優(yōu)勢(shì)，就是在半結(jié)構(gòu)化的環(huán)境中展開運(yùn)營(yíng)。我們可以自行制定機(jī)器人的交通規(guī)則，了解環(huán)境真的有助于我們的科學(xué)家和工程師深入理解我們要移動(dòng)、操作、分類和識(shí)別的物體，完成訂單。也就是說(shuō)，我們可以在真實(shí)世界中實(shí)現(xiàn)對(duì)技術(shù)的追求。

Philipp Michel ：還有另一個(gè)共同點(diǎn)，就是我們非常依賴從數(shù)據(jù)中學(xué)習(xí)，以解決問題。Scout 會(huì)在執(zhí)行任務(wù)的過程中接收真實(shí)世界的數(shù)據(jù)，然后不斷迭代開發(fā)用于感知、定位和導(dǎo)航的機(jī)器學(xué)習(xí)解決方案。

Sidd Srinivasa：我完全同意（從數(shù)據(jù)中學(xué)習(xí)解決問題）。我認(rèn)為機(jī)器學(xué)習(xí)和自適應(yīng)控制是超線性規(guī)模拓展的關(guān)鍵。如果我們部署了成千上萬(wàn)的機(jī)器人，我們不可能有成千上萬(wàn)的科學(xué)家和工程師來(lái)研究它們，我們需要依賴真實(shí)世界的數(shù)據(jù)，實(shí)現(xiàn)超線性地增長(zhǎng)。

另外，我認(rèn)為開放的世界會(huì)迫使我們思考怎樣「持續(xù)學(xué)習(xí)」。我們的機(jī)器學(xué)習(xí)模型往往是基于一些輸入數(shù)據(jù)分布來(lái)訓(xùn)練的，但因?yàn)檫@是一個(gè)開放的世界，會(huì)遇到「協(xié)變量轉(zhuǎn)移」（covariate shift）的問題，也就是看到的數(shù)據(jù)與分布不匹配，這會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型常常沒來(lái)由地過于自信。

因此，我們所做的大量工作就是創(chuàng)建一個(gè)「watchdogs」（看門狗，一種監(jiān)督設(shè)備），用來(lái)識(shí)別輸入數(shù)據(jù)分布何時(shí)偏離了它所受訓(xùn)的分布。然后，我們?cè)龠M(jìn)行「重要性抽樣」（importance sampling），這樣我們就可以挑選出已經(jīng)改變的數(shù)據(jù)，重新訓(xùn)練機(jī)器學(xué)習(xí)模型。

Philipp Michel：這也是為什么我們想要在不同的地方訓(xùn)練機(jī)器人的原因之一，這樣我們就可以盡早知道機(jī)器人可能遇到的現(xiàn)實(shí)數(shù)據(jù)，反過來(lái)迫使我們開發(fā)能夠解決新數(shù)據(jù)的方案。

Sidd Srinivasa：這的確是個(gè)好主意。擁有多機(jī)器人的優(yōu)點(diǎn)之一就是系統(tǒng)能夠識(shí)別出變化的內(nèi)容，重新進(jìn)行訓(xùn)練，然后將這些知識(shí)分享給其他機(jī)器人。

想到一個(gè)分揀機(jī)器人的故事：在世界的某個(gè)角落，一個(gè)機(jī)器人遇到一個(gè)新的包裝類型。一開始，它很困擾，因?yàn)樗鼜膩?lái)沒有見過這種情況，也無(wú)法識(shí)別出來(lái)。后來(lái)出現(xiàn)了一個(gè)新的解決方案：這只機(jī)器人可以將新的包裝類型傳輸給世界上所有機(jī)器人。如此一來(lái)，當(dāng)這種新包裝類型出現(xiàn)在其他地方，其余機(jī)器人就知曉如何處理了。相當(dāng)于有了一個(gè)「?jìng)浞荨?，新的?shù)據(jù)出現(xiàn)在一個(gè)點(diǎn)，其他點(diǎn)都會(huì)知道，因?yàn)橄到y(tǒng)已經(jīng)能夠重新自我訓(xùn)練、并分享信息了。

Philipp Michel：我們的機(jī)器人也在做類似的事情。如果我們的機(jī)器人遇到之前沒有遇到過的新障礙，我們會(huì)嘗試調(diào)整模型來(lái)識(shí)別與處理這些障礙，隨后將新的模型部署到所有的機(jī)器人上。

讓我夜不能寐的一件事情是，我們的機(jī)器人會(huì)在人行道上遇到新的物體，但這些物體在接下來(lái)的三年都不會(huì)再遇到，例如：人們?cè)谌f(wàn)圣節(jié)上用來(lái)裝飾草坪的滴水獸，或者人們?cè)谝安偷淖雷由戏乓话褌?、使桌子看起?lái)不像「野餐桌」。對(duì)于這種情況，所有的機(jī)器學(xué)習(xí)算法都無(wú)法識(shí)別出這是一張野餐桌。

因此，我們的部分研究還是關(guān)于如何平衡無(wú)需糾結(jié)的普通事物與具體類別的事物。如果這是一個(gè)敞開的井蓋口，那么機(jī)器人一定要善于識(shí)別，不然它會(huì)掉下去。但如果它只是一個(gè)隨機(jī)的盒子，我們可能就不需要知道這個(gè)盒子的層次結(jié)構(gòu)，只需要知道這是我們要繞過去的物體即可。

Sidd Srinivasa：另一個(gè)挑戰(zhàn)是，當(dāng)你改變你的模型時(shí)，可能會(huì)出現(xiàn)意想不到的后果。改變后的模型也許不會(huì)影響機(jī)器人的感知，但可能會(huì)改變機(jī)器人「剎車」方式，導(dǎo)致兩個(gè)月后滾珠軸承磨損。在端到端的系統(tǒng)中，未來(lái)許多有趣的研究都是關(guān)于“理解系統(tǒng)部分更改對(duì)整個(gè)系統(tǒng)性能的影響”。

Philipp Michel：我們花了很多時(shí)間思考是否應(yīng)該劃分機(jī)器人堆棧的不同部分。在他們之間做整合能夠帶來(lái)很多好處，但也是有限的。一個(gè)極端情況是攝像頭到電機(jī)到扭矩的學(xué)習(xí)，這在任何現(xiàn)實(shí)世界的機(jī)器人應(yīng)用中都是非常具有挑戰(zhàn)性的。還有就是傳統(tǒng)的機(jī)器人堆棧，它被很好地分成了定位、感知、規(guī)劃和控制等部分。

我們還花了很多時(shí)間思考堆棧應(yīng)該如何隨著時(shí)間的推移而發(fā)展，把這些部分更緊密地結(jié)合在一起時(shí)性能有什么提升？同時(shí)，我們希望有一個(gè)系統(tǒng)盡可能地保持可解釋性。我們?cè)噲D最大化利用整個(gè)堆棧的學(xué)習(xí)組件集成，同時(shí)保留可解釋性和安全功能的數(shù)量。

Sidd Srinivasa：這個(gè)觀點(diǎn)很贊，我完全同意 Philipp 的觀點(diǎn)，用一個(gè)模型來(lái)統(tǒng)治所有模型未必是正確的。但通常，我們最終建立的機(jī)器學(xué)習(xí)模型共享一個(gè)主干，有多個(gè)應(yīng)用的頭。一個(gè)物體是什么，分割一個(gè)物體意味著什么？可能類似于挑選、堆放或者包裝，但是每一個(gè)都需要專門的頭，搭載在專門任務(wù)的主干上。

Philipp Michel：我們考慮的一些因素是電池、行程、溫度、空間和計(jì)算限制。因此，我們需要高效使用我們的模型、優(yōu)化模型、并嘗試盡可能多地利用共享主干，就像 Sidd 提到的，不同的頭用于不同的任務(wù)。

機(jī)器人落地「秘訣」：持續(xù)學(xué)習(xí)、知識(shí)遷移和自主參與

圖注：Amazon Scout 是一個(gè)自動(dòng)送貨機(jī)器人，它可以在公共人行道上以步行的速度移動(dòng)，目前正在美國(guó)四個(gè)州進(jìn)行實(shí)地測(cè)試。

Q：當(dāng)我問及你們項(xiàng)目之間的共性時(shí)，我想到的一件事是你們的機(jī)器人都是和人類在同樣的環(huán)境中工作。為什么這會(huì)使問題復(fù)雜化呢？

Sidd Srinivasa：機(jī)器人正在走近人類生活，我們必須尊重發(fā)生在人類世界中的所有復(fù)雜的互動(dòng)。除了走路、開車、執(zhí)行任務(wù)外，還有復(fù)雜的社交。對(duì)機(jī)器人來(lái)說(shuō)重要的是，首先，要有意識(shí)；其次，要參與其中。

這真的很難，當(dāng)你在開車的時(shí)候，有時(shí)很難判斷其他人在想什么，也很難根據(jù)他們的想法來(lái)決定如何行動(dòng)。僅僅是推理問題就很難，然后閉環(huán)就更難了。

如果機(jī)器人正在下棋或與人對(duì)弈，那么預(yù)測(cè)他們將要做什么就容易多了，因?yàn)橐?guī)則已經(jīng)很好地制定了。如果你假設(shè)你的對(duì)手是最優(yōu)的，那么你會(huì)做得很好，即使他們是次優(yōu)的。這在某些雙人游戲中是種保證。

但實(shí)際情況并非如此，我們?cè)谕孢@種確保雙贏的合作博弈發(fā)現(xiàn)，博弈時(shí)其實(shí)很難準(zhǔn)確預(yù)測(cè)，即便合作者也是好意。

Philipp Michel：而且人類世界的行為變化很大。有的寵物完全無(wú)視機(jī)器人，有的寵物會(huì)走向機(jī)器人。行人也是如此，有些人對(duì)機(jī)器人視而不見，而有些人則徑直走近它。特別是孩子，他們的好奇心超強(qiáng)，互動(dòng)非常密切，我們需要能夠安全地處理所有相處場(chǎng)景，這些可變性讓人躍躍欲試。

參考鏈接：

https://www.amazon.science/blog/icra-2022-robotics-at-amazon

https://goodrobot.ai/bio/

https://philmichel.com/cv

https://www.cs.cmu.edu/~pmichel/