“行勝于言”：語言模型如何適應(yīng)機(jī)器人？

本文作者：我在思考中

2022-04-19 09:41

導(dǎo)語：行勝于言（Do As I Can, Not As I Say）。

解讀 | Antonio

編輯丨陳彩嫻

Google Brain的機(jī)器人團(tuán)隊(duì)（Robotics at Google）最近發(fā)布了一篇文章，介紹了他們?nèi)绾螌⒋笠?guī)模語言模型的“說”的能力和機(jī)器人“行”的能力結(jié)合在一起，從而賦予機(jī)器人更適用于物理世界的推理能力（physically-grounded）。

動(dòng)機(jī)

面對(duì)對(duì)方“我不小心灑了我的飲料，你可以幫我一下嗎？”的問題的時(shí)候，你會(huì)怎么反應(yīng)？

你評(píng)估一下當(dāng)下的環(huán)境，可能會(huì)幫對(duì)方把飲料瓶收拾掉，如果周圍有抹布，你會(huì)拿起抹布幫他收拾干凈，當(dāng)然這些一步一步的指令可能會(huì)在你的心中默念一遍。

當(dāng)你沒有觀察到吸塵器在周圍時(shí)候，你顯然不會(huì)告訴對(duì)方要使用吸塵器收拾，因?yàn)槟遣环袭?dāng)下的環(huán)境條件。

這樣的行為決策已經(jīng)體現(xiàn)了兩個(gè)步驟：面對(duì)一個(gè)求助，你擁有一些可以解決當(dāng)下問題的行為候選項(xiàng)，然后你還得實(shí)際下來，選擇最符合現(xiàn)實(shí)的那個(gè)行為。

放在機(jī)器人的語境下，在前一個(gè)步驟，我們需要一個(gè)語言模型去理解一段人類語言發(fā)出的指令，并“說出”我們可能的種種解決方案；第二個(gè)步驟需要結(jié)合周圍環(huán)境，挑出那些符合現(xiàn)實(shí)世界的方案。

這篇文章就是試圖將這兩個(gè)行為解耦出來，并以恰當(dāng)?shù)姆绞浇Y(jié)合在一起。

首先是用于理解和生成可能的候選項(xiàng)的第一步。很自然地，文章使用了現(xiàn)在在自然語言處理領(lǐng)域很流行的大規(guī)模語言模型（LLM）。它可以是生成式的，即面對(duì)一個(gè)問題，生成可能的問答，如下圖所示：

三個(gè)LLM給出的回應(yīng)

可以看出這種生成式的結(jié)構(gòu)并非適用在面對(duì)行為的機(jī)器人領(lǐng)域，一方面如FLAN模型輸出的結(jié)果沒有明確的行為指令；另一方面，即使像GPT3中給出了具體的做法，它仍然沒有考慮到現(xiàn)實(shí)場(chǎng)景：萬一當(dāng)下沒有吸塵器呢？

就像開頭想表達(dá)的：會(huì)說什么并不重要，重要的是可行嗎？

因此，第二個(gè)步就需要考慮機(jī)器人所處的環(huán)境、它能夠完成的行為、它當(dāng)下?lián)碛械募寄艿鹊攘?，這些往往采用強(qiáng)化學(xué)習(xí)的value function（VF）或者affordance function進(jìn)行評(píng)估。

如果將第一步的LLM視作是可以思考和講話的“心和嘴”，后一步的affordance則充當(dāng)了“眼和手”的功能。前一步“說”（Say），后一步判斷“能”（Can）做什么，文章將這一模型起名為SayCan。

方法

從上文所述文章方法的關(guān)鍵是如何將沒有與現(xiàn)實(shí)世界結(jié)合的“理想化”的LLM變得更加“現(xiàn)實(shí)”。只是根據(jù)一段指令，采用對(duì)話生成的方式產(chǎn)生一段雖然合理但是無關(guān)的語句并非我們所要的。因此，SayCan采用了prompt以及給特定行為打分的方式。

具體而言，機(jī)器人先觀察周圍環(huán)境，利用VF找出一些可行（actionable）的行為候選項(xiàng)。LLM根據(jù)問題和一小段prompt對(duì)于這些行為進(jìn)行打分。

VF和LLM打出的兩個(gè)分?jǐn)?shù)的乘積作為最終選擇該行為的置信度，挑選出最高得分的行為作為這一步選擇的行為。

之后，將當(dāng)前選擇的行為在接到上一步的回答模板中，作為下一步的模板輸入，繼續(xù)重復(fù)上述的動(dòng)作，遞歸式推斷之后的行為，直到最終推斷出一個(gè)結(jié)束的標(biāo)志。這一過程，可以參考下圖。

選擇行為的流程示意圖

具體LLM是如何做的呢？

如下圖所示，LLM采用模板“I would：1.”作為回答“How would...”問題的命令詞匯（prompt）。值得注意的是，文章中也提到，這樣以比較標(biāo)準(zhǔn)的方式開頭的對(duì)話都是在機(jī)器人語境下專門設(shè)計(jì)的，現(xiàn)實(shí)場(chǎng)景可能會(huì)更加復(fù)雜。除此之外，用于in-context learning的例子也由類似的語句構(gòu)成，為了讓模型生成語句時(shí)候有所參考，也就是圖中的：prompt engineering的部分。