監(jiān)督學習×強化學習，F(xiàn)acebook讓聊天機器人學會談判

本文作者：楊曉凡

編輯：郭奕欣

2017-06-16 09:38

導語：通過監(jiān)督學習+強化學習，這個聊天機器人不僅能理解字詞和語義的對應關系，還能針對自己的目標跟別人進行協(xié)商討論達成一致

雷鋒網(wǎng) AI 科技評論按：目前人們對聊天機器人的認識還在調(diào)戲微軟小冰的階段，可以明顯感覺到小冰不是很關心上下文之間的關聯(lián)。而且在我們的觀念里，聊天機器人也沒辦法真的理解人類所說的話，沒辦法跟人類討論事情、明確地達到什么共同目標。

不過，F(xiàn)acebook的人工智能研究機構FAIR剛剛開源并公開發(fā)表的聊天機器人就開始擁有了跟人類進行協(xié)商談判、進行討價還價的能力。通過監(jiān)督學習+強化學習，這個聊天機器人不僅能理解字詞和語義的對應關系，還能針對自己的目標制定策略，跟別人進行協(xié)商討論達成一致。

以下為雷鋒網(wǎng) AI 科技評論根據(jù)FAIR文章進行的詳細介紹。

監(jiān)督學習×強化學習，F(xiàn)acebook讓聊天機器人學會談判

生活的每一天里，我們一睜眼就要不停地跟別人協(xié)商事情。要么是討論看哪個電視臺，要么是說服家里小孩吃蔬菜，或者買東西的時候討價還價。這幾件事的共同點是，都需要復雜的交流和講理能力，而這些能力很難在計算機里見到。

發(fā)展到現(xiàn)在，聊天機器人方面的研究已經(jīng)可以形成聊天系統(tǒng)，它能進行簡短對話，能完成訂餐館這樣的簡單任務。但是讓機器人跟人進行有意義的對話還是很難的，因為這需要機器人把它對對話的理解和它對世界的知識進行組合，然后再生成一句能幫它達到自己的目標的句子。

今天，F(xiàn)acebook FAIR的研究員們開源并公開發(fā)表的聊天機器人有了一項新能力，這個新能力就是協(xié)商。

有著不同目標的人類之間會產(chǎn)生沖突，然后通過協(xié)商達成一種大家共同認可的妥協(xié)，現(xiàn)在研究員們證明了聊天機器人也可以做到這些。具有不同目標的聊天機器人（具體實現(xiàn)是端到端訓練的神經(jīng)網(wǎng)絡）在一段從頭到尾的協(xié)商中，可以跟其它聊天機器人或者人類一起做出共同的決定或者達到共同的目標。

任務：多種類討價還價

FAIR的研究員們研究了一種多種類討價還價任務下的協(xié)商任務。給兩個智能體展示同一組物體（比如2本書，1個帽子，3個籃球），為了能把東西分給它們，就需要教它們協(xié)商自己分到的數(shù)目。

監(jiān)督學習×強化學習，F(xiàn)acebook讓聊天機器人學會談判

每個智能體都有自己的價值函數(shù)，它代表了智能體對每種物體的關心程度如何（比如在智能體1看來每個籃球值3分）。然后，就像生活中一樣，每個智能體都沒法確切知道別的智能體的價值函數(shù)，只能從對話中進行推測（如果對方說他想要籃球，那在他看來籃球的分值肯定比較高）。

FAIR的研究員們設計了很多類似這樣需要協(xié)商的情境，而且始終不會讓兩個智能體同時達成自己最滿意的分法。以及，如果拒絕協(xié)商（或者如果10輪對話以后還沒達成一致），那么兩個智能體都會得0分。簡單說，進行協(xié)商是關鍵，如果還協(xié)商到了一個好的結果那就得分更高。

對話推演（Dialog Rollouts）

協(xié)商是一個語言性和講理性的綜合問題，其中的參與者要先形成自己的意圖，還要能用語言表達出來。合作和對抗的元素都會出現(xiàn)在這些對話中，這就需要智能體們理解并形成長期計劃，然后據(jù)此進行表達以便達到自己的目標。

為了建立這種有長期計劃能力的對話智能體，F(xiàn)AIR研究員們有一個核心的技術創(chuàng)新，他們把這個點子叫做“對話推演”（dialog rollouts）。

如果聊天機器人可以建立對談者的虛擬模型然后“提前考慮”，或者預感到未來對話的可能方向，它們就可以選擇避開沒有信息量的、引發(fā)困惑的或者糟糕的來回討論，轉(zhuǎn)而向著成功一些的方向去。

具體來說，F(xiàn)AIR開發(fā)出了對話推演這樣的新穎技術，一個使用這種技術的智能體可以一直模擬未來的對話到結尾，這樣它就可以選出可以在未來帶來最高收益的話語。

監(jiān)督學習×強化學習，F(xiàn)acebook讓聊天機器人學會談判

類似的方法已經(jīng)在游戲環(huán)境中得到過應用，但是用來解決語言問題還是第一次，因為可選擇的行動數(shù)目要多多了。為了提高效率，研究員們首先生成了一組數(shù)量不多的話語可供選擇，然后為了估計這些話語是否成功，他們對其中的每一條都反復模擬完整的后續(xù)對話。這個模型的預測準確率足夠高，也要歸功于這項技術從以下幾個方面顯著提升了協(xié)商水平：

協(xié)商時候更努力：這些新的智能體能跟人類進行更長的對話，代價是對價碼的接受會慢一點。相比人類有時候不達成一致就走掉了，這個實驗中的模型會一直協(xié)商到取得成功的結果為止。
智能化的應對：有時候會出現(xiàn)這樣的狀況，智能體一開始會假裝對沒什么價值的東西感興趣，就為了后來可以放棄它們來表現(xiàn)出自己在“妥協(xié)”，這確實是一個人類經(jīng)常使用的談判技巧。這種行為可不是研究員們設計給它們的，而是智能體在想辦法達成目標的過程中自己發(fā)現(xiàn)的談判方法。
產(chǎn)生新穎的句子：盡管神經(jīng)網(wǎng)絡模型可以很輕松地從訓練數(shù)據(jù)中重復一些句子，這項研究也展示出在有必要的時候模型也能自己生成一些句子。

建立及評價一個協(xié)商數(shù)據(jù)集

為了能夠訓練協(xié)商智能體以及做大規(guī)模量化評估，F(xiàn)AIR團隊用眾包的方法建立了一個人和人之間協(xié)商對話的數(shù)據(jù)集。其中參與的人看到了一組東西和每個東西的價值，然后要商量他們之間怎么分這些東西。然后研究員們就用這些對話訓練出了一個能模仿人類行為進行協(xié)商的循環(huán)神經(jīng)網(wǎng)絡（RNN）。在對話中的任何時刻，這個模型都會猜測人類在這種狀況下會說什么。

在以前目標導向的對話研究中，模型都是完全由人類的語言和決定進行“端到端”訓練得到的，這意味著這種方法可以方便地用在其它任務中。

為了讓模型不僅僅停留在對人類的模仿，F(xiàn)AIR的研究員們接下來讓模型轉(zhuǎn)而向完成協(xié)商的目標發(fā)展。為了讓模型達到目標，研究員們讓模型自己跟自己進行了上千輪協(xié)商，并且用到了強化學習在得到好的結果的時候獎勵模型。為了避免讓算法生成自己的一套語言，模型同時也要訓練生成類人的語言。

為了評價這些協(xié)商智能體，F(xiàn)AIR讓它們上網(wǎng)跟人類聊天。之前的大多數(shù)研究都在避免跟真人聊天，或者研究的是難度更低的領域，這都是因為對各種各種的人類語言進行回答需要訓練復雜的模型。

有意思的是，在FAIR的實驗中，多數(shù)人都沒發(fā)現(xiàn)跟他們聊天的不是真人，而是機器人，說明機器人已經(jīng)學會如何在這個領域流暢地用英文進行對話了。FAIR最優(yōu)秀的協(xié)商機器人就運用了強化學習和對話推演，它的表現(xiàn)已經(jīng)可以跟人類談判員相提并論。它達成的交易里，較好一些的和糟糕一些的差不多多，這也說明了FAIR的聊天機器人不僅會說英語，而且還能智能地考慮應該說什么。

用于聊天機器人的強化學習

監(jiān)督學習可以模仿人類用戶的動作，但是它沒法具體表現(xiàn)出達成目標的意志。FAIR團隊選了另一種方法，他們先用監(jiān)督學習進行預訓練，然后用強化學習的方法結合評價指標對模型進行微調(diào)。以結果來說，他們用監(jiān)督學習學到了如何把語言文字和意思相對應，然后用強化學習幫助判斷說什么語句。

在增強學習中，智能體會試著根據(jù)自己與另一個智能體之間的對話優(yōu)化自己的參數(shù)。不過同時這另一個智能體也可以是一個人，所以FAIR就用了一個訓練過的監(jiān)督學習模型來模仿人類。這個模仿人類的模型是固定不變的，因為研究者們發(fā)現(xiàn)如果兩個模型的參數(shù)都可以優(yōu)化的話，它們之間的對話就會偏離人類的語言，演化出一種它們自己的談判語言。在每一場對話結束以后，智能體都會根據(jù)自己談成的結果得到獎勵。這種獎勵是用智能體整個過程里的所有語言輸出運用策略梯度進行反向傳播得到的，目的是為了讓智能體有更高的可能性選擇會有更高獎勵的動作。