丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí),F(xiàn)acebook讓聊天機(jī)器人學(xué)會談判

本文作者: 楊曉凡 編輯:郭奕欣 2017-06-16 09:38
導(dǎo)語:通過監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí),這個聊天機(jī)器人不僅能理解字詞和語義的對應(yīng)關(guān)系,還能針對自己的目標(biāo)跟別人進(jìn)行協(xié)商討論達(dá)成一致

雷鋒網(wǎng) AI 科技評論按:目前人們對聊天機(jī)器人的認(rèn)識還在調(diào)戲微軟小冰的階段,可以明顯感覺到小冰不是很關(guān)心上下文之間的關(guān)聯(lián)。而且在我們的觀念里,聊天機(jī)器人也沒辦法真的理解人類所說的話,沒辦法跟人類討論事情、明確地達(dá)到什么共同目標(biāo)。

不過,F(xiàn)acebook的人工智能研究機(jī)構(gòu)FAIR剛剛開源并公開發(fā)表的聊天機(jī)器人就開始擁有了跟人類進(jìn)行協(xié)商談判、進(jìn)行討價還價的能力。通過監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí),這個聊天機(jī)器人不僅能理解字詞和語義的對應(yīng)關(guān)系,還能針對自己的目標(biāo)制定策略,跟別人進(jìn)行協(xié)商討論達(dá)成一致。

以下為雷鋒網(wǎng) AI 科技評論根據(jù)FAIR文章進(jìn)行的詳細(xì)介紹。

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí),F(xiàn)acebook讓聊天機(jī)器人學(xué)會談判

生活的每一天里,我們一睜眼就要不停地跟別人協(xié)商事情。要么是討論看哪個電視臺,要么是說服家里小孩吃蔬菜,或者買東西的時候討價還價。這幾件事的共同點是,都需要復(fù)雜的交流和講理能力,而這些能力很難在計算機(jī)里見到。

發(fā)展到現(xiàn)在,聊天機(jī)器人方面的研究已經(jīng)可以形成聊天系統(tǒng),它能進(jìn)行簡短對話,能完成訂餐館這樣的簡單任務(wù)。但是讓機(jī)器人跟人進(jìn)行有意義的對話還是很難的,因為這需要機(jī)器人把它對對話的理解和它對世界的知識進(jìn)行組合,然后再生成一句能幫它達(dá)到自己的目標(biāo)的句子。

今天,F(xiàn)acebook FAIR的研究員們開源并公開發(fā)表的聊天機(jī)器人有了一項新能力,這個新能力就是協(xié)商。

有著不同目標(biāo)的人類之間會產(chǎn)生沖突,然后通過協(xié)商達(dá)成一種大家共同認(rèn)可的妥協(xié),現(xiàn)在研究員們證明了聊天機(jī)器人也可以做到這些。具有不同目標(biāo)的聊天機(jī)器人(具體實現(xiàn)是端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò))在一段從頭到尾的協(xié)商中,可以跟其它聊天機(jī)器人或者人類一起做出共同的決定或者達(dá)到共同的目標(biāo)。

任務(wù):多種類討價還價

FAIR的研究員們研究了一種多種類討價還價任務(wù)下的協(xié)商任務(wù)。給兩個智能體展示同一組物體(比如2本書,1個帽子,3個籃球),為了能把東西分給它們,就需要教它們協(xié)商自己分到的數(shù)目。

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí),F(xiàn)acebook讓聊天機(jī)器人學(xué)會談判

每個智能體都有自己的價值函數(shù),它代表了智能體對每種物體的關(guān)心程度如何(比如在智能體1看來每個籃球值3分)。然后,就像生活中一樣,每個智能體都沒法確切知道別的智能體的價值函數(shù),只能從對話中進(jìn)行推測(如果對方說他想要籃球,那在他看來籃球的分值肯定比較高)。

FAIR的研究員們設(shè)計了很多類似這樣需要協(xié)商的情境,而且始終不會讓兩個智能體同時達(dá)成自己最滿意的分法。以及,如果拒絕協(xié)商(或者如果10輪對話以后還沒達(dá)成一致),那么兩個智能體都會得0分。簡單說,進(jìn)行協(xié)商是關(guān)鍵,如果還協(xié)商到了一個好的結(jié)果那就得分更高。

對話推演(Dialog Rollouts)

協(xié)商是一個語言性和講理性的綜合問題,其中的參與者要先形成自己的意圖,還要能用語言表達(dá)出來。合作和對抗的元素都會出現(xiàn)在這些對話中,這就需要智能體們理解并形成長期計劃,然后據(jù)此進(jìn)行表達(dá)以便達(dá)到自己的目標(biāo)。

為了建立這種有長期計劃能力的對話智能體,F(xiàn)AIR研究員們有一個核心的技術(shù)創(chuàng)新,他們把這個點子叫做“對話推演”(dialog rollouts)。

如果聊天機(jī)器人可以建立對談?wù)叩奶摂M模型然后“提前考慮”,或者預(yù)感到未來對話的可能方向,它們就可以選擇避開沒有信息量的、引發(fā)困惑的或者糟糕的來回討論,轉(zhuǎn)而向著成功一些的方向去。

具體來說,F(xiàn)AIR開發(fā)出了對話推演這樣的新穎技術(shù),一個使用這種技術(shù)的智能體可以一直模擬未來的對話到結(jié)尾,這樣它就可以選出可以在未來帶來最高收益的話語。

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí),F(xiàn)acebook讓聊天機(jī)器人學(xué)會談判

類似的方法已經(jīng)在游戲環(huán)境中得到過應(yīng)用,但是用來解決語言問題還是第一次,因為可選擇的行動數(shù)目要多多了。為了提高效率,研究員們首先生成了一組數(shù)量不多的話語可供選擇,然后為了估計這些話語是否成功,他們對其中的每一條都反復(fù)模擬完整的后續(xù)對話。這個模型的預(yù)測準(zhǔn)確率足夠高,也要歸功于這項技術(shù)從以下幾個方面顯著提升了協(xié)商水平:

  • 協(xié)商時候更努力:這些新的智能體能跟人類進(jìn)行更長的對話,代價是對價碼的接受會慢一點。相比人類有時候不達(dá)成一致就走掉了,這個實驗中的模型會一直協(xié)商到取得成功的結(jié)果為止。

  • 智能化的應(yīng)對:有時候會出現(xiàn)這樣的狀況,智能體一開始會假裝對沒什么價值的東西感興趣,就為了后來可以放棄它們來表現(xiàn)出自己在“妥協(xié)”,這確實是一個人類經(jīng)常使用的談判技巧。這種行為可不是研究員們設(shè)計給它們的,而是智能體在想辦法達(dá)成目標(biāo)的過程中自己發(fā)現(xiàn)的談判方法。

  • 產(chǎn)生新穎的句子:盡管神經(jīng)網(wǎng)絡(luò)模型可以很輕松地從訓(xùn)練數(shù)據(jù)中重復(fù)一些句子,這項研究也展示出在有必要的時候模型也能自己生成一些句子。

建立及評價一個協(xié)商數(shù)據(jù)集

為了能夠訓(xùn)練協(xié)商智能體以及做大規(guī)模量化評估,F(xiàn)AIR團(tuán)隊用眾包的方法建立了一個人和人之間協(xié)商對話的數(shù)據(jù)集。其中參與的人看到了一組東西和每個東西的價值,然后要商量他們之間怎么分這些東西。然后研究員們就用這些對話訓(xùn)練出了一個能模仿人類行為進(jìn)行協(xié)商的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。在對話中的任何時刻,這個模型都會猜測人類在這種狀況下會說什么。

在以前目標(biāo)導(dǎo)向的對話研究中,模型都是完全由人類的語言和決定進(jìn)行“端到端”訓(xùn)練得到的,這意味著這種方法可以方便地用在其它任務(wù)中。

為了讓模型不僅僅停留在對人類的模仿,F(xiàn)AIR的研究員們接下來讓模型轉(zhuǎn)而向完成協(xié)商的目標(biāo)發(fā)展。為了讓模型達(dá)到目標(biāo),研究員們讓模型自己跟自己進(jìn)行了上千輪協(xié)商,并且用到了強(qiáng)化學(xué)習(xí)在得到好的結(jié)果的時候獎勵模型。為了避免讓算法生成自己的一套語言,模型同時也要訓(xùn)練生成類人的語言。

為了評價這些協(xié)商智能體,F(xiàn)AIR讓它們上網(wǎng)跟人類聊天。之前的大多數(shù)研究都在避免跟真人聊天,或者研究的是難度更低的領(lǐng)域,這都是因為對各種各種的人類語言進(jìn)行回答需要訓(xùn)練復(fù)雜的模型。

有意思的是,在FAIR的實驗中,多數(shù)人都沒發(fā)現(xiàn)跟他們聊天的不是真人,而是機(jī)器人,說明機(jī)器人已經(jīng)學(xué)會如何在這個領(lǐng)域流暢地用英文進(jìn)行對話了。FAIR最優(yōu)秀的協(xié)商機(jī)器人就運(yùn)用了強(qiáng)化學(xué)習(xí)和對話推演,它的表現(xiàn)已經(jīng)可以跟人類談判員相提并論。它達(dá)成的交易里,較好一些的和糟糕一些的差不多多,這也說明了FAIR的聊天機(jī)器人不僅會說英語,而且還能智能地考慮應(yīng)該說什么。

用于聊天機(jī)器人的強(qiáng)化學(xué)習(xí)

監(jiān)督學(xué)習(xí)可以模仿人類用戶的動作,但是它沒法具體表現(xiàn)出達(dá)成目標(biāo)的意志。FAIR團(tuán)隊選了另一種方法,他們先用監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,然后用強(qiáng)化學(xué)習(xí)的方法結(jié)合評價指標(biāo)對模型進(jìn)行微調(diào)。以結(jié)果來說,他們用監(jiān)督學(xué)習(xí)學(xué)到了如何把語言文字和意思相對應(yīng),然后用強(qiáng)化學(xué)習(xí)幫助判斷說什么語句。

在增強(qiáng)學(xué)習(xí)中,智能體會試著根據(jù)自己與另一個智能體之間的對話優(yōu)化自己的參數(shù)。不過同時這另一個智能體也可以是一個人,所以FAIR就用了一個訓(xùn)練過的監(jiān)督學(xué)習(xí)模型來模仿人類。這個模仿人類的模型是固定不變的,因為研究者們發(fā)現(xiàn)如果兩個模型的參數(shù)都可以優(yōu)化的話,它們之間的對話就會偏離人類的語言,演化出一種它們自己的談判語言。在每一場對話結(jié)束以后,智能體都會根據(jù)自己談成的結(jié)果得到獎勵。這種獎勵是用智能體整個過程里的所有語言輸出運(yùn)用策略梯度進(jìn)行反向傳播得到的,目的是為了讓智能體有更高的可能性選擇會有更高獎勵的動作。

期待更高發(fā)展

對Facebook來說這是一項突破性的研究,對整個研究領(lǐng)域和機(jī)器人開發(fā)者來說,這是建立能講道理、交談、協(xié)商的機(jī)器人的重大進(jìn)展,而這幾項都是建立個性化數(shù)字助理的重要組成部分。

對FAIR的研究人員而言,他們也希望與其它的研究人員繼續(xù)共同討論研究成果、共同分析想要解決的問題。他們也期待更多有才干的人投入想法和精力,推動這個領(lǐng)域進(jìn)一步發(fā)展。

via Deal or no deal? Training AI bots to negotiate,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí),F(xiàn)acebook讓聊天機(jī)器人學(xué)會談判

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說