你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

本文作者：楊曉凡

編輯：郭奕欣

2017-06-15 10:42

導(dǎo)語：人類不需要告訴AI系統(tǒng)明確的目標(biāo)，只要評價動作看起來對不對就好了

雷鋒網(wǎng) AI 科技評論消息，近日OpenAI和DeepMind各自在網(wǎng)站上發(fā)文，介紹一篇他們合作研究、撰寫的論文《Deep reinforcement learning from human preferences》（根據(jù)人類偏好進(jìn)行的深度增強學(xué)習(xí)）。在這篇論文里，他們展示了一種根據(jù)人類反饋進(jìn)行強化學(xué)習(xí)的新方法，不僅學(xué)習(xí)過程相對高效，而且OpenAI和DeepMind的研究人員們共同認(rèn)為這種方法長遠(yuǎn)來看能夠提高智能系統(tǒng)的安全性。

下面雷鋒網(wǎng) AI 科技評論就帶大家一起具體看一下OpenAI對這種方法的介紹和演示。

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

要建立一個安全的AI系統(tǒng)，其中很重要的一步是不再讓人類給AI系統(tǒng)寫目標(biāo)函數(shù)。這是因為如果用了簡單的策略來達(dá)到復(fù)雜的目標(biāo)，又或者對復(fù)雜目標(biāo)的理解出現(xiàn)了偏差，都可能導(dǎo)致AI系統(tǒng)做出人們不希望看到的行為，有時候甚至?xí)l(fā)危險。OpenAI跟DeepMind的安全團(tuán)隊一起協(xié)作開發(fā)了一種算法，只需要人類逐步告訴它兩種它推薦的動作中哪一種更好，它就可以由此推測人類的需求進(jìn)行學(xué)習(xí)。

方法介紹

這篇論文中介紹了一種算法，它可以用相對少量的人類反饋解決現(xiàn)代的強化學(xué)習(xí)問題。學(xué)者們以前就研究過如何使用人類反饋來建立機器學(xué)習(xí)系統(tǒng)，但這次兩個團(tuán)隊合作做了高級別的解決方案，這樣它也可以用來完成復(fù)雜得多的任務(wù)。他們的算法用來自人類評價員的900次二選一反饋學(xué)會了后空翻 —— 一個看起來簡單、很容易評價，但是很難精確描述的任務(wù)。

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

訓(xùn)練過程總體是一個人類、智能體對目標(biāo)的理解、增強學(xué)習(xí)訓(xùn)練之間的三步反饋循環(huán)。

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

根據(jù)OpenAI跟DeepMind聯(lián)合開發(fā)的算法，這個智能體一開始先在環(huán)境中隨機運動。然后周期性地把兩段它的動作視頻給人類看，人類要分辨兩個視頻的兩種動作里的哪一種更接近它的目標(biāo)——在這個例子中就是后空翻——然后通過選擇給出反饋，人工智能就會根據(jù)反饋尋找能最好地描述人類判斷的獎勵函數(shù)，這樣逐漸給任務(wù)目標(biāo)建立模型。然后它就會通過強化學(xué)習(xí)來學(xué)習(xí)達(dá)到它自己建立的目標(biāo)。隨著智能體的動作有了進(jìn)步，它會繼續(xù)拿出自己覺得最不確定的一對軌跡來讓人類反饋哪一個更好，然后讓自己對任務(wù)目標(biāo)的理解進(jìn)一步完善。

他們的方案展現(xiàn)出了喜人的學(xué)習(xí)效率，像前文所說，只需要不到1000次二選一的人類反饋就可以學(xué)會后空翻。人類評價員所花的時間只有不到一個小時，而在后臺，這個策略已經(jīng)同步積累了70小時的總體經(jīng)驗（后臺仿真時的速度比真實速度快得多）。接下來他們會繼續(xù)研究如何減少人類所需提供的反饋數(shù)量。下面的動圖里演示的就是他們的訓(xùn)練過程（加速版）。

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

游戲環(huán)境中的訓(xùn)練結(jié)果

他們也用模擬機器人和Atari游戲中的幾個任務(wù)測試了他們的方法（而且沒有讓程序用到環(huán)境本身的反饋函數(shù)，具體在Atari中就是不考慮游戲得分）。在多個測試環(huán)境里，智能體能通過人類的反饋學(xué)到優(yōu)秀的表現(xiàn)，有時候甚至比人類表現(xiàn)還好。下面幾張圖就是用他們的方法訓(xùn)練的智能體玩各種Atari游戲的畫面。每個畫面最右側(cè)豎向運動的小條是一個指示器，它顯示的是智能體預(yù)測人類評價者對它當(dāng)前動作的認(rèn)可度有多高。這些動圖就體現(xiàn)了這些智能體根據(jù)人類的反饋學(xué)到的東西：在Seaquest中知道去水面上補足氧氣（左圖），在打磚塊和彈球中學(xué)到如何得高分（中間兩圖），或者在Enduro中學(xué)到撞車以后怎么恢復(fù)（右圖）。


Seaquest	打磚塊	彈球	Enduro

值得注意的是，人類提供的反饋可以不用跟環(huán)境正常的獎勵函數(shù)一致。比如他們就在Enduro中訓(xùn)練了一個精確跟其它車輛保持齊平的智能體，它并不會像“正常”那樣不斷超過其它車輛獲得最高分?jǐn)?shù)。他們還發(fā)現(xiàn)，有時候從人類反饋中學(xué)習(xí)的智能體，比從正常的環(huán)境反饋里進(jìn)行增強學(xué)習(xí)的智能體表現(xiàn)還要好，因為人類對獎勵的表述要比環(huán)境本來的獎勵更好。

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

待解決的問題

人類評價員要憑直覺判斷哪些動作看起來正確，那么算法的表現(xiàn)也就受限于此，如果人類對任務(wù)沒有什么深入的理解，那他們提供的反饋能起到的幫助也就很有限。有個相關(guān)的情況就是，在有一些領(lǐng)域這個系統(tǒng)最后會訓(xùn)練出一個學(xué)會了欺騙評價員的智能體。舉個例子，一個機器人本來應(yīng)該把物體拿起來，但它把機械手放到了目標(biāo)物體和觀察者中間，這樣的機械手就只是看起來仿佛在抓它一樣，下面這張圖就是這樣。

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

對這個問題，他們想了一個改進(jìn)措施是加一些視覺標(biāo)識（圖中的白色實線），這樣人類評價員就更容易判斷深度了。不過更通用的辦法還需要做更多研究。

OpenAI和DeepMind兩個組織打算在對AI安全性有長期影響的方面繼續(xù)進(jìn)行合作。在他們看來，這樣的方法是開發(fā)出人類為中心進(jìn)行學(xué)習(xí)的安全AI的又一項進(jìn)步，而且可以對現(xiàn)有強化學(xué)習(xí)、模仿學(xué)習(xí)這樣的方法進(jìn)行補充和拓展。

via OpenAI Blog，雷鋒網(wǎng) AI 科技評論編譯

AI科技評論招業(yè)界記者啦！

在這里，你可以密切關(guān)注海外會議的大牛演講；可以采訪國內(nèi)巨頭實驗室的技術(shù)專家；對人工智能的動態(tài)了如指掌；更能深入剖析AI前沿的技術(shù)與未來！

如果你：

＊對人工智能有一定的興趣或了解

* 求知欲強，具備強大的學(xué)習(xí)能力

* 有AI業(yè)界報道或者媒體經(jīng)驗優(yōu)先

簡歷投遞：

lizongren@leiphone.com

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

楊曉凡

讀論文為生

日常笑點滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)

方法介紹

游戲環(huán)境中的訓(xùn)練結(jié)果

待解決的問題

你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí)