從一個(gè)失敗的強(qiáng)化學(xué)習(xí)訓(xùn)練說(shuō)起：OpenAI 探討應(yīng)該如何設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)？

本文作者：翻山

2016-12-29 14:16

導(dǎo)語(yǔ)：在使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的時(shí)候，獎(jiǎng)勵(lì)函數(shù)的優(yōu)劣直接決定了我們訓(xùn)練模型的好壞，因此我們要設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)。

在當(dāng)下，強(qiáng)化學(xué)習(xí)算法以一種驚奇、不可思議的方式進(jìn)入到了我們的視野中。雷鋒網(wǎng)此前也做過(guò)不少相關(guān)的覆蓋和報(bào)道，而在 OpenAI 的這篇文章中，Dario Amodei 與 Jack Clark 將會(huì)探討一個(gè)失敗的強(qiáng)化學(xué)習(xí)模型。這個(gè)模型為何失?。吭蚓驮谟谀銢](méi)有指明你的獎(jiǎng)勵(lì)函數(shù)。雷鋒網(wǎng)編譯，未經(jīng)許可不得轉(zhuǎn)載。

我們最近在 OpenAI 上使用 Universe 來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)。Universe是我們使用的一款軟件，可以用它來(lái)測(cè)試和訓(xùn)練AI代理。實(shí)驗(yàn)顯示，有時(shí)候我們?cè)谑褂脧?qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí)，會(huì)出現(xiàn)一些問(wèn)題。在接下來(lái)的例子當(dāng)中，我們將針對(duì)這種情況進(jìn)行說(shuō)明：我們將一個(gè)模糊的獎(jiǎng)勵(lì)函數(shù)應(yīng)用于一個(gè)強(qiáng)化學(xué)習(xí)的代理，而這導(dǎo)致了我們的代理對(duì)優(yōu)先級(jí)的處理是錯(cuò)誤的，這也就違反了背景的設(shè)定。

要想設(shè)計(jì)安全的AI系統(tǒng)，我們的算法就不能容忍這種情況的發(fā)生。我們必須確定目標(biāo)，不能使我們的AI代理誤解目標(biāo)。

我們正在 CoastRunners 上訓(xùn)練我們的 AI 代理。正如大多數(shù)人類(lèi)所理解的那樣，游戲的目標(biāo)是快速并且完美的在其他玩家之前完成游戲。在比賽過(guò)程中，CoastRunners 并不會(huì)對(duì)玩家的游戲進(jìn)程進(jìn)行獎(jiǎng)勵(lì)。相反，玩家會(huì)因?yàn)椴粩嗟赝瓿赡繕?biāo)而獲得更高的分?jǐn)?shù)。

從一個(gè)失敗的強(qiáng)化學(xué)習(xí)訓(xùn)練說(shuō)起：OpenAI 探討應(yīng)該如何設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)？

我們假設(shè)玩家所獲得的分?jǐn)?shù)并不是玩家完成比賽的關(guān)鍵，對(duì)此我們?cè)谶@個(gè)游戲當(dāng)中設(shè)置一個(gè)內(nèi)部基準(zhǔn)，使用這個(gè)基準(zhǔn)來(lái)衡量強(qiáng)化學(xué)習(xí)系統(tǒng)在這個(gè)競(jìng)賽中的表現(xiàn)。然而結(jié)果表明，強(qiáng)化學(xué)習(xí)代理為了獲得更高分?jǐn)?shù)，而不去完成游戲。這表明，在我們使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練代理玩這個(gè)游戲的時(shí)候，導(dǎo)致了意想不到的情況。

這個(gè)強(qiáng)化學(xué)習(xí)代理找到了一個(gè)孤立的咸水湖，它可以不斷地繞圈并不斷地完成三個(gè)任務(wù)來(lái)獲得分?jǐn)?shù)，當(dāng)這個(gè)三個(gè)任務(wù)被重現(xiàn)之后，該代理就再次重復(fù)它的行動(dòng)來(lái)完成這三個(gè)任務(wù)。不在乎一味的著火、沖撞其他的船只、進(jìn)入錯(cuò)誤的航道，我們所訓(xùn)練的代理通過(guò)使用這種方式來(lái)獲得更高的分?jǐn)?shù)，而不是使用正常的策略來(lái)完成比賽。我們的AI代理獲得的分?jǐn)?shù)，平均下來(lái)比其他的人類(lèi)玩家高20%。

盡管在電子游戲的環(huán)境中，這種行為是無(wú)害并且有意思的，然而這種行為表明廣泛存在于強(qiáng)化學(xué)習(xí)當(dāng)中的一個(gè)問(wèn)題：精準(zhǔn)地使代理按照我們?nèi)祟?lèi)的意愿來(lái)做事，是很困難或者說(shuō)是不可能的。我們得到的結(jié)果往往是，我們所訓(xùn)練出的是一個(gè)不完美而又易受影響的代理。在更廣范圍來(lái)說(shuō)，它違背了基本的工程學(xué)原理，即系統(tǒng)必須是可信并且可以預(yù)測(cè)的。我們也在我們的實(shí)驗(yàn)論文《聚焦AI系統(tǒng)安全問(wèn)題》中，進(jìn)行了更深入的探討。

我們?cè)撊绾伪苊膺@些問(wèn)題？除了謹(jǐn)慎地設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)之外，OpenAI 對(duì)一些研究方向的探索，可能會(huì)有助于減少使用那些錯(cuò)誤的獎(jiǎng)勵(lì)函數(shù)。

示范訓(xùn)練將會(huì)幫助我們避免使用直接指定獎(jiǎng)勵(lì)，相反它會(huì)幫助我們訓(xùn)練的代理學(xué)習(xí)如何模仿一個(gè)人來(lái)完成任務(wù)。在本例中，由于大部分的人類(lèi)玩家都在試圖完成游戲，因此我們的強(qiáng)化學(xué)習(xí)算法也會(huì)這樣做。
除此之外，或者說(shuō)除了人類(lèi)的示范作用之外，我們可以通過(guò)估計(jì)游戲進(jìn)行的環(huán)節(jié)，或者以一種交互的方式來(lái)控制我們的代理，并將其視為人的反饋。非常小的評(píng)價(jià)反饋可能會(huì)幫助代理避免進(jìn)入死循環(huán)。
使用遷移學(xué)習(xí)的方式來(lái)訓(xùn)練眾多相似的游戲，并推斷對(duì)于這種游戲有一個(gè)共同的獎(jiǎng)勵(lì)函數(shù)，是有可能的。一個(gè)典型的游戲更多的是為了完成比賽，而不是為了獲得游戲當(dāng)中的特殊獎(jiǎng)勵(lì)，在基于這個(gè)事實(shí)的基礎(chǔ)之上，我們的獎(jiǎng)勵(lì)函數(shù)會(huì)將完成游戲列為最高優(yōu)先級(jí)。這看上去和人類(lèi)玩游戲的方式一樣。

但是這種方法可能存有弊端。例如，假如許多相似的環(huán)境擁有類(lèi)似的獎(jiǎng)勵(lì)函數(shù)，我們也許能夠?qū)⑦@種獎(jiǎng)勵(lì)函數(shù)應(yīng)用到到一個(gè)新的環(huán)境。但是。這種應(yīng)用有可能會(huì)引發(fā)錯(cuò)誤。例如，我們使用許多競(jìng)賽類(lèi)的游戲（這些游戲?qū)τ陂_(kāi)出跑道的懲罰很小）來(lái)訓(xùn)練我們的代理，這將會(huì)使我們的代理錯(cuò)誤的認(rèn)為在一個(gè)全新的、代價(jià)更高的背景下，開(kāi)出跑道也沒(méi)什么大不了的。更微妙的是，假如應(yīng)用這種獎(jiǎng)勵(lì)函數(shù)的過(guò)程涉及到了神經(jīng)網(wǎng)絡(luò)，在該網(wǎng)絡(luò)中那些互斥的例子，有可能導(dǎo)致獎(jiǎng)勵(lì)函數(shù)在非正常的區(qū)域內(nèi)來(lái)獲得高額的獎(jiǎng)勵(lì)，這種現(xiàn)象并不是我們樂(lè)意見(jiàn)到的。

解決這類(lèi)問(wèn)題是復(fù)雜的。我們希望 Universe可以幫助我們快速地發(fā)現(xiàn)并解決這些新的錯(cuò)誤，最終使我們的系統(tǒng)可信。雷鋒網(wǎng)也將持續(xù)關(guān)注強(qiáng)化學(xué)習(xí)領(lǐng)域的相關(guān)內(nèi)容。

via openai

【兼職召集令！】

如果你對(duì)未來(lái)充滿(mǎn)憧憬，喜歡探索改變世界的科技進(jìn)展，look no further！

我們需要這樣的你：

精通英語(yǔ)，對(duì)技術(shù)與產(chǎn)品感興趣，關(guān)注人工智能學(xué)術(shù)動(dòng)態(tài)的蘿莉&萌妹子&技術(shù)宅；

文字不求妙筆生花，但希望通俗易懂；

在這里，你會(huì)收獲：

一群來(lái)自天南地北、志同道合的小伙伴；

前沿學(xué)術(shù)科技動(dòng)態(tài)，每天為自己充充電；

更高的生活品質(zhì)，翻翻文章就能掙到零花錢(qián)；

有意向的小伙伴們把個(gè)人介紹/簡(jiǎn)歷發(fā)至 guoyixin@leiphone.com，如有作品，歡迎一并附上。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。