0
本文作者: 翻山 | 2016-12-29 14:16 |
在當(dāng)下,強(qiáng)化學(xué)習(xí)算法以一種驚奇、不可思議的方式進(jìn)入到了我們的視野中。雷鋒網(wǎng)此前也做過(guò)不少相關(guān)的覆蓋和報(bào)道,而在 OpenAI 的這篇文章中,Dario Amodei 與 Jack Clark 將會(huì)探討一個(gè)失敗的強(qiáng)化學(xué)習(xí)模型。這個(gè)模型為何失???原因就在于你沒(méi)有指明你的獎(jiǎng)勵(lì)函數(shù)。雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。
我們最近在 OpenAI 上使用 Universe 來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)。Universe是我們使用的一款軟件,可以用它來(lái)測(cè)試和訓(xùn)練AI代理。實(shí)驗(yàn)顯示,有時(shí)候我們?cè)谑褂脧?qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),會(huì)出現(xiàn)一些問(wèn)題。在接下來(lái)的例子當(dāng)中,我們將針對(duì)這種情況進(jìn)行說(shuō)明:我們將一個(gè)模糊的獎(jiǎng)勵(lì)函數(shù)應(yīng)用于一個(gè)強(qiáng)化學(xué)習(xí)的代理,而這導(dǎo)致了我們的代理對(duì)優(yōu)先級(jí)的處理是錯(cuò)誤的,這也就違反了背景的設(shè)定。
要想設(shè)計(jì)安全的AI系統(tǒng),我們的算法就不能容忍這種情況的發(fā)生。我們必須確定目標(biāo),不能使我們的AI代理誤解目標(biāo)。
我們正在 CoastRunners 上訓(xùn)練我們的 AI 代理。正如大多數(shù)人類(lèi)所理解的那樣,游戲的目標(biāo)是快速并且完美的在其他玩家之前完成游戲。在比賽過(guò)程中,CoastRunners 并不會(huì)對(duì)玩家的游戲進(jìn)程進(jìn)行獎(jiǎng)勵(lì)。相反,玩家會(huì)因?yàn)椴粩嗟赝瓿赡繕?biāo)而獲得更高的分?jǐn)?shù)。
我們假設(shè)玩家所獲得的分?jǐn)?shù)并不是玩家完成比賽的關(guān)鍵,對(duì)此我們?cè)谶@個(gè)游戲當(dāng)中設(shè)置一個(gè)內(nèi)部基準(zhǔn),使用這個(gè)基準(zhǔn)來(lái)衡量強(qiáng)化學(xué)習(xí)系統(tǒng)在這個(gè)競(jìng)賽中的表現(xiàn)。然而結(jié)果表明,強(qiáng)化學(xué)習(xí)代理為了獲得更高分?jǐn)?shù),而不去完成游戲。這表明,在我們使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練代理玩這個(gè)游戲的時(shí)候,導(dǎo)致了意想不到的情況。
這個(gè)強(qiáng)化學(xué)習(xí)代理找到了一個(gè)孤立的咸水湖,它可以不斷地繞圈并不斷地完成三個(gè)任務(wù)來(lái)獲得分?jǐn)?shù),當(dāng)這個(gè)三個(gè)任務(wù)被重現(xiàn)之后,該代理就再次重復(fù)它的行動(dòng)來(lái)完成這三個(gè)任務(wù)。不在乎一味的著火、沖撞其他的船只、進(jìn)入錯(cuò)誤的航道,我們所訓(xùn)練的代理通過(guò)使用這種方式來(lái)獲得更高的分?jǐn)?shù),而不是使用正常的策略來(lái)完成比賽。我們的AI代理獲得的分?jǐn)?shù),平均下來(lái)比其他的人類(lèi)玩家高20%。
盡管在電子游戲的環(huán)境中,這種行為是無(wú)害并且有意思的,然而這種行為表明廣泛存在于強(qiáng)化學(xué)習(xí)當(dāng)中的一個(gè)問(wèn)題:精準(zhǔn)地使代理按照我們?nèi)祟?lèi)的意愿來(lái)做事,是很困難或者說(shuō)是不可能的。我們得到的結(jié)果往往是,我們所訓(xùn)練出的是一個(gè)不完美而又易受影響的代理。在更廣范圍來(lái)說(shuō),它違背了基本的工程學(xué)原理,即系統(tǒng)必須是可信并且可以預(yù)測(cè)的。我們也在我們的實(shí)驗(yàn)論文《聚焦AI系統(tǒng)安全問(wèn)題》中,進(jìn)行了更深入的探討。
我們?cè)撊绾伪苊膺@些問(wèn)題?除了謹(jǐn)慎地設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)之外,OpenAI 對(duì)一些研究方向的探索,可能會(huì)有助于減少使用那些錯(cuò)誤的獎(jiǎng)勵(lì)函數(shù)。
示范訓(xùn)練將會(huì)幫助我們避免使用直接指定獎(jiǎng)勵(lì),相反它會(huì)幫助我們訓(xùn)練的代理學(xué)習(xí)如何模仿一個(gè)人來(lái)完成任務(wù)。在本例中,由于大部分的人類(lèi)玩家都在試圖完成游戲,因此我們的強(qiáng)化學(xué)習(xí)算法也會(huì)這樣做。
除此之外,或者說(shuō)除了人類(lèi)的示范作用之外,我們可以通過(guò)估計(jì)游戲進(jìn)行的環(huán)節(jié),或者以一種交互的方式來(lái)控制我們的代理,并將其視為人的反饋。非常小的評(píng)價(jià)反饋可能會(huì)幫助代理避免進(jìn)入死循環(huán)。
使用遷移學(xué)習(xí)的方式來(lái)訓(xùn)練眾多相似的游戲,并推斷對(duì)于這種游戲有一個(gè)共同的獎(jiǎng)勵(lì)函數(shù),是有可能的。一個(gè)典型的游戲更多的是為了完成比賽,而不是為了獲得游戲當(dāng)中的特殊獎(jiǎng)勵(lì),在基于這個(gè)事實(shí)的基礎(chǔ)之上,我們的獎(jiǎng)勵(lì)函數(shù)會(huì)將完成游戲列為最高優(yōu)先級(jí)。這看上去和人類(lèi)玩游戲的方式一樣。
但是這種方法可能存有弊端。例如,假如許多相似的環(huán)境擁有類(lèi)似的獎(jiǎng)勵(lì)函數(shù),我們也許能夠?qū)⑦@種獎(jiǎng)勵(lì)函數(shù)應(yīng)用到到一個(gè)新的環(huán)境。但是。這種應(yīng)用有可能會(huì)引發(fā)錯(cuò)誤。例如,我們使用許多競(jìng)賽類(lèi)的游戲(這些游戲?qū)τ陂_(kāi)出跑道的懲罰很?。﹣?lái)訓(xùn)練我們的代理,這將會(huì)使我們的代理錯(cuò)誤的認(rèn)為在一個(gè)全新的、代價(jià)更高的背景下,開(kāi)出跑道也沒(méi)什么大不了的。更微妙的是,假如應(yīng)用這種獎(jiǎng)勵(lì)函數(shù)的過(guò)程涉及到了神經(jīng)網(wǎng)絡(luò),在該網(wǎng)絡(luò)中那些互斥的例子,有可能導(dǎo)致獎(jiǎng)勵(lì)函數(shù)在非正常的區(qū)域內(nèi)來(lái)獲得高額的獎(jiǎng)勵(lì),這種現(xiàn)象并不是我們樂(lè)意見(jiàn)到的。
解決這類(lèi)問(wèn)題是復(fù)雜的。我們希望 Universe可以幫助我們快速地發(fā)現(xiàn)并解決這些新的錯(cuò)誤,最終使我們的系統(tǒng)可信。雷鋒網(wǎng)也將持續(xù)關(guān)注強(qiáng)化學(xué)習(xí)領(lǐng)域的相關(guān)內(nèi)容。
via openai
【兼職召集令!】
如果你對(duì)未來(lái)充滿憧憬,喜歡探索改變世界的科技進(jìn)展,look no further!
我們需要這樣的你:
精通英語(yǔ),對(duì)技術(shù)與產(chǎn)品感興趣,關(guān)注人工智能學(xué)術(shù)動(dòng)態(tài)的蘿莉&萌妹子&技術(shù)宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會(huì)收獲:
一群來(lái)自天南地北、志同道合的小伙伴;
前沿學(xué)術(shù)科技動(dòng)態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢(qián);
有意向的小伙伴們把個(gè)人介紹/簡(jiǎn)歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。