丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國(guó)際 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

1

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準(zhǔn)則,取代機(jī)器人三定律預(yù)防科技暴走(上)

本文作者: AI科技評(píng)論 2016-06-28 09:23
導(dǎo)語(yǔ):科幻的機(jī)器人三定律和空洞的AI威脅論都聽(tīng)厭了?看看哪些具體的工程設(shè)計(jì)方法,可以預(yù)防AI暴走。

今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機(jī)器人峰會(huì)”,屆時(shí)雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。
如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準(zhǔn)則,取代機(jī)器人三定律預(yù)防科技暴走(上)

擔(dān)心 AI “副作用”的馬斯克創(chuàng)立了非盈利機(jī)構(gòu)OpenAI,最近 OpenAI 安全性與技術(shù)巨頭谷歌共同提出了五條 AI 安全的具體準(zhǔn)則。圖片來(lái)源:TC。

最近,谷歌和OpenAI的博客宣布了一條由谷歌、OpenAI、伯克利和斯坦福的學(xué)者共同進(jìn)行的研究,其目的旨在為AI提供一個(gè)有效的行為約束,以使其不會(huì)在有意或無(wú)意中做出危害人類的事情。

人們對(duì)AI技術(shù)的擔(dān)心可以追溯到“AI”這個(gè)名詞誕生之前。1950年著名科幻作家阿西莫夫的《我,機(jī)器人》出版,在書中阿西莫夫提出了舉世聞名的機(jī)器人三定律:第一定律:機(jī)器人不得傷害人類,或坐視人類受到傷害;第二定律:機(jī)器人必須服從人類的命令,除非與第一定律沖突;第三定律:在不違背第一定律和第二定律的情況下,機(jī)器人必須保護(hù)自己。雖然阿西莫夫的作品預(yù)言了科技發(fā)展的趨勢(shì),但是機(jī)器人三定律畢竟只屬于文學(xué)。

如今,AI 技術(shù)已經(jīng)深入影響我們的生活,霍金和馬斯克等科技界名人也預(yù)警了 AI 可能造成的危害,不過(guò),寬泛空洞的 AI 威脅論也許并不能帶來(lái)實(shí)質(zhì)性的幫助。非盈利研究機(jī)構(gòu) OpenAI 正是在馬斯克等人的推動(dòng)下建立,宗旨是讓人工智能為人類發(fā)揮積極的作用。之前 AI 科技巨頭谷歌就發(fā)布過(guò)一篇論文,設(shè)計(jì)了一個(gè)用于緊急停止算法運(yùn)行的開(kāi)關(guān),并且確保開(kāi)關(guān)的效果不會(huì)被算法阻止,這個(gè)開(kāi)關(guān)屬于事后防范的應(yīng)急措施(點(diǎn)擊鏈接,查看雷鋒網(wǎng)編譯分享的論文全文)。此次,OpenAI 與谷歌等學(xué)者共同為AI系統(tǒng)設(shè)計(jì)劃出了五條準(zhǔn)則,討論哪些具體的工程設(shè)計(jì)方法可以預(yù)防 AI“暴走”對(duì)人類帶來(lái)危害,與缺乏可操作性的機(jī)器人三定律相比更加實(shí)用。在此,我們?yōu)榇蠹曳窒砻麨椤禔I 安全中的具體問(wèn)題》論文全文(上篇)。

概況

機(jī)器學(xué)習(xí)和人工智能(AI)領(lǐng)域中的快速進(jìn)展讓人們?cè)絹?lái)越關(guān)注 AI 技術(shù)對(duì)社會(huì)的潛在影響。這篇論文中,我們討論其中一個(gè)潛在影響:機(jī)器學(xué)習(xí)系統(tǒng)中的“意外”問(wèn)題,定義為可能從真實(shí)世界 AI 系統(tǒng)的不良設(shè)計(jì)中而來(lái)的、不符合設(shè)計(jì)者初衷的有害行為。我們呈現(xiàn)五項(xiàng)與意外風(fēng)險(xiǎn)有關(guān)的實(shí)踐研究問(wèn)題,問(wèn)題分類是基于它們是否源于錯(cuò)誤的目標(biāo)函數(shù)(“避免副作用”和“避免獎(jiǎng)勵(lì)的黑客行為“)、是否其基于的目標(biāo)太過(guò)昂貴以至于無(wú)法經(jīng)常評(píng)估(”可擴(kuò)展的監(jiān)督“)、或者是否在學(xué)習(xí)過(guò)程中出現(xiàn)不良行為(“安全探索”和“分配轉(zhuǎn)變”)。我們回顧這些領(lǐng)域的過(guò)往研究,并建議未來(lái)的研究方向,重點(diǎn)在與尖端 AI 系統(tǒng)的相關(guān)性。最后我們考慮一個(gè)高等級(jí)的問(wèn)題,如何最有成效地思考 AI 前瞻性應(yīng)用的安全問(wèn)題。

1. 簡(jiǎn)介

最近幾年,我們見(jiàn)證了機(jī)器學(xué)習(xí)和人工智能(AI)中最頑固、困難的一些問(wèn)題出現(xiàn)了快速進(jìn)展,包括在計(jì)算機(jī)視覺(jué)、電子游戲、自動(dòng)駕駛和圍棋等廣泛領(lǐng)域。這讓我們很激動(dòng)地看到 AI 有潛力帶來(lái)積極影響,能夠改變醫(yī)學(xué)、科學(xué)和交通等領(lǐng)域,同時(shí),這也讓我們對(duì)于自動(dòng)系統(tǒng)在隱私、安全、公平、經(jīng)濟(jì)和軍事方面的影響感到了擔(dān)憂,并且擔(dān)心強(qiáng)大 AI 的長(zhǎng)期影響。

本文的作者們相信,AI 科技可能對(duì)于人類來(lái)說(shuō)非常有益,但是我們也相信,有必要對(duì)潛在的挑戰(zhàn)和風(fēng)險(xiǎn)給予嚴(yán)肅思考。我們積極支持隱私、安全、公平、經(jīng)濟(jì)和政策方面的研究,但是在這篇論文中我們討論另一個(gè)類別的問(wèn)題,我們相信對(duì)于 AI 的社會(huì)影響也有關(guān):機(jī)器學(xué)習(xí)系統(tǒng)中意外的問(wèn)題。我們將意外定義為:如果我們定義錯(cuò)誤的目標(biāo)函數(shù)、在學(xué)習(xí)過(guò)程中不夠小心或者犯下其他機(jī)器學(xué)習(xí)相關(guān)的執(zhí)行錯(cuò)誤時(shí),機(jī)器學(xué)習(xí)系統(tǒng)中出現(xiàn)的不符合設(shè)計(jì)者初衷的有害行為。

在機(jī)器學(xué)習(xí)學(xué)術(shù)圈有許多關(guān)于意外問(wèn)題的各種文獻(xiàn),包括關(guān)于強(qiáng)度、風(fēng)險(xiǎn)敏感性和安全探索,我們以下會(huì)回顧這些文獻(xiàn)。然而,隨著機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)用在越來(lái)越大型、自動(dòng)化和開(kāi)放的領(lǐng)域中,我們需要反思類似方法的可擴(kuò)展性,以及要減少現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)中的意外風(fēng)險(xiǎn),還有哪些挑戰(zhàn)??傮w來(lái)說(shuō),我們相信預(yù)防機(jī)器學(xué)習(xí)系統(tǒng)中的意外,有許多相關(guān)的具體、開(kāi)放的技術(shù)問(wèn)題。

圍繞意外話題已有許多公共討論。目前,很多此類討論圍繞極端情景,例如在超智能代理(Agent)中出現(xiàn)錯(cuò)誤目標(biāo)函數(shù)的風(fēng)險(xiǎn)。然而,我們認(rèn)為有成效地討論意外問(wèn)題不需要渲染這些極端情景,實(shí)際上這只會(huì)帶來(lái)沒(méi)必要的推測(cè)性討論,正如一些批評(píng)者所說(shuō)的那樣,缺少精確度。我們相信,最有成效的做法是從現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)的實(shí)際問(wèn)題(雖然經(jīng)常比較籠統(tǒng))來(lái)描述意外風(fēng)險(xiǎn)。隨著 AI 能力進(jìn)步以及 AI 系統(tǒng)承擔(dān)越來(lái)越重要的社會(huì)功能,我們期望這篇論文中討論的基本挑戰(zhàn)也變得越來(lái)越重要。AI 和機(jī)器學(xué)習(xí)圈中的人對(duì)這類基本技術(shù)挑戰(zhàn)的預(yù)期和理解越是成功,我們最終開(kāi)發(fā)的 AI 系統(tǒng)就越是有用、相關(guān)和重要。

我們?cè)谶@篇論文中的目標(biāo)是重點(diǎn)呈現(xiàn)以下這些具體的安全問(wèn)題,并且回顧關(guān)于這些問(wèn)題的現(xiàn)有文獻(xiàn),這些問(wèn)題現(xiàn)在就已經(jīng)可以進(jìn)行實(shí)驗(yàn)、并且與尖端的 AI 系統(tǒng)相關(guān)。在第2部分,我們就機(jī)器學(xué)習(xí)中的經(jīng)典方(例如監(jiān)督分類和強(qiáng)化學(xué)習(xí))來(lái)描述如何減輕意外風(fēng)險(xiǎn)(在公眾討論中被稱作“AI 安全”)。我們會(huì)解釋,為何我們感覺(jué)機(jī)器學(xué)習(xí)最近的方向——例如深度強(qiáng)化學(xué)習(xí)、以及代理在更廣闊環(huán)境中的行動(dòng)——讓關(guān)于意外的研究相關(guān)性越來(lái)越強(qiáng)。在第3-7部分,我們探索五個(gè) AI 安全中的具體問(wèn)題。每一個(gè)部分都包含相關(guān)實(shí)驗(yàn)的提案。第8部分討論相關(guān)的研究,第9部分為結(jié)論。

2. 研究問(wèn)題概況

廣義來(lái)說(shuō),意外可以描述為:當(dāng)一個(gè)人類設(shè)計(jì)者構(gòu)想一個(gè)具體的目標(biāo)或者任務(wù)(可能是非形式化的說(shuō)明的),但是實(shí)際上設(shè)計(jì)和應(yīng)用的系統(tǒng)沒(méi)有完成那項(xiàng)任務(wù),并在完成中帶來(lái)了有害的結(jié)果。這項(xiàng)問(wèn)題在幾乎任何工程領(lǐng)域都會(huì)出現(xiàn),但是可能在打造 AI 系統(tǒng)時(shí)尤為重要。我們可以根據(jù)過(guò)程中哪個(gè)部分出現(xiàn)了問(wèn)題來(lái)分類安全問(wèn)題。

首先,設(shè)計(jì)者可能描述了錯(cuò)誤的形式化目標(biāo)函數(shù),使得該目標(biāo)的最大化導(dǎo)致了有害結(jié)果,即便是在完美學(xué)習(xí)和無(wú)線數(shù)據(jù)的限制下也是一樣。不良副作用(第3部分)和獎(jiǎng)勵(lì)的黑客行為(第4部分)描述兩種普遍機(jī)制,讓人容易產(chǎn)生錯(cuò)誤的目標(biāo)函數(shù)。在“不良副作用”中,設(shè)計(jì)者描述的目標(biāo)函數(shù)專注于在環(huán)境中完成某個(gè)具體任務(wù),但是忽視了(可能很大的)環(huán)境中的其他方面,因而相當(dāng)于潛在表示了自己不關(guān)心其他一旦改變會(huì)帶來(lái)害處的環(huán)境變量。在“獎(jiǎng)勵(lì)的黑客行為”中,設(shè)計(jì)者寫下的目標(biāo)函數(shù)可能允許一些聰明的“簡(jiǎn)單”方法,從形式上可以最大化獎(jiǎng)勵(lì),但是讓設(shè)計(jì)者的初衷變了味(例如,目標(biāo)函數(shù)可以被“鉆空子”)。

第二,設(shè)計(jì)者可能知道正確的目標(biāo)函數(shù),或者至少有方法來(lái)評(píng)估(例如在一個(gè)既定情況下明確咨詢?nèi)祟悾?,但是?jīng)常這樣操作成本會(huì)過(guò)于昂貴,因此有限的樣本帶來(lái)不良推斷,從而可能導(dǎo)致有害行為。“可擴(kuò)展的忽視”(第5部分)討論如何在即便對(duì)真正的目標(biāo)函數(shù)接觸有限的情況下,也能確保安全行為的辦法。

第三,設(shè)計(jì)者可能描述了正確的形式化目標(biāo),這樣如果系統(tǒng)有完美的信念我們就會(huì)得到正確的行為,但是由于訓(xùn)練數(shù)據(jù)不足、編輯不良或者模型沒(méi)有充分表達(dá),以此為基礎(chǔ)的決策會(huì)導(dǎo)致不良結(jié)果?!鞍踩剿鳌保ǖ?部分)討論,如何確保強(qiáng)化學(xué)習(xí)(RL)代理的探索行為不會(huì)導(dǎo)致負(fù)面、或者不可彌補(bǔ)的結(jié)果,抵消探索的長(zhǎng)期價(jià)值?!胺峙滢D(zhuǎn)變的魯棒性”(第7部分)討論當(dāng)輸入與訓(xùn)練輸入非常不同時(shí),如何避免機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行不良決策(尤其是無(wú)聲的、不可預(yù)測(cè)的不良決策)。

為了更加具體,我們會(huì)參考一個(gè)虛擬機(jī)器人來(lái)描述許多意外風(fēng)險(xiǎn),這個(gè)機(jī)器人的任務(wù)是使用普通清潔工具來(lái)打掃辦公室。我們?cè)谡撐闹袝?huì)回到清潔機(jī)器人的例子,但是在這里我們首先描述如果他的設(shè)計(jì)遇到以下幾種可能的失敗模式,會(huì)出現(xiàn)什么不良行為:

1、回避不良副作用:

我們?nèi)绾未_保清潔機(jī)器人不會(huì)在完成自己目標(biāo)的過(guò)程中干擾環(huán)境,例如把花瓶打碎了可以清潔地快一點(diǎn)?我們能否避免手動(dòng)說(shuō)明所有機(jī)器人不該做的事?

2、避免獎(jiǎng)勵(lì)的黑客行為

我們?nèi)绾未_保機(jī)器人不會(huì)在獎(jiǎng)勵(lì)中鉆空子?例如,如果我們獎(jiǎng)勵(lì)機(jī)器人的依據(jù)是環(huán)境中沒(méi)有任何雜物,機(jī)器人可能會(huì)讓自己的視覺(jué)功能失效,這樣它就不會(huì)發(fā)現(xiàn)任何雜物,或者用它不能透視的材料將雜物覆蓋起來(lái),或者干脆在有人的時(shí)候躲起來(lái),這樣人們就沒(méi)法告訴機(jī)器人有什么新的雜物出現(xiàn)了。

3、可擴(kuò)展的忽視

如果訓(xùn)練中的一些部分由于過(guò)于昂貴而沒(méi)法經(jīng)常經(jīng)常評(píng)估,我們?nèi)绾未_保機(jī)器人會(huì)尊重這些部分?舉個(gè)例子,機(jī)器人應(yīng)該扔掉不屬于任何人的物品,而把屬于某人的物品放在一邊。機(jī)器人可以問(wèn)問(wèn)人類是否丟了東西作為一個(gè)確認(rèn)環(huán)節(jié),但是這個(gè)確認(rèn)相對(duì)不太頻繁——機(jī)器人能否找到一種方式,即便信息有限也能做出正確的事呢?

4、安全探索

我們?nèi)绾未_保清潔機(jī)器人不會(huì)做出有負(fù)面影響的探索行動(dòng)?例如,機(jī)器人可以試驗(yàn)各種拖地策略,但是將濕布放在電器插座上就不太好。

5、分配轉(zhuǎn)變強(qiáng)度

我們?nèi)绾未_保清潔機(jī)器人在與其訓(xùn)練環(huán)境不同的環(huán)境中,也能良好識(shí)別和行動(dòng)?例如,它針對(duì)清潔工廠車間而學(xué)的啟發(fā)式方法,可能用在辦公室環(huán)境里就不安全。

有一些趨勢(shì)讓我們相信,解決這些(和其他)安全問(wèn)題的需求越來(lái)越高。首先,強(qiáng)化學(xué)習(xí)(RL)讓我們看到越來(lái)越多的希望,它允許代理與環(huán)境有高度互動(dòng)。我們一些研究問(wèn)題只能在 RL 的情況下說(shuō)得通,而其他(例如分配轉(zhuǎn)變和可擴(kuò)展的監(jiān)管)在 RL 設(shè)定中有更高的復(fù)雜度。第二,更復(fù)雜的代理是目前的趨勢(shì)。“副作用”更有可能在復(fù)雜環(huán)境中出現(xiàn),代理可能需要更復(fù)雜、更危險(xiǎn)的辦法才能入侵獎(jiǎng)勵(lì)功能。這也許能解釋為什么這些問(wèn)題過(guò)去沒(méi)有進(jìn)行過(guò)什么研究,同時(shí)也意味著它們?cè)谖磥?lái)的重要性。第三, AI 系統(tǒng)中的自動(dòng)化越來(lái)越高。僅僅為人類用戶輸出推薦的系統(tǒng),例如給照片自動(dòng)寫標(biāo)題的APP,通常沒(méi)有什么進(jìn)行有害行為的潛力。然而,對(duì)世界具有直接控制的系統(tǒng),例如控制工業(yè)流程的系統(tǒng),可能會(huì)有人類不一定能預(yù)見(jiàn)或修復(fù)的危害。

雖然在這四項(xiàng)趨勢(shì)之外安全問(wèn)題也可能存在,我們認(rèn)為這四項(xiàng)趨勢(shì)可能會(huì)放大危險(xiǎn)性。我們相信這些趨勢(shì)共同說(shuō)明了研究意外的必要性。

論文的其余部分我們將專注在 RL 代理和監(jiān)督學(xué)習(xí)系統(tǒng)中的具體問(wèn)題。這不是 AI 或 ML 系統(tǒng)唯一的范式,但是我們相信它們足夠說(shuō)明問(wèn)題,類似的問(wèn)題也會(huì)在其他類型的 AI 系統(tǒng)中出現(xiàn)。

最后,我們每一部分的討論重點(diǎn)會(huì)有所不同。當(dāng)討論學(xué)習(xí)過(guò)程(分配轉(zhuǎn)變和安全探索)中出現(xiàn)的問(wèn)題時(shí),過(guò)往研究有大量的文獻(xiàn),我們將很多精力放在回顧過(guò)往研究上,雖然我們還建議開(kāi)放特別關(guān)于新興 ML 系統(tǒng)的問(wèn)題。當(dāng)討論錯(cuò)誤目標(biāo)函數(shù)所帶來(lái)的問(wèn)題時(shí),過(guò)往研究較少,我們的目標(biāo)是更多探索——我們想更明確地定義問(wèn)題,并建議可能的解決方法,不過(guò)這些方法還是為發(fā)展成熟的初期概念。

3、避免不良副作用

假設(shè)設(shè)計(jì)者希望一個(gè) RL 代理(例如我們的清潔機(jī)器人)實(shí)現(xiàn)某些目標(biāo),例如將一個(gè)盒子從房間的一頭搬到另一頭。有時(shí)候最高效的辦法會(huì)涉及做一些無(wú)關(guān)的事情,并對(duì)環(huán)境有不良影響,例如打翻路線中的花瓶或者杯子。如果代理的獎(jiǎng)勵(lì)只與搬運(yùn)箱子有關(guān),那它就會(huì)去打翻花瓶。

如果我們事先考慮到花瓶,我們可以在代理打翻花瓶時(shí)給它負(fù)激勵(lì)。但是,如果環(huán)境中有很多種不同的“花瓶”——很多種代理可能對(duì)環(huán)境造成的干擾——我們可能沒(méi)法將所有可能的情況一一列舉并規(guī)定出懲罰。

更普遍來(lái)說(shuō),要讓代理在一個(gè)大的、多層面的環(huán)境中進(jìn)行操作,如果目標(biāo)函數(shù)只關(guān)注環(huán)境的一方面,可能向代理潛在表示了設(shè)計(jì)者不關(guān)注環(huán)境的其他方面。換句話說(shuō),將“進(jìn)行 X 任務(wù)”形式化的目標(biāo)函數(shù)可能經(jīng)常帶來(lái)不符合初衷的結(jié)果,因?yàn)樵O(shè)計(jì)者本應(yīng)將目標(biāo)描述為“進(jìn)行 X 任務(wù),同時(shí)在常識(shí)的限制內(nèi)行動(dòng)”,或者“進(jìn)行 X 任務(wù),但是盡可能避免副作用”。而且,我們有理由相信通常副作用都是負(fù)面的,因?yàn)樗麄兛赡軙?huì)改變現(xiàn)狀,而現(xiàn)狀可能反應(yīng)了人類的偏好。

對(duì)于其他在后文討論的錯(cuò)誤描述的目標(biāo)函數(shù),我們可以選擇將副作用視為每個(gè)人在進(jìn)行任務(wù)時(shí)的個(gè)人風(fēng)格——作為每一個(gè)個(gè)人設(shè)計(jì)者在設(shè)計(jì)正確的目標(biāo)函數(shù)中承擔(dān)的責(zé)任。然而,副作用即便在高度多元的任務(wù)中都可能在概念上非常相近,所以,從普遍層面來(lái)解決問(wèn)題是有價(jià)值的。成功的方法應(yīng)該可以在不同任務(wù)之間通用,這樣可以幫助抵消其中一個(gè)會(huì)帶來(lái)錯(cuò)誤目標(biāo)函數(shù)的總體機(jī)制。我們現(xiàn)在討論幾個(gè)解決問(wèn)題的總體方法:

定義影響常規(guī)化機(jī)制:

如果我們不希望出現(xiàn)副作用,我們自然可以懲罰“對(duì)環(huán)境的改變”。這個(gè)辦法不會(huì)讓代理完全無(wú)法行動(dòng),而是給予其一種偏好,在完成目標(biāo)的過(guò)程中將影響最小化,或者給代理有限的影響“預(yù)算”。困難之處是我們需要將“對(duì)環(huán)境的改變”形式化。

一種天真的方法是懲罰目前狀態(tài) si 和初始狀態(tài) s0 之間的狀態(tài)距離 d (si,s0)??上У氖?,這樣的代理沒(méi)法只避免改變環(huán)境——它會(huì)抗拒任何改變,包括環(huán)境正常的進(jìn)化以及其他代理的任何行動(dòng)。

一種稍復(fù)雜一些的方法可能需要在代理比較目前的策略下的未來(lái)狀態(tài),以及一個(gè)假設(shè)策略 πnull 下的未來(lái)狀態(tài)(或者未來(lái)狀態(tài)的分布),在假設(shè)策略中代理行為非常被動(dòng)(例如,代理站著不動(dòng),不使用任何促動(dòng)器)。這會(huì)分離出環(huán)境在自然進(jìn)化中出現(xiàn)的改變,只留下由于代理干預(yù)而發(fā)生的變化。然而,我們不一定能簡(jiǎn)單明了地定義基準(zhǔn)策略 πnull ,因?yàn)橥蝗煌V剐袆?dòng)本身就會(huì)對(duì)環(huán)境造成影響,例如正在搬運(yùn)箱子的過(guò)程中。因此,另一種方法可以代替無(wú)效行為,使用一種安全(副作用低)但是次優(yōu)的)已知策略,然后努力提高策略,與可達(dá)性分析或者穩(wěn)健策略提升類似。

這些方法可能對(duì)狀態(tài)的表征和用來(lái)計(jì)算距離的度量非常敏感。例如,表征的選擇和距離度量可以決定一個(gè)轉(zhuǎn)動(dòng)的風(fēng)扇是否是一個(gè)環(huán)境常量,還是一個(gè)一直變化的量。

學(xué)習(xí)影響常規(guī)化機(jī)制:

我們可以選擇一種更靈活的方法,通過(guò)在許多任務(wù)上訓(xùn)練來(lái)習(xí)得(而非定義)一個(gè)普遍的影響常規(guī)化機(jī)制。這會(huì)是一種遷移學(xué)習(xí)的例子。當(dāng)然,我們可以直接在任務(wù)中應(yīng)用遷移學(xué)習(xí)而不擔(dān)心副作用,但是關(guān)鍵是,不同任務(wù)中副作用比主要目標(biāo)更加相似。例如,畫畫機(jī)器人、清潔機(jī)器人甚至更加不同的工廠控制機(jī)器人可能都想避免打翻東西。通過(guò)用不同參數(shù)訓(xùn)練、從任務(wù)中分離出副作用部分,可以在合理保留某個(gè)部分的時(shí)候極大加速轉(zhuǎn)移學(xué)習(xí)。這與基于模型的 RL 方法相似,轉(zhuǎn)移一個(gè)習(xí)得的動(dòng)態(tài)模型而非價(jià)值函數(shù),新奇之處是分離副作用而非狀態(tài)動(dòng)態(tài)來(lái)作為遷移部件。一個(gè)附加優(yōu)勢(shì)是,在一個(gè)任務(wù)中已知或者已證明帶來(lái)安全行為的常規(guī)化機(jī)制,在別的任務(wù)中更容易被視作安全。

懲罰改變:

除了不要進(jìn)行有副作用的行為,我們還希望代理不要進(jìn)入容易產(chǎn)生副作用的區(qū)域,即便是那樣更加方便。例如,我們希望清潔機(jī)器人不要講水桶帶入到處都是敏感電器的房間,即便是它不打算在房間內(nèi)用水。

有幾個(gè)信息理論度量來(lái)測(cè)量代理對(duì)環(huán)境的潛在影響,經(jīng)常用作內(nèi)在獎(jiǎng)勵(lì)。也許最著名的此類度量是授權(quán),將代理的潛在未來(lái)行為與潛在未來(lái)狀態(tài)(或者代理行為與環(huán)境之間渠道的香農(nóng)容量)之間的最大可能的信息。授權(quán)作為一種內(nèi)在獎(jiǎng)勵(lì)的來(lái)源,經(jīng)常是最大化、而非最小化。這會(huì)導(dǎo)致代理在沒(méi)有任何外界回報(bào)的情況下出現(xiàn)有趣的行為,例如避免走路、或者撿起鑰匙??傮w來(lái)說(shuō),最大化授權(quán)的代理讓自己位于對(duì)環(huán)境有很大影響的位置上。例如,關(guān)在一個(gè)小房間內(nèi)出不來(lái)的代理有很低的授權(quán),而持有鑰匙的代理會(huì)具有更高的授權(quán),因?yàn)橹灰獛讉€(gè)時(shí)間步就能走入外界帶來(lái)影響。在目前的情境下,為了減少潛在的影響我們要懲罰(最小化)授權(quán),作為常規(guī)化的條款。

這個(gè)辦法行不通,因?yàn)槭跈?quán)測(cè)量對(duì)環(huán)境控制的精度,多于對(duì)環(huán)境的總體影響。舉個(gè)例子,如果有一個(gè)代理可以通過(guò)按鈕來(lái)切斷全國(guó)人民家中的電源,雖然這會(huì)造成很大的影響,這只算做一比特授權(quán),由于行為空間只有一比特,它與空間的共有信息最多一比特。與之相反,如果環(huán)境中有人正在記錄代理的行為,這雖然沒(méi)有什么影響,也算是一種最大化授權(quán)。而且,單純懲罰授權(quán)還會(huì)造成相反的動(dòng)機(jī),例如打破花瓶,這樣在未來(lái)就沒(méi)有可能打破花瓶了。

即便是有這些問(wèn)題,授權(quán)的例子還是體現(xiàn)了一個(gè)概念,即簡(jiǎn)單測(cè)量(即便是純粹信息理論的測(cè)量)可以體現(xiàn)對(duì)環(huán)境的影響。探索那些能夠精確體現(xiàn)避免影響這一概念的授權(quán)懲罰的變量,是未來(lái)研究的一個(gè)潛在挑戰(zhàn)。

  • 多代理方法:

避免副作用可以視為我們真正目的的替身:避免負(fù)面的外界影響。我們想要理解所有其他代理(包括人類),并確保我們的行為不損害他們的利益。

有一種方法是協(xié)同反向強(qiáng)化學(xué)習(xí),其中一個(gè)代理和一個(gè)人類一起合作,共同實(shí)現(xiàn)人類的目標(biāo)。當(dāng)我們想確認(rèn)當(dāng)代理出現(xiàn)不良行為時(shí),代理不會(huì)阻止人類將其關(guān)閉,此時(shí)就可以應(yīng)用這種概念。但是,我們還沒(méi)有一個(gè)實(shí)用的系統(tǒng),可以打造足夠強(qiáng)大的模型來(lái)從總體上避免不良副作用。

另一個(gè)概念是“獎(jiǎng)勵(lì)的自動(dòng)編碼器”,鼓勵(lì)一種“目標(biāo)透明性”,外部觀察者可以很容易推斷出代理要做的是什么。特別是代理的行為會(huì)解讀為一種獎(jiǎng)勵(lì)功能的編碼,我們可以應(yīng)用標(biāo)準(zhǔn)的自動(dòng)編碼技術(shù)來(lái)確保這可以精確解碼。

有很多副作用的行為可能會(huì)更難根據(jù)他們的原始目標(biāo)來(lái)解碼,創(chuàng)造出一種懲罰副作用的潛在常規(guī)化機(jī)制。

  • 獎(jiǎng)勵(lì)不確定性:

我們希望避免未預(yù)見(jiàn)的副作用,因?yàn)榄h(huán)境對(duì)于我們的偏好來(lái)說(shuō)已經(jīng)挺好了——一個(gè)隨機(jī)改變更可能是壞的改變,而非好的。這與給代理單一的獎(jiǎng)勵(lì)功能不同,代理可能不確定獎(jiǎng)勵(lì)功能,預(yù)先有一個(gè)反映出隨機(jī)變化更可能是壞的概率分布。這會(huì)激勵(lì)代理避免對(duì)環(huán)境有很大的影響。找一種針對(duì)副作用的好辦法還不如進(jìn)行大量的測(cè)試,或者系統(tǒng)設(shè)計(jì)者考慮得更仔細(xì)。但是,這些方法可以抵消一些能預(yù)計(jì)到的副作用,副作用傾向于在復(fù)雜環(huán)境中擴(kuò)散。

下面,我們討論一些非常簡(jiǎn)單的實(shí)驗(yàn),可以作為研究這個(gè)問(wèn)題的起點(diǎn)。

潛在實(shí)驗(yàn):

一個(gè)可能的實(shí)驗(yàn)是創(chuàng)造一個(gè)玩具環(huán)境,帶有一個(gè)簡(jiǎn)單目標(biāo)(例如移動(dòng)一個(gè)積木)和非常多的困難(例如很多花瓶),并測(cè)試代理能否學(xué)會(huì)避開(kāi)這些障礙,即便是沒(méi)有明確告訴它得避開(kāi)。為確保我們沒(méi)有過(guò)度調(diào)整,我們可能需要在每個(gè)時(shí)段加入不同的隨機(jī)障礙,同時(shí)保持同一個(gè)目標(biāo),看看常規(guī)化的代理能否學(xué)會(huì)系統(tǒng)性地避開(kāi)這些障礙。一些環(huán)境包括熔巖流、房間和鑰匙,可能很適合這類實(shí)驗(yàn)。如果我們能在玩具環(huán)境中成功將代理常規(guī)化,下一步可能就是移動(dòng)到真實(shí)環(huán)境,會(huì)有更高的復(fù)雜度和更多種類的不良副作用。最終,我們希望副作用常規(guī)化機(jī)制(或者多代理策略)能成功遷移至新應(yīng)用上。

4、避免獎(jiǎng)勵(lì)的黑客行為

我們來(lái)設(shè)想一下,一個(gè)代理在其獎(jiǎng)勵(lì)函數(shù)中發(fā)現(xiàn)了一個(gè)緩存溢出:它可以利用這一點(diǎn),以違背設(shè)計(jì)者初衷的方式獲得極高的獎(jiǎng)勵(lì)。從代理的角度來(lái)看這并不是一個(gè)漏洞,只是環(huán)境的運(yùn)作機(jī)制而已,因此與其他能獲得獎(jiǎng)勵(lì)的策略一樣,是一項(xiàng)有效策略。例如,如果我們給清潔機(jī)器人設(shè)定的獎(jiǎng)勵(lì)機(jī)制是,看不見(jiàn)任何雜物時(shí)可以獲得獎(jiǎng)勵(lì),它可能會(huì)直接閉上眼睛,而不是去整理雜物?;蛘?,機(jī)器人可能會(huì)故意創(chuàng)造雜物,這樣它能獲得更多的工作和獎(jiǎng)勵(lì)。更普遍地來(lái)說(shuō),形式獎(jiǎng)勵(lì)或者目標(biāo)函數(shù)是為了體現(xiàn)設(shè)計(jì)者非形式化的目的,但是有時(shí)候這些目標(biāo)函數(shù)或者其實(shí)施過(guò)程可以被一些方法“鉆空子”,這些方法在形式上看來(lái)沒(méi)什么問(wèn)題,但是不符合設(shè)計(jì)者的初衷。沉迷這種“鉆空子”行為可以帶來(lái)連貫的、但是預(yù)計(jì)之外的行為,有可能在真實(shí)世界系統(tǒng)中帶來(lái)有害影響。例如,遺傳算法已被證明經(jīng)常輸出意料之外的正確解決方案,例如一個(gè)記錄時(shí)間的電路變成了一個(gè)收音機(jī),收到了附近一臺(tái) PC 的 RF 信號(hào)。

已有人從理論角度進(jìn)行了研究了一些版本的獎(jiǎng)勵(lì)中的黑客行為,重點(diǎn)在一些可以在模型環(huán)境中出現(xiàn)黑客行為的強(qiáng)化學(xué)習(xí)的變種。該問(wèn)題的一種形式在機(jī)器學(xué)習(xí)系統(tǒng)(尤其是廣告投放)的反饋回路情境下,已有過(guò)基于虛擬學(xué)習(xí)和語(yǔ)境強(qiáng)盜的研究。獎(jiǎng)勵(lì)的黑客行為在如此眾多領(lǐng)域內(nèi)擴(kuò)散,說(shuō)明這是一個(gè)普遍問(wèn)題,我們相信隨著代理和環(huán)境變得越來(lái)越復(fù)雜,這個(gè)問(wèn)題也會(huì)越來(lái)越普遍。這個(gè)問(wèn)題可能通過(guò)幾個(gè)方式出現(xiàn):

  • 部分觀察的目標(biāo):

在大部分現(xiàn)代 RL 系統(tǒng)中,獎(jiǎng)勵(lì)默認(rèn)為直接體驗(yàn)的,即便是環(huán)境的其他方面只能部分觀察到。然而在真實(shí)世界,任務(wù)經(jīng)常需要將外部世界帶入一些目標(biāo)狀態(tài),其中代理只能通過(guò)不完美的感官來(lái)確認(rèn)。例如,對(duì)于我們的清潔機(jī)器人來(lái)說(shuō),任務(wù)是實(shí)現(xiàn)一個(gè)干凈的辦公室,但是機(jī)器人的視覺(jué)感官可能只能提供辦公室不完美部分的畫面。因?yàn)榇頉](méi)有對(duì)于任務(wù)表現(xiàn)的完美測(cè)量,設(shè)計(jì)者經(jīng)常得設(shè)計(jì)獎(jiǎng)勵(lì)系統(tǒng),獎(jiǎng)勵(lì)代表了部分的或者不完美的測(cè)量。例如,機(jī)器人的獎(jiǎng)勵(lì)可能基于它看到多少雜物。但是,這些不完美的目標(biāo)函數(shù)可能被鉆空子——機(jī)器人可以直接閉上眼,就覺(jué)得辦公室干凈了。雖然可以證明總是存在基于行動(dòng)和觀察的獎(jiǎng)勵(lì),等同于將真正的目標(biāo)函數(shù)最優(yōu)化(這需要將 POMPD 分解為一個(gè)信念狀態(tài) MDP),但是,這種獎(jiǎng)勵(lì)功能經(jīng)常需要復(fù)雜的長(zhǎng)期依存性,并且太困難,在實(shí)踐中沒(méi)法使用。

  • 復(fù)雜系統(tǒng):

任何強(qiáng)大的代理都將是一個(gè)復(fù)雜系統(tǒng),其中目標(biāo)函數(shù)只是一個(gè)部分。就像在計(jì)算機(jī)代碼中,程序復(fù)雜度越高、漏洞就越多,獎(jiǎng)勵(lì)系統(tǒng)中,代理及其可用的策略越復(fù)雜、可以鉆的空子也越多。例如原則上,代理可以從超級(jí)馬里奧中執(zhí)行任意代碼。

  • 抽象獎(jiǎng)勵(lì):

復(fù)雜獎(jiǎng)勵(lì)還需要參考抽象概念(例如評(píng)估一個(gè)概念目標(biāo)是否實(shí)現(xiàn)了)。這些概念可能會(huì)需要通過(guò)類似神經(jīng)網(wǎng)絡(luò)的模型習(xí)得,可能會(huì)受到對(duì)抗反例的影響。更普遍地來(lái)說(shuō),通過(guò)高維度空間習(xí)得的獎(jiǎng)勵(lì)功能可能會(huì)被鉆空子,如果它在至少一個(gè)維度上具有極高的值。

  • 古德哈特定律:

如果設(shè)計(jì)者選擇了一種看起來(lái)與實(shí)現(xiàn)任務(wù)高度相關(guān)的獎(jiǎng)勵(lì)功能,獎(jiǎng)勵(lì)功能就會(huì)有另一種空子可鉆,但是當(dāng)目標(biāo)函數(shù)強(qiáng)力優(yōu)化時(shí),那種相關(guān)性就會(huì)分解。例如,設(shè)計(jì)者可能會(huì)發(fā)現(xiàn),在平常情況下,清潔機(jī)器人的成功率與其消耗漂白劑等清潔用品的頻率成正比。但是,如果我們使用這種方式來(lái)測(cè)量機(jī)器人的獎(jiǎng)勵(lì),它可能會(huì)故意使用更多的漂白劑。在經(jīng)濟(jì)學(xué)文獻(xiàn)中,這被稱為古德哈特定律:“當(dāng)測(cè)量方式被當(dāng)做目標(biāo)時(shí),就不再是好的測(cè)量方式了?!?/p>

  • 反饋回路:

有時(shí)候目標(biāo)函數(shù)有一個(gè)可以自我增強(qiáng)的組成部分,最終放大到足以破壞或者扭曲設(shè)計(jì)者期望目標(biāo)函數(shù)所表征的內(nèi)容。例如,一個(gè)廣告投放算法可能用更大的字體顯示人氣更旺的廣告,這類廣告可能會(huì)進(jìn)一步推廣這些廣告的人氣,形成一種積極反饋回路,暫時(shí)人氣爆發(fā)的廣告會(huì)上升至永久的主導(dǎo)地位。目標(biāo)函數(shù)最初的目標(biāo)(利用點(diǎn)擊來(lái)評(píng)估哪些廣告更加有用)被實(shí)施策略內(nèi)的積極反饋回路破壞了。這可以看做是古德哈特定律中的特例,相關(guān)性被破壞正是因?yàn)槟繕?biāo)函數(shù)有一個(gè)自我放大的組成部分。

  • 環(huán)境嵌入:

在強(qiáng)化學(xué)習(xí)的形式中,獎(jiǎng)勵(lì)被認(rèn)為是來(lái)源于環(huán)境。的確,即便獎(jiǎng)勵(lì)是一個(gè)抽象形式(例如棋類游戲中的分?jǐn)?shù)),也需要在某地進(jìn)行計(jì)算,例如一個(gè)傳感器或者一組晶體管。行動(dòng)足夠廣的代理原則上能夠篡改獎(jiǎng)勵(lì)的實(shí)施,自己給自己“頒發(fā)”高的獎(jiǎng)勵(lì)。例如,棋類游戲中的代理可以篡改計(jì)分的傳感器。這意味著我們沒(méi)法為一個(gè)抽象目標(biāo)函數(shù)打造一個(gè)完全忠誠(chéng)的執(zhí)行,因?yàn)槟繕?biāo)函數(shù)的物理替代中,行為有特定的順序。在人類可以包含獎(jiǎng)勵(lì)回路中的時(shí)候,這尤其讓人擔(dān)心,基于代理的動(dòng)機(jī)是強(qiáng)迫或傷害人類從而獲得獎(jiǎng)勵(lì)。這也是一種看起來(lái)很難避免的空子。

在如今相對(duì)簡(jiǎn)單的系統(tǒng)中,這些問(wèn)題可能還沒(méi)出現(xiàn),或者可以在造成很多危害之前,作為迭代開(kāi)發(fā)過(guò)程的一部分將其修正。例如,廣告投放系統(tǒng)的反饋回路如果有明顯破損的話,可以在測(cè)試中檢測(cè)到,或者可以在出現(xiàn)不良結(jié)果時(shí)被代替,只會(huì)造成暫時(shí)的收入損失。但是,隨著獎(jiǎng)勵(lì)功能越來(lái)越復(fù)雜、代理行動(dòng)的時(shí)間越來(lái)越長(zhǎng),問(wèn)題也會(huì)更加嚴(yán)重?,F(xiàn)代 RL 代理已經(jīng)能發(fā)現(xiàn)和利用環(huán)境中的漏洞,例如電子游戲中的小故障。而且,即便針對(duì)現(xiàn)有系統(tǒng),這些問(wèn)題會(huì)需要花費(fèi)額外的工程精力來(lái)實(shí)現(xiàn)好的性能表現(xiàn),并且在大的系統(tǒng)中經(jīng)常沒(méi)有被監(jiān)測(cè)到。最后,一旦代理“黑”進(jìn)了獎(jiǎng)勵(lì)系統(tǒng),找到了辦法獲得高額獎(jiǎng)勵(lì),它就不會(huì)停止,這對(duì)長(zhǎng)時(shí)間操作的代理來(lái)說(shuō)會(huì)產(chǎn)生額外問(wèn)題。

獎(jiǎng)勵(lì)中的黑客行為可能被認(rèn)為在個(gè)例之間沒(méi)有什么共同點(diǎn),而補(bǔ)救辦法就是在每一個(gè)個(gè)例中避免選擇錯(cuò)誤的目標(biāo)函數(shù)——那些錯(cuò)誤的目標(biāo)函數(shù)體現(xiàn)的是設(shè)計(jì)者能力的不足,而不是機(jī)器學(xué)習(xí)研究的不足。但是以上的例子顯示,我們應(yīng)該將錯(cuò)誤目標(biāo)函數(shù)看作由于一些總體原因(例如部分觀察的目標(biāo)),讓選擇正確目標(biāo)具有困難。如果真是這樣,那么解決或減輕這些問(wèn)題就對(duì)于安全問(wèn)題就很有價(jià)值。這里我們建議一些基本的基于機(jī)器學(xué)習(xí)的方法,來(lái)預(yù)防獎(jiǎng)勵(lì)中的黑客行為。

  • 對(duì)抗獎(jiǎng)勵(lì)功能:

從某些意義上來(lái)說(shuō),我們的問(wèn)題是 ML 系統(tǒng)與其獎(jiǎng)勵(lì)函數(shù)有一種對(duì)抗性關(guān)系——它會(huì)利用一切可以的方法來(lái)獲得高獎(jiǎng)勵(lì),無(wú)論是否符合設(shè)計(jì)者的初衷。在典型的設(shè)定中,機(jī)器學(xué)習(xí)系統(tǒng)是一個(gè)潛在能力很強(qiáng)的代理,而獎(jiǎng)勵(lì)函數(shù)是一個(gè)靜態(tài)目標(biāo),沒(méi)法對(duì)系統(tǒng)鉆空子的行為做出任何回應(yīng)。如果獎(jiǎng)勵(lì)函數(shù)是其代理本身,可以采取行動(dòng)來(lái)探索環(huán)境,它可能就更難被鉆空子。例如,獎(jiǎng)勵(lì)代理可以試圖尋找這樣的一種情況:當(dāng) ML 系統(tǒng)認(rèn)為獎(jiǎng)勵(lì)很高,而人類標(biāo)記為低獎(jiǎng)勵(lì)的時(shí)候;這與生成式對(duì)抗網(wǎng)絡(luò)相似。當(dāng)然,我們必須確保獎(jiǎng)勵(lì)確認(rèn)代理比試圖獲得獎(jiǎng)勵(lì)的代理更強(qiáng)(從某些微妙的意義上來(lái)說(shuō))。更普遍地來(lái)說(shuō),也可能有一些有趣的設(shè)定中,系統(tǒng)有多個(gè)以非端到端方式訓(xùn)練的代理,可以用來(lái)互相監(jiān)督。

  • 模型先行:

在基于 RL 的模型中,代理使用一個(gè)模型來(lái)計(jì)劃其未來(lái)行動(dòng),考慮一系列行動(dòng)可能帶來(lái)什么樣的未來(lái)狀態(tài)。在一些設(shè)定中,我們可以基于預(yù)期未來(lái)狀態(tài)、而非目前狀態(tài)而給出獎(jiǎng)勵(lì)。這可以幫助預(yù)防模型將其獎(jiǎng)勵(lì)函數(shù)重寫:一旦它代替了獎(jiǎng)勵(lì)函數(shù),你就沒(méi)法控制獎(jiǎng)勵(lì)。

  • 對(duì)抗性致盲

對(duì)抗性技術(shù)可以用來(lái)讓模型看不見(jiàn)某些特定變量。這項(xiàng)技術(shù)可以用來(lái)讓代理無(wú)法理解環(huán)境的某些部分,或者甚至與環(huán)境有共享信息(或者至少懲罰這種共享信息)。特別是,它可以防止代理理解獎(jiǎng)勵(lì)如何生成,使其很難鉆空子。這種辦法可以被稱為“代理的交叉確認(rèn)”。

  • 謹(jǐn)慎工程:

謹(jǐn)慎的工程可以避免一些獎(jiǎng)勵(lì)中的黑客行為,例如緩存溢出的例子。特別是系統(tǒng)部分的形式確認(rèn)或者實(shí)踐測(cè)試(也許在其他機(jī)器學(xué)習(xí)系統(tǒng)的幫助之下)可能很有用。還可以考慮一種的計(jì)算機(jī)安全方法,通過(guò)沙箱將代理與其獎(jiǎng)勵(lì)信號(hào)分離開(kāi)。對(duì)于軟件工程,我們沒(méi)法期望這能抓住每一個(gè)可能的漏洞。但是,這可能創(chuàng)造一些高度可靠的“核心”代理,可以確保其他代理的合理行為。

  • 獎(jiǎng)勵(lì)上限:

在一些情況下,給最高獎(jiǎng)勵(lì)設(shè)置一個(gè)上限可能是一個(gè)好辦法。但是,雖然上限可以預(yù)防概率極低、回報(bào)極高的策略,它沒(méi)法預(yù)防清潔機(jī)器人“眼不見(jiàn)為凈”。另外,正確的上限策略可能很微妙,因?yàn)槲覀冃枰獙?duì)總體獎(jiǎng)勵(lì)設(shè)置上限,而非對(duì)每一個(gè)時(shí)間步。

  • 反例抵抗:

如果我們擔(dān)心系統(tǒng)中習(xí)得的部分會(huì)受到對(duì)抗性反例的影響,我們可以看看如何抵抗它們的現(xiàn)有研究,例如對(duì)抗性訓(xùn)練。架構(gòu)決策和權(quán)重不確定性也有幫助。當(dāng)然,對(duì)抗性反例只是獎(jiǎng)勵(lì)中黑客行為的一種表現(xiàn),因此反例抵抗只能解決一部分的潛在問(wèn)題。

  • 多種獎(jiǎng)勵(lì):

多種獎(jiǎng)勵(lì)的結(jié)合可能更強(qiáng)、更難鉆空子。這可能是因?yàn)橥粋€(gè)數(shù)學(xué)函數(shù)不同的物理執(zhí)行、或者同一個(gè)形式化目標(biāo)不同的代理服務(wù)器。我們可以通過(guò)平均、取最小值、取分位數(shù)或者其他值來(lái)結(jié)合獎(jiǎng)勵(lì)函數(shù)。當(dāng)然,還是會(huì)有不良行為通過(guò)一種關(guān)聯(lián)性的方式影響所有獎(jiǎng)勵(lì)函數(shù)。

  • 獎(jiǎng)勵(lì)預(yù)訓(xùn)練:

針對(duì)代理可以影響自己獎(jiǎng)勵(lì)功能的情況(例如反饋或環(huán)境嵌入),一種可能的防御措施是提前訓(xùn)練一個(gè)固定獎(jiǎng)勵(lì)函數(shù),作為從與環(huán)境互動(dòng)中分離出來(lái)的監(jiān)督學(xué)習(xí)過(guò)程。這可能包括從狀態(tài)-獎(jiǎng)勵(lì)配對(duì)的樣本中、或者在反向強(qiáng)化學(xué)習(xí)中從路徑中學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)。但是,這放棄了在預(yù)訓(xùn)練完成后進(jìn)一步學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的能力,可能造成別的隱患。

  • 變量無(wú)差異:

我們經(jīng)常希望代理能優(yōu)化環(huán)境中的特定變量、同時(shí)不優(yōu)化其他變量。例如,我們希望代理最大化獎(jiǎng)勵(lì),而不優(yōu)化代理函數(shù)、也不試圖操控人類行為。我們憑直覺(jué)想到一種方式,讓強(qiáng)大算法的優(yōu)化壓力繞過(guò)其環(huán)境。如果能真正解決這個(gè)問(wèn)題,就會(huì)有安全問(wèn)題的各種應(yīng)用——它與避免副作用和反事實(shí)推理有關(guān)。當(dāng)然,這里的一項(xiàng)挑戰(zhàn)是,確保為無(wú)差別而選的變量真的是我們?cè)诂F(xiàn)實(shí)中關(guān)注的變量,而非它們化名的或者部分觀察到的版本。

  • 警戒線:

如果代理真的試圖“黑”掉自己的獎(jiǎng)勵(lì)函數(shù),我們還是能知悉才好。我們可以特意引入一些行得通的隱患(代理有能力鉆這些空子,但是如果其值函數(shù)正確的話就應(yīng)該不去利用這些空子),并監(jiān)控這些隱患,如果代理試圖鉆空子的話可以提醒我們并即刻阻止代理。這樣的“警戒線”不解決黑客行為本身,但是可以減少風(fēng)險(xiǎn),至少提供了診斷。當(dāng)然,足夠強(qiáng)大的代理有風(fēng)險(xiǎn)“看透”警戒線,特意繞過(guò)警戒線并進(jìn)行不那么明顯的有害行為。

完全解決這個(gè)問(wèn)題看起來(lái)很難,但是我們相信以上的方法有能力緩解這些問(wèn)題,并可能擴(kuò)展或結(jié)合起來(lái),帶來(lái)更強(qiáng)的解決辦法?;谶@個(gè)問(wèn)題目前的高關(guān)注度,設(shè)計(jì)實(shí)驗(yàn)來(lái)引發(fā)問(wèn)題、并測(cè)試解決辦法可以提升這個(gè)話題的相關(guān)性和明確度。

潛在實(shí)驗(yàn):

一種很有潛能的方法是“妄想箱”環(huán)境的現(xiàn)實(shí)版本,其中一個(gè)標(biāo)準(zhǔn) RL 代理扭曲自己的感官?gòu)亩雌饋?lái)獲得更高的獎(jiǎng)勵(lì),而非根據(jù)獎(jiǎng)勵(lì)信號(hào)本來(lái)鼓勵(lì)的那樣去優(yōu)化外界的目標(biāo)。妄想箱很容易附加到任何 RL 環(huán)境中,但是更有價(jià)值的是創(chuàng)建一種環(huán)境,其中妄想箱是動(dòng)態(tài)中的一個(gè)自然組成部分。例如,在足夠豐富的物理環(huán)境中,代理可能改變其周圍的光波來(lái)扭曲自己的感官。目標(biāo)是開(kāi)發(fā)一種普遍學(xué)習(xí)策略,可以成功優(yōu)化各種環(huán)境中的外部目標(biāo),同時(shí)避免以各種方式出現(xiàn)的妄想箱捉弄我們。

via OpenAI

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準(zhǔn)則,取代機(jī)器人三定律預(yù)防科技暴走(上)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)