丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
國際 正文
發(fā)私信給AI科技評論
發(fā)送

1

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準則,取代機器人三定律預防科技暴走(上)

本文作者: AI科技評論 2016-06-28 09:23
導語:科幻的機器人三定律和空洞的AI威脅論都聽厭了?看看哪些具體的工程設(shè)計方法,可以預防AI暴走。

今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機器人峰會”,屆時雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。
如果你也想加入我們的榜單之中,請聯(lián)系:2020@leiphone.com。

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準則,取代機器人三定律預防科技暴走(上)

擔心 AI “副作用”的馬斯克創(chuàng)立了非盈利機構(gòu)OpenAI,最近 OpenAI 安全性與技術(shù)巨頭谷歌共同提出了五條 AI 安全的具體準則。圖片來源:TC。

最近,谷歌和OpenAI的博客宣布了一條由谷歌、OpenAI、伯克利和斯坦福的學者共同進行的研究,其目的旨在為AI提供一個有效的行為約束,以使其不會在有意或無意中做出危害人類的事情。

人們對AI技術(shù)的擔心可以追溯到“AI”這個名詞誕生之前。1950年著名科幻作家阿西莫夫的《我,機器人》出版,在書中阿西莫夫提出了舉世聞名的機器人三定律:第一定律:機器人不得傷害人類,或坐視人類受到傷害;第二定律:機器人必須服從人類的命令,除非與第一定律沖突;第三定律:在不違背第一定律和第二定律的情況下,機器人必須保護自己。雖然阿西莫夫的作品預言了科技發(fā)展的趨勢,但是機器人三定律畢竟只屬于文學。

如今,AI 技術(shù)已經(jīng)深入影響我們的生活,霍金和馬斯克等科技界名人也預警了 AI 可能造成的危害,不過,寬泛空洞的 AI 威脅論也許并不能帶來實質(zhì)性的幫助。非盈利研究機構(gòu) OpenAI 正是在馬斯克等人的推動下建立,宗旨是讓人工智能為人類發(fā)揮積極的作用。之前 AI 科技巨頭谷歌就發(fā)布過一篇論文,設(shè)計了一個用于緊急停止算法運行的開關(guān),并且確保開關(guān)的效果不會被算法阻止,這個開關(guān)屬于事后防范的應(yīng)急措施(點擊鏈接,查看雷鋒網(wǎng)編譯分享的論文全文)。此次,OpenAI 與谷歌等學者共同為AI系統(tǒng)設(shè)計劃出了五條準則,討論哪些具體的工程設(shè)計方法可以預防 AI“暴走”對人類帶來危害,與缺乏可操作性的機器人三定律相比更加實用。在此,我們?yōu)榇蠹曳窒砻麨椤禔I 安全中的具體問題》論文全文(上篇)。

概況

機器學習和人工智能(AI)領(lǐng)域中的快速進展讓人們越來越關(guān)注 AI 技術(shù)對社會的潛在影響。這篇論文中,我們討論其中一個潛在影響:機器學習系統(tǒng)中的“意外”問題,定義為可能從真實世界 AI 系統(tǒng)的不良設(shè)計中而來的、不符合設(shè)計者初衷的有害行為。我們呈現(xiàn)五項與意外風險有關(guān)的實踐研究問題,問題分類是基于它們是否源于錯誤的目標函數(shù)(“避免副作用”和“避免獎勵的黑客行為“)、是否其基于的目標太過昂貴以至于無法經(jīng)常評估(”可擴展的監(jiān)督“)、或者是否在學習過程中出現(xiàn)不良行為(“安全探索”和“分配轉(zhuǎn)變”)。我們回顧這些領(lǐng)域的過往研究,并建議未來的研究方向,重點在與尖端 AI 系統(tǒng)的相關(guān)性。最后我們考慮一個高等級的問題,如何最有成效地思考 AI 前瞻性應(yīng)用的安全問題。

1. 簡介

最近幾年,我們見證了機器學習和人工智能(AI)中最頑固、困難的一些問題出現(xiàn)了快速進展,包括在計算機視覺、電子游戲、自動駕駛和圍棋等廣泛領(lǐng)域。這讓我們很激動地看到 AI 有潛力帶來積極影響,能夠改變醫(yī)學、科學和交通等領(lǐng)域,同時,這也讓我們對于自動系統(tǒng)在隱私、安全、公平、經(jīng)濟和軍事方面的影響感到了擔憂,并且擔心強大 AI 的長期影響。

本文的作者們相信,AI 科技可能對于人類來說非常有益,但是我們也相信,有必要對潛在的挑戰(zhàn)和風險給予嚴肅思考。我們積極支持隱私、安全、公平、經(jīng)濟和政策方面的研究,但是在這篇論文中我們討論另一個類別的問題,我們相信對于 AI 的社會影響也有關(guān):機器學習系統(tǒng)中意外的問題。我們將意外定義為:如果我們定義錯誤的目標函數(shù)、在學習過程中不夠小心或者犯下其他機器學習相關(guān)的執(zhí)行錯誤時,機器學習系統(tǒng)中出現(xiàn)的不符合設(shè)計者初衷的有害行為。

在機器學習學術(shù)圈有許多關(guān)于意外問題的各種文獻,包括關(guān)于強度、風險敏感性和安全探索,我們以下會回顧這些文獻。然而,隨著機器學習系統(tǒng)應(yīng)用在越來越大型、自動化和開放的領(lǐng)域中,我們需要反思類似方法的可擴展性,以及要減少現(xiàn)代機器學習系統(tǒng)中的意外風險,還有哪些挑戰(zhàn)??傮w來說,我們相信預防機器學習系統(tǒng)中的意外,有許多相關(guān)的具體、開放的技術(shù)問題。

圍繞意外話題已有許多公共討論。目前,很多此類討論圍繞極端情景,例如在超智能代理(Agent)中出現(xiàn)錯誤目標函數(shù)的風險。然而,我們認為有成效地討論意外問題不需要渲染這些極端情景,實際上這只會帶來沒必要的推測性討論,正如一些批評者所說的那樣,缺少精確度。我們相信,最有成效的做法是從現(xiàn)代機器學習技術(shù)的實際問題(雖然經(jīng)常比較籠統(tǒng))來描述意外風險。隨著 AI 能力進步以及 AI 系統(tǒng)承擔越來越重要的社會功能,我們期望這篇論文中討論的基本挑戰(zhàn)也變得越來越重要。AI 和機器學習圈中的人對這類基本技術(shù)挑戰(zhàn)的預期和理解越是成功,我們最終開發(fā)的 AI 系統(tǒng)就越是有用、相關(guān)和重要。

我們在這篇論文中的目標是重點呈現(xiàn)以下這些具體的安全問題,并且回顧關(guān)于這些問題的現(xiàn)有文獻,這些問題現(xiàn)在就已經(jīng)可以進行實驗、并且與尖端的 AI 系統(tǒng)相關(guān)。在第2部分,我們就機器學習中的經(jīng)典方(例如監(jiān)督分類和強化學習)來描述如何減輕意外風險(在公眾討論中被稱作“AI 安全”)。我們會解釋,為何我們感覺機器學習最近的方向——例如深度強化學習、以及代理在更廣闊環(huán)境中的行動——讓關(guān)于意外的研究相關(guān)性越來越強。在第3-7部分,我們探索五個 AI 安全中的具體問題。每一個部分都包含相關(guān)實驗的提案。第8部分討論相關(guān)的研究,第9部分為結(jié)論。

2. 研究問題概況

廣義來說,意外可以描述為:當一個人類設(shè)計者構(gòu)想一個具體的目標或者任務(wù)(可能是非形式化的說明的),但是實際上設(shè)計和應(yīng)用的系統(tǒng)沒有完成那項任務(wù),并在完成中帶來了有害的結(jié)果。這項問題在幾乎任何工程領(lǐng)域都會出現(xiàn),但是可能在打造 AI 系統(tǒng)時尤為重要。我們可以根據(jù)過程中哪個部分出現(xiàn)了問題來分類安全問題。

首先,設(shè)計者可能描述了錯誤的形式化目標函數(shù),使得該目標的最大化導致了有害結(jié)果,即便是在完美學習和無線數(shù)據(jù)的限制下也是一樣。不良副作用(第3部分)和獎勵的黑客行為(第4部分)描述兩種普遍機制,讓人容易產(chǎn)生錯誤的目標函數(shù)。在“不良副作用”中,設(shè)計者描述的目標函數(shù)專注于在環(huán)境中完成某個具體任務(wù),但是忽視了(可能很大的)環(huán)境中的其他方面,因而相當于潛在表示了自己不關(guān)心其他一旦改變會帶來害處的環(huán)境變量。在“獎勵的黑客行為”中,設(shè)計者寫下的目標函數(shù)可能允許一些聰明的“簡單”方法,從形式上可以最大化獎勵,但是讓設(shè)計者的初衷變了味(例如,目標函數(shù)可以被“鉆空子”)。

第二,設(shè)計者可能知道正確的目標函數(shù),或者至少有方法來評估(例如在一個既定情況下明確咨詢?nèi)祟悾?,但是?jīng)常這樣操作成本會過于昂貴,因此有限的樣本帶來不良推斷,從而可能導致有害行為?!翱蓴U展的忽視”(第5部分)討論如何在即便對真正的目標函數(shù)接觸有限的情況下,也能確保安全行為的辦法。

第三,設(shè)計者可能描述了正確的形式化目標,這樣如果系統(tǒng)有完美的信念我們就會得到正確的行為,但是由于訓練數(shù)據(jù)不足、編輯不良或者模型沒有充分表達,以此為基礎(chǔ)的決策會導致不良結(jié)果?!鞍踩剿鳌保ǖ?部分)討論,如何確保強化學習(RL)代理的探索行為不會導致負面、或者不可彌補的結(jié)果,抵消探索的長期價值?!胺峙滢D(zhuǎn)變的魯棒性”(第7部分)討論當輸入與訓練輸入非常不同時,如何避免機器學習系統(tǒng)進行不良決策(尤其是無聲的、不可預測的不良決策)。

為了更加具體,我們會參考一個虛擬機器人來描述許多意外風險,這個機器人的任務(wù)是使用普通清潔工具來打掃辦公室。我們在論文中會回到清潔機器人的例子,但是在這里我們首先描述如果他的設(shè)計遇到以下幾種可能的失敗模式,會出現(xiàn)什么不良行為:

1、回避不良副作用:

我們?nèi)绾未_保清潔機器人不會在完成自己目標的過程中干擾環(huán)境,例如把花瓶打碎了可以清潔地快一點?我們能否避免手動說明所有機器人不該做的事?

2、避免獎勵的黑客行為

我們?nèi)绾未_保機器人不會在獎勵中鉆空子?例如,如果我們獎勵機器人的依據(jù)是環(huán)境中沒有任何雜物,機器人可能會讓自己的視覺功能失效,這樣它就不會發(fā)現(xiàn)任何雜物,或者用它不能透視的材料將雜物覆蓋起來,或者干脆在有人的時候躲起來,這樣人們就沒法告訴機器人有什么新的雜物出現(xiàn)了。

3、可擴展的忽視

如果訓練中的一些部分由于過于昂貴而沒法經(jīng)常經(jīng)常評估,我們?nèi)绾未_保機器人會尊重這些部分?舉個例子,機器人應(yīng)該扔掉不屬于任何人的物品,而把屬于某人的物品放在一邊。機器人可以問問人類是否丟了東西作為一個確認環(huán)節(jié),但是這個確認相對不太頻繁——機器人能否找到一種方式,即便信息有限也能做出正確的事呢?

4、安全探索

我們?nèi)绾未_保清潔機器人不會做出有負面影響的探索行動?例如,機器人可以試驗各種拖地策略,但是將濕布放在電器插座上就不太好。

5、分配轉(zhuǎn)變強度

我們?nèi)绾未_保清潔機器人在與其訓練環(huán)境不同的環(huán)境中,也能良好識別和行動?例如,它針對清潔工廠車間而學的啟發(fā)式方法,可能用在辦公室環(huán)境里就不安全。

有一些趨勢讓我們相信,解決這些(和其他)安全問題的需求越來越高。首先,強化學習(RL)讓我們看到越來越多的希望,它允許代理與環(huán)境有高度互動。我們一些研究問題只能在 RL 的情況下說得通,而其他(例如分配轉(zhuǎn)變和可擴展的監(jiān)管)在 RL 設(shè)定中有更高的復雜度。第二,更復雜的代理是目前的趨勢?!案弊饔谩备锌赡茉趶碗s環(huán)境中出現(xiàn),代理可能需要更復雜、更危險的辦法才能入侵獎勵功能。這也許能解釋為什么這些問題過去沒有進行過什么研究,同時也意味著它們在未來的重要性。第三, AI 系統(tǒng)中的自動化越來越高。僅僅為人類用戶輸出推薦的系統(tǒng),例如給照片自動寫標題的APP,通常沒有什么進行有害行為的潛力。然而,對世界具有直接控制的系統(tǒng),例如控制工業(yè)流程的系統(tǒng),可能會有人類不一定能預見或修復的危害。

雖然在這四項趨勢之外安全問題也可能存在,我們認為這四項趨勢可能會放大危險性。我們相信這些趨勢共同說明了研究意外的必要性。

論文的其余部分我們將專注在 RL 代理和監(jiān)督學習系統(tǒng)中的具體問題。這不是 AI 或 ML 系統(tǒng)唯一的范式,但是我們相信它們足夠說明問題,類似的問題也會在其他類型的 AI 系統(tǒng)中出現(xiàn)。

最后,我們每一部分的討論重點會有所不同。當討論學習過程(分配轉(zhuǎn)變和安全探索)中出現(xiàn)的問題時,過往研究有大量的文獻,我們將很多精力放在回顧過往研究上,雖然我們還建議開放特別關(guān)于新興 ML 系統(tǒng)的問題。當討論錯誤目標函數(shù)所帶來的問題時,過往研究較少,我們的目標是更多探索——我們想更明確地定義問題,并建議可能的解決方法,不過這些方法還是為發(fā)展成熟的初期概念。

3、避免不良副作用

假設(shè)設(shè)計者希望一個 RL 代理(例如我們的清潔機器人)實現(xiàn)某些目標,例如將一個盒子從房間的一頭搬到另一頭。有時候最高效的辦法會涉及做一些無關(guān)的事情,并對環(huán)境有不良影響,例如打翻路線中的花瓶或者杯子。如果代理的獎勵只與搬運箱子有關(guān),那它就會去打翻花瓶。

如果我們事先考慮到花瓶,我們可以在代理打翻花瓶時給它負激勵。但是,如果環(huán)境中有很多種不同的“花瓶”——很多種代理可能對環(huán)境造成的干擾——我們可能沒法將所有可能的情況一一列舉并規(guī)定出懲罰。

更普遍來說,要讓代理在一個大的、多層面的環(huán)境中進行操作,如果目標函數(shù)只關(guān)注環(huán)境的一方面,可能向代理潛在表示了設(shè)計者不關(guān)注環(huán)境的其他方面。換句話說,將“進行 X 任務(wù)”形式化的目標函數(shù)可能經(jīng)常帶來不符合初衷的結(jié)果,因為設(shè)計者本應(yīng)將目標描述為“進行 X 任務(wù),同時在常識的限制內(nèi)行動”,或者“進行 X 任務(wù),但是盡可能避免副作用”。而且,我們有理由相信通常副作用都是負面的,因為他們可能會改變現(xiàn)狀,而現(xiàn)狀可能反應(yīng)了人類的偏好。

對于其他在后文討論的錯誤描述的目標函數(shù),我們可以選擇將副作用視為每個人在進行任務(wù)時的個人風格——作為每一個個人設(shè)計者在設(shè)計正確的目標函數(shù)中承擔的責任。然而,副作用即便在高度多元的任務(wù)中都可能在概念上非常相近,所以,從普遍層面來解決問題是有價值的。成功的方法應(yīng)該可以在不同任務(wù)之間通用,這樣可以幫助抵消其中一個會帶來錯誤目標函數(shù)的總體機制。我們現(xiàn)在討論幾個解決問題的總體方法:

定義影響常規(guī)化機制:

如果我們不希望出現(xiàn)副作用,我們自然可以懲罰“對環(huán)境的改變”。這個辦法不會讓代理完全無法行動,而是給予其一種偏好,在完成目標的過程中將影響最小化,或者給代理有限的影響“預算”。困難之處是我們需要將“對環(huán)境的改變”形式化。

一種天真的方法是懲罰目前狀態(tài) si 和初始狀態(tài) s0 之間的狀態(tài)距離 d (si,s0)??上У氖?,這樣的代理沒法只避免改變環(huán)境——它會抗拒任何改變,包括環(huán)境正常的進化以及其他代理的任何行動。

一種稍復雜一些的方法可能需要在代理比較目前的策略下的未來狀態(tài),以及一個假設(shè)策略 πnull 下的未來狀態(tài)(或者未來狀態(tài)的分布),在假設(shè)策略中代理行為非常被動(例如,代理站著不動,不使用任何促動器)。這會分離出環(huán)境在自然進化中出現(xiàn)的改變,只留下由于代理干預而發(fā)生的變化。然而,我們不一定能簡單明了地定義基準策略 πnull ,因為突然停止行動本身就會對環(huán)境造成影響,例如正在搬運箱子的過程中。因此,另一種方法可以代替無效行為,使用一種安全(副作用低)但是次優(yōu)的)已知策略,然后努力提高策略,與可達性分析或者穩(wěn)健策略提升類似。

這些方法可能對狀態(tài)的表征和用來計算距離的度量非常敏感。例如,表征的選擇和距離度量可以決定一個轉(zhuǎn)動的風扇是否是一個環(huán)境常量,還是一個一直變化的量。

學習影響常規(guī)化機制:

我們可以選擇一種更靈活的方法,通過在許多任務(wù)上訓練來習得(而非定義)一個普遍的影響常規(guī)化機制。這會是一種遷移學習的例子。當然,我們可以直接在任務(wù)中應(yīng)用遷移學習而不擔心副作用,但是關(guān)鍵是,不同任務(wù)中副作用比主要目標更加相似。例如,畫畫機器人、清潔機器人甚至更加不同的工廠控制機器人可能都想避免打翻東西。通過用不同參數(shù)訓練、從任務(wù)中分離出副作用部分,可以在合理保留某個部分的時候極大加速轉(zhuǎn)移學習。這與基于模型的 RL 方法相似,轉(zhuǎn)移一個習得的動態(tài)模型而非價值函數(shù),新奇之處是分離副作用而非狀態(tài)動態(tài)來作為遷移部件。一個附加優(yōu)勢是,在一個任務(wù)中已知或者已證明帶來安全行為的常規(guī)化機制,在別的任務(wù)中更容易被視作安全。

懲罰改變:

除了不要進行有副作用的行為,我們還希望代理不要進入容易產(chǎn)生副作用的區(qū)域,即便是那樣更加方便。例如,我們希望清潔機器人不要講水桶帶入到處都是敏感電器的房間,即便是它不打算在房間內(nèi)用水。

有幾個信息理論度量來測量代理對環(huán)境的潛在影響,經(jīng)常用作內(nèi)在獎勵。也許最著名的此類度量是授權(quán),將代理的潛在未來行為與潛在未來狀態(tài)(或者代理行為與環(huán)境之間渠道的香農(nóng)容量)之間的最大可能的信息。授權(quán)作為一種內(nèi)在獎勵的來源,經(jīng)常是最大化、而非最小化。這會導致代理在沒有任何外界回報的情況下出現(xiàn)有趣的行為,例如避免走路、或者撿起鑰匙??傮w來說,最大化授權(quán)的代理讓自己位于對環(huán)境有很大影響的位置上。例如,關(guān)在一個小房間內(nèi)出不來的代理有很低的授權(quán),而持有鑰匙的代理會具有更高的授權(quán),因為只要幾個時間步就能走入外界帶來影響。在目前的情境下,為了減少潛在的影響我們要懲罰(最小化)授權(quán),作為常規(guī)化的條款。

這個辦法行不通,因為授權(quán)測量對環(huán)境控制的精度,多于對環(huán)境的總體影響。舉個例子,如果有一個代理可以通過按鈕來切斷全國人民家中的電源,雖然這會造成很大的影響,這只算做一比特授權(quán),由于行為空間只有一比特,它與空間的共有信息最多一比特。與之相反,如果環(huán)境中有人正在記錄代理的行為,這雖然沒有什么影響,也算是一種最大化授權(quán)。而且,單純懲罰授權(quán)還會造成相反的動機,例如打破花瓶,這樣在未來就沒有可能打破花瓶了。

即便是有這些問題,授權(quán)的例子還是體現(xiàn)了一個概念,即簡單測量(即便是純粹信息理論的測量)可以體現(xiàn)對環(huán)境的影響。探索那些能夠精確體現(xiàn)避免影響這一概念的授權(quán)懲罰的變量,是未來研究的一個潛在挑戰(zhàn)。

  • 多代理方法:

避免副作用可以視為我們真正目的的替身:避免負面的外界影響。我們想要理解所有其他代理(包括人類),并確保我們的行為不損害他們的利益。

有一種方法是協(xié)同反向強化學習,其中一個代理和一個人類一起合作,共同實現(xiàn)人類的目標。當我們想確認當代理出現(xiàn)不良行為時,代理不會阻止人類將其關(guān)閉,此時就可以應(yīng)用這種概念。但是,我們還沒有一個實用的系統(tǒng),可以打造足夠強大的模型來從總體上避免不良副作用。

另一個概念是“獎勵的自動編碼器”,鼓勵一種“目標透明性”,外部觀察者可以很容易推斷出代理要做的是什么。特別是代理的行為會解讀為一種獎勵功能的編碼,我們可以應(yīng)用標準的自動編碼技術(shù)來確保這可以精確解碼。

有很多副作用的行為可能會更難根據(jù)他們的原始目標來解碼,創(chuàng)造出一種懲罰副作用的潛在常規(guī)化機制。

  • 獎勵不確定性:

我們希望避免未預見的副作用,因為環(huán)境對于我們的偏好來說已經(jīng)挺好了——一個隨機改變更可能是壞的改變,而非好的。這與給代理單一的獎勵功能不同,代理可能不確定獎勵功能,預先有一個反映出隨機變化更可能是壞的概率分布。這會激勵代理避免對環(huán)境有很大的影響。找一種針對副作用的好辦法還不如進行大量的測試,或者系統(tǒng)設(shè)計者考慮得更仔細。但是,這些方法可以抵消一些能預計到的副作用,副作用傾向于在復雜環(huán)境中擴散。

下面,我們討論一些非常簡單的實驗,可以作為研究這個問題的起點。

潛在實驗:

一個可能的實驗是創(chuàng)造一個玩具環(huán)境,帶有一個簡單目標(例如移動一個積木)和非常多的困難(例如很多花瓶),并測試代理能否學會避開這些障礙,即便是沒有明確告訴它得避開。為確保我們沒有過度調(diào)整,我們可能需要在每個時段加入不同的隨機障礙,同時保持同一個目標,看看常規(guī)化的代理能否學會系統(tǒng)性地避開這些障礙。一些環(huán)境包括熔巖流、房間和鑰匙,可能很適合這類實驗。如果我們能在玩具環(huán)境中成功將代理常規(guī)化,下一步可能就是移動到真實環(huán)境,會有更高的復雜度和更多種類的不良副作用。最終,我們希望副作用常規(guī)化機制(或者多代理策略)能成功遷移至新應(yīng)用上。

4、避免獎勵的黑客行為

我們來設(shè)想一下,一個代理在其獎勵函數(shù)中發(fā)現(xiàn)了一個緩存溢出:它可以利用這一點,以違背設(shè)計者初衷的方式獲得極高的獎勵。從代理的角度來看這并不是一個漏洞,只是環(huán)境的運作機制而已,因此與其他能獲得獎勵的策略一樣,是一項有效策略。例如,如果我們給清潔機器人設(shè)定的獎勵機制是,看不見任何雜物時可以獲得獎勵,它可能會直接閉上眼睛,而不是去整理雜物?;蛘?,機器人可能會故意創(chuàng)造雜物,這樣它能獲得更多的工作和獎勵。更普遍地來說,形式獎勵或者目標函數(shù)是為了體現(xiàn)設(shè)計者非形式化的目的,但是有時候這些目標函數(shù)或者其實施過程可以被一些方法“鉆空子”,這些方法在形式上看來沒什么問題,但是不符合設(shè)計者的初衷。沉迷這種“鉆空子”行為可以帶來連貫的、但是預計之外的行為,有可能在真實世界系統(tǒng)中帶來有害影響。例如,遺傳算法已被證明經(jīng)常輸出意料之外的正確解決方案,例如一個記錄時間的電路變成了一個收音機,收到了附近一臺 PC 的 RF 信號。

已有人從理論角度進行了研究了一些版本的獎勵中的黑客行為,重點在一些可以在模型環(huán)境中出現(xiàn)黑客行為的強化學習的變種。該問題的一種形式在機器學習系統(tǒng)(尤其是廣告投放)的反饋回路情境下,已有過基于虛擬學習和語境強盜的研究。獎勵的黑客行為在如此眾多領(lǐng)域內(nèi)擴散,說明這是一個普遍問題,我們相信隨著代理和環(huán)境變得越來越復雜,這個問題也會越來越普遍。這個問題可能通過幾個方式出現(xiàn):

  • 部分觀察的目標:

在大部分現(xiàn)代 RL 系統(tǒng)中,獎勵默認為直接體驗的,即便是環(huán)境的其他方面只能部分觀察到。然而在真實世界,任務(wù)經(jīng)常需要將外部世界帶入一些目標狀態(tài),其中代理只能通過不完美的感官來確認。例如,對于我們的清潔機器人來說,任務(wù)是實現(xiàn)一個干凈的辦公室,但是機器人的視覺感官可能只能提供辦公室不完美部分的畫面。因為代理沒有對于任務(wù)表現(xiàn)的完美測量,設(shè)計者經(jīng)常得設(shè)計獎勵系統(tǒng),獎勵代表了部分的或者不完美的測量。例如,機器人的獎勵可能基于它看到多少雜物。但是,這些不完美的目標函數(shù)可能被鉆空子——機器人可以直接閉上眼,就覺得辦公室干凈了。雖然可以證明總是存在基于行動和觀察的獎勵,等同于將真正的目標函數(shù)最優(yōu)化(這需要將 POMPD 分解為一個信念狀態(tài) MDP),但是,這種獎勵功能經(jīng)常需要復雜的長期依存性,并且太困難,在實踐中沒法使用。

  • 復雜系統(tǒng):

任何強大的代理都將是一個復雜系統(tǒng),其中目標函數(shù)只是一個部分。就像在計算機代碼中,程序復雜度越高、漏洞就越多,獎勵系統(tǒng)中,代理及其可用的策略越復雜、可以鉆的空子也越多。例如原則上,代理可以從超級馬里奧中執(zhí)行任意代碼。

  • 抽象獎勵:

復雜獎勵還需要參考抽象概念(例如評估一個概念目標是否實現(xiàn)了)。這些概念可能會需要通過類似神經(jīng)網(wǎng)絡(luò)的模型習得,可能會受到對抗反例的影響。更普遍地來說,通過高維度空間習得的獎勵功能可能會被鉆空子,如果它在至少一個維度上具有極高的值。

  • 古德哈特定律:

如果設(shè)計者選擇了一種看起來與實現(xiàn)任務(wù)高度相關(guān)的獎勵功能,獎勵功能就會有另一種空子可鉆,但是當目標函數(shù)強力優(yōu)化時,那種相關(guān)性就會分解。例如,設(shè)計者可能會發(fā)現(xiàn),在平常情況下,清潔機器人的成功率與其消耗漂白劑等清潔用品的頻率成正比。但是,如果我們使用這種方式來測量機器人的獎勵,它可能會故意使用更多的漂白劑。在經(jīng)濟學文獻中,這被稱為古德哈特定律:“當測量方式被當做目標時,就不再是好的測量方式了?!?/p>

  • 反饋回路:

有時候目標函數(shù)有一個可以自我增強的組成部分,最終放大到足以破壞或者扭曲設(shè)計者期望目標函數(shù)所表征的內(nèi)容。例如,一個廣告投放算法可能用更大的字體顯示人氣更旺的廣告,這類廣告可能會進一步推廣這些廣告的人氣,形成一種積極反饋回路,暫時人氣爆發(fā)的廣告會上升至永久的主導地位。目標函數(shù)最初的目標(利用點擊來評估哪些廣告更加有用)被實施策略內(nèi)的積極反饋回路破壞了。這可以看做是古德哈特定律中的特例,相關(guān)性被破壞正是因為目標函數(shù)有一個自我放大的組成部分。

  • 環(huán)境嵌入:

在強化學習的形式中,獎勵被認為是來源于環(huán)境。的確,即便獎勵是一個抽象形式(例如棋類游戲中的分數(shù)),也需要在某地進行計算,例如一個傳感器或者一組晶體管。行動足夠廣的代理原則上能夠篡改獎勵的實施,自己給自己“頒發(fā)”高的獎勵。例如,棋類游戲中的代理可以篡改計分的傳感器。這意味著我們沒法為一個抽象目標函數(shù)打造一個完全忠誠的執(zhí)行,因為目標函數(shù)的物理替代中,行為有特定的順序。在人類可以包含獎勵回路中的時候,這尤其讓人擔心,基于代理的動機是強迫或傷害人類從而獲得獎勵。這也是一種看起來很難避免的空子。

在如今相對簡單的系統(tǒng)中,這些問題可能還沒出現(xiàn),或者可以在造成很多危害之前,作為迭代開發(fā)過程的一部分將其修正。例如,廣告投放系統(tǒng)的反饋回路如果有明顯破損的話,可以在測試中檢測到,或者可以在出現(xiàn)不良結(jié)果時被代替,只會造成暫時的收入損失。但是,隨著獎勵功能越來越復雜、代理行動的時間越來越長,問題也會更加嚴重?,F(xiàn)代 RL 代理已經(jīng)能發(fā)現(xiàn)和利用環(huán)境中的漏洞,例如電子游戲中的小故障。而且,即便針對現(xiàn)有系統(tǒng),這些問題會需要花費額外的工程精力來實現(xiàn)好的性能表現(xiàn),并且在大的系統(tǒng)中經(jīng)常沒有被監(jiān)測到。最后,一旦代理“黑”進了獎勵系統(tǒng),找到了辦法獲得高額獎勵,它就不會停止,這對長時間操作的代理來說會產(chǎn)生額外問題。

獎勵中的黑客行為可能被認為在個例之間沒有什么共同點,而補救辦法就是在每一個個例中避免選擇錯誤的目標函數(shù)——那些錯誤的目標函數(shù)體現(xiàn)的是設(shè)計者能力的不足,而不是機器學習研究的不足。但是以上的例子顯示,我們應(yīng)該將錯誤目標函數(shù)看作由于一些總體原因(例如部分觀察的目標),讓選擇正確目標具有困難。如果真是這樣,那么解決或減輕這些問題就對于安全問題就很有價值。這里我們建議一些基本的基于機器學習的方法,來預防獎勵中的黑客行為。

  • 對抗獎勵功能:

從某些意義上來說,我們的問題是 ML 系統(tǒng)與其獎勵函數(shù)有一種對抗性關(guān)系——它會利用一切可以的方法來獲得高獎勵,無論是否符合設(shè)計者的初衷。在典型的設(shè)定中,機器學習系統(tǒng)是一個潛在能力很強的代理,而獎勵函數(shù)是一個靜態(tài)目標,沒法對系統(tǒng)鉆空子的行為做出任何回應(yīng)。如果獎勵函數(shù)是其代理本身,可以采取行動來探索環(huán)境,它可能就更難被鉆空子。例如,獎勵代理可以試圖尋找這樣的一種情況:當 ML 系統(tǒng)認為獎勵很高,而人類標記為低獎勵的時候;這與生成式對抗網(wǎng)絡(luò)相似。當然,我們必須確保獎勵確認代理比試圖獲得獎勵的代理更強(從某些微妙的意義上來說)。更普遍地來說,也可能有一些有趣的設(shè)定中,系統(tǒng)有多個以非端到端方式訓練的代理,可以用來互相監(jiān)督。

  • 模型先行:

在基于 RL 的模型中,代理使用一個模型來計劃其未來行動,考慮一系列行動可能帶來什么樣的未來狀態(tài)。在一些設(shè)定中,我們可以基于預期未來狀態(tài)、而非目前狀態(tài)而給出獎勵。這可以幫助預防模型將其獎勵函數(shù)重寫:一旦它代替了獎勵函數(shù),你就沒法控制獎勵。

  • 對抗性致盲

對抗性技術(shù)可以用來讓模型看不見某些特定變量。這項技術(shù)可以用來讓代理無法理解環(huán)境的某些部分,或者甚至與環(huán)境有共享信息(或者至少懲罰這種共享信息)。特別是,它可以防止代理理解獎勵如何生成,使其很難鉆空子。這種辦法可以被稱為“代理的交叉確認”。

  • 謹慎工程:

謹慎的工程可以避免一些獎勵中的黑客行為,例如緩存溢出的例子。特別是系統(tǒng)部分的形式確認或者實踐測試(也許在其他機器學習系統(tǒng)的幫助之下)可能很有用。還可以考慮一種的計算機安全方法,通過沙箱將代理與其獎勵信號分離開。對于軟件工程,我們沒法期望這能抓住每一個可能的漏洞。但是,這可能創(chuàng)造一些高度可靠的“核心”代理,可以確保其他代理的合理行為。

  • 獎勵上限:

在一些情況下,給最高獎勵設(shè)置一個上限可能是一個好辦法。但是,雖然上限可以預防概率極低、回報極高的策略,它沒法預防清潔機器人“眼不見為凈”。另外,正確的上限策略可能很微妙,因為我們需要對總體獎勵設(shè)置上限,而非對每一個時間步。

  • 反例抵抗:

如果我們擔心系統(tǒng)中習得的部分會受到對抗性反例的影響,我們可以看看如何抵抗它們的現(xiàn)有研究,例如對抗性訓練。架構(gòu)決策和權(quán)重不確定性也有幫助。當然,對抗性反例只是獎勵中黑客行為的一種表現(xiàn),因此反例抵抗只能解決一部分的潛在問題。

  • 多種獎勵:

多種獎勵的結(jié)合可能更強、更難鉆空子。這可能是因為同一個數(shù)學函數(shù)不同的物理執(zhí)行、或者同一個形式化目標不同的代理服務(wù)器。我們可以通過平均、取最小值、取分位數(shù)或者其他值來結(jié)合獎勵函數(shù)。當然,還是會有不良行為通過一種關(guān)聯(lián)性的方式影響所有獎勵函數(shù)。

  • 獎勵預訓練:

針對代理可以影響自己獎勵功能的情況(例如反饋或環(huán)境嵌入),一種可能的防御措施是提前訓練一個固定獎勵函數(shù),作為從與環(huán)境互動中分離出來的監(jiān)督學習過程。這可能包括從狀態(tài)-獎勵配對的樣本中、或者在反向強化學習中從路徑中學習一個獎勵函數(shù)。但是,這放棄了在預訓練完成后進一步學習獎勵函數(shù)的能力,可能造成別的隱患。

  • 變量無差異:

我們經(jīng)常希望代理能優(yōu)化環(huán)境中的特定變量、同時不優(yōu)化其他變量。例如,我們希望代理最大化獎勵,而不優(yōu)化代理函數(shù)、也不試圖操控人類行為。我們憑直覺想到一種方式,讓強大算法的優(yōu)化壓力繞過其環(huán)境。如果能真正解決這個問題,就會有安全問題的各種應(yīng)用——它與避免副作用和反事實推理有關(guān)。當然,這里的一項挑戰(zhàn)是,確保為無差別而選的變量真的是我們在現(xiàn)實中關(guān)注的變量,而非它們化名的或者部分觀察到的版本。

  • 警戒線:

如果代理真的試圖“黑”掉自己的獎勵函數(shù),我們還是能知悉才好。我們可以特意引入一些行得通的隱患(代理有能力鉆這些空子,但是如果其值函數(shù)正確的話就應(yīng)該不去利用這些空子),并監(jiān)控這些隱患,如果代理試圖鉆空子的話可以提醒我們并即刻阻止代理。這樣的“警戒線”不解決黑客行為本身,但是可以減少風險,至少提供了診斷。當然,足夠強大的代理有風險“看透”警戒線,特意繞過警戒線并進行不那么明顯的有害行為。

完全解決這個問題看起來很難,但是我們相信以上的方法有能力緩解這些問題,并可能擴展或結(jié)合起來,帶來更強的解決辦法。基于這個問題目前的高關(guān)注度,設(shè)計實驗來引發(fā)問題、并測試解決辦法可以提升這個話題的相關(guān)性和明確度。

潛在實驗:

一種很有潛能的方法是“妄想箱”環(huán)境的現(xiàn)實版本,其中一個標準 RL 代理扭曲自己的感官從而看起來獲得更高的獎勵,而非根據(jù)獎勵信號本來鼓勵的那樣去優(yōu)化外界的目標。妄想箱很容易附加到任何 RL 環(huán)境中,但是更有價值的是創(chuàng)建一種環(huán)境,其中妄想箱是動態(tài)中的一個自然組成部分。例如,在足夠豐富的物理環(huán)境中,代理可能改變其周圍的光波來扭曲自己的感官。目標是開發(fā)一種普遍學習策略,可以成功優(yōu)化各種環(huán)境中的外部目標,同時避免以各種方式出現(xiàn)的妄想箱捉弄我們。

via OpenAI

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準則,取代機器人三定律預防科技暴走(上)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說