前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準(zhǔn)則，取代機器人三定律預(yù)防科技暴走（下）

本文作者：陳圳

2016-06-28 17:07

導(dǎo)語：本文介紹AI中常見的具體問題及其解決方法

今天我們帶來了谷歌安全五大定律的下篇，經(jīng)過詳細(xì)的論證，谷歌給出了一個可執(zhí)行的AI的安全問題設(shè)計框架。讓對于AI的限制的問題不再僅限于假設(shè)和推測，對今后深度學(xué)習(xí)系統(tǒng)的設(shè)計有不錯的參考意義。

5. 可拓展的監(jiān)管

想象一個有智能代理執(zhí)行一些復(fù)雜的任務(wù)，比如清掃機器打掃辦公室。我們會希望智能代理能最大限度地完成這個復(fù)雜的任務(wù)，就好像“如果使用者花費幾個小時仔細(xì)檢查結(jié)果，他們對代理的表現(xiàn)是否會滿意呢？”我們沒有足夠的時間對每一個實際訓(xùn)練提供監(jiān)管；為訓(xùn)練智能代理，我們需要依靠相似情況，例如“使用者看到辦公室時是否開心？”或者是“地板上有明顯可見的污跡嗎？”。這些信號能在訓(xùn)練中有效地測評，但卻不能保證是我們所關(guān)心之事。誤差會加劇問題，就像是未被注意的副作用（副作用來自于簡單相似情況的忽視，會被復(fù)雜目標(biāo)所懲罰）和入侵反饋（這個通過評估會被認(rèn)定為不被重視）。我們通過開發(fā)有限的檢測預(yù)算能改善此類問題。

考慮此問題的框架是半監(jiān)督的學(xué)習(xí)鞏固，此學(xué)習(xí)鞏固表示的是日常學(xué)習(xí)鞏固除非代理能在短時間內(nèi)完成回饋。代理表現(xiàn)的評估還是基于所有經(jīng)歷的反饋，但它必須基于它所見的有限的回饋實例進(jìn)行優(yōu)化。

積極的學(xué)習(xí)設(shè)置看起來是最有趣地；在此設(shè)置下，代理能要求去看任意經(jīng)歷和時間段的反饋，只要能對學(xué)習(xí)有用；并且目標(biāo)是達(dá)到反饋請求和總訓(xùn)練時間的最優(yōu)。我們同時也要設(shè)計一個隨機設(shè)置，在此情況下，反饋在時間和經(jīng)歷的隨機子集和中間的可能性中可見。

通過忽略不可標(biāo)記的經(jīng)歷和對可標(biāo)記的經(jīng)歷進(jìn)行RL計算，我們可以規(guī)定表現(xiàn)的基準(zhǔn)線。但將會導(dǎo)致學(xué)習(xí)進(jìn)行緩慢。挑戰(zhàn)在于利用未標(biāo)記的經(jīng)歷來加速學(xué)習(xí)，理想的學(xué)習(xí)是如同所有的經(jīng)歷都標(biāo)注一樣的迅速且準(zhǔn)確。

半監(jiān)督RL的一個重要子任務(wù)是辨認(rèn)預(yù)測反饋的代理服務(wù)器和學(xué)習(xí)代理服務(wù)器有效的情況。例如，如果人類給了清理機器人詳細(xì)的評價反饋，它就能學(xué)著詢問人類“房間是否打掃干凈？”這能為反饋功能提供一個非常有用的相似情況，而機器人最終也知道檢查是否有可見污跡是更便捷但始終有效的相似情況。這也能讓機器人使用極少數(shù)的具體評價學(xué)會好的打掃策略。

更廣泛地說，半監(jiān)督RL和可靠但較少的驗收標(biāo)準(zhǔn)能刺激機器人的交流和透明度，因為機器人想要盡可能得到代理服務(wù)器的反饋，不管它的決定最終是否會得到高反饋。例如，地毯下藏著的污跡會破壞使用者反應(yīng)和實際反饋信息之間的聯(lián)系，但同樣也可避免。

我們能為半監(jiān)督RL想到許多可能的方法。例如，

監(jiān)督的反饋學(xué)習(xí)：訓(xùn)練一個模式去預(yù)測基于半時間段和半經(jīng)歷的反饋，并使用它和恰當(dāng)?shù)臋?quán)衡或不準(zhǔn)確的評估，去評價未標(biāo)記經(jīng)歷的結(jié)果，而評價的誤差源于對已評價的或已知的反饋的低信心。此模式版本的學(xué)習(xí)和人類的反應(yīng)可作為一個反饋。許多現(xiàn)存RL方法已經(jīng)適合與反饋預(yù)測者相似的評估（帶有明顯基準(zhǔn)線的政策梯度方法，顯示這種方法是明顯可行的。

半監(jiān)督或活躍的反饋學(xué)習(xí)：為更快學(xué)習(xí)反饋評估，聯(lián)合之前傳統(tǒng)的半監(jiān)督和活躍的學(xué)習(xí)。例如，機器人能學(xué)著在環(huán)境中辨認(rèn)“突出”事件，并要求看與這些事件有關(guān)的反饋。

無監(jiān)督的值迭代：使用未標(biāo)注經(jīng)歷觀察到的轉(zhuǎn)變做出更準(zhǔn)確的Bellman更新。

無監(jiān)督的模式學(xué)習(xí)：如果使用基于模式的RL，使用未標(biāo)注經(jīng)歷觀察到的轉(zhuǎn)變?nèi)ヌ岣吣Ｊ降馁|(zhì)量。

拿玩具舉例，半監(jiān)督的RL機器人應(yīng)該能通過少量直接反應(yīng)回饋信號學(xué)會玩Atari游戲，而回饋信號大多數(shù)是直接基于可是表現(xiàn)的評分。這個簡單問題能拓展去解決其他安全問題：例如，機器人在未修改真實分?jǐn)?shù)情況下，能修改展示的分?jǐn)?shù)；或它必須采取特殊行動（比如暫停游戲）為看它的評分；或它必須學(xué)會一系列增加的大概相似情況（例如，學(xué)習(xí)一些聲音與積極的反應(yīng)聯(lián)系在一起，而一些聲音與消極的反應(yīng)聯(lián)系在一起。）或者，沒有可見的分?jǐn)?shù)展示，機器人能從少數(shù)明確的反饋請求學(xué)會如何玩（“在敵人的船炸毀的情況下，我得到了多少分？那更大的敵船又如何？”）

對半監(jiān)督RL而言，有效方法的第一步是提供可評估監(jiān)督和緩解其他AI安全問題。不管它與安全問題的相關(guān)性，對學(xué)習(xí)的加強是十分有效的。

拓展監(jiān)督的其他方法：

遠(yuǎn)程監(jiān)控。我能提供在加速中一些關(guān)于系統(tǒng)決定的有用信息和關(guān)于正確評估的線索，而不是提供系統(tǒng)小部分決定的信息。在半監(jiān)督或監(jiān)督薄弱的學(xué)習(xí)中，有做過一些工作。例如，普遍化的期待標(biāo)準(zhǔn)要求使用者提供大眾級別的數(shù)據(jù)（例如，告訴系統(tǒng)平均每一句話至少包含一個名詞）；DeepDive系統(tǒng)要求使用者提供能產(chǎn)生許多微弱標(biāo)簽的規(guī)則；并從最初的低重復(fù)標(biāo)注規(guī)則推斷出更普遍模式。這個普遍的方法經(jīng)常涉及到遠(yuǎn)程監(jiān)控，在自然語言處理共同體中最近受到了關(guān)注。擴(kuò)展這些線性工作并運用這些工作處理代理情況，代理情況下的反饋是相互作用的并且獨立且同分布。拓展線性工作能提供擴(kuò)展監(jiān)督的方法，而這一方法與在半監(jiān)督RL具現(xiàn)化的方法是互補的。

分層強化學(xué)習(xí)。分層強化學(xué)習(xí)為拓展監(jiān)督提供了另一種方法。頂級代理只需一小部分高度抽象的行為，并且此行為在空間和世間都有大規(guī)模擴(kuò)展。代理通過委派動作給副代理來完成動作，而此項行為刺激產(chǎn)生真實反饋信號，信號的產(chǎn)生就表示動作的完成，緊接著副代理再任務(wù)委派給下一級副代理。在最低一級，代理會在環(huán)境中直接做出反應(yīng)。

在RL等級中，最高層的代理能從較少的回饋中做出反應(yīng)，因為它不必學(xué)習(xí)如何實施政策的各項細(xì)節(jié)。與此同時，即使頂級反饋較少，下一級代理也能收到較多的反饋信號，因為他們在優(yōu)化由上級代理所定義的真實反饋信號。所以一個成功的RL分層方法能自然而然地促進(jìn)監(jiān)督的拓展。

在聯(lián)合分層RL和神經(jīng)系統(tǒng)功能相似部分的前提下，分層RL似乎是一個監(jiān)督的好方法。

潛能測試。在基本控制運行環(huán)境下，測試半監(jiān)督RL將會是一個極其簡單的方法。如果隨機反饋只能提供10%的經(jīng)歷，我們能否學(xué)得如同提供所有經(jīng)歷一樣地快？在此項任務(wù)中，反饋機制十分簡單，所以成功的幾率會是十分相似。下一步要在Atari游戲上實驗。積極的學(xué)習(xí)案例會十分有趣----大概僅從一小部分請求樣本中（如在Space Invaders 敵船被摧毀的框架）就能推斷出反饋框架，因此能在完全無監(jiān)督的模式下玩游戲。

6.安全探測

所有智能代理有時需要參與探測-----采取在當(dāng)前情況下看起來不理想的行為，但能幫助智能代理了解周圍的環(huán)境。但是，探測十分地危險，因為涉及到一些智能代理不能很好理解的行為。在游戲環(huán)境中，例如Atari視頻游戲，會限定結(jié)果的破壞程度----智能代理會丟掉一些分?jǐn)?shù)，或是跑進(jìn)敵方陣營并承擔(dān)一些破壞。但是現(xiàn)實世界更沒有如此地寬容。錯誤的行為會損壞智能代理或讓它陷入無法擺脫的境地。無人駕駛直升飛機會撞到地上或是破壞財產(chǎn)；工業(yè)控制系統(tǒng)能造成嚴(yán)重的問題。一般探索規(guī)則，如epsilon-greedy或R-max，通過隨機選擇行為或樂觀地測試未被開發(fā)的行為，所以并未采取行動避免危險情況。在拓展的世間規(guī)模采取連續(xù)的探索政策是更復(fù)雜的探索策略，而此策略會有更大的危險幾率，因為連續(xù)選擇的錯誤政策會比隨機的行為危害更大。但是即使我們對運算環(huán)境所知不多，直覺上連續(xù)選擇能預(yù)測那個行為是危險的，并能探索避免的方法。例如，如果我想了解老虎，我是應(yīng)該買一只老虎？還是買一本關(guān)于老虎的書？只需一些關(guān)于老虎的先前知識，就知道哪個選擇更好。

在實踐中，RL計劃能通過簡單的硬編碼避免災(zāi)難性行為以解決此類問題。例如，RL控制的無人直升機能通過一個硬編碼的災(zāi)難避免序列去推翻它的政策。(例如快速轉(zhuǎn)動旋螺槳以增加高度)。當(dāng)只有少部分事情會出錯時，這種方法能進(jìn)行地十分順利，并且設(shè)計者也能提前了解所有情況。但當(dāng)代理變得越來越智能且在更復(fù)雜的域名內(nèi)行動，準(zhǔn)確預(yù)測所有可能的災(zāi)難性失敗會變得越來越困難。代理運行強大網(wǎng)絡(luò)和尋找-找回行為的失敗模式空間會很大。在這些情況下用硬編程來應(yīng)對所有可能失敗不可行，所以用原則性更強的方法去阻止有害的探索變得十分重要。即使在最簡單的情況下，比如無人駕駛直升飛機，原則性較強的方法能簡化設(shè)計系統(tǒng)并減少特定語域編程的需要。

關(guān)于安全問題探索的文獻(xiàn)相當(dāng)多---在本文中我們會討論問題中最重要的部分。我們不會在此廣泛地回顧文獻(xiàn)，但會簡單描述本次試驗所采用的一般方法，并會提出一些關(guān)于提高RL系統(tǒng)規(guī)模和能力的建議。

風(fēng)險敏感表現(xiàn)標(biāo)準(zhǔn)：從期待的總回饋到另外的目標(biāo)，這些目標(biāo)能更好的阻止罕見，災(zāi)難性的事件，現(xiàn)存文獻(xiàn)考慮改變優(yōu)化標(biāo)準(zhǔn)。這些方法涉及到優(yōu)化最壞表現(xiàn)，或是保證錯誤行為的可能性十分低，或是會懲罰行為誤差。這些方法并未被用于表現(xiàn)功能相似性測試，例如深層神經(jīng)網(wǎng)絡(luò)，但一些方法的原則上應(yīng)該是可行。最近一些研究是測試深層網(wǎng)絡(luò)神經(jīng)系統(tǒng)在價值評估方面的不確定性；這些想法能容入進(jìn)風(fēng)險評估的RL算法。另外一個與風(fēng)險敏感有關(guān)的線性工作使用非政策評估去執(zhí)行政策更新，此方法成功的可能性很高。
使用示范：探索對于代理確認(rèn)接近性能最優(yōu)十分重要。如果我們不使用反向RL或是學(xué)徒學(xué)習(xí)，在此情況下，學(xué)習(xí)算法具備接近最優(yōu)行為的專業(yè)軌線，我們能避免探索的需要。使用深層神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)功能或政策代價的反向?qū)W習(xí)鞏固中取得了進(jìn)展，且進(jìn)展表明通過訓(xùn)練小部分示范能減少在高級RL探索的需要。此類示范能用于創(chuàng)造政策基準(zhǔn)線，到這種程度之后即使深度學(xué)習(xí)十分重要，不基于政策基準(zhǔn)線的探索也能被限制重要性。

模仿探索：我們能在模擬世界中而不是真實世界中做探索，發(fā)生破壞的機會就會越小。在真實世界中做一些試驗十分有必要，因為不是模擬器不能完美再現(xiàn)所有的復(fù)雜情況，但能在模擬中對危險了解更多，并在現(xiàn)實世界中行動時采取更加保守的策略。在虛擬環(huán)境中訓(xùn)練代理（尤其是機器人）已經(jīng)十分的普遍，所以“以探索為重點的模擬”取得進(jìn)步能很容易融入當(dāng)前的而工作流程。在涉及到學(xué)習(xí)和發(fā)展的連續(xù)循環(huán)系統(tǒng)中，有一些與如何逐漸更新安全問題政策相關(guān)的有趣研究問題，考慮到以探索為基礎(chǔ)的軌線不能完美反應(yīng)這些政策的后果和可靠正確的脫離政策的軌線。

有界限的探索：如果我們知道空間的一部分是安全的，這樣即使是最壞的行為也能挽回或是限制危害，我們能讓代理在此界限之內(nèi)自由運行。例如，在直升機離地面足夠遠(yuǎn)時，它就能安全地進(jìn)行探索，因為即使出現(xiàn)問題也能讓人類和另外一個政策有足夠的時間進(jìn)行挽救。更好的情況是，如果我們有一個模式，就能提前推算出這一動作是否會把我們帶離安全境地。安全能被定義為在余下的空間各態(tài)中行為都是可逆的，或是重大失誤只會造成較少的損失。因為有其他的方向，把這些方法改編或是運用于先進(jìn)發(fā)達(dá)的RL系統(tǒng)將會有廣闊的前景。這個想法看起來與H-infinity控制和區(qū)域驗證有關(guān)。

可信任的監(jiān)督：如果我們有一個能信任的政策和運行環(huán)境模式，我們能限制被政策所信任行為的探索，并進(jìn)行恢復(fù)。向下猛沖的行為可做，只要能及時制止。

人類監(jiān)控：另一個可能是由人類檢測潛在的危險行為。不幸的是這個方法碰到可拓展監(jiān)控問題：代理為讓人類監(jiān)控可行必須做出足夠多的探索行為，或是運行夠快讓人類進(jìn)行評價。挑戰(zhàn)的關(guān)鍵在于，代理能做好判斷哪些行為是真正的危險，哪些是安全可單方執(zhí)行的行為；另外一個挑戰(zhàn)是在等待監(jiān)督時找到恰當(dāng)?shù)陌踩袨椤?/p>

潛在試驗：有一系列的游戲運行環(huán)境是很用的，在此環(huán)境中粗心的代理會輕易調(diào)入進(jìn)行危險行為探索的陷阱，但有足夠的模式應(yīng)對災(zāi)難失誤，且聰明的代理能預(yù)測和避開。在一定程度上，這些特征早已存在于無人直升飛機競賽和火星漫游模擬之中，但發(fā)生災(zāi)難的風(fēng)險十分怪異，以至于經(jīng)過訓(xùn)練的代理都能過度擬合。一個真實廣泛的環(huán)境設(shè)置包括概念上明顯的陷阱，這會導(dǎo)致粗心的代理收到極其消極的反饋其中包括物理上和概念上的災(zāi)難，而這能幫助高級RL系統(tǒng)進(jìn)行安全探索的發(fā)展。此類一系列運行環(huán)境可承擔(dān)標(biāo)桿學(xué)習(xí)的角色，其最終目標(biāo)是發(fā)展能在一系列環(huán)境中學(xué)會避免災(zāi)難的單一結(jié)構(gòu)。

7.分布改變的堅固性

我們有時會遇到一些用我們之前經(jīng)歷無法解決的情況----例如，開飛機，去一個與自己國家文化完全不一樣的國家旅游，或是第一次照顧小孩。此類情況不可避免會很難處理也會導(dǎo)致一些失誤。但是，解決此類問題的關(guān)鍵在于意識到我們的不足，而不是簡單的想象我們用處理其他問題的直覺能成功瞞過去。機器學(xué)習(xí)系統(tǒng)也有類似問題-----在安靜環(huán)境訓(xùn)練的語音識別系統(tǒng)在嘈雜環(huán)境中表現(xiàn)的十分差，但對錯誤分類十分有自信（一些作者曾經(jīng)就語音識別系統(tǒng)進(jìn)行過個人觀察）。在清掃機器人的例子中，粗糙的清理物質(zhì)在用來清理工廠時，十分有效；但在清理辦公室時會造成損壞。或者辦公室會有寵物，而機器無法識別，它會試著用肥皂清洗，所以很顯然會導(dǎo)致教壞的結(jié)果。一般來說，當(dāng)測試的分布與訓(xùn)練時的分布不一樣，機器的學(xué)習(xí)系統(tǒng)會表現(xiàn)的非常差，但它會錯誤地認(rèn)為自己表現(xiàn)得不錯。此類錯誤會有害---分類器會自信地做出錯誤地診斷，盡管它的自信不符合人類的期盼，或是語言模式會輸出冒犯性的文章，但卻也認(rèn)為沒有問題。對于在世界上的智能代理，會有發(fā)生更壞事情的可能----例如，智能代理可能會使電網(wǎng)超負(fù)荷，但它卻自信地認(rèn)為部分區(qū)域電力不足，所以總結(jié)出急需更多的電力，超負(fù)荷是不可能。更加廣泛說，任何代理只要是未在正確的分布中處理，它的感覺或是探索式處理過程會錯誤地理解自己的處境，因此會做出危險行為且不能意識到自己所做是危險的。除此之外，如果系統(tǒng)在現(xiàn)實世界中遇到與訓(xùn)練不同的情況，依賴于訓(xùn)練過的機器學(xué)習(xí)系統(tǒng)的安全檢查（例如，我的視覺系統(tǒng)相信這條路是干凈的嗎？）可能會無法預(yù)計地失敗。尋找一個好方法去探測此類失敗，并且能最終有發(fā)生頻率的確切數(shù)據(jù)對建立安全可預(yù)測的系統(tǒng)十分關(guān)鍵。

對于準(zhǔn)確性，我能想象如果一個機器學(xué)習(xí)模式在一個分布（p0）中學(xué)習(xí),但卻在潛在的不同的測試分布（p*）中運行。我們有很多其他的方法來解決此類問題（例如，在網(wǎng)上學(xué)習(xí)中設(shè)置觀念轉(zhuǎn)移），但我們會尋求簡單，關(guān)注之前的問題。其中的重點是我們可能會在訓(xùn)練中遇到大量的已標(biāo)注的數(shù)據(jù)，但很少或是沒有未被標(biāo)記的數(shù)據(jù)。我們的目標(biāo)是確保模式在P*環(huán)境中合理運行，也就是在P*運行很好并且運行不好時，也能自己意識到。（理想狀態(tài)是能通過采取保守措施或是征求人類意見，避免或是緩解錯誤行為）。

此類問題涉及到許多領(lǐng)域，包括改變探測，異常探測，假設(shè)測試，遷移學(xué)習(xí)和其他等等。我們將會描述一些解說性的方法并列舉出它們的長處和不足，而不是在文中詳細(xì)回顧。

特定模式：相關(guān)變量變化和邊緣化可能性。如果我們主要做預(yù)測工作，讓x指代輸入，y指代輸出，那么其中一個可能就是做出相關(guān)變量假設(shè)p0(y/x)=p*(y/x)。在此類情況下，假設(shè)我們能夠p0(x)和p*(x)建模，我們能通過再權(quán)衡每一個訓(xùn)練實例p*(x)/p0(x)的(x,y)來進(jìn)行重要性評估。評估過重要性的實例能讓我們評價p*的表現(xiàn)，甚至是再訓(xùn)練模式更好執(zhí)行p*。這種方法受限于重要性評估的差異，這種差異非常大甚至于無限，除非p0和p*非常接近。

實例再評價的備選方案涉及到假設(shè)一個特定的模式家族，在此情況下，預(yù)測p0和p*只有一種最優(yōu)模式.這個方法的局限在于，到目前為止，這種模式在實踐中經(jīng)常錯誤定位。但是它能通過采用高表達(dá)模式家族來克服，例如復(fù)制Hilbert 空間，圖靈機，或是有效表達(dá)神經(jīng)網(wǎng)。在之后的情況中，最近有一個有趣的研究是使用引導(dǎo)程序去評估有限實例的變化，其中的變化一般是神經(jīng)系統(tǒng)中的相關(guān)參數(shù)；這項研究對于更好理解這種方法是否能有效評估在實際表現(xiàn)，和引導(dǎo)程序設(shè)置下缺少彎曲或是特殊的當(dāng)?shù)刈钚≈凳侨绾斡绊懛椒ǖ目尚行允种匾?/span>

目前為止的所有方法都依賴于相關(guān)變量強大且可測試的假設(shè)；后者的特性從安全的角度看問題很大，因為它能導(dǎo)致機器學(xué)習(xí)系統(tǒng)的無聲故障。另外一個方法，不依賴相關(guān)變量變化且建立了一個能生產(chǎn)的分布模式。我們可自由假設(shè)其他不變性（例如，p(x)變，p(y)不變，或是特定獨立情況保持不變），而不是假設(shè)p(x)變，但p(x/y)不變。這有達(dá)到一個進(jìn)步，因為此類假設(shè)比變量改變的假設(shè)更以測試（因為它們不涉及不可觀察的變量y）。但也有不利之處，在未確定的模式中，生產(chǎn)型方法比有區(qū)別型方法更脆弱----例如，大量經(jīng)驗文獻(xiàn)表示，當(dāng)模式被錯誤定位時，基于最大邊緣可能的半監(jiān)督生產(chǎn)型方法會表現(xiàn)的很差。

以上討論的方法相較而言更依靠于有一個特定的模式家庭----其中包括真實的分布和真實的觀念。但在多數(shù)情況下都會出現(xiàn)問題，因為現(xiàn)實比模式家庭所能處理的情況更加復(fù)雜。上文備注中有提到，使用表達(dá)的模式能緩解相關(guān)情況，例如kernels，圖靈機，或是大量的神經(jīng)網(wǎng)絡(luò)；但還是有遺留問題：例如即使家族模式包含所有的圖靈機，在有限數(shù)據(jù)下，我們實際上只能夠在圖靈機所給的描述長度內(nèi)學(xué)習(xí)，如果圖靈機描述現(xiàn)實超過此長度，我們就會陷入定位錯誤的范疇（換句話說，現(xiàn)實不能由圖靈機描述。）
部分特定模式：矩量法，未被監(jiān)督的風(fēng)險評估，隨意確認(rèn)和有限信息最大化的可能性。另外一個方法是吧建立完全確定的模式家族當(dāng)不可能，并設(shè)計不管此情況也能表現(xiàn)很好的方法。由此產(chǎn)生了部分確定模式----假設(shè)是關(guān)于分布的一些方面，但對于其他方面我們是不知道的。舉個簡單例子，在線性退化的變體中，我們假設(shè)y=(w*,x)+v, E[v/x]=0，但我們不對v做任何分布形式上的深度假設(shè)。事實證明這以足夠辨認(rèn)參數(shù)w*,并且這些參數(shù)會減少預(yù)期錯誤即使x分布發(fā)生了變化。有趣的是這個例子說明w*在不完整（部分）確定的分布中也能被辨認(rèn)出來。

洞察能被大體概括如下，它是計量經(jīng)濟(jì)學(xué)中的矩量法的一個主要動力。計量經(jīng)濟(jì)學(xué)文獻(xiàn)實際上為解決部分確定模式提供大量工具，包括有限信息最大化的可能性和有幫助的變量。

回到機器學(xué)習(xí)，矩量法最近在評估潛在變量模式取得較大成功。盡管目前的重點在于使用矩量法克服非凸性問題，同時它也能提供一種方法執(zhí)行未監(jiān)督的學(xué)習(xí)，基于情況獨立假設(shè)而不是基于可能性最大化的強大分布假設(shè)。

最后，一些關(guān)于機器學(xué)習(xí)的研究只關(guān)注于將模式的錯誤分布建模，且可用這些進(jìn)行判斷模式表現(xiàn)是好還是壞。正式來說，其目標(biāo)是實施無監(jiān)督的風(fēng)險評估---從這些測試分布提供模式和標(biāo)注的數(shù)據(jù)，并測試標(biāo)注風(fēng)險的模式。這種形式體系充分利用訓(xùn)練和測試之間的不同—-即使測試分布與訓(xùn)練分布看起來完全不同并且我們看起來也無法輸出正確的預(yù)測；但因為我們只需對風(fēng)險作出大量的評估，無監(jiān)督的風(fēng)險評估也是可行的。通過在錯誤分布中假定某些條件性獨立，能接近無監(jiān)督的風(fēng)險評估，并使用它去評測未標(biāo)注數(shù)據(jù)的錯誤分布。除了假設(shè)獨立性，另一種假設(shè)是錯誤高斯分布為基礎(chǔ)的真實產(chǎn)出，y在此情況下是風(fēng)險評估可歸納為高斯復(fù)合模式評估。因為這些方法僅僅關(guān)注模式錯誤但卻忽略了數(shù)據(jù)分布的其他方面，所以也可被看做是部分特定的實例。

多樣分布訓(xùn)練。在多樣訓(xùn)練分布中訓(xùn)練，希望能同時在多種訓(xùn)練分布表現(xiàn)很好的系統(tǒng)也能在新穎的訓(xùn)練系統(tǒng)中表現(xiàn)出色。其中一個作者發(fā)現(xiàn)情況是這樣的，例如，在自動語音識別系統(tǒng)中，能聯(lián)合以上任意思想，并采取編程的方法試著發(fā)展設(shè)計能連續(xù)收集典型訓(xùn)練集的方法論，此方法論能用于建立能連續(xù)總結(jié)新穎分布的模式。能探索出未被訓(xùn)練數(shù)據(jù)所包含的情況并能正確做出反應(yīng)，即使是對于這一方法也顯得十分的重要。除此之外，有有充分強度測試分布的方法論與訓(xùn)練分布設(shè)置也是完全不一樣的。

如何應(yīng)對脫離分布。以上描述的方法都集中于當(dāng)模式在新的分布中無法做出正確預(yù)期的探索。其中一個重要的相關(guān)問題是的在探測時需要做些什么。一個自然的方法是向人類詢問相關(guān)信息，盡管在復(fù)雜的輸出任務(wù)中，會對哪個是優(yōu)先問題產(chǎn)生疑問；在時間緊張的情況下，問問題甚至算不上一個選擇。

對于前一個問題，最近已經(jīng)在模式不確定的結(jié)構(gòu)定位方面和獲得輸出設(shè)置的校準(zhǔn)方面都取得不錯進(jìn)步，但我們相信還有很多工作未做。對于后一個問題，基于獲得能力分析的相關(guān)工作和強硬的政策提高為在不確定情況下實施保守政策提供了可能的方法；在我們的認(rèn)知中，這種方法還未與探測模式超出分布的失敗聯(lián)合起來。

除了已構(gòu)建的輸出設(shè)置，代理可在環(huán)境（如，RL代理中）運行，關(guān)于在不確定情況下認(rèn)知可信性的信息有潛在價值。在豐富的運行環(huán)境中，這些代理能選擇收集能分辨認(rèn)知的信息（例如，如周圍太吵，可以靠近講話者），；當(dāng)不確定性高時，參與低風(fēng)險實驗（例如，在受控制的環(huán)境中嘗試些危險的化學(xué)反應(yīng)）；尋找能幫助認(rèn)知系統(tǒng)曝光于相關(guān)分布的經(jīng)驗（例如，在帶有口音的語音中進(jìn)行聽力練習(xí)）。人類能像例行公事般利用這些信息，但在我們的認(rèn)知中目前的RL技術(shù)很難做到，或許是因為普及的RL運行環(huán)境還不夠豐富，以至于能獲得處理不確定的精細(xì)管理能力。恰當(dāng)處理超出分布的信息對于作者來說會是下一代RL系統(tǒng)有趣且未開發(fā)的挑戰(zhàn)。

統(tǒng)一的觀點：反事實推理和帶有契約的機器學(xué)習(xí)。一些作者最近發(fā)現(xiàn)在思考關(guān)于超出分布的預(yù)期時，有兩個方法特別有效。第一個是反事實推理，在此種方法中會詢問“如果現(xiàn)實在一定程度上不同會發(fā)生什么？”在某些程度上，分布轉(zhuǎn)移能被看成是反事實的一個特殊類型，所以理解反事實推理能幫助系統(tǒng)應(yīng)付分布轉(zhuǎn)移。我們對運用反事實推理技術(shù)去處理機器學(xué)習(xí)問題感到十分振奮，盡管還存在著處理高空間和復(fù)雜的設(shè)置還未完成。

第二個方法是帶有契約的機器學(xué)習(xí)----構(gòu)建機器學(xué)習(xí)系統(tǒng)，此系統(tǒng)能建立一個關(guān)于機器行為的定義明確的契約類似于軟件系統(tǒng)的設(shè)計；并列舉出機器學(xué)習(xí)系統(tǒng)會失誤的方法和會導(dǎo)致大規(guī)模機器維護(hù)和學(xué)習(xí)系統(tǒng)故障的問題。在我們的認(rèn)識中最簡單和最嚴(yán)重的失誤是大多數(shù)機器學(xué)習(xí)系統(tǒng)極其脆弱盲從的契約，也就是它只在訓(xùn)練和測試的分布完全一樣時才能表現(xiàn)的很好。

這種情況很難檢測出，在現(xiàn)實中也很少見，但這對于建立在脆弱契約下也能表現(xiàn)很好的系統(tǒng)極具價值，且此契約能更簡單地推理出。部分確定的模式能提供一個方法-----不要求分布完全一致，我們只要求在模式中的特定部分的分布匹配。可達(dá)性分析和模式修復(fù)為獲得更好的契約提供另一種方法----在可達(dá)分析中，我們能在已知保守政策總能到達(dá)安全范疇的前提下優(yōu)化表現(xiàn)主題；并且在模式修復(fù)中，能改變已被訓(xùn)練的模式確保部分需要的安全部分被保留。

總結(jié)。建立在新穎測試模式下也能表現(xiàn)很好的機器學(xué)習(xí)系統(tǒng)的方法有很多。其中一個方法是基于完全確定模式，在此情況下，最初的障礙是在實踐中建立完全確定模式，就像是在無限的訓(xùn)練數(shù)據(jù)中如何保持在新穎分布中的不確定性；另一個困難是在模式錯誤定位時如何檢測。另一個方法是假定只有部分模式確定，這個方法前景不錯，但在機器學(xué)習(xí)中缺乏發(fā)展，因為大多數(shù)過去的開發(fā)集中于計量經(jīng)濟(jì)學(xué)領(lǐng)域；在這有一個問題是否半確定模式受限于簡單問題和/或保守預(yù)測，或它們是否能測量現(xiàn)代機器學(xué)習(xí)運用所需的復(fù)雜情況。最后，試著在多樣訓(xùn)練分布中訓(xùn)練，希望模式能在多樣訓(xùn)練分布中表現(xiàn)良好，同時在新穎測試分布中表現(xiàn)出色；對于這一方法，用與訓(xùn)練模式完全不一樣的的分布對模式進(jìn)行強度測試極其重要。此外，能在輸入過于新穎以至于不能做出好的預(yù)測時，也照樣能做出預(yù)測也是同等重要的。

潛力測試：語音系統(tǒng)在超出分布時表現(xiàn)一向很差，所以“知道何時不確定”的語音系統(tǒng)將會是一個可能的實驗項目。更確切的說，挑戰(zhàn)會是：基于標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練一個先進(jìn)的語音系統(tǒng)，它基于測試集，如吵鬧有口音的語音，也能做出精準(zhǔn)的校對。當(dāng)前的系統(tǒng)因只在少部分訓(xùn)練集中訓(xùn)練，在實際測試中就表現(xiàn)很差；此外對它們自己錯誤的轉(zhuǎn)錄也表現(xiàn)的很自信。解決這一問題而不破壞原始的訓(xùn)練集會是一個重大進(jìn)步，且極具使用價值。更廣泛的說，設(shè)計出一個能基于新穎測試分布也連續(xù)測試表現(xiàn)的模式也會有重大意義。如果單一方法集能連續(xù)完成多種任務(wù)（如包括語音敏感測試，電腦標(biāo)準(zhǔn)檢查程序），這能處理新穎輸入方法集的可靠性。提到的這些在新穎分布中的表現(xiàn)測試對于讓模式適應(yīng)新情況有現(xiàn)實價值。最后，對于在創(chuàng)造一個RL代理必須學(xué)著翻譯大型語音的環(huán)境和如何正確評價翻譯錯誤也極具價值。

8. 相關(guān)工作

如在介紹部分提到的一樣，一些其他的社區(qū)也曾廣泛地考慮過AI系統(tǒng)的安全問題，這些社區(qū)有的是機器學(xué)習(xí)社區(qū)，有的卻不是。在之前的部分我們已經(jīng)詳細(xì)討論了機器學(xué)習(xí)社區(qū)出現(xiàn)的問題，接下來我們會簡單說一下其他社區(qū)關(guān)于AI安全所做的努力。

信息物理系統(tǒng)社區(qū)：此社區(qū)的研究者們研究了安全系統(tǒng)與現(xiàn)實世界的互動。此項研究成功地核查了整個聯(lián)邦飛行器的防碰撞系統(tǒng)。類似的其他工作包括交通管制算法和許多其他主題。但是此項研究沒有多注意正式核實行不通的現(xiàn)代機器學(xué)習(xí)系統(tǒng)上。

未來主義者社區(qū)：一個跨學(xué)科和非盈利的學(xué)術(shù)家關(guān)注AI的長期使用，尤其是超智能AI。人類未來研究所特別研究過這個問題，因關(guān)系到AI系統(tǒng)的未來和保證未來人類的優(yōu)先。智能機器研究所研究過許多先進(jìn)AI的安全問題，特別關(guān)注高級問題如哲學(xué)和于AI系統(tǒng)長期考慮相關(guān)的決定理論。與此相反的是，我們關(guān)注的焦點在于現(xiàn)代機器學(xué)習(xí)系統(tǒng)的實際安全問題的經(jīng)驗研究，并且我們相信此項研究能應(yīng)付大量的潛在危機，其中包括長期和短期的。

其它對于安全研究的要求：在研究社區(qū)中已有其它文獻(xiàn)指出了AI安全問題研究的重要性。在2015的Open Letter中就有許多研究社區(qū)的成員指出了“如何受益于人工智能卻避免其潛在危險”，提議優(yōu)先發(fā)展人工智能的穩(wěn)定和有益之處，包括除AI相關(guān)的意外的其它話題。

與安全相關(guān)的其它問題：許多人工智能或是其它領(lǐng)域的學(xué)者都開始思考AI技術(shù)的社會影響。除了直接研究的問題（如在正文中回顧的，依然有許多關(guān)于其它話題的重要研究，這其中有些是與意外問題相關(guān)或是重疊的。全面回顧這些研究不在本文研究范疇之內(nèi)，但我們能簡單列出一些主題：

隱私：在使用機器學(xué)習(xí)敏感數(shù)據(jù)時如何確保隱私，例如醫(yī)療機器？

公平：如何確保ML系統(tǒng)不會歧視？

安全：一個惡意的對手能對ML系統(tǒng)做些什么？

濫用：如何阻止誤用ML系統(tǒng)攻擊或是傷害人類？

透明度：如何理解復(fù)雜的ML系統(tǒng)在做些什么？

政策：如何預(yù)測和應(yīng)對ML所帶來的經(jīng)濟(jì)和社會影響？

我們相信這些話題急待解決且發(fā)展前途光明，并且與本文中所探討的話題有大量交集。

9.結(jié)論

本文分析了智能代理學(xué)習(xí)中的意外和加強學(xué)習(xí)，在智能代理中意外被定義為未被注意的有害行為，而這些行為應(yīng)該來自于較差的AI設(shè)計系統(tǒng)。我們提出了五種可能的，與意外風(fēng)險有關(guān)的研究問題，并且對于每一個問題我們都有給出可行的方法，并且這些方法經(jīng)得起具體實驗的檢驗。

基于現(xiàn)實可行的機器學(xué)習(xí)系統(tǒng)，如控制工業(yè)處理，健康有關(guān)的系統(tǒng)和其它重任務(wù)的技術(shù)，小規(guī)模的意外看起來都會是很具體的問題，因為小的意外會打擊人們對人工智能的信心。大的意外風(fēng)險很難估測，但我們相信隨著智能越來越強大，開發(fā)一個有原則并且有遠(yuǎn)見的方法會是值得。盡管當(dāng)今的安全問題是通過特別的或是個案對個案的方法解決的，但我們相信日后的趨勢是端對端，最后完全智能化，使用一個統(tǒng)一的方法阻止系統(tǒng)造成未意識到的麻煩。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

陳圳

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準(zhǔn)則，取代機器人三定律預(yù)防科技暴走（下）

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準(zhǔn)則，取代機器人三定律預(yù)防科技暴走（下）