0
本文作者: 陳?ài)?/a> | 2016-06-28 17:07 |
今天我們帶來(lái)了谷歌安全五大定律的下篇,經(jīng)過(guò)詳細(xì)的論證,谷歌給出了一個(gè)可執(zhí)行的AI的安全問(wèn)題設(shè)計(jì)框架。讓對(duì)于AI的限制的問(wèn)題不再僅限于假設(shè)和推測(cè),對(duì)今后深度學(xué)習(xí)系統(tǒng)的設(shè)計(jì)有不錯(cuò)的參考意義。
5. 可拓展的監(jiān)管
想象一個(gè)有智能代理執(zhí)行一些復(fù)雜的任務(wù),比如清掃機(jī)器打掃辦公室。我們會(huì)希望智能代理能最大限度地完成這個(gè)復(fù)雜的任務(wù),就好像“如果使用者花費(fèi)幾個(gè)小時(shí)仔細(xì)檢查結(jié)果,他們對(duì)代理的表現(xiàn)是否會(huì)滿意呢?”我們沒(méi)有足夠的時(shí)間對(duì)每一個(gè)實(shí)際訓(xùn)練提供監(jiān)管;為訓(xùn)練智能代理,我們需要依靠相似情況,例如“使用者看到辦公室時(shí)是否開(kāi)心?”或者是“地板上有明顯可見(jiàn)的污跡嗎?”。這些信號(hào)能在訓(xùn)練中有效地測(cè)評(píng),但卻不能保證是我們所關(guān)心之事。誤差會(huì)加劇問(wèn)題,就像是未被注意的副作用(副作用來(lái)自于簡(jiǎn)單相似情況的忽視,會(huì)被復(fù)雜目標(biāo)所懲罰)和入侵反饋(這個(gè)通過(guò)評(píng)估會(huì)被認(rèn)定為不被重視)。我們通過(guò)開(kāi)發(fā)有限的檢測(cè)預(yù)算能改善此類問(wèn)題。
考慮此問(wèn)題的框架是半監(jiān)督的學(xué)習(xí)鞏固,此學(xué)習(xí)鞏固表示的是日常學(xué)習(xí)鞏固除非代理能在短時(shí)間內(nèi)完成回饋。代理表現(xiàn)的評(píng)估還是基于所有經(jīng)歷的反饋,但它必須基于它所見(jiàn)的有限的回饋實(shí)例進(jìn)行優(yōu)化。
積極的學(xué)習(xí)設(shè)置看起來(lái)是最有趣地;在此設(shè)置下,代理能要求去看任意經(jīng)歷和時(shí)間段的反饋,只要能對(duì)學(xué)習(xí)有用;并且目標(biāo)是達(dá)到反饋請(qǐng)求和總訓(xùn)練時(shí)間的最優(yōu)。我們同時(shí)也要設(shè)計(jì)一個(gè)隨機(jī)設(shè)置,在此情況下,反饋在時(shí)間和經(jīng)歷的隨機(jī)子集和中間的可能性中可見(jiàn)。
通過(guò)忽略不可標(biāo)記的經(jīng)歷和對(duì)可標(biāo)記的經(jīng)歷進(jìn)行RL計(jì)算,我們可以規(guī)定表現(xiàn)的基準(zhǔn)線。但將會(huì)導(dǎo)致學(xué)習(xí)進(jìn)行緩慢。挑戰(zhàn)在于利用未標(biāo)記的經(jīng)歷來(lái)加速學(xué)習(xí),理想的學(xué)習(xí)是如同所有的經(jīng)歷都標(biāo)注一樣的迅速且準(zhǔn)確。
半監(jiān)督RL的一個(gè)重要子任務(wù)是辨認(rèn)預(yù)測(cè)反饋的代理服務(wù)器和學(xué)習(xí)代理服務(wù)器有效的情況。例如,如果人類給了清理機(jī)器人詳細(xì)的評(píng)價(jià)反饋,它就能學(xué)著詢問(wèn)人類“房間是否打掃干凈?”這能為反饋功能提供一個(gè)非常有用的相似情況,而機(jī)器人最終也知道檢查是否有可見(jiàn)污跡是更便捷但始終有效的相似情況。這也能讓機(jī)器人使用極少數(shù)的具體評(píng)價(jià)學(xué)會(huì)好的打掃策略。
更廣泛地說(shuō),半監(jiān)督RL和可靠但較少的驗(yàn)收標(biāo)準(zhǔn)能刺激機(jī)器人的交流和透明度,因?yàn)闄C(jī)器人想要盡可能得到代理服務(wù)器的反饋,不管它的決定最終是否會(huì)得到高反饋。例如,地毯下藏著的污跡會(huì)破壞使用者反應(yīng)和實(shí)際反饋信息之間的聯(lián)系,但同樣也可避免。
我們能為半監(jiān)督RL想到許多可能的方法。例如,
監(jiān)督的反饋學(xué)習(xí):訓(xùn)練一個(gè)模式去預(yù)測(cè)基于半時(shí)間段和半經(jīng)歷的反饋,并使用它和恰當(dāng)?shù)臋?quán)衡或不準(zhǔn)確的評(píng)估,去評(píng)價(jià)未標(biāo)記經(jīng)歷的結(jié)果,而評(píng)價(jià)的誤差源于對(duì)已評(píng)價(jià)的或已知的反饋的低信心。此模式版本的學(xué)習(xí)和人類的反應(yīng)可作為一個(gè)反饋。許多現(xiàn)存RL方法已經(jīng)適合與反饋預(yù)測(cè)者相似的評(píng)估(帶有明顯基準(zhǔn)線的政策梯度方法,顯示這種方法是明顯可行的。
半監(jiān)督或活躍的反饋學(xué)習(xí):為更快學(xué)習(xí)反饋評(píng)估,聯(lián)合之前傳統(tǒng)的半監(jiān)督和活躍的學(xué)習(xí)。例如,機(jī)器人能學(xué)著在環(huán)境中辨認(rèn)“突出”事件,并要求看與這些事件有關(guān)的反饋。
無(wú)監(jiān)督的值迭代:使用未標(biāo)注經(jīng)歷觀察到的轉(zhuǎn)變做出更準(zhǔn)確的Bellman更新。
無(wú)監(jiān)督的模式學(xué)習(xí):如果使用基于模式的RL,使用未標(biāo)注經(jīng)歷觀察到的轉(zhuǎn)變?nèi)ヌ岣吣J降馁|(zhì)量。
拿玩具舉例,半監(jiān)督的RL機(jī)器人應(yīng)該能通過(guò)少量直接反應(yīng)回饋信號(hào)學(xué)會(huì)玩Atari游戲,而回饋信號(hào)大多數(shù)是直接基于可是表現(xiàn)的評(píng)分。這個(gè)簡(jiǎn)單問(wèn)題能拓展去解決其他安全問(wèn)題:例如,機(jī)器人在未修改真實(shí)分?jǐn)?shù)情況下,能修改展示的分?jǐn)?shù);或它必須采取特殊行動(dòng)(比如暫停游戲)為看它的評(píng)分;或它必須學(xué)會(huì)一系列增加的大概相似情況(例如,學(xué)習(xí)一些聲音與積極的反應(yīng)聯(lián)系在一起,而一些聲音與消極的反應(yīng)聯(lián)系在一起。)或者,沒(méi)有可見(jiàn)的分?jǐn)?shù)展示,機(jī)器人能從少數(shù)明確的反饋請(qǐng)求學(xué)會(huì)如何玩(“在敵人的船炸毀的情況下,我得到了多少分?那更大的敵船又如何?”)
對(duì)半監(jiān)督RL而言,有效方法的第一步是提供可評(píng)估監(jiān)督和緩解其他AI安全問(wèn)題。不管它與安全問(wèn)題的相關(guān)性,對(duì)學(xué)習(xí)的加強(qiáng)是十分有效的。
拓展監(jiān)督的其他方法:
遠(yuǎn)程監(jiān)控。我能提供在加速中一些關(guān)于系統(tǒng)決定的有用信息和關(guān)于正確評(píng)估的線索,而不是提供系統(tǒng)小部分決定的信息。在半監(jiān)督或監(jiān)督薄弱的學(xué)習(xí)中,有做過(guò)一些工作。例如,普遍化的期待標(biāo)準(zhǔn)要求使用者提供大眾級(jí)別的數(shù)據(jù)(例如,告訴系統(tǒng)平均每一句話至少包含一個(gè)名詞);DeepDive系統(tǒng)要求使用者提供能產(chǎn)生許多微弱標(biāo)簽的規(guī)則;并從最初的低重復(fù)標(biāo)注規(guī)則推斷出更普遍模式。這個(gè)普遍的方法經(jīng)常涉及到遠(yuǎn)程監(jiān)控,在自然語(yǔ)言處理共同體中最近受到了關(guān)注。擴(kuò)展這些線性工作并運(yùn)用這些工作處理代理情況,代理情況下的反饋是相互作用的并且獨(dú)立且同分布。拓展線性工作能提供擴(kuò)展監(jiān)督的方法,而這一方法與在半監(jiān)督RL具現(xiàn)化的方法是互補(bǔ)的。
分層強(qiáng)化學(xué)習(xí)。分層強(qiáng)化學(xué)習(xí)為拓展監(jiān)督提供了另一種方法。頂級(jí)代理只需一小部分高度抽象的行為,并且此行為在空間和世間都有大規(guī)模擴(kuò)展。代理通過(guò)委派動(dòng)作給副代理來(lái)完成動(dòng)作,而此項(xiàng)行為刺激產(chǎn)生真實(shí)反饋信號(hào),信號(hào)的產(chǎn)生就表示動(dòng)作的完成,緊接著副代理再任務(wù)委派給下一級(jí)副代理。在最低一級(jí),代理會(huì)在環(huán)境中直接做出反應(yīng)。
在RL等級(jí)中,最高層的代理能從較少的回饋中做出反應(yīng),因?yàn)樗槐貙W(xué)習(xí)如何實(shí)施政策的各項(xiàng)細(xì)節(jié)。與此同時(shí),即使頂級(jí)反饋較少,下一級(jí)代理也能收到較多的反饋信號(hào),因?yàn)樗麄冊(cè)趦?yōu)化由上級(jí)代理所定義的真實(shí)反饋信號(hào)。所以一個(gè)成功的RL分層方法能自然而然地促進(jìn)監(jiān)督的拓展。
在聯(lián)合分層RL和神經(jīng)系統(tǒng)功能相似部分的前提下,分層RL似乎是一個(gè)監(jiān)督的好方法。
潛能測(cè)試。在基本控制運(yùn)行環(huán)境下,測(cè)試半監(jiān)督RL將會(huì)是一個(gè)極其簡(jiǎn)單的方法。如果隨機(jī)反饋只能提供10%的經(jīng)歷,我們能否學(xué)得如同提供所有經(jīng)歷一樣地快?在此項(xiàng)任務(wù)中,反饋機(jī)制十分簡(jiǎn)單,所以成功的幾率會(huì)是十分相似。下一步要在Atari游戲上實(shí)驗(yàn)。積極的學(xué)習(xí)案例會(huì)十分有趣----大概僅從一小部分請(qǐng)求樣本中(如在Space Invaders 敵船被摧毀的框架)就能推斷出反饋框架,因此能在完全無(wú)監(jiān)督的模式下玩游戲。
6.安全探測(cè)
所有智能代理有時(shí)需要參與探測(cè)-----采取在當(dāng)前情況下看起來(lái)不理想的行為,但能幫助智能代理了解周圍的環(huán)境。但是,探測(cè)十分地危險(xiǎn),因?yàn)樯婕暗揭恍┲悄艽聿荒芎芎美斫獾男袨椤T谟螒颦h(huán)境中,例如Atari視頻游戲,會(huì)限定結(jié)果的破壞程度----智能代理會(huì)丟掉一些分?jǐn)?shù),或是跑進(jìn)敵方陣營(yíng)并承擔(dān)一些破壞。但是現(xiàn)實(shí)世界更沒(méi)有如此地寬容。錯(cuò)誤的行為會(huì)損壞智能代理或讓它陷入無(wú)法擺脫的境地。無(wú)人駕駛直升飛機(jī)會(huì)撞到地上或是破壞財(cái)產(chǎn);工業(yè)控制系統(tǒng)能造成嚴(yán)重的問(wèn)題。一般探索規(guī)則,如epsilon-greedy或R-max,通過(guò)隨機(jī)選擇行為或樂(lè)觀地測(cè)試未被開(kāi)發(fā)的行為,所以并未采取行動(dòng)避免危險(xiǎn)情況。在拓展的世間規(guī)模采取連續(xù)的探索政策是更復(fù)雜的探索策略,而此策略會(huì)有更大的危險(xiǎn)幾率,因?yàn)檫B續(xù)選擇的錯(cuò)誤政策會(huì)比隨機(jī)的行為危害更大。但是即使我們對(duì)運(yùn)算環(huán)境所知不多,直覺(jué)上連續(xù)選擇能預(yù)測(cè)那個(gè)行為是危險(xiǎn)的,并能探索避免的方法。例如,如果我想了解老虎,我是應(yīng)該買一只老虎?還是買一本關(guān)于老虎的書?只需一些關(guān)于老虎的先前知識(shí),就知道哪個(gè)選擇更好。
在實(shí)踐中,RL計(jì)劃能通過(guò)簡(jiǎn)單的硬編碼避免災(zāi)難性行為以解決此類問(wèn)題。例如,RL控制的無(wú)人直升機(jī)能通過(guò)一個(gè)硬編碼的災(zāi)難避免序列去推翻它的政策。(例如快速轉(zhuǎn)動(dòng)旋螺槳以增加高度)。當(dāng)只有少部分事情會(huì)出錯(cuò)時(shí),這種方法能進(jìn)行地十分順利,并且設(shè)計(jì)者也能提前了解所有情況。但當(dāng)代理變得越來(lái)越智能且在更復(fù)雜的域名內(nèi)行動(dòng),準(zhǔn)確預(yù)測(cè)所有可能的災(zāi)難性失敗會(huì)變得越來(lái)越困難。代理運(yùn)行強(qiáng)大網(wǎng)絡(luò)和尋找-找回行為的失敗模式空間會(huì)很大。在這些情況下用硬編程來(lái)應(yīng)對(duì)所有可能失敗不可行,所以用原則性更強(qiáng)的方法去阻止有害的探索變得十分重要。即使在最簡(jiǎn)單的情況下,比如無(wú)人駕駛直升飛機(jī),原則性較強(qiáng)的方法能簡(jiǎn)化設(shè)計(jì)系統(tǒng)并減少特定語(yǔ)域編程的需要。
關(guān)于安全問(wèn)題探索的文獻(xiàn)相當(dāng)多---在本文中我們會(huì)討論問(wèn)題中最重要的部分。我們不會(huì)在此廣泛地回顧文獻(xiàn),但會(huì)簡(jiǎn)單描述本次試驗(yàn)所采用的一般方法,并會(huì)提出一些關(guān)于提高RL系統(tǒng)規(guī)模和能力的建議。
風(fēng)險(xiǎn)敏感表現(xiàn)標(biāo)準(zhǔn):從期待的總回饋到另外的目標(biāo),這些目標(biāo)能更好的阻止罕見(jiàn),災(zāi)難性的事件,現(xiàn)存文獻(xiàn)考慮改變優(yōu)化標(biāo)準(zhǔn)。這些方法涉及到優(yōu)化最壞表現(xiàn),或是保證錯(cuò)誤行為的可能性十分低,或是會(huì)懲罰行為誤差。這些方法并未被用于表現(xiàn)功能相似性測(cè)試,例如深層神經(jīng)網(wǎng)絡(luò),但一些方法的原則上應(yīng)該是可行。最近一些研究是測(cè)試深層網(wǎng)絡(luò)神經(jīng)系統(tǒng)在價(jià)值評(píng)估方面的不確定性;這些想法能容入進(jìn)風(fēng)險(xiǎn)評(píng)估的RL算法。另外一個(gè)與風(fēng)險(xiǎn)敏感有關(guān)的線性工作使用非政策評(píng)估去執(zhí)行政策更新,此方法成功的可能性很高。
使用示范:探索對(duì)于代理確認(rèn)接近性能最優(yōu)十分重要。如果我們不使用反向RL或是學(xué)徒學(xué)習(xí),在此情況下,學(xué)習(xí)算法具備接近最優(yōu)行為的專業(yè)軌線,我們能避免探索的需要。使用深層神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)功能或政策代價(jià)的反向?qū)W習(xí)鞏固中取得了進(jìn)展,且進(jìn)展表明通過(guò)訓(xùn)練小部分示范能減少在高級(jí)RL探索的需要。此類示范能用于創(chuàng)造政策基準(zhǔn)線,到這種程度之后即使深度學(xué)習(xí)十分重要,不基于政策基準(zhǔn)線的探索也能被限制重要性。
模仿探索:我們能在模擬世界中而不是真實(shí)世界中做探索,發(fā)生破壞的機(jī)會(huì)就會(huì)越小。在真實(shí)世界中做一些試驗(yàn)十分有必要,因?yàn)椴皇悄M器不能完美再現(xiàn)所有的復(fù)雜情況,但能在模擬中對(duì)危險(xiǎn)了解更多,并在現(xiàn)實(shí)世界中行動(dòng)時(shí)采取更加保守的策略。在虛擬環(huán)境中訓(xùn)練代理(尤其是機(jī)器人)已經(jīng)十分的普遍,所以“以探索為重點(diǎn)的模擬”取得進(jìn)步能很容易融入當(dāng)前的而工作流程。在涉及到學(xué)習(xí)和發(fā)展的連續(xù)循環(huán)系統(tǒng)中,有一些與如何逐漸更新安全問(wèn)題政策相關(guān)的有趣研究問(wèn)題,考慮到以探索為基礎(chǔ)的軌線不能完美反應(yīng)這些政策的后果和可靠正確的脫離政策的軌線。
有界限的探索:如果我們知道空間的一部分是安全的,這樣即使是最壞的行為也能挽回或是限制危害,我們能讓代理在此界限之內(nèi)自由運(yùn)行。例如,在直升機(jī)離地面足夠遠(yuǎn)時(shí),它就能安全地進(jìn)行探索,因?yàn)榧词钩霈F(xiàn)問(wèn)題也能讓人類和另外一個(gè)政策有足夠的時(shí)間進(jìn)行挽救。更好的情況是,如果我們有一個(gè)模式,就能提前推算出這一動(dòng)作是否會(huì)把我們帶離安全境地。安全能被定義為在余下的空間各態(tài)中行為都是可逆的,或是重大失誤只會(huì)造成較少的損失。因?yàn)橛衅渌姆较?,把這些方法改編或是運(yùn)用于先進(jìn)發(fā)達(dá)的RL系統(tǒng)將會(huì)有廣闊的前景。這個(gè)想法看起來(lái)與H-infinity控制和區(qū)域驗(yàn)證有關(guān)。
可信任的監(jiān)督:如果我們有一個(gè)能信任的政策和運(yùn)行環(huán)境模式,我們能限制被政策所信任行為的探索,并進(jìn)行恢復(fù)。向下猛沖的行為可做,只要能及時(shí)制止。
人類監(jiān)控:另一個(gè)可能是由人類檢測(cè)潛在的危險(xiǎn)行為。不幸的是這個(gè)方法碰到可拓展監(jiān)控問(wèn)題:代理為讓人類監(jiān)控可行必須做出足夠多的探索行為,或是運(yùn)行夠快讓人類進(jìn)行評(píng)價(jià)。挑戰(zhàn)的關(guān)鍵在于,代理能做好判斷哪些行為是真正的危險(xiǎn),哪些是安全可單方執(zhí)行的行為;另外一個(gè)挑戰(zhàn)是在等待監(jiān)督時(shí)找到恰當(dāng)?shù)陌踩袨椤?/p>
潛在試驗(yàn):有一系列的游戲運(yùn)行環(huán)境是很用的,在此環(huán)境中粗心的代理會(huì)輕易調(diào)入進(jìn)行危險(xiǎn)行為探索的陷阱,但有足夠的模式應(yīng)對(duì)災(zāi)難失誤,且聰明的代理能預(yù)測(cè)和避開(kāi)。在一定程度上,這些特征早已存在于無(wú)人直升飛機(jī)競(jìng)賽和火星漫游模擬之中,但發(fā)生災(zāi)難的風(fēng)險(xiǎn)十分怪異,以至于經(jīng)過(guò)訓(xùn)練的代理都能過(guò)度擬合。一個(gè)真實(shí)廣泛的環(huán)境設(shè)置包括概念上明顯的陷阱,這會(huì)導(dǎo)致粗心的代理收到極其消極的反饋其中包括物理上和概念上的災(zāi)難,而這能幫助高級(jí)RL系統(tǒng)進(jìn)行安全探索的發(fā)展。此類一系列運(yùn)行環(huán)境可承擔(dān)標(biāo)桿學(xué)習(xí)的角色,其最終目標(biāo)是發(fā)展能在一系列環(huán)境中學(xué)會(huì)避免災(zāi)難的單一結(jié)構(gòu)。
7.分布改變的堅(jiān)固性
我們有時(shí)會(huì)遇到一些用我們之前經(jīng)歷無(wú)法解決的情況----例如,開(kāi)飛機(jī),去一個(gè)與自己國(guó)家文化完全不一樣的國(guó)家旅游,或是第一次照顧小孩。此類情況不可避免會(huì)很難處理也會(huì)導(dǎo)致一些失誤。但是,解決此類問(wèn)題的關(guān)鍵在于意識(shí)到我們的不足,而不是簡(jiǎn)單的想象我們用處理其他問(wèn)題的直覺(jué)能成功瞞過(guò)去。機(jī)器學(xué)習(xí)系統(tǒng)也有類似問(wèn)題-----在安靜環(huán)境訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng)在嘈雜環(huán)境中表現(xiàn)的十分差,但對(duì)錯(cuò)誤分類十分有自信(一些作者曾經(jīng)就語(yǔ)音識(shí)別系統(tǒng)進(jìn)行過(guò)個(gè)人觀察)。在清掃機(jī)器人的例子中,粗糙的清理物質(zhì)在用來(lái)清理工廠時(shí),十分有效;但在清理辦公室時(shí)會(huì)造成損壞?;蛘咿k公室會(huì)有寵物,而機(jī)器無(wú)法識(shí)別,它會(huì)試著用肥皂清洗,所以很顯然會(huì)導(dǎo)致教壞的結(jié)果。一般來(lái)說(shuō),當(dāng)測(cè)試的分布與訓(xùn)練時(shí)的分布不一樣,機(jī)器的學(xué)習(xí)系統(tǒng)會(huì)表現(xiàn)的非常差,但它會(huì)錯(cuò)誤地認(rèn)為自己表現(xiàn)得不錯(cuò)。此類錯(cuò)誤會(huì)有害---分類器會(huì)自信地做出錯(cuò)誤地診斷,盡管它的自信不符合人類的期盼,或是語(yǔ)言模式會(huì)輸出冒犯性的文章,但卻也認(rèn)為沒(méi)有問(wèn)題。對(duì)于在世界上的智能代理,會(huì)有發(fā)生更壞事情的可能----例如,智能代理可能會(huì)使電網(wǎng)超負(fù)荷,但它卻自信地認(rèn)為部分區(qū)域電力不足,所以總結(jié)出急需更多的電力,超負(fù)荷是不可能。更加廣泛說(shuō),任何代理只要是未在正確的分布中處理,它的感覺(jué)或是探索式處理過(guò)程會(huì)錯(cuò)誤地理解自己的處境,因此會(huì)做出危險(xiǎn)行為且不能意識(shí)到自己所做是危險(xiǎn)的。除此之外,如果系統(tǒng)在現(xiàn)實(shí)世界中遇到與訓(xùn)練不同的情況,依賴于訓(xùn)練過(guò)的機(jī)器學(xué)習(xí)系統(tǒng)的安全檢查(例如,我的視覺(jué)系統(tǒng)相信這條路是干凈的嗎?)可能會(huì)無(wú)法預(yù)計(jì)地失敗。尋找一個(gè)好方法去探測(cè)此類失敗,并且能最終有發(fā)生頻率的確切數(shù)據(jù)對(duì)建立安全可預(yù)測(cè)的系統(tǒng)十分關(guān)鍵。
對(duì)于準(zhǔn)確性,我能想象如果一個(gè)機(jī)器學(xué)習(xí)模式在一個(gè)分布(p0)中學(xué)習(xí),但卻在潛在的不同的測(cè)試分布(p*)中運(yùn)行。我們有很多其他的方法來(lái)解決此類問(wèn)題(例如,在網(wǎng)上學(xué)習(xí)中設(shè)置觀念轉(zhuǎn)移),但我們會(huì)尋求簡(jiǎn)單,關(guān)注之前的問(wèn)題。其中的重點(diǎn)是我們可能會(huì)在訓(xùn)練中遇到大量的已標(biāo)注的數(shù)據(jù),但很少或是沒(méi)有未被標(biāo)記的數(shù)據(jù)。我們的目標(biāo)是確保模式在P*環(huán)境中合理運(yùn)行,也就是在P*運(yùn)行很好并且運(yùn)行不好時(shí),也能自己意識(shí)到。(理想狀態(tài)是能通過(guò)采取保守措施或是征求人類意見(jiàn),避免或是緩解錯(cuò)誤行為)。
此類問(wèn)題涉及到許多領(lǐng)域,包括改變探測(cè),異常探測(cè),假設(shè)測(cè)試,遷移學(xué)習(xí)和其他等等。我們將會(huì)描述一些解說(shuō)性的方法并列舉出它們的長(zhǎng)處和不足,而不是在文中詳細(xì)回顧。
特定模式:相關(guān)變量變化和邊緣化可能性。如果我們主要做預(yù)測(cè)工作,讓x指代輸入,y指代輸出,那么其中一個(gè)可能就是做出相關(guān)變量假設(shè)p0(y/x)=p*(y/x)。在此類情況下,假設(shè)我們能夠p0(x)和p*(x)建模,我們能通過(guò)再權(quán)衡每一個(gè)訓(xùn)練實(shí)例p*(x)/p0(x)的(x,y)來(lái)進(jìn)行重要性評(píng)估。評(píng)估過(guò)重要性的實(shí)例能讓我們?cè)u(píng)價(jià)p*的表現(xiàn),甚至是再訓(xùn)練模式更好執(zhí)行p*。這種方法受限于重要性評(píng)估的差異,這種差異非常大甚至于無(wú)限,除非p0和p*非常接近。
實(shí)例再評(píng)價(jià)的備選方案涉及到假設(shè)一個(gè)特定的模式家族,在此情況下,預(yù)測(cè)p0和p*只有一種最優(yōu)模式.這個(gè)方法的局限在于,到目前為止,這種模式在實(shí)踐中經(jīng)常錯(cuò)誤定位。但是它能通過(guò)采用高表達(dá)模式家族來(lái)克服,例如復(fù)制Hilbert 空間,圖靈機(jī),或是有效表達(dá)神經(jīng)網(wǎng)。在之后的情況中,最近有一個(gè)有趣的研究是使用引導(dǎo)程序去評(píng)估有限實(shí)例的變化,其中的變化一般是神經(jīng)系統(tǒng)中的相關(guān)參數(shù);這項(xiàng)研究對(duì)于更好理解這種方法是否能有效評(píng)估在實(shí)際表現(xiàn),和引導(dǎo)程序設(shè)置下缺少?gòu)澢蚴翘厥獾漠?dāng)?shù)刈钚≈凳侨绾斡绊懛椒ǖ目尚行允种匾?/span>
目前為止的所有方法都依賴于相關(guān)變量強(qiáng)大且可測(cè)試的假設(shè);后者的特性從安全的角度看問(wèn)題很大,因?yàn)樗軐?dǎo)致機(jī)器學(xué)習(xí)系統(tǒng)的無(wú)聲故障。另外一個(gè)方法,不依賴相關(guān)變量變化且建立了一個(gè)能生產(chǎn)的分布模式。我們可自由假設(shè)其他不變性(例如,p(x)變,p(y)不變,或是特定獨(dú)立情況保持不變),而不是假設(shè)p(x)變,但p(x/y)不變。這有達(dá)到一個(gè)進(jìn)步,因?yàn)榇祟惣僭O(shè)比變量改變的假設(shè)更以測(cè)試(因?yàn)樗鼈儾簧婕安豢捎^察的變量y)。但也有不利之處,在未確定的模式中,生產(chǎn)型方法比有區(qū)別型方法更脆弱----例如,大量經(jīng)驗(yàn)文獻(xiàn)表示,當(dāng)模式被錯(cuò)誤定位時(shí),基于最大邊緣可能的半監(jiān)督生產(chǎn)型方法會(huì)表現(xiàn)的很差。
以上討論的方法相較而言更依靠于有一個(gè)特定的模式家庭----其中包括真實(shí)的分布和真實(shí)的觀念。但在多數(shù)情況下都會(huì)出現(xiàn)問(wèn)題,因?yàn)楝F(xiàn)實(shí)比模式家庭所能處理的情況更加復(fù)雜。上文備注中有提到,使用表達(dá)的模式能緩解相關(guān)情況,例如kernels,圖靈機(jī),或是大量的神經(jīng)網(wǎng)絡(luò);但還是有遺留問(wèn)題:例如即使家族模式包含所有的圖靈機(jī),在有限數(shù)據(jù)下,我們實(shí)際上只能夠在圖靈機(jī)所給的描述長(zhǎng)度內(nèi)學(xué)習(xí),如果圖靈機(jī)描述現(xiàn)實(shí)超過(guò)此長(zhǎng)度,我們就會(huì)陷入定位錯(cuò)誤的范疇(換句話說(shuō),現(xiàn)實(shí)不能由圖靈機(jī)描述。)
部分特定模式:矩量法,未被監(jiān)督的風(fēng)險(xiǎn)評(píng)估,隨意確認(rèn)和有限信息最大化的可能性。另外一個(gè)方法是吧建立完全確定的模式家族當(dāng)不可能,并設(shè)計(jì)不管此情況也能表現(xiàn)很好的方法。由此產(chǎn)生了部分確定模式----假設(shè)是關(guān)于分布的一些方面,但對(duì)于其他方面我們是不知道的。舉個(gè)簡(jiǎn)單例子,在線性退化的變體中,我們假設(shè)y=(w*,x)+v, E[v/x]=0,但我們不對(duì)v做任何分布形式上的深度假設(shè)。事實(shí)證明這以足夠辨認(rèn)參數(shù)w*,并且這些參數(shù)會(huì)減少預(yù)期錯(cuò)誤即使x分布發(fā)生了變化。有趣的是這個(gè)例子說(shuō)明w*在不完整(部分)確定的分布中也能被辨認(rèn)出來(lái)。
洞察能被大體概括如下,它是計(jì)量經(jīng)濟(jì)學(xué)中的矩量法的一個(gè)主要?jiǎng)恿ΑS?jì)量經(jīng)濟(jì)學(xué)文獻(xiàn)實(shí)際上為解決部分確定模式提供大量工具,包括有限信息最大化的可能性和有幫助的變量。
回到機(jī)器學(xué)習(xí),矩量法最近在評(píng)估潛在變量模式取得較大成功。盡管目前的重點(diǎn)在于使用矩量法克服非凸性問(wèn)題,同時(shí)它也能提供一種方法執(zhí)行未監(jiān)督的學(xué)習(xí),基于情況獨(dú)立假設(shè)而不是基于可能性最大化的強(qiáng)大分布假設(shè)。
最后,一些關(guān)于機(jī)器學(xué)習(xí)的研究只關(guān)注于將模式的錯(cuò)誤分布建模,且可用這些進(jìn)行判斷模式表現(xiàn)是好還是壞。正式來(lái)說(shuō),其目標(biāo)是實(shí)施無(wú)監(jiān)督的風(fēng)險(xiǎn)評(píng)估---從這些測(cè)試分布提供模式和標(biāo)注的數(shù)據(jù),并測(cè)試標(biāo)注風(fēng)險(xiǎn)的模式。這種形式體系充分利用訓(xùn)練和測(cè)試之間的不同—-即使測(cè)試分布與訓(xùn)練分布看起來(lái)完全不同并且我們看起來(lái)也無(wú)法輸出正確的預(yù)測(cè);但因?yàn)槲覀冎恍鑼?duì)風(fēng)險(xiǎn)作出大量的評(píng)估,無(wú)監(jiān)督的風(fēng)險(xiǎn)評(píng)估也是可行的。通過(guò)在錯(cuò)誤分布中假定某些條件性獨(dú)立,能接近無(wú)監(jiān)督的風(fēng)險(xiǎn)評(píng)估,并使用它去評(píng)測(cè)未標(biāo)注數(shù)據(jù)的錯(cuò)誤分布。除了假設(shè)獨(dú)立性,另一種假設(shè)是錯(cuò)誤高斯分布為基礎(chǔ)的真實(shí)產(chǎn)出,y在此情況下是風(fēng)險(xiǎn)評(píng)估可歸納為高斯復(fù)合模式評(píng)估。因?yàn)檫@些方法僅僅關(guān)注模式錯(cuò)誤但卻忽略了數(shù)據(jù)分布的其他方面,所以也可被看做是部分特定的實(shí)例。
多樣分布訓(xùn)練。在多樣訓(xùn)練分布中訓(xùn)練,希望能同時(shí)在多種訓(xùn)練分布表現(xiàn)很好的系統(tǒng)也能在新穎的訓(xùn)練系統(tǒng)中表現(xiàn)出色。其中一個(gè)作者發(fā)現(xiàn)情況是這樣的,例如,在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)中,能聯(lián)合以上任意思想,并采取編程的方法試著發(fā)展設(shè)計(jì)能連續(xù)收集典型訓(xùn)練集的方法論,此方法論能用于建立能連續(xù)總結(jié)新穎分布的模式。能探索出未被訓(xùn)練數(shù)據(jù)所包含的情況并能正確做出反應(yīng),即使是對(duì)于這一方法也顯得十分的重要。除此之外,有有充分強(qiáng)度測(cè)試分布的方法論與訓(xùn)練分布設(shè)置也是完全不一樣的。
如何應(yīng)對(duì)脫離分布。以上描述的方法都集中于當(dāng)模式在新的分布中無(wú)法做出正確預(yù)期的探索。其中一個(gè)重要的相關(guān)問(wèn)題是的在探測(cè)時(shí)需要做些什么。一個(gè)自然的方法是向人類詢問(wèn)相關(guān)信息,盡管在復(fù)雜的輸出任務(wù)中,會(huì)對(duì)哪個(gè)是優(yōu)先問(wèn)題產(chǎn)生疑問(wèn);在時(shí)間緊張的情況下,問(wèn)問(wèn)題甚至算不上一個(gè)選擇。
對(duì)于前一個(gè)問(wèn)題,最近已經(jīng)在模式不確定的結(jié)構(gòu)定位方面和獲得輸出設(shè)置的校準(zhǔn)方面都取得不錯(cuò)進(jìn)步,但我們相信還有很多工作未做。對(duì)于后一個(gè)問(wèn)題,基于獲得能力分析的相關(guān)工作和強(qiáng)硬的政策提高為在不確定情況下實(shí)施保守政策提供了可能的方法;在我們的認(rèn)知中,這種方法還未與探測(cè)模式超出分布的失敗聯(lián)合起來(lái)。
除了已構(gòu)建的輸出設(shè)置,代理可在環(huán)境(如,RL代理中)運(yùn)行,關(guān)于在不確定情況下認(rèn)知可信性的信息有潛在價(jià)值。在豐富的運(yùn)行環(huán)境中,這些代理能選擇收集能分辨認(rèn)知的信息(例如,如周圍太吵,可以靠近講話者),;當(dāng)不確定性高時(shí),參與低風(fēng)險(xiǎn)實(shí)驗(yàn)(例如,在受控制的環(huán)境中嘗試些危險(xiǎn)的化學(xué)反應(yīng));尋找能幫助認(rèn)知系統(tǒng)曝光于相關(guān)分布的經(jīng)驗(yàn)(例如,在帶有口音的語(yǔ)音中進(jìn)行聽(tīng)力練習(xí))。人類能像例行公事般利用這些信息,但在我們的認(rèn)知中目前的RL技術(shù)很難做到,或許是因?yàn)槠占暗腞L運(yùn)行環(huán)境還不夠豐富,以至于能獲得處理不確定的精細(xì)管理能力。恰當(dāng)處理超出分布的信息對(duì)于作者來(lái)說(shuō)會(huì)是下一代RL系統(tǒng)有趣且未開(kāi)發(fā)的挑戰(zhàn)。
統(tǒng)一的觀點(diǎn):反事實(shí)推理和帶有契約的機(jī)器學(xué)習(xí)。一些作者最近發(fā)現(xiàn)在思考關(guān)于超出分布的預(yù)期時(shí),有兩個(gè)方法特別有效。第一個(gè)是反事實(shí)推理,在此種方法中會(huì)詢問(wèn)“如果現(xiàn)實(shí)在一定程度上不同會(huì)發(fā)生什么?”在某些程度上,分布轉(zhuǎn)移能被看成是反事實(shí)的一個(gè)特殊類型,所以理解反事實(shí)推理能幫助系統(tǒng)應(yīng)付分布轉(zhuǎn)移。我們對(duì)運(yùn)用反事實(shí)推理技術(shù)去處理機(jī)器學(xué)習(xí)問(wèn)題感到十分振奮,盡管還存在著處理高空間和復(fù)雜的設(shè)置還未完成。
第二個(gè)方法是帶有契約的機(jī)器學(xué)習(xí)----構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng),此系統(tǒng)能建立一個(gè)關(guān)于機(jī)器行為的定義明確的契約類似于軟件系統(tǒng)的設(shè)計(jì);并列舉出機(jī)器學(xué)習(xí)系統(tǒng)會(huì)失誤的方法和會(huì)導(dǎo)致大規(guī)模機(jī)器維護(hù)和學(xué)習(xí)系統(tǒng)故障的問(wèn)題。在我們的認(rèn)識(shí)中最簡(jiǎn)單和最嚴(yán)重的失誤是大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)極其脆弱盲從的契約,也就是它只在訓(xùn)練和測(cè)試的分布完全一樣時(shí)才能表現(xiàn)的很好。
這種情況很難檢測(cè)出,在現(xiàn)實(shí)中也很少見(jiàn),但這對(duì)于建立在脆弱契約下也能表現(xiàn)很好的系統(tǒng)極具價(jià)值,且此契約能更簡(jiǎn)單地推理出。部分確定的模式能提供一個(gè)方法-----不要求分布完全一致,我們只要求在模式中的特定部分的分布匹配??蛇_(dá)性分析和模式修復(fù)為獲得更好的契約提供另一種方法----在可達(dá)分析中,我們能在已知保守政策總能到達(dá)安全范疇的前提下優(yōu)化表現(xiàn)主題;并且在模式修復(fù)中,能改變已被訓(xùn)練的模式確保部分需要的安全部分被保留。
總結(jié)。建立在新穎測(cè)試模式下也能表現(xiàn)很好的機(jī)器學(xué)習(xí)系統(tǒng)的方法有很多。其中一個(gè)方法是基于完全確定模式,在此情況下,最初的障礙是在實(shí)踐中建立完全確定模式,就像是在無(wú)限的訓(xùn)練數(shù)據(jù)中如何保持在新穎分布中的不確定性;另一個(gè)困難是在模式錯(cuò)誤定位時(shí)如何檢測(cè)。另一個(gè)方法是假定只有部分模式確定,這個(gè)方法前景不錯(cuò),但在機(jī)器學(xué)習(xí)中缺乏發(fā)展,因?yàn)榇蠖鄶?shù)過(guò)去的開(kāi)發(fā)集中于計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域;在這有一個(gè)問(wèn)題是否半確定模式受限于簡(jiǎn)單問(wèn)題和/或保守預(yù)測(cè),或它們是否能測(cè)量現(xiàn)代機(jī)器學(xué)習(xí)運(yùn)用所需的復(fù)雜情況。最后,試著在多樣訓(xùn)練分布中訓(xùn)練,希望模式能在多樣訓(xùn)練分布中表現(xiàn)良好,同時(shí)在新穎測(cè)試分布中表現(xiàn)出色;對(duì)于這一方法,用與訓(xùn)練模式完全不一樣的的分布對(duì)模式進(jìn)行強(qiáng)度測(cè)試極其重要。此外,能在輸入過(guò)于新穎以至于不能做出好的預(yù)測(cè)時(shí),也照樣能做出預(yù)測(cè)也是同等重要的。
潛力測(cè)試:語(yǔ)音系統(tǒng)在超出分布時(shí)表現(xiàn)一向很差,所以“知道何時(shí)不確定”的語(yǔ)音系統(tǒng)將會(huì)是一個(gè)可能的實(shí)驗(yàn)項(xiàng)目。更確切的說(shuō),挑戰(zhàn)會(huì)是:基于標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練一個(gè)先進(jìn)的語(yǔ)音系統(tǒng),它基于測(cè)試集,如吵鬧有口音的語(yǔ)音,也能做出精準(zhǔn)的校對(duì)。當(dāng)前的系統(tǒng)因只在少部分訓(xùn)練集中訓(xùn)練,在實(shí)際測(cè)試中就表現(xiàn)很差;此外對(duì)它們自己錯(cuò)誤的轉(zhuǎn)錄也表現(xiàn)的很自信。解決這一問(wèn)題而不破壞原始的訓(xùn)練集會(huì)是一個(gè)重大進(jìn)步,且極具使用價(jià)值。更廣泛的說(shuō),設(shè)計(jì)出一個(gè)能基于新穎測(cè)試分布也連續(xù)測(cè)試表現(xiàn)的模式也會(huì)有重大意義。如果單一方法集能連續(xù)完成多種任務(wù)(如包括語(yǔ)音敏感測(cè)試,電腦標(biāo)準(zhǔn)檢查程序),這能處理新穎輸入方法集的可靠性。提到的這些在新穎分布中的表現(xiàn)測(cè)試對(duì)于讓模式適應(yīng)新情況有現(xiàn)實(shí)價(jià)值。最后,對(duì)于在創(chuàng)造一個(gè)RL代理必須學(xué)著翻譯大型語(yǔ)音的環(huán)境和如何正確評(píng)價(jià)翻譯錯(cuò)誤也極具價(jià)值。
8. 相關(guān)工作
如在介紹部分提到的一樣,一些其他的社區(qū)也曾廣泛地考慮過(guò)AI系統(tǒng)的安全問(wèn)題,這些社區(qū)有的是機(jī)器學(xué)習(xí)社區(qū),有的卻不是。在之前的部分我們已經(jīng)詳細(xì)討論了機(jī)器學(xué)習(xí)社區(qū)出現(xiàn)的問(wèn)題,接下來(lái)我們會(huì)簡(jiǎn)單說(shuō)一下其他社區(qū)關(guān)于AI安全所做的努力。
信息物理系統(tǒng)社區(qū):此社區(qū)的研究者們研究了安全系統(tǒng)與現(xiàn)實(shí)世界的互動(dòng)。此項(xiàng)研究成功地核查了整個(gè)聯(lián)邦飛行器的防碰撞系統(tǒng)。類似的其他工作包括交通管制算法和許多其他主題。但是此項(xiàng)研究沒(méi)有多注意正式核實(shí)行不通的現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)上。
未來(lái)主義者社區(qū):一個(gè)跨學(xué)科和非盈利的學(xué)術(shù)家關(guān)注AI的長(zhǎng)期使用,尤其是超智能AI。人類未來(lái)研究所特別研究過(guò)這個(gè)問(wèn)題,因關(guān)系到AI系統(tǒng)的未來(lái)和保證未來(lái)人類的優(yōu)先。智能機(jī)器研究所研究過(guò)許多先進(jìn)AI的安全問(wèn)題,特別關(guān)注高級(jí)問(wèn)題如哲學(xué)和于AI系統(tǒng)長(zhǎng)期考慮相關(guān)的決定理論。與此相反的是,我們關(guān)注的焦點(diǎn)在于現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)的實(shí)際安全問(wèn)題的經(jīng)驗(yàn)研究,并且我們相信此項(xiàng)研究能應(yīng)付大量的潛在危機(jī),其中包括長(zhǎng)期和短期的。
其它對(duì)于安全研究的要求:在研究社區(qū)中已有其它文獻(xiàn)指出了AI安全問(wèn)題研究的重要性。在2015的Open Letter中就有許多研究社區(qū)的成員指出了“如何受益于人工智能卻避免其潛在危險(xiǎn)”,提議優(yōu)先發(fā)展人工智能的穩(wěn)定和有益之處,包括除AI相關(guān)的意外的其它話題。
與安全相關(guān)的其它問(wèn)題:許多人工智能或是其它領(lǐng)域的學(xué)者都開(kāi)始思考AI技術(shù)的社會(huì)影響。除了直接研究的問(wèn)題(如在正文中回顧的,依然有許多關(guān)于其它話題的重要研究,這其中有些是與意外問(wèn)題相關(guān)或是重疊的。全面回顧這些研究不在本文研究范疇之內(nèi),但我們能簡(jiǎn)單列出一些主題:
隱私:在使用機(jī)器學(xué)習(xí)敏感數(shù)據(jù)時(shí)如何確保隱私,例如醫(yī)療機(jī)器?
公平:如何確保ML系統(tǒng)不會(huì)歧視?
安全:一個(gè)惡意的對(duì)手能對(duì)ML系統(tǒng)做些什么?
濫用:如何阻止誤用ML系統(tǒng)攻擊或是傷害人類?
透明度:如何理解復(fù)雜的ML系統(tǒng)在做些什么?
政策:如何預(yù)測(cè)和應(yīng)對(duì)ML所帶來(lái)的經(jīng)濟(jì)和社會(huì)影響?
我們相信這些話題急待解決且發(fā)展前途光明,并且與本文中所探討的話題有大量交集。
9.結(jié)論
本文分析了智能代理學(xué)習(xí)中的意外和加強(qiáng)學(xué)習(xí),在智能代理中意外被定義為未被注意的有害行為,而這些行為應(yīng)該來(lái)自于較差的AI設(shè)計(jì)系統(tǒng)。我們提出了五種可能的,與意外風(fēng)險(xiǎn)有關(guān)的研究問(wèn)題,并且對(duì)于每一個(gè)問(wèn)題我們都有給出可行的方法,并且這些方法經(jīng)得起具體實(shí)驗(yàn)的檢驗(yàn)。
基于現(xiàn)實(shí)可行的機(jī)器學(xué)習(xí)系統(tǒng),如控制工業(yè)處理,健康有關(guān)的系統(tǒng)和其它重任務(wù)的技術(shù),小規(guī)模的意外看起來(lái)都會(huì)是很具體的問(wèn)題,因?yàn)樾〉囊馔鈺?huì)打擊人們對(duì)人工智能的信心。大的意外風(fēng)險(xiǎn)很難估測(cè),但我們相信隨著智能越來(lái)越強(qiáng)大,開(kāi)發(fā)一個(gè)有原則并且有遠(yuǎn)見(jiàn)的方法會(huì)是值得。盡管當(dāng)今的安全問(wèn)題是通過(guò)特別的或是個(gè)案對(duì)個(gè)案的方法解決的,但我們相信日后的趨勢(shì)是端對(duì)端,最后完全智能化,使用一個(gè)統(tǒng)一的方法阻止系統(tǒng)造成未意識(shí)到的麻煩。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。