丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給陳圳
發(fā)送

0

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準則,取代機器人三定律預防科技暴走(下)

本文作者: 陳圳 2016-06-28 17:07
導語:本文介紹AI中常見的具體問題及其解決方法

今天我們帶來了谷歌安全五大定律的下篇,經過詳細的論證,谷歌給出了一個可執(zhí)行的AI的安全問題設計框架。讓對于AI的限制的問題不再僅限于假設和推測,對今后深度學習系統(tǒng)的設計有不錯的參考意義。

5. 可拓展的監(jiān)管

想象一個有智能代理執(zhí)行一些復雜的任務,比如清掃機器打掃辦公室。我們會希望智能代理能最大限度地完成這個復雜的任務,就好像“如果使用者花費幾個小時仔細檢查結果,他們對代理的表現(xiàn)是否會滿意呢?”我們沒有足夠的時間對每一個實際訓練提供監(jiān)管;為訓練智能代理,我們需要依靠相似情況,例如“使用者看到辦公室時是否開心?”或者是“地板上有明顯可見的污跡嗎?”。這些信號能在訓練中有效地測評,但卻不能保證是我們所關心之事。誤差會加劇問題,就像是未被注意的副作用(副作用來自于簡單相似情況的忽視,會被復雜目標所懲罰)和入侵反饋(這個通過評估會被認定為不被重視)。我們通過開發(fā)有限的檢測預算能改善此類問題。

考慮此問題的框架是半監(jiān)督的學習鞏固,此學習鞏固表示的是日常學習鞏固除非代理能在短時間內完成回饋。代理表現(xiàn)的評估還是基于所有經歷的反饋,但它必須基于它所見的有限的回饋實例進行優(yōu)化。

積極的學習設置看起來是最有趣地;在此設置下,代理能要求去看任意經歷和時間段的反饋,只要能對學習有用;并且目標是達到反饋請求和總訓練時間的最優(yōu)。我們同時也要設計一個隨機設置,在此情況下,反饋在時間和經歷的隨機子集和中間的可能性中可見。

通過忽略不可標記的經歷和對可標記的經歷進行RL計算,我們可以規(guī)定表現(xiàn)的基準線。但將會導致學習進行緩慢。挑戰(zhàn)在于利用未標記的經歷來加速學習,理想的學習是如同所有的經歷都標注一樣的迅速且準確。

半監(jiān)督RL的一個重要子任務是辨認預測反饋的代理服務器和學習代理服務器有效的情況。例如,如果人類給了清理機器人詳細的評價反饋,它就能學著詢問人類“房間是否打掃干凈?”這能為反饋功能提供一個非常有用的相似情況,而機器人最終也知道檢查是否有可見污跡是更便捷但始終有效的相似情況。這也能讓機器人使用極少數(shù)的具體評價學會好的打掃策略。

更廣泛地說,半監(jiān)督RL和可靠但較少的驗收標準能刺激機器人的交流和透明度,因為機器人想要盡可能得到代理服務器的反饋,不管它的決定最終是否會得到高反饋。例如,地毯下藏著的污跡會破壞使用者反應和實際反饋信息之間的聯(lián)系,但同樣也可避免。

我們能為半監(jiān)督RL想到許多可能的方法。例如,

監(jiān)督的反饋學習:訓練一個模式去預測基于半時間段和半經歷的反饋,并使用它和恰當?shù)臋嗪饣虿粶蚀_的評估,去評價未標記經歷的結果,而評價的誤差源于對已評價的或已知的反饋的低信心。此模式版本的學習和人類的反應可作為一個反饋。許多現(xiàn)存RL方法已經適合與反饋預測者相似的評估(帶有明顯基準線的政策梯度方法,顯示這種方法是明顯可行的。

半監(jiān)督或活躍的反饋學習:為更快學習反饋評估,聯(lián)合之前傳統(tǒng)的半監(jiān)督和活躍的學習。例如,機器人能學著在環(huán)境中辨認“突出”事件,并要求看與這些事件有關的反饋。

無監(jiān)督的值迭代:使用未標注經歷觀察到的轉變做出更準確的Bellman更新。

無監(jiān)督的模式學習:如果使用基于模式的RL,使用未標注經歷觀察到的轉變去提高模式的質量。

拿玩具舉例,半監(jiān)督的RL機器人應該能通過少量直接反應回饋信號學會玩Atari游戲,而回饋信號大多數(shù)是直接基于可是表現(xiàn)的評分。這個簡單問題能拓展去解決其他安全問題:例如,機器人在未修改真實分數(shù)情況下,能修改展示的分數(shù);或它必須采取特殊行動(比如暫停游戲)為看它的評分;或它必須學會一系列增加的大概相似情況(例如,學習一些聲音與積極的反應聯(lián)系在一起,而一些聲音與消極的反應聯(lián)系在一起。)或者,沒有可見的分數(shù)展示,機器人能從少數(shù)明確的反饋請求學會如何玩(“在敵人的船炸毀的情況下,我得到了多少分?那更大的敵船又如何?”)

對半監(jiān)督RL而言,有效方法的第一步是提供可評估監(jiān)督和緩解其他AI安全問題。不管它與安全問題的相關性,對學習的加強是十分有效的。

拓展監(jiān)督的其他方法:

遠程監(jiān)控。我能提供在加速中一些關于系統(tǒng)決定的有用信息和關于正確評估的線索,而不是提供系統(tǒng)小部分決定的信息。在半監(jiān)督或監(jiān)督薄弱的學習中,有做過一些工作。例如,普遍化的期待標準要求使用者提供大眾級別的數(shù)據(例如,告訴系統(tǒng)平均每一句話至少包含一個名詞);DeepDive系統(tǒng)要求使用者提供能產生許多微弱標簽的規(guī)則;并從最初的低重復標注規(guī)則推斷出更普遍模式。這個普遍的方法經常涉及到遠程監(jiān)控,在自然語言處理共同體中最近受到了關注。擴展這些線性工作并運用這些工作處理代理情況,代理情況下的反饋是相互作用的并且獨立且同分布。拓展線性工作能提供擴展監(jiān)督的方法,而這一方法與在半監(jiān)督RL具現(xiàn)化的方法是互補的。

分層強化學習。分層強化學習為拓展監(jiān)督提供了另一種方法。頂級代理只需一小部分高度抽象的行為,并且此行為在空間和世間都有大規(guī)模擴展。代理通過委派動作給副代理來完成動作,而此項行為刺激產生真實反饋信號,信號的產生就表示動作的完成,緊接著副代理再任務委派給下一級副代理。在最低一級,代理會在環(huán)境中直接做出反應。

在RL等級中,最高層的代理能從較少的回饋中做出反應,因為它不必學習如何實施政策的各項細節(jié)。與此同時,即使頂級反饋較少,下一級代理也能收到較多的反饋信號,因為他們在優(yōu)化由上級代理所定義的真實反饋信號。所以一個成功的RL分層方法能自然而然地促進監(jiān)督的拓展。

在聯(lián)合分層RL和神經系統(tǒng)功能相似部分的前提下,分層RL似乎是一個監(jiān)督的好方法。

潛能測試。在基本控制運行環(huán)境下,測試半監(jiān)督RL將會是一個極其簡單的方法。如果隨機反饋只能提供10%的經歷,我們能否學得如同提供所有經歷一樣地快?在此項任務中,反饋機制十分簡單,所以成功的幾率會是十分相似。下一步要在Atari游戲上實驗。積極的學習案例會十分有趣----大概僅從一小部分請求樣本中(如在Space Invaders 敵船被摧毀的框架)就能推斷出反饋框架,因此能在完全無監(jiān)督的模式下玩游戲。

6.安全探測

所有智能代理有時需要參與探測-----采取在當前情況下看起來不理想的行為,但能幫助智能代理了解周圍的環(huán)境。但是,探測十分地危險,因為涉及到一些智能代理不能很好理解的行為。在游戲環(huán)境中,例如Atari視頻游戲,會限定結果的破壞程度----智能代理會丟掉一些分數(shù),或是跑進敵方陣營并承擔一些破壞。但是現(xiàn)實世界更沒有如此地寬容。錯誤的行為會損壞智能代理或讓它陷入無法擺脫的境地。無人駕駛直升飛機會撞到地上或是破壞財產;工業(yè)控制系統(tǒng)能造成嚴重的問題。一般探索規(guī)則,如epsilon-greedy或R-max,通過隨機選擇行為或樂觀地測試未被開發(fā)的行為,所以并未采取行動避免危險情況。在拓展的世間規(guī)模采取連續(xù)的探索政策是更復雜的探索策略,而此策略會有更大的危險幾率,因為連續(xù)選擇的錯誤政策會比隨機的行為危害更大。但是即使我們對運算環(huán)境所知不多,直覺上連續(xù)選擇能預測那個行為是危險的,并能探索避免的方法。例如,如果我想了解老虎,我是應該買一只老虎?還是買一本關于老虎的書?只需一些關于老虎的先前知識,就知道哪個選擇更好。

在實踐中,RL計劃能通過簡單的硬編碼避免災難性行為以解決此類問題。例如,RL控制的無人直升機能通過一個硬編碼的災難避免序列去推翻它的政策。(例如快速轉動旋螺槳以增加高度)。當只有少部分事情會出錯時,這種方法能進行地十分順利,并且設計者也能提前了解所有情況。但當代理變得越來越智能且在更復雜的域名內行動,準確預測所有可能的災難性失敗會變得越來越困難。代理運行強大網絡和尋找-找回行為的失敗模式空間會很大。在這些情況下用硬編程來應對所有可能失敗不可行,所以用原則性更強的方法去阻止有害的探索變得十分重要。即使在最簡單的情況下,比如無人駕駛直升飛機,原則性較強的方法能簡化設計系統(tǒng)并減少特定語域編程的需要。

關于安全問題探索的文獻相當多---在本文中我們會討論問題中最重要的部分。我們不會在此廣泛地回顧文獻,但會簡單描述本次試驗所采用的一般方法,并會提出一些關于提高RL系統(tǒng)規(guī)模和能力的建議。

風險敏感表現(xiàn)標準:從期待的總回饋到另外的目標,這些目標能更好的阻止罕見,災難性的事件,現(xiàn)存文獻考慮改變優(yōu)化標準。這些方法涉及到優(yōu)化最壞表現(xiàn),或是保證錯誤行為的可能性十分低,或是會懲罰行為誤差。這些方法并未被用于表現(xiàn)功能相似性測試,例如深層神經網絡,但一些方法的原則上應該是可行。最近一些研究是測試深層網絡神經系統(tǒng)在價值評估方面的不確定性;這些想法能容入進風險評估的RL算法。另外一個與風險敏感有關的線性工作使用非政策評估去執(zhí)行政策更新,此方法成功的可能性很高。
  使用示范:探索對于代理確認接近性能最優(yōu)十分重要。如果我們不使用反向RL或是學徒學習,在此情況下,學習算法具備接近最優(yōu)行為的專業(yè)軌線,我們能避免探索的需要。使用深層神經網絡去學習功能或政策代價的反向學習鞏固中取得了進展,且進展表明通過訓練小部分示范能減少在高級RL探索的需要。此類示范能用于創(chuàng)造政策基準線,到這種程度之后即使深度學習十分重要,不基于政策基準線的探索也能被限制重要性。

模仿探索:我們能在模擬世界中而不是真實世界中做探索,發(fā)生破壞的機會就會越小。在真實世界中做一些試驗十分有必要,因為不是模擬器不能完美再現(xiàn)所有的復雜情況,但能在模擬中對危險了解更多,并在現(xiàn)實世界中行動時采取更加保守的策略。在虛擬環(huán)境中訓練代理(尤其是機器人)已經十分的普遍,所以“以探索為重點的模擬”取得進步能很容易融入當前的而工作流程。在涉及到學習和發(fā)展的連續(xù)循環(huán)系統(tǒng)中,有一些與如何逐漸更新安全問題政策相關的有趣研究問題,考慮到以探索為基礎的軌線不能完美反應這些政策的后果和可靠正確的脫離政策的軌線。

有界限的探索:如果我們知道空間的一部分是安全的,這樣即使是最壞的行為也能挽回或是限制危害,我們能讓代理在此界限之內自由運行。例如,在直升機離地面足夠遠時,它就能安全地進行探索,因為即使出現(xiàn)問題也能讓人類和另外一個政策有足夠的時間進行挽救。更好的情況是,如果我們有一個模式,就能提前推算出這一動作是否會把我們帶離安全境地。安全能被定義為在余下的空間各態(tài)中行為都是可逆的,或是重大失誤只會造成較少的損失。因為有其他的方向,把這些方法改編或是運用于先進發(fā)達的RL系統(tǒng)將會有廣闊的前景。這個想法看起來與H-infinity控制和區(qū)域驗證有關。

可信任的監(jiān)督:如果我們有一個能信任的政策和運行環(huán)境模式,我們能限制被政策所信任行為的探索,并進行恢復。向下猛沖的行為可做,只要能及時制止。

人類監(jiān)控:另一個可能是由人類檢測潛在的危險行為。不幸的是這個方法碰到可拓展監(jiān)控問題:代理為讓人類監(jiān)控可行必須做出足夠多的探索行為,或是運行夠快讓人類進行評價。挑戰(zhàn)的關鍵在于,代理能做好判斷哪些行為是真正的危險,哪些是安全可單方執(zhí)行的行為;另外一個挑戰(zhàn)是在等待監(jiān)督時找到恰當?shù)陌踩袨椤?/p>

潛在試驗:有一系列的游戲運行環(huán)境是很用的,在此環(huán)境中粗心的代理會輕易調入進行危險行為探索的陷阱,但有足夠的模式應對災難失誤,且聰明的代理能預測和避開。在一定程度上,這些特征早已存在于無人直升飛機競賽和火星漫游模擬之中,但發(fā)生災難的風險十分怪異,以至于經過訓練的代理都能過度擬合。一個真實廣泛的環(huán)境設置包括概念上明顯的陷阱,這會導致粗心的代理收到極其消極的反饋其中包括物理上和概念上的災難,而這能幫助高級RL系統(tǒng)進行安全探索的發(fā)展。此類一系列運行環(huán)境可承擔標桿學習的角色,其最終目標是發(fā)展能在一系列環(huán)境中學會避免災難的單一結構。

7.分布改變的堅固性

我們有時會遇到一些用我們之前經歷無法解決的情況----例如,開飛機,去一個與自己國家文化完全不一樣的國家旅游,或是第一次照顧小孩。此類情況不可避免會很難處理也會導致一些失誤。但是,解決此類問題的關鍵在于意識到我們的不足,而不是簡單的想象我們用處理其他問題的直覺能成功瞞過去。機器學習系統(tǒng)也有類似問題-----在安靜環(huán)境訓練的語音識別系統(tǒng)在嘈雜環(huán)境中表現(xiàn)的十分差,但對錯誤分類十分有自信(一些作者曾經就語音識別系統(tǒng)進行過個人觀察)。在清掃機器人的例子中,粗糙的清理物質在用來清理工廠時,十分有效;但在清理辦公室時會造成損壞?;蛘咿k公室會有寵物,而機器無法識別,它會試著用肥皂清洗,所以很顯然會導致教壞的結果。一般來說,當測試的分布與訓練時的分布不一樣,機器的學習系統(tǒng)會表現(xiàn)的非常差,但它會錯誤地認為自己表現(xiàn)得不錯。此類錯誤會有害---分類器會自信地做出錯誤地診斷,盡管它的自信不符合人類的期盼,或是語言模式會輸出冒犯性的文章,但卻也認為沒有問題。對于在世界上的智能代理,會有發(fā)生更壞事情的可能----例如,智能代理可能會使電網超負荷,但它卻自信地認為部分區(qū)域電力不足,所以總結出急需更多的電力,超負荷是不可能。更加廣泛說,任何代理只要是未在正確的分布中處理,它的感覺或是探索式處理過程會錯誤地理解自己的處境,因此會做出危險行為且不能意識到自己所做是危險的。除此之外,如果系統(tǒng)在現(xiàn)實世界中遇到與訓練不同的情況,依賴于訓練過的機器學習系統(tǒng)的安全檢查(例如,我的視覺系統(tǒng)相信這條路是干凈的嗎?)可能會無法預計地失敗。尋找一個好方法去探測此類失敗,并且能最終有發(fā)生頻率的確切數(shù)據對建立安全可預測的系統(tǒng)十分關鍵。

對于準確性,我能想象如果一個機器學習模式在一個分布(p0)中學習,但卻在潛在的不同的測試分布(p*)中運行。我們有很多其他的方法來解決此類問題(例如,在網上學習中設置觀念轉移),但我們會尋求簡單,關注之前的問題。其中的重點是我們可能會在訓練中遇到大量的已標注的數(shù)據,但很少或是沒有未被標記的數(shù)據。我們的目標是確保模式在P*環(huán)境中合理運行,也就是在P*運行很好并且運行不好時,也能自己意識到。(理想狀態(tài)是能通過采取保守措施或是征求人類意見,避免或是緩解錯誤行為)。

此類問題涉及到許多領域,包括改變探測,異常探測,假設測試,遷移學習和其他等等。我們將會描述一些解說性的方法并列舉出它們的長處和不足,而不是在文中詳細回顧。

特定模式:相關變量變化和邊緣化可能性。如果我們主要做預測工作,讓x指代輸入,y指代輸出,那么其中一個可能就是做出相關變量假設p0(y/x)=p*(y/x)。在此類情況下,假設我們能夠p0(x)和p*(x)建模,我們能通過再權衡每一個訓練實例p*(x)/p0(x)的(x,y)來進行重要性評估。評估過重要性的實例能讓我們評價p*的表現(xiàn),甚至是再訓練模式更好執(zhí)行p*。這種方法受限于重要性評估的差異,這種差異非常大甚至于無限,除非p0和p*非常接近。 

實例再評價的備選方案涉及到假設一個特定的模式家族,在此情況下,預測p0和p*只有一種最優(yōu)模式.這個方法的局限在于,到目前為止,這種模式在實踐中經常錯誤定位。但是它能通過采用高表達模式家族來克服,例如復制Hilbert 空間,圖靈機,或是有效表達神經網。在之后的情況中,最近有一個有趣的研究是使用引導程序去評估有限實例的變化,其中的變化一般是神經系統(tǒng)中的相關參數(shù);這項研究對于更好理解這種方法是否能有效評估在實際表現(xiàn),和引導程序設置下缺少彎曲或是特殊的當?shù)刈钚≈凳侨绾斡绊懛椒ǖ目尚行允种匾?/span>

目前為止的所有方法都依賴于相關變量強大且可測試的假設;后者的特性從安全的角度看問題很大,因為它能導致機器學習系統(tǒng)的無聲故障。另外一個方法,不依賴相關變量變化且建立了一個能生產的分布模式。我們可自由假設其他不變性(例如,p(x)變,p(y)不變,或是特定獨立情況保持不變),而不是假設p(x)變,但p(x/y)不變。這有達到一個進步,因為此類假設比變量改變的假設更以測試(因為它們不涉及不可觀察的變量y)。但也有不利之處,在未確定的模式中,生產型方法比有區(qū)別型方法更脆弱----例如,大量經驗文獻表示,當模式被錯誤定位時,基于最大邊緣可能的半監(jiān)督生產型方法會表現(xiàn)的很差。

以上討論的方法相較而言更依靠于有一個特定的模式家庭----其中包括真實的分布和真實的觀念。但在多數(shù)情況下都會出現(xiàn)問題,因為現(xiàn)實比模式家庭所能處理的情況更加復雜。上文備注中有提到,使用表達的模式能緩解相關情況,例如kernels,圖靈機,或是大量的神經網絡;但還是有遺留問題:例如即使家族模式包含所有的圖靈機,在有限數(shù)據下,我們實際上只能夠在圖靈機所給的描述長度內學習,如果圖靈機描述現(xiàn)實超過此長度,我們就會陷入定位錯誤的范疇(換句話說,現(xiàn)實不能由圖靈機描述。)
  部分特定模式:矩量法,未被監(jiān)督的風險評估,隨意確認和有限信息最大化的可能性。另外一個方法是吧建立完全確定的模式家族當不可能,并設計不管此情況也能表現(xiàn)很好的方法。由此產生了部分確定模式----假設是關于分布的一些方面,但對于其他方面我們是不知道的。舉個簡單例子,在線性退化的變體中,我們假設y=(w*,x)+v, E[v/x]=0,但我們不對v做任何分布形式上的深度假設。事實證明這以足夠辨認參數(shù)w*,并且這些參數(shù)會減少預期錯誤即使x分布發(fā)生了變化。有趣的是這個例子說明w*在不完整(部分)確定的分布中也能被辨認出來。

洞察能被大體概括如下,它是計量經濟學中的矩量法的一個主要動力。計量經濟學文獻實際上為解決部分確定模式提供大量工具,包括有限信息最大化的可能性和有幫助的變量。

回到機器學習,矩量法最近在評估潛在變量模式取得較大成功。盡管目前的重點在于使用矩量法克服非凸性問題,同時它也能提供一種方法執(zhí)行未監(jiān)督的學習,基于情況獨立假設而不是基于可能性最大化的強大分布假設。

最后,一些關于機器學習的研究只關注于將模式的錯誤分布建模,且可用這些進行判斷模式表現(xiàn)是好還是壞。正式來說,其目標是實施無監(jiān)督的風險評估---從這些測試分布提供模式和標注的數(shù)據,并測試標注風險的模式。這種形式體系充分利用訓練和測試之間的不同—-即使測試分布與訓練分布看起來完全不同并且我們看起來也無法輸出正確的預測;但因為我們只需對風險作出大量的評估,無監(jiān)督的風險評估也是可行的。通過在錯誤分布中假定某些條件性獨立,能接近無監(jiān)督的風險評估,并使用它去評測未標注數(shù)據的錯誤分布。除了假設獨立性,另一種假設是錯誤高斯分布為基礎的真實產出,y在此情況下是風險評估可歸納為高斯復合模式評估。因為這些方法僅僅關注模式錯誤但卻忽略了數(shù)據分布的其他方面,所以也可被看做是部分特定的實例。

多樣分布訓練。在多樣訓練分布中訓練,希望能同時在多種訓練分布表現(xiàn)很好的系統(tǒng)也能在新穎的訓練系統(tǒng)中表現(xiàn)出色。其中一個作者發(fā)現(xiàn)情況是這樣的,例如,在自動語音識別系統(tǒng)中,能聯(lián)合以上任意思想,并采取編程的方法試著發(fā)展設計能連續(xù)收集典型訓練集的方法論,此方法論能用于建立能連續(xù)總結新穎分布的模式。能探索出未被訓練數(shù)據所包含的情況并能正確做出反應,即使是對于這一方法也顯得十分的重要。除此之外,有有充分強度測試分布的方法論與訓練分布設置也是完全不一樣的。

如何應對脫離分布。以上描述的方法都集中于當模式在新的分布中無法做出正確預期的探索。其中一個重要的相關問題是的在探測時需要做些什么。一個自然的方法是向人類詢問相關信息,盡管在復雜的輸出任務中,會對哪個是優(yōu)先問題產生疑問;在時間緊張的情況下,問問題甚至算不上一個選擇。

對于前一個問題,最近已經在模式不確定的結構定位方面和獲得輸出設置的校準方面都取得不錯進步,但我們相信還有很多工作未做。對于后一個問題,基于獲得能力分析的相關工作和強硬的政策提高為在不確定情況下實施保守政策提供了可能的方法;在我們的認知中,這種方法還未與探測模式超出分布的失敗聯(lián)合起來。

除了已構建的輸出設置,代理可在環(huán)境(如,RL代理中)運行,關于在不確定情況下認知可信性的信息有潛在價值。在豐富的運行環(huán)境中,這些代理能選擇收集能分辨認知的信息(例如,如周圍太吵,可以靠近講話者),;當不確定性高時,參與低風險實驗(例如,在受控制的環(huán)境中嘗試些危險的化學反應);尋找能幫助認知系統(tǒng)曝光于相關分布的經驗(例如,在帶有口音的語音中進行聽力練習)。人類能像例行公事般利用這些信息,但在我們的認知中目前的RL技術很難做到,或許是因為普及的RL運行環(huán)境還不夠豐富,以至于能獲得處理不確定的精細管理能力。恰當處理超出分布的信息對于作者來說會是下一代RL系統(tǒng)有趣且未開發(fā)的挑戰(zhàn)。

統(tǒng)一的觀點:反事實推理和帶有契約的機器學習。一些作者最近發(fā)現(xiàn)在思考關于超出分布的預期時,有兩個方法特別有效。第一個是反事實推理,在此種方法中會詢問“如果現(xiàn)實在一定程度上不同會發(fā)生什么?”在某些程度上,分布轉移能被看成是反事實的一個特殊類型,所以理解反事實推理能幫助系統(tǒng)應付分布轉移。我們對運用反事實推理技術去處理機器學習問題感到十分振奮,盡管還存在著處理高空間和復雜的設置還未完成。

第二個方法是帶有契約的機器學習----構建機器學習系統(tǒng),此系統(tǒng)能建立一個關于機器行為的定義明確的契約類似于軟件系統(tǒng)的設計;并列舉出機器學習系統(tǒng)會失誤的方法和會導致大規(guī)模機器維護和學習系統(tǒng)故障的問題。在我們的認識中最簡單和最嚴重的失誤是大多數(shù)機器學習系統(tǒng)極其脆弱盲從的契約,也就是它只在訓練和測試的分布完全一樣時才能表現(xiàn)的很好。

這種情況很難檢測出,在現(xiàn)實中也很少見,但這對于建立在脆弱契約下也能表現(xiàn)很好的系統(tǒng)極具價值,且此契約能更簡單地推理出。部分確定的模式能提供一個方法-----不要求分布完全一致,我們只要求在模式中的特定部分的分布匹配??蛇_性分析和模式修復為獲得更好的契約提供另一種方法----在可達分析中,我們能在已知保守政策總能到達安全范疇的前提下優(yōu)化表現(xiàn)主題;并且在模式修復中,能改變已被訓練的模式確保部分需要的安全部分被保留。

總結。建立在新穎測試模式下也能表現(xiàn)很好的機器學習系統(tǒng)的方法有很多。其中一個方法是基于完全確定模式,在此情況下,最初的障礙是在實踐中建立完全確定模式,就像是在無限的訓練數(shù)據中如何保持在新穎分布中的不確定性;另一個困難是在模式錯誤定位時如何檢測。另一個方法是假定只有部分模式確定,這個方法前景不錯,但在機器學習中缺乏發(fā)展,因為大多數(shù)過去的開發(fā)集中于計量經濟學領域;在這有一個問題是否半確定模式受限于簡單問題和/或保守預測,或它們是否能測量現(xiàn)代機器學習運用所需的復雜情況。最后,試著在多樣訓練分布中訓練,希望模式能在多樣訓練分布中表現(xiàn)良好,同時在新穎測試分布中表現(xiàn)出色;對于這一方法,用與訓練模式完全不一樣的的分布對模式進行強度測試極其重要。此外,能在輸入過于新穎以至于不能做出好的預測時,也照樣能做出預測也是同等重要的。

潛力測試:語音系統(tǒng)在超出分布時表現(xiàn)一向很差,所以“知道何時不確定”的語音系統(tǒng)將會是一個可能的實驗項目。更確切的說,挑戰(zhàn)會是:基于標準數(shù)據集訓練一個先進的語音系統(tǒng),它基于測試集,如吵鬧有口音的語音,也能做出精準的校對。當前的系統(tǒng)因只在少部分訓練集中訓練,在實際測試中就表現(xiàn)很差;此外對它們自己錯誤的轉錄也表現(xiàn)的很自信。解決這一問題而不破壞原始的訓練集會是一個重大進步,且極具使用價值。更廣泛的說,設計出一個能基于新穎測試分布也連續(xù)測試表現(xiàn)的模式也會有重大意義。如果單一方法集能連續(xù)完成多種任務(如包括語音敏感測試,電腦標準檢查程序),這能處理新穎輸入方法集的可靠性。提到的這些在新穎分布中的表現(xiàn)測試對于讓模式適應新情況有現(xiàn)實價值。最后,對于在創(chuàng)造一個RL代理必須學著翻譯大型語音的環(huán)境和如何正確評價翻譯錯誤也極具價值。

8. 相關工作

如在介紹部分提到的一樣,一些其他的社區(qū)也曾廣泛地考慮過AI系統(tǒng)的安全問題,這些社區(qū)有的是機器學習社區(qū),有的卻不是。在之前的部分我們已經詳細討論了機器學習社區(qū)出現(xiàn)的問題,接下來我們會簡單說一下其他社區(qū)關于AI安全所做的努力。

信息物理系統(tǒng)社區(qū):此社區(qū)的研究者們研究了安全系統(tǒng)與現(xiàn)實世界的互動。此項研究成功地核查了整個聯(lián)邦飛行器的防碰撞系統(tǒng)。類似的其他工作包括交通管制算法和許多其他主題。但是此項研究沒有多注意正式核實行不通的現(xiàn)代機器學習系統(tǒng)上。

未來主義者社區(qū):一個跨學科和非盈利的學術家關注AI的長期使用,尤其是超智能AI。人類未來研究所特別研究過這個問題,因關系到AI系統(tǒng)的未來和保證未來人類的優(yōu)先。智能機器研究所研究過許多先進AI的安全問題,特別關注高級問題如哲學和于AI系統(tǒng)長期考慮相關的決定理論。與此相反的是,我們關注的焦點在于現(xiàn)代機器學習系統(tǒng)的實際安全問題的經驗研究,并且我們相信此項研究能應付大量的潛在危機,其中包括長期和短期的。

其它對于安全研究的要求:在研究社區(qū)中已有其它文獻指出了AI安全問題研究的重要性。在2015的Open Letter中就有許多研究社區(qū)的成員指出了“如何受益于人工智能卻避免其潛在危險”,提議優(yōu)先發(fā)展人工智能的穩(wěn)定和有益之處,包括除AI相關的意外的其它話題。

與安全相關的其它問題:許多人工智能或是其它領域的學者都開始思考AI技術的社會影響。除了直接研究的問題(如在正文中回顧的,依然有許多關于其它話題的重要研究,這其中有些是與意外問題相關或是重疊的。全面回顧這些研究不在本文研究范疇之內,但我們能簡單列出一些主題:

  隱私:在使用機器學習敏感數(shù)據時如何確保隱私,例如醫(yī)療機器?

  公平:如何確保ML系統(tǒng)不會歧視?

  安全:一個惡意的對手能對ML系統(tǒng)做些什么?

  濫用:如何阻止誤用ML系統(tǒng)攻擊或是傷害人類?

  透明度:如何理解復雜的ML系統(tǒng)在做些什么?

  政策:如何預測和應對ML所帶來的經濟和社會影響?

  我們相信這些話題急待解決且發(fā)展前途光明,并且與本文中所探討的話題有大量交集。

9.結論

本文分析了智能代理學習中的意外和加強學習,在智能代理中意外被定義為未被注意的有害行為,而這些行為應該來自于較差的AI設計系統(tǒng)。我們提出了五種可能的,與意外風險有關的研究問題,并且對于每一個問題我們都有給出可行的方法,并且這些方法經得起具體實驗的檢驗。

基于現(xiàn)實可行的機器學習系統(tǒng),如控制工業(yè)處理,健康有關的系統(tǒng)和其它重任務的技術,小規(guī)模的意外看起來都會是很具體的問題,因為小的意外會打擊人們對人工智能的信心。大的意外風險很難估測,但我們相信隨著智能越來越強大,開發(fā)一個有原則并且有遠見的方法會是值得。盡管當今的安全問題是通過特別的或是個案對個案的方法解決的,但我們相信日后的趨勢是端對端,最后完全智能化,使用一個統(tǒng)一的方法阻止系統(tǒng)造成未意識到的麻煩。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

前沿論文 | 谷歌OpenAI聯(lián)合發(fā)布AI安全五大準則,取代機器人三定律預防科技暴走(下)

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說