0
本文作者: 楊曉凡 | 2017-08-14 16:57 |
雷鋒網(wǎng) AI 科技評論按:在比賽中刷成績和在游戲中擊敗人類職業(yè)選手僅僅是 AI 研究的一部分,OpenAI 的研究人員們同樣重視對 AI 安全性的研究。這篇文章是紐約時報來到 OpenAI 實驗室的報道,介紹了 OpenAI 近期在 AI 安全領(lǐng)域的想法和一些成果,也讓我們看到了 OpenAI 研究人員的風(fēng)采。雷鋒網(wǎng) AI 科技評論編譯。
在舊金山的 OpenAI 人工智能實驗室中,計算機們可以自我學(xué)習(xí)、學(xué)會人類的舉止。不過有時候也會出問題。
Geoffrey Irving(左)和 Dario Amodei 展示可以在簡單的游戲中訓(xùn)練人工智能
前不久的一個下午,OpenAI 的研究員 Dario Amodei 在辦公室里展示了一個自己學(xué)會玩 Coast Runners 小游戲的 AI 系統(tǒng)。這個游戲是一個頗有年份的電腦游戲,通過終點的時候得到的分數(shù)最高的船就是游戲的勝者。
不過 AI 系統(tǒng)的表現(xiàn)讓人意外:游戲規(guī)則是吃掉屏幕上不停出現(xiàn)的綠色點點就會得分,而這只船對它們太感興趣了,它根本不急著沖向終點,而是不停繞圈、跟其它的船撞在一起、蹭著墻壁滑行,還有反復(fù)著火,就是不惜一切代價去得分。
Dario Amodei 著火的小船游戲就展示出了正在迅速改變科技界的 AI 技術(shù)背后的風(fēng)險。研究員們研究的是如何讓機器自主學(xué)習(xí),Google 的 DeepMind 也做的是類似的事情,他們開發(fā)出了能夠擊敗世界頂級選手的 AlphaGo。但是隨著這些機器在數(shù)小時的數(shù)據(jù)分析中自我訓(xùn)練,它們也可能會學(xué)會一些人類沒有估計到的、不希望看到的、甚至是會造成實質(zhì)性傷害的行為。
當網(wǎng)絡(luò)服務(wù)、安全設(shè)備和機器人都開始用上 AI 技術(shù)以后,這樣的擔(dān)憂就無法忽視了。現(xiàn)在,Dario Amodei 在內(nèi)的一部分 AI 研究人員已經(jīng)開始聯(lián)手探索新的技術(shù)理論來避免最糟糕的情況發(fā)生。
在 OpenAI,Dario Amodei 和他的同事 Paul Christiano 正在一起開發(fā)新的算法,他們希望這些算法不僅能在數(shù)小時的試錯中學(xué)習(xí),還能夠在途中接受來自人類老師的普遍性指導(dǎo)。
現(xiàn)在他們已經(jīng)找到了一種方法讓 AI 系統(tǒng)知道 Coast Runners 的小船要邊得分、邊往終點走才行,而且人類只要在屏幕上點一點就可以。他們相信這樣能夠綜合利用人類和機器指導(dǎo)的算法可以幫助確保無人系統(tǒng)的安全性。(這項研究的具體內(nèi)容可見雷鋒網(wǎng) AI 科技評論之前的報道 你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí) )
近幾年來,埃隆馬斯克以及其它一些權(quán)威、哲學(xué)家、科技愛好者都在反復(fù)警告機器有可能擺脫人類的控制,學(xué)到一些設(shè)計者并不希望看到的有害行為。隨著時間慢慢過去,人們似乎忘掉了這些警告,畢竟如今的自動駕駛汽車在識別行車線或者識別紅燈這樣最基本的任務(wù)中都會表現(xiàn)得磕磕絆絆。
但是 Dario Amodei 這樣的研究者是希望趕在危險出現(xiàn)之前就把它們消滅掉。從某種意義上說,這些科學(xué)家做的事情就像是父母給小孩教什么是對、什么是錯。
許多 AI 界的專家都相信強化學(xué)習(xí)會是通往人工智能的主要途徑之一,這種方法里機器要反復(fù)試錯才能最終學(xué)會做某件特定的事情。研究人員們?yōu)闄C器指定好一個它要追求的回饋,它就會隨機地做出行動“嘗試”達成任務(wù),同時也密切關(guān)注著哪些事情會帶來更高的回饋。當 OpenAI 的研究人員訓(xùn)練那個 AI 玩 Coast Runners 的時候,他們給它設(shè)定的回饋目標就是獲得更高的分數(shù)。
雖然這只是一個游戲,但是能從里面影射出現(xiàn)實世界的狀況。
研究人員們相信,如果一臺機器學(xué)會了玩 GTA 這樣的競速游戲,它就能開一輛真車;如果它能學(xué)會用網(wǎng)頁瀏覽器和其它一些常用的軟件,它就學(xué)會了理解自然語言,可能還能夠跟人對話。在谷歌和UC伯克利大學(xué),機器人們已經(jīng)用上了這樣的技術(shù)來學(xué)會撿起東西或者開門等簡單任務(wù)。這些事情不僅是 AI 開發(fā)測試的理想環(huán)境,能夠完成它們也說明了 AI 具有相當?shù)闹悄埽酉聛砜梢栽诟鎸嵉沫h(huán)境中完成任務(wù)。
正因為這樣,Dario Amodei 和 Paul Christiano 更加努力地想要開發(fā)出新的、能夠讓人類從中給予指導(dǎo)的強化學(xué)習(xí)算法,才能夠保證 AI 系統(tǒng)不會偏離它們要完成的任務(wù)——誰都不想讓 AI 系統(tǒng)在現(xiàn)實中造成不好的后果。
這兩位 OpenAI 的研究員已經(jīng)和倫敦的 DeepMind 實驗室的人一起發(fā)布了一些這方面的研究成果。雖然他們以往并沒有什么合作經(jīng)歷,但畢竟兩個都是世界頂級實驗室,這些算法也確實算得上是 AI 安全研究方面顯著的一步。
UC伯克利的研究員 Dylan Hadfield-Menell 說:“這種做法可以驗證很多前向思考的成果,類似這樣的算法在未來5到10年內(nèi)有很大的潛力?!?/p>
AI 安全這個領(lǐng)域不大,但是一直在成長。隨著 OpenAI 和 DeepMind 都建立了專門致力于 AI 安全的研究小組,谷歌的本土實驗室 Google Brain 也加入了進來。同時,來自UC伯克利、斯坦福等大學(xué)的研究者也在研究著類似的問題,也經(jīng)常與這些大公司實驗室展開合作。
有時候,研究者們研究的是確保 AI 系統(tǒng)不會自己犯錯,像 Coast Runners 里的小船那樣。他們也需要避免攻擊者和其它懷有惡意的人發(fā)現(xiàn)系統(tǒng)中的漏洞。比如谷歌的研究員 Ian Goodfellow 就已經(jīng)在研究中發(fā)現(xiàn)攻擊者可以欺騙 AI 系統(tǒng),讓它們以為自己看到了別的東西。
現(xiàn)代計算機視覺的基礎(chǔ)是深度神經(jīng)網(wǎng)絡(luò),它們是一類模式識別系統(tǒng),在經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練以后就可以學(xué)會特定的任務(wù)。用成千上萬張狗的照片訓(xùn)練過以后,神經(jīng)網(wǎng)絡(luò)就可以學(xué)會識別一條狗。Facebook 就是用這樣的方式識別自拍中的人臉的,谷歌也是這樣在照片應(yīng)用中對圖像做即時搜索的。
不過 Ian Goodfellow 等人已經(jīng)表明了攻擊者可以修改一張圖像,讓神經(jīng)網(wǎng)絡(luò)以為圖像里面是別的東西。比如對一張大象照片里面的某些像素做改動以后,就可以讓神經(jīng)網(wǎng)絡(luò)把它識別成一輛汽車。
當神經(jīng)網(wǎng)絡(luò)用在安防攝像頭中的時候,這就會成為實實在在的麻煩。根據(jù)研究員們所說,在臉上畫幾個記號就可以讓攝像頭以為你是別的人。
Ian Goodfellow 也說:“即便用一百萬張人類標注的圖像訓(xùn)練出一個物體識別系統(tǒng),我們?nèi)匀豢梢詣?chuàng)造出人類和計算機的識別結(jié)果100%不同的新圖像。這種現(xiàn)象還需要我們繼續(xù)深入了解?!?/p>
另一個難以忽視的擔(dān)心是 AI 系統(tǒng)可能會學(xué)到一些方法,防止人類把它們關(guān)掉。在給機器設(shè)定了目標回饋以后,隨著它的嘗試和思考,它可能會覺得只有保證自己一直在運行才能夠一直獲得這些回饋。這個常常被提及的威脅可能距離目前的狀況更遠一點,但是研究者們也已經(jīng)開始著手做預(yù)防。
Hadfield-Menell 和其它的 UC伯克利學(xué)者最近發(fā)表了一篇論文,介紹了一種解決這個問題的數(shù)學(xué)式方法。他們表明,如果設(shè)計機器的時候?qū)iT給它設(shè)定了一個不確定的回饋函數(shù)的話,它就會想辦法保持它的開關(guān)是打開的。這就給它選擇接受人類監(jiān)管還是逃出去帶來了刺激。
安全方面多數(shù)的研究還是理論性的。不過從 AI 技術(shù)的飛速發(fā)展和在許多工業(yè)應(yīng)用中越來越重要的地位看來,研究者們認為相關(guān)研究開始得越早越好。
DeepMind 的 AI 安全研究負責(zé)人 Shane Legg 給出了他的看法:“AI 發(fā)展得這么快,未來到底怎么樣還很難說。這些技術(shù)可能被濫用、被攻破的方式有很多,負責(zé)任的做法就是要嘗試理解這些方法,并且設(shè)計各種解決方法?!?/p>
via New York Times,雷鋒網(wǎng) AI 科技評論編譯
相關(guān)文章:
你做我評——OpenAI和DeepMind全新的強化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)
Ian Goodfellow和Papernot半年三篇博文,對機器學(xué)習(xí)的安全隱私來了個大起底
一文詳解深度神經(jīng)網(wǎng)絡(luò)中的對抗樣本與學(xué)習(xí)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。