如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個(gè)AI安全領(lǐng)域的前哨

本文作者：楊曉凡

2017-08-14 16:57

導(dǎo)語(yǔ)：防止 Skynet 出現(xiàn)，現(xiàn)在就要播下種子

雷鋒網(wǎng) AI 科技評(píng)論按：在比賽中刷成績(jī)和在游戲中擊敗人類職業(yè)選手僅僅是 AI 研究的一部分，OpenAI 的研究人員們同樣重視對(duì) AI 安全性的研究。這篇文章是紐約時(shí)報(bào)來(lái)到 OpenAI 實(shí)驗(yàn)室的報(bào)道，介紹了 OpenAI 近期在 AI 安全領(lǐng)域的想法和一些成果，也讓我們看到了 OpenAI 研究人員的風(fēng)采。雷鋒網(wǎng) AI 科技評(píng)論編譯。

自學(xué)的人工智能可能學(xué)到奇怪的行為

在舊金山的 OpenAI 人工智能實(shí)驗(yàn)室中，計(jì)算機(jī)們可以自我學(xué)習(xí)、學(xué)會(huì)人類的舉止。不過(guò)有時(shí)候也會(huì)出問(wèn)題。

如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個(gè)AI安全領(lǐng)域的前哨 Geoffrey Irving（左）和 Dario Amodei 展示可以在簡(jiǎn)單的游戲中訓(xùn)練人工智能

前不久的一個(gè)下午，OpenAI 的研究員 Dario Amodei 在辦公室里展示了一個(gè)自己學(xué)會(huì)玩 Coast Runners 小游戲的 AI 系統(tǒng)。這個(gè)游戲是一個(gè)頗有年份的電腦游戲，通過(guò)終點(diǎn)的時(shí)候得到的分?jǐn)?shù)最高的船就是游戲的勝者。

不過(guò) AI 系統(tǒng)的表現(xiàn)讓人意外：游戲規(guī)則是吃掉屏幕上不停出現(xiàn)的綠色點(diǎn)點(diǎn)就會(huì)得分，而這只船對(duì)它們太感興趣了，它根本不急著沖向終點(diǎn)，而是不停繞圈、跟其它的船撞在一起、蹭著墻壁滑行，還有反復(fù)著火，就是不惜一切代價(jià)去得分。

Dario Amodei 著火的小船游戲就展示出了正在迅速改變科技界的 AI 技術(shù)背后的風(fēng)險(xiǎn)。研究員們研究的是如何讓機(jī)器自主學(xué)習(xí)，Google 的 DeepMind 也做的是類似的事情，他們開發(fā)出了能夠擊敗世界頂級(jí)選手的 AlphaGo。但是隨著這些機(jī)器在數(shù)小時(shí)的數(shù)據(jù)分析中自我訓(xùn)練，它們也可能會(huì)學(xué)會(huì)一些人類沒(méi)有估計(jì)到的、不希望看到的、甚至是會(huì)造成實(shí)質(zhì)性傷害的行為。

當(dāng)網(wǎng)絡(luò)服務(wù)、安全設(shè)備和機(jī)器人都開始用上 AI 技術(shù)以后，這樣的擔(dān)憂就無(wú)法忽視了。現(xiàn)在，Dario Amodei 在內(nèi)的一部分 AI 研究人員已經(jīng)開始聯(lián)手探索新的技術(shù)理論來(lái)避免最糟糕的情況發(fā)生。

在 OpenAI，Dario Amodei 和他的同事 Paul Christiano 正在一起開發(fā)新的算法，他們希望這些算法不僅能在數(shù)小時(shí)的試錯(cuò)中學(xué)習(xí)，還能夠在途中接受來(lái)自人類老師的普遍性指導(dǎo)。

現(xiàn)在他們已經(jīng)找到了一種方法讓 AI 系統(tǒng)知道 Coast Runners 的小船要邊得分、邊往終點(diǎn)走才行，而且人類只要在屏幕上點(diǎn)一點(diǎn)就可以。他們相信這樣能夠綜合利用人類和機(jī)器指導(dǎo)的算法可以幫助確保無(wú)人系統(tǒng)的安全性。（這項(xiàng)研究的具體內(nèi)容可見雷鋒網(wǎng) AI 科技評(píng)論之前的報(bào)道你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法，根據(jù)人類反饋高效學(xué)習(xí) ）

如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個(gè)AI安全領(lǐng)域的前哨

Dario Amodei 和他的同事正在開發(fā)新算法，不僅能夠自己試錯(cuò)學(xué)習(xí)，人類也可以給與指導(dǎo)

不可忽視的風(fēng)險(xiǎn)

近幾年來(lái)，埃隆馬斯克以及其它一些權(quán)威、哲學(xué)家、科技愛(ài)好者都在反復(fù)警告機(jī)器有可能擺脫人類的控制，學(xué)到一些設(shè)計(jì)者并不希望看到的有害行為。隨著時(shí)間慢慢過(guò)去，人們似乎忘掉了這些警告，畢竟如今的自動(dòng)駕駛汽車在識(shí)別行車線或者識(shí)別紅燈這樣最基本的任務(wù)中都會(huì)表現(xiàn)得磕磕絆絆。

但是 Dario Amodei 這樣的研究者是希望趕在危險(xiǎn)出現(xiàn)之前就把它們消滅掉。從某種意義上說(shuō)，這些科學(xué)家做的事情就像是父母給小孩教什么是對(duì)、什么是錯(cuò)。

許多 AI 界的專家都相信強(qiáng)化學(xué)習(xí)會(huì)是通往人工智能的主要途徑之一，這種方法里機(jī)器要反復(fù)試錯(cuò)才能最終學(xué)會(huì)做某件特定的事情。研究人員們?yōu)闄C(jī)器指定好一個(gè)它要追求的回饋，它就會(huì)隨機(jī)地做出行動(dòng)“嘗試”達(dá)成任務(wù)，同時(shí)也密切關(guān)注著哪些事情會(huì)帶來(lái)更高的回饋。當(dāng) OpenAI 的研究人員訓(xùn)練那個(gè) AI 玩 Coast Runners 的時(shí)候，他們給它設(shè)定的回饋目標(biāo)就是獲得更高的分?jǐn)?shù)。

雖然這只是一個(gè)游戲，但是能從里面影射出現(xiàn)實(shí)世界的狀況。

研究人員們相信，如果一臺(tái)機(jī)器學(xué)會(huì)了玩 GTA 這樣的競(jìng)速游戲，它就能開一輛真車；如果它能學(xué)會(huì)用網(wǎng)頁(yè)瀏覽器和其它一些常用的軟件，它就學(xué)會(huì)了理解自然語(yǔ)言，可能還能夠跟人對(duì)話。在谷歌和UC伯克利大學(xué)，機(jī)器人們已經(jīng)用上了這樣的技術(shù)來(lái)學(xué)會(huì)撿起東西或者開門等簡(jiǎn)單任務(wù)。這些事情不僅是 AI 開發(fā)測(cè)試的理想環(huán)境，能夠完成它們也說(shuō)明了 AI 具有相當(dāng)?shù)闹悄?，接下?lái)可以在更真實(shí)的環(huán)境中完成任務(wù)。

正因?yàn)檫@樣，Dario Amodei 和 Paul Christiano 更加努力地想要開發(fā)出新的、能夠讓人類從中給予指導(dǎo)的強(qiáng)化學(xué)習(xí)算法，才能夠保證 AI 系統(tǒng)不會(huì)偏離它們要完成的任務(wù)——誰(shuí)都不想讓 AI 系統(tǒng)在現(xiàn)實(shí)中造成不好的后果。

更多研究者已經(jīng)加入了這個(gè)領(lǐng)域

這兩位 OpenAI 的研究員已經(jīng)和倫敦的 DeepMind 實(shí)驗(yàn)室的人一起發(fā)布了一些這方面的研究成果。雖然他們以往并沒(méi)有什么合作經(jīng)歷，但畢竟兩個(gè)都是世界頂級(jí)實(shí)驗(yàn)室，這些算法也確實(shí)算得上是 AI 安全研究方面顯著的一步。

UC伯克利的研究員 Dylan Hadfield-Menell 說(shuō)：“這種做法可以驗(yàn)證很多前向思考的成果，類似這樣的算法在未來(lái)5到10年內(nèi)有很大的潛力?！?/p>

AI 安全這個(gè)領(lǐng)域不大，但是一直在成長(zhǎng)。隨著 OpenAI 和 DeepMind 都建立了專門致力于 AI 安全的研究小組，谷歌的本土實(shí)驗(yàn)室 Google Brain 也加入了進(jìn)來(lái)。同時(shí)，來(lái)自UC伯克利、斯坦福等大學(xué)的研究者也在研究著類似的問(wèn)題，也經(jīng)常與這些大公司實(shí)驗(yàn)室展開合作。

如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個(gè)AI安全領(lǐng)域的前哨

站著的是 Dario Amodei，Paul Christiano 穿著淺藍(lán)襯衣，Geoffrey Irving 正在白板上寫寫畫畫

有時(shí)候，研究者們研究的是確保 AI 系統(tǒng)不會(huì)自己犯錯(cuò)，像 Coast Runners 里的小船那樣。他們也需要避免攻擊者和其它懷有惡意的人發(fā)現(xiàn)系統(tǒng)中的漏洞。比如谷歌的研究員 Ian Goodfellow 就已經(jīng)在研究中發(fā)現(xiàn)攻擊者可以欺騙 AI 系統(tǒng)，讓它們以為自己看到了別的東西。

現(xiàn)代計(jì)算機(jī)視覺(jué)的基礎(chǔ)是深度神經(jīng)網(wǎng)絡(luò)，它們是一類模式識(shí)別系統(tǒng)，在經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練以后就可以學(xué)會(huì)特定的任務(wù)。用成千上萬(wàn)張狗的照片訓(xùn)練過(guò)以后，神經(jīng)網(wǎng)絡(luò)就可以學(xué)會(huì)識(shí)別一條狗。Facebook 就是用這樣的方式識(shí)別自拍中的人臉的，谷歌也是這樣在照片應(yīng)用中對(duì)圖像做即時(shí)搜索的。

不過(guò) Ian Goodfellow 等人已經(jīng)表明了攻擊者可以修改一張圖像，讓神經(jīng)網(wǎng)絡(luò)以為圖像里面是別的東西。比如對(duì)一張大象照片里面的某些像素做改動(dòng)以后，就可以讓神經(jīng)網(wǎng)絡(luò)把它識(shí)別成一輛汽車。

當(dāng)神經(jīng)網(wǎng)絡(luò)用在安防攝像頭中的時(shí)候，這就會(huì)成為實(shí)實(shí)在在的麻煩。根據(jù)研究員們所說(shuō)，在臉上畫幾個(gè)記號(hào)就可以讓攝像頭以為你是別的人。

Ian Goodfellow 也說(shuō)：“即便用一百萬(wàn)張人類標(biāo)注的圖像訓(xùn)練出一個(gè)物體識(shí)別系統(tǒng)，我們?nèi)匀豢梢詣?chuàng)造出人類和計(jì)算機(jī)的識(shí)別結(jié)果100%不同的新圖像。這種現(xiàn)象還需要我們繼續(xù)深入了解?！?/p>

另一個(gè)難以忽視的擔(dān)心是 AI 系統(tǒng)可能會(huì)學(xué)到一些方法，防止人類把它們關(guān)掉。在給機(jī)器設(shè)定了目標(biāo)回饋以后，隨著它的嘗試和思考，它可能會(huì)覺(jué)得只有保證自己一直在運(yùn)行才能夠一直獲得這些回饋。這個(gè)常常被提及的威脅可能距離目前的狀況更遠(yuǎn)一點(diǎn)，但是研究者們也已經(jīng)開始著手做預(yù)防。

Hadfield-Menell 和其它的 UC伯克利學(xué)者最近發(fā)表了一篇論文，介紹了一種解決這個(gè)問(wèn)題的數(shù)學(xué)式方法。他們表明，如果設(shè)計(jì)機(jī)器的時(shí)候?qū)ｉT給它設(shè)定了一個(gè)不確定的回饋函數(shù)的話，它就會(huì)想辦法保持它的開關(guān)是打開的。這就給它選擇接受人類監(jiān)管還是逃出去帶來(lái)了刺激。

安全方面多數(shù)的研究還是理論性的。不過(guò)從 AI 技術(shù)的飛速發(fā)展和在許多工業(yè)應(yīng)用中越來(lái)越重要的地位看來(lái)，研究者們認(rèn)為相關(guān)研究開始得越早越好。

DeepMind 的 AI 安全研究負(fù)責(zé)人 Shane Legg 給出了他的看法：“AI 發(fā)展得這么快，未來(lái)到底怎么樣還很難說(shuō)。這些技術(shù)可能被濫用、被攻破的方式有很多，負(fù)責(zé)任的做法就是要嘗試?yán)斫膺@些方法，并且設(shè)計(jì)各種解決方法?！?/p>

via New York Times，雷鋒網(wǎng) AI 科技評(píng)論編譯

Ian Goodfellow和Papernot半年三篇博文，對(duì)機(jī)器學(xué)習(xí)的安全隱私來(lái)了個(gè)大起底

一文詳解深度神經(jīng)網(wǎng)絡(luò)中的對(duì)抗樣本與學(xué)習(xí)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。