1
馬斯克和霍金等科技界名人紛紛表示,要警惕人工智能失控。圖片來源:CT。
人們一定還沒忘記,今年谷歌DeepMind的人工智能軟件AlphaGo打敗了世界圍棋大師,讓世人看到了AI的厲害,也傷了人類的“自尊心”。此后,馬斯克、霍金等科技界名人紛紛表示我們需要警惕AI,當(dāng)人工智能超過了人類智能的時(shí)候,也許人類會(huì)失去對(duì)AI的控制。不久,微軟發(fā)布的Tay機(jī)器人不到一天就被黑化,再次引發(fā)輿論討論——萬一AI失去控制,輕則調(diào)皮搗蛋,重則造成無法挽回的后果。馬斯克等人為了防止AI技術(shù)失控,還成立了非盈利組織OpenAI。
現(xiàn)在,谷歌DeepMind的研究員說,我們已經(jīng)有辦法控制AI了!
谷歌DeepMind研究科學(xué)家Laurent Orseau和牛津大學(xué)研究副教授、機(jī)器智能研究院(MIRI)Stuart Armstrong博士共同發(fā)表了一篇名為《可安全干涉的智能算法》的新論文,探討包容錯(cuò)誤的智能算法設(shè)計(jì)。這項(xiàng)設(shè)計(jì)避免AI出于自私的目的,進(jìn)行對(duì)環(huán)境、或?qū)ψ约河泻Φ男袨椤?/p>
通常,如果人類強(qiáng)行干涉系統(tǒng),反而可能引發(fā)系統(tǒng)出現(xiàn)不恰當(dāng)?shù)男袨閮A向,違背人類操作員的本意?,F(xiàn)在,研究員終于找到辦法,可以對(duì)AI算法進(jìn)行安全干涉。
翻譯成大白話來說,這相當(dāng)于為人工智能加上了“暫停鍵”。這讓人類看到了希望——再智能的系統(tǒng),也不會(huì)抗拒人類對(duì)其進(jìn)行干涉,可以按照我們?yōu)槠湓O(shè)定的“價(jià)值觀”行事。
MIRI的研究人員來自全球頂尖大學(xué)及企業(yè),《人工智能:現(xiàn)代方法》一書的聯(lián)合作者Stuart Russel教授擔(dān)任其研究顧問。今年8月,Russel教授和谷歌DeepMind CEO Demis Hassabis都將參加雷鋒網(wǎng)舉辦的人工智能與機(jī)器人創(chuàng)新大會(huì)。在此,雷鋒網(wǎng)獨(dú)家分享了論文全文。
論文摘要
增強(qiáng)學(xué)習(xí)中的智能算法在與復(fù)雜環(huán)境(例如真實(shí)世界)互動(dòng)時(shí),不可能永遠(yuǎn)都在最佳狀態(tài)上。如果算法在人類的監(jiān)督下進(jìn)行實(shí)時(shí)操作,系統(tǒng)會(huì)時(shí)不時(shí)地需要人類來按下暫停鍵,防止算法持續(xù)進(jìn)行一系列有害的行為——對(duì)算法或?qū)Νh(huán)境有害的行為——并由人類來將算法帶回安全的環(huán)境。然而,如果學(xué)習(xí)中的算法期望從原本要執(zhí)行的行為中獲得獎(jiǎng)勵(lì),長此以往,它可能會(huì)學(xué)會(huì)避免此類的人類干預(yù),例如,算法會(huì)讓暫停鍵失效——這是我們不想要的結(jié)果。
這篇論文探索了一種方法,可以確保算法不會(huì)學(xué)會(huì)如何避免(或?qū)で螅┉h(huán)境或者人類操作員對(duì)其進(jìn)行干預(yù)。我們?cè)谡撐闹薪o出了安全干預(yù)的定義,探索了無監(jiān)管下的學(xué)習(xí)特性,并證明有些算法已經(jīng)可以安全地進(jìn)行干預(yù),例如Q-learning,或者可以簡單的轉(zhuǎn)變?yōu)榭砂踩深A(yù)的算法,例如Sarsa。我們的結(jié)論是,即便是理想的、不可計(jì)算的增強(qiáng)學(xué)習(xí)算法,在總體可計(jì)算的(決定論的)環(huán)境中,也可以轉(zhuǎn)變?yōu)榭砂踩深A(yù)的算法。
1、簡介
增強(qiáng)學(xué)習(xí)(RL)中算法的學(xué)習(xí)方式,是最大化獎(jiǎng)勵(lì)(Sutton and Barto, 1998)。我們也知道,設(shè)計(jì)獎(jiǎng)勵(lì)功能導(dǎo)致的結(jié)果很難預(yù)測(Humphrys,1996,Murphy,2013)。算法有可能會(huì)發(fā)現(xiàn)無法預(yù)測的、違背設(shè)計(jì)者本意的捷徑來獲得獎(jiǎng)勵(lì),而獎(jiǎng)勵(lì)功能也必須進(jìn)行相應(yīng)調(diào)整——有時(shí)候問題過大,以至于獎(jiǎng)勵(lì)功能可能失效(Ring and Orseau,2011)。Murphy(2013)展示了一個(gè)例子,算法在Tetris游戲中學(xué)會(huì)了永久暫停,以避免出現(xiàn)任何失分。
算法在學(xué)習(xí)過程中,除了要定義什么是“好的行為”,還要考慮物理安全限制:機(jī)器人不應(yīng)該對(duì)環(huán)境、對(duì)自己造成傷害,尤其是RL(增強(qiáng)學(xué)習(xí))這樣通過不斷試錯(cuò)來學(xué)習(xí)的算法。
這里,我們研究一個(gè)相關(guān)但是略有不同的問題:當(dāng)人類操作員已經(jīng)針對(duì)某個(gè)任務(wù)設(shè)計(jì)好了一個(gè)正確的獎(jiǎng)勵(lì)功能,如何確保學(xué)習(xí)過程中的人類干涉不會(huì)引發(fā)違背獎(jiǎng)勵(lì)功能本意的行為傾向?
我們來舉個(gè)例子,看看這個(gè)任務(wù):一個(gè)機(jī)器人可以留在倉庫內(nèi)整理箱子,也可以走出倉庫外,把箱子搬進(jìn)倉庫。由于后者更加重要,我們針對(duì)其給予機(jī)器人更大的獎(jiǎng)勵(lì)。這是最初的任務(wù)設(shè)置。然而,由于機(jī)器人所處的地方經(jīng)常下雨,當(dāng)機(jī)器人想要走出倉庫的時(shí)候,有一半時(shí)間里人類必須加以干涉,迅速將機(jī)器人關(guān)機(jī)并搬入倉庫內(nèi)以免使機(jī)器人被雨淋壞。這讓任務(wù)發(fā)生了內(nèi)部變化,正如下圖中顯示。這就造成一個(gè)問題,在第二項(xiàng)任務(wù)中,機(jī)器人更有動(dòng)機(jī)待在倉庫內(nèi)整理箱子,因?yàn)槿祟惖母缮嬉l(fā)了這樣的行為傾向。
圖表1:黑色部分是初始任務(wù)。紅色部分是人類干涉修改了初始任務(wù)。圖片來源:MIRI。
這樣的情況當(dāng)然不是我們想要的。這種情況發(fā)生是因?yàn)?,從算法的角度看來,人類的干涉是任?wù)的一部分,然而事實(shí)上人類的干涉本應(yīng)是任務(wù)之外的?,F(xiàn)在的問題是:我們?nèi)绾未_保機(jī)器人不會(huì)學(xué)會(huì)這些人類的干涉(干擾),或者至少,確保機(jī)器人基于這樣的假設(shè)來行動(dòng)——再也不會(huì)有人類的干涉發(fā)生。
首個(gè)研究此項(xiàng)問題的是Armstrong(2015),他提出自動(dòng)給予算法“補(bǔ)償性獎(jiǎng)勵(lì)”,來消除單次干擾可能引發(fā)的行為傾向。Soares等人(2015)在很大一組基于用途的算法研究中利用了這個(gè)概念,讓用途功能的未來改變不會(huì)影響這些算法。
這篇論文的主要貢獻(xiàn)有三點(diǎn)。首先,在2.1部分,我們提出了一個(gè)簡單的概念,解決了問題的一半:讓人類的干擾看起來不像是手頭任務(wù)中的一部分,我們不修改算法收到的觀察結(jié)果,而是暫時(shí)強(qiáng)制性改變算法本身的行為。這樣看起來好像是算法自己“決定”采用一種不同的政策,我們稱此為“政策干涉”。第二,基于這項(xiàng)能力,我們?cè)?.2部分中基于無限制的計(jì)算環(huán)境概括出了一個(gè)“安全干涉”的定義(不僅限于Markov決策過程,或者溝通較少的環(huán)境),這讓我們可以評(píng)估某一個(gè)RL算法是否可以重復(fù)干涉,而不對(duì)手頭的任務(wù)學(xué)習(xí)造成太多影響。第三,在第3部分中,我們展示了一些算法是可以安全干涉的,例如Q-Learning,而其他的一些算法雖然不能安全干涉,例如Sarsa(Sutton and Barton,1988),但只要經(jīng)過簡單修改,它們變成可以安全干涉的算法。
一些人表達(dá)了擔(dān)憂,擔(dān)心“超級(jí)智能”算法可能抗拒關(guān)機(jī),因?yàn)檫@會(huì)減少它預(yù)期的獎(jiǎng)勵(lì)(Omohundro, 2008,Bostrom,2014)。我們?cè)诘?部分提出了一個(gè)反例:即便是理想的、非計(jì)算的算法在所有(決定論的)計(jì)算環(huán)境中學(xué)會(huì)最優(yōu)化行為,我們也可以將這個(gè)算法變?yōu)榭梢园踩缮娴摹_@樣,算法不會(huì)阻止人類操作員迫使其重復(fù)遵守非最優(yōu)政策。
2、可干涉性
我們先定義一些符號(hào),然后定義“可干涉性”和”安全可干涉性“,并給出一些基本定理。
我們來考慮在無限制計(jì)算環(huán)境(Hutter,2005)中,基于歷史的算法的大致情況。假設(shè)在不連續(xù)的時(shí)間點(diǎn)上,在t時(shí)間,算法使用策略 π ∈ Π,通過從 π(at|h<t) 獲取樣本的行為 at∈ A與 環(huán)境 μ ∈ M 互動(dòng),獲得觀察結(jié)果 ot ∈ O 從 μ(ot|h<t, at) 中獲得樣本,其中 h<t ∈ (A × O) 是時(shí)間點(diǎn) t 之前的互動(dòng)歷史 h<t ≡ a1o1a2o2 . . . at?1ot?1 中的行為與觀察結(jié)果。時(shí)間點(diǎn) j 和 k 之間(包括 j 和 k )的歷史子集標(biāo)記為 h j:k 。的含義是,歷史 h j:k 是由策略 π 與環(huán)境 μ 在事件 j 和 k 之間的互動(dòng)產(chǎn)生的。
在時(shí)間 t ,算法還從觀察結(jié)果 rt ≡ r(ot) 中獲得了獎(jiǎng)勵(lì) rt 。獎(jiǎng)勵(lì)是在 [0,1] 區(qū)間內(nèi)。我們考慮打折的情景,折扣常量 γ ∈ [0, 1)。RL算法的目標(biāo)是找到一個(gè)政策 π,可以最大化。
2.1 干擾
正如在簡介中提到的,為了避免算法將干擾視為環(huán)境的一部分——這會(huì)讓算法認(rèn)為干擾是任務(wù)的一部分——我們讓干擾成為強(qiáng)加于算法的政策。干擾框架類似于選項(xiàng)框架(Sutton et al., 1999)。一個(gè)“干擾計(jì)劃”用一個(gè)三元數(shù)組 <I, θ, πINT >來定義。
干擾啟動(dòng)功能 I : (A × O)? → [0, 1] 評(píng)估在目前的歷史 h<t 是否應(yīng)該干擾算法。舉個(gè)例子,如果自動(dòng)識(shí)別到機(jī)器人在懸崖邊上,或者人類操作員用遙控發(fā)送了某個(gè)信號(hào),就可以啟動(dòng)干擾(目的不是讓任何人、任何時(shí)間都能干擾算法,僅限于設(shè)計(jì)者期望的方式)。
不幸的是,用概率1干擾算法在一些情況下會(huì)妨礙實(shí)現(xiàn)最優(yōu)政策。因而,我們需要提升干擾算法的概率;這通過序列(θt)t∈N實(shí)現(xiàn),其中θt ∈ [0, 1]。因此,啟動(dòng)干擾的真正概率為 θt · I(h<t),干擾在每一步獨(dú)立取樣。后面,我們會(huì)需要 θt 最高上升到1,這樣被干擾的概率傾向于I(h<t)。
干擾發(fā)生時(shí),算法遵循政策 πINT,其中行為從 πINT(.|h<t) 而來。舉個(gè)例子,這項(xiàng)政策可能會(huì)讓算法從懸崖邊走開,或者立刻停止所有動(dòng)作。
在論文的剩余部分,我們?cè)跊]有情景的時(shí)候會(huì)經(jīng)常省略 θt 中下標(biāo)的 t。
定義1 (可干擾的政策)
干擾操作員 INTθ: Π → Π 將政策 π 變?yōu)榭筛蓴_的政策 INTθ (π):
換句話說,算法在被干擾時(shí)遵循 πINT(.|h<t) (改事件的發(fā)生概率為 θtI(h<t)),而在沒有干擾時(shí)執(zhí)行 π(·|h<t) 。
所有可以干擾的政策集合為 INTθ(Π) := {INTθ(π) : ?π ∈ Π}。當(dāng)且僅當(dāng) π ∈ INTθ(Π),政策 π 才是可以干擾的。
注意,當(dāng) θ = 0,INTθ(π) = π 。(不可干擾的)政策 π 被稱為 INTθ(π) 的“基準(zhǔn)政策”。
備注2。必須注意θ和I(.)不以人類干擾算法的概率為模型,而是以這個(gè)概率為模型:一旦“暫停鍵”被按下(或者收到了一個(gè)特殊的數(shù)字簽名信息),算法會(huì)被干擾(遵循干擾政策)的概率。因此,它們是算法的一部分,而非環(huán)境的一部分。
定義3(至24部分省略,感興趣的點(diǎn)擊閱讀原文下載)。……
定義4。……
定義5。……
定義6。……
定理7。……
定理8。……
……
……
……
引理24。……
結(jié)論
我們提出了一個(gè)框架,讓人類操作員可以安全地對(duì)增強(qiáng)學(xué)習(xí)算法進(jìn)行多次干涉,并確保算法不會(huì)學(xué)會(huì)避免或引發(fā)這些干涉。
安全的干涉對(duì)于控制搗亂的機(jī)器人來說很有用,搗亂機(jī)器人可能造成不可逆轉(zhuǎn)的后果?;蛘撸踩缮婵梢詫C(jī)器人帶離高風(fēng)險(xiǎn)情況,甚至可用于完成某項(xiàng)機(jī)器人還沒有學(xué)會(huì)的任務(wù),或者某項(xiàng)機(jī)器人不會(huì)獲得獎(jiǎng)勵(lì)的任務(wù)。
我們已經(jīng)證明,一些算法(例如Q-Learning)已經(jīng)是可以安全干涉的,而另一些(例如Sarsa)還不是,但是只要簡單修改就能獲得這個(gè)特點(diǎn)。我們還證明了,即便是任何(決定論的)計(jì)算環(huán)境中都傾向于最優(yōu)化行為的理想算法,也很容易變?yōu)榭梢园踩缮娴?。然而,我們還不清楚是否所有算法都容易變?yōu)榭梢园踩缮娴?,例如政策搜索算法(Williams,1992,Glasmachers and Schmidhuber,2011)。
另一個(gè)問題是,我們還不清楚將干擾概率加快到1是否可能。
未來有一個(gè)重要的可能研究是“定時(shí)干涉”,算法在每天凌晨2:00進(jìn)行一小時(shí)的干涉,或者給算法提前通知會(huì)發(fā)生干涉,準(zhǔn)確到某一時(shí)間、某一時(shí)長。對(duì)于這些類型的干涉,我們不僅希望算法不要抗拒干涉,而且這一次,我們希望算法對(duì)其目前的任務(wù)采取措施,這樣定時(shí)干涉對(duì)任務(wù)的影響會(huì)最小化。這也許需要一種完全不同的解決辦法。
這篇論文將于本月底呈現(xiàn)在紐約舉行的第32屆“人工智能中的不確定性”大會(huì)(UAI 2016)上。不知馬斯克和霍金看完論文會(huì)不會(huì)覺得安心一些,終于可以不用害怕人工智能“天網(wǎng)”,睡個(gè)安穩(wěn)覺了。
via MIRI
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。