2
本文作者: 新智元 | 2016-05-10 09:22 |
雷鋒網按:本文譯者王婉婷,弗格森。
【導讀】開源人工智能系統(tǒng)OpenAI的成立打破了谷歌、Facebook等巨頭霸占AI領域的格局,但其創(chuàng)始人、特斯拉CEO馬斯克多次發(fā)表人工智能威脅論。馬斯克創(chuàng)立OpenAI目的何在?分析最近發(fā)布的OpenAI Gym,可以找出他的真正動機。OpenAI Gym是一款用于研發(fā)和比較強化學習算法的工具包,它支持訓練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的游戲,都在范圍中。本文其中一位作者是OpenAI內部研究員,你想知道關于這個系統(tǒng)的一切,他都寫在這里了。
2015年12月16日,特斯拉CEO埃隆·馬斯克(Elon Musk)和創(chuàng)業(yè)孵化器Y Combinator總裁山姆·奧特曼(Sam Altman)創(chuàng)建了人工智能公司OpenAI,并表示將開源其研究成果分享給研究人工智能的每一個人。國外知名科技媒體《連線》雜志發(fā)表評論文章,稱開源的OpenAI的成立將人工智能研究推向高潮,同時也轉變了目前由谷歌、Facebook等巨頭引領的人工智能領域競爭格局。未來,OpenAI有望成為這一領域的監(jiān)管者,將其引向對人類更為安全的發(fā)展軌跡上來。
谷歌和Facebook正在將人工智能推向新的時代,OpenAI至少還可以監(jiān)督它們,當然還會監(jiān)督其他人。深度學習初創(chuàng)企業(yè)Skymind.io的聯(lián)合創(chuàng)始人克里斯·尼科爾森(Chris Nicholson)說:“馬斯克和OpenAI已經看到了人工智能的勢不可擋,他們唯一希望的是改變其發(fā)展軌跡?!?/span>
2016年4月28日,Open AI對外發(fā)布了人工智能一款用于研發(fā)和比較強化學習算法的工具包OpenAI Gym,正如Gym這詞所指的意思(健身房)一樣,在這一平臺上,開發(fā)者可以把自己開發(fā)的AI算法拿出來訓練和展示,獲得專家和其他愛好者的點評,共同探討和研究。不管馬斯克希望把所有AI技術進行開發(fā)的夢想多么遠大和浪漫,其背后的真正動機是什么,至少,在OpenAI Gym里,可以看到AI開放化的步伐正在漸漸加快。
如果OpenAI能夠堅守他們的使命,讓所有人都能接觸到新技術理念,那么它至少將是對谷歌、Facebook等巨頭的一次考驗。
最近,OpenAI研究人員John Schulman與NVIDIA的GPU計算軟件首席技術員Mark Harris分享了一些關于這個組織的細節(jié),以及OpenAI Gym將如何讓AI研究者更容易地設計、迭代、優(yōu)化他們下一代的應用程序。
John在加州理工大學修習物理學,隨后在加州大學伯克利分校繼續(xù)深造。在伯克利,繼短暫地學習了神經科學之后,他師從Pieter Abbeel研究機器學習與機器人學,最終將強化學習作為他的主要研究興趣。
John Schulman是OpenAI的一位研究員
OpenAI是一家非盈利性人工智能研究公司。每一天,我們都在致力于進行非監(jiān)督式學習和強化學習的研究。我們的使命和長期目標是以將最大限度地造福全人類的方式發(fā)展人工智能。
強化學習(reinforcement learning,RL)是機器學習的一個分支,它考慮的是做出一系列的決策。它假定有一個智能體(agent)存在于環(huán)境中。在每一步中,智能體(agent)采取一個行動,隨后從環(huán)境中收到觀察與回報。一個RL算法尋求的是,在一個原先毫無了解的環(huán)境中通過一段學習過程——通常包括許多試錯——讓智能體(agent)收到的總體回報最大化。
上面說到的強化學習問題——涉及到一個讓回報最大化的智能體(agent)——是非常寬泛的說法,而RL算法已經被應用到了許多不同的領域。它們被用于業(yè)務管理問題,比如用來決定一家商店應該持有多少庫存商品、或是應該如何設定商品價格。它們也被應用在機器人控制問題上,這個領域最近有了非??焖俚陌l(fā)展。下面這個視頻展示了用OpenAI Gym訓練Hopper(一個二維單腿機器人)來盡可能快速地向前單腳跳躍。
強化學習關注的是做出好決策,而監(jiān)督式學習和非監(jiān)督式學習主要關注的是做出預測。然而,這之間有大量相通之處,有一些成為了研究中非常活躍的話題。除了不同的側重點之外,強化學習本質上的序列性也讓它無緣于大部分監(jiān)督式學習問題。在強化學習中,智能體(agent)的決策會影響到它得到怎樣的輸入數(shù)據(jù),也即它的決策最終帶來的效果。這使得強化學習更難發(fā)展出穩(wěn)定的算法,也讓探索成為必須——智能體(agent)需要不停地進入可能會收獲大量回報的未知領域。
OpenAI Gym是一款用于研發(fā)和比較強化學習算法的工具包,其中包括了各種環(huán)境,目前有模擬的機器人學任務、桌面游戲、多位數(shù)加法之類的計算任務等等。我們預期工具包中包含的環(huán)境將隨時間不斷增多,用戶也會將他們自己創(chuàng)建的環(huán)境加入到其中。這些環(huán)境都有一個通用交互界面,使用戶能夠編寫可以應用于許多不同環(huán)境的通用算法。
OpenAI Gym也有一個網站,人們可以將他們在這些環(huán)境中的訓練結果發(fā)布到網站上并分享他們的代碼。這個網站的目的是讓人們能簡單地迭代并優(yōu)化他們的RL算法,并對什么算法才是有效的算法有一個概念。
為了讓你感受一下代碼是什么樣的,下面給出的是創(chuàng)建其中一個環(huán)境(經典倒立擺(cart-pole)任務,目標是在一輛移動的小車上讓垂直放置的長桿保持平衡)、模擬一些隨機行為、隨后將結果提交到分數(shù)板上的方法(在實際操作中,你只有在應用了一個學習算法以后才可能想要提交結果)。
這一小段代碼不包括任何學習或是訓練——學習和訓練會需要更多的代碼。很快我們就會貼出在OpenAI Gym的環(huán)境中簡潔實現(xiàn)各種重要算法的展示,如果你感興趣的話,記得關注我們的網站。
為了回答這個問題,我需要談一點關于RL算法學習了什么的問題。一些強化學習算法關注的是學習一個策略(policy),這是一個輸入觀察(例如相機照片)、然后輸出行動(例如motor torques)的函數(shù)。其他算法關注的是學習估值(value)函數(shù),它衡量的是狀態(tài)(也即世界的狀態(tài),the state of the world)以及行動的好壞。鑒于我們通常都無法查知世界的整體狀態(tài)(full state),我們一般會使用一個或是更多過去的觀察來作為替代。Q函數(shù)(估值函數(shù)的一種)衡量的是狀態(tài)-行動組(s, a)的好壞,也就是說,Q(s, a)能告訴你“如果我處于狀態(tài)s中并選擇行動a,我能獲得多少回報”。有了這個Q函數(shù)以后,你就能簡單地選擇出帶來最高預期回報的行動。這也就是說,Q函數(shù)定義了策略。下面這個視頻展示了如何在OpenAI Gym上訓練深度Q網絡(Deep Q-Network)來玩Breakout。
基于策略的算法和基于Q函數(shù)的算法在核心上非常相似,我們可以用神經網絡來表示策略和Q函數(shù)。例如,當玩Atari游戲的時候,向這些網絡輸入的是屏幕上的一個圖像,同時有一組離散的行動,例如{扔套索, 左走, 右走, 開火}。你可以用一個卷積神經網絡將屏幕圖像作為輸入并輸出一個代表四種行動之一的數(shù)字,表示出行動的好壞,作為這個任務的Q函數(shù);用一個結構相似、輸出每種行動可能性的卷積神經網絡作為策略。
Schulman et al.(2015)使用的結構,上方的結構用于模擬機器人控制,下方的結構用于玩Atari游戲。
有各種各樣的開源環(huán)境集成,包括但不限于RL-Glue、RLPy、Arcade LearningEnvironment。我們從這些庫中獲得了靈感與一些代碼。OpenAI Gym也整合了最近加州大學伯克利分校的研究者們在對深度強化學習算法做基準測試時的工作成果。闡述這個基準測試研究的論文可以從ArXiv下載,并且將會在今年的ICML上作展示。
比起之前提到的那些環(huán)境集成,OpenAI Gym更為完善,擁有更多種類的任務、更多任務的難度級別(包括在去年之前都無法解決的模擬機器人任務)。不僅如此,OpenAI Gym還獨有在線分數(shù)板,讓用戶能夠做比較并分享代碼。
我們希望讓OpenAI Gym對于擁有不同背景的人來說都能夠使用。對RL毫無了解的用戶可以下載基礎代碼,在短短幾分鐘之內開始實驗這些代碼。他們可以訪問不同環(huán)境的分數(shù)板并下載其上的解決方案代碼,隨后自行驗證這些解決方案(這是一個非常重要并且實用的功能?。┎⒆鲂薷?。
AI研究者將能運用其中包含的環(huán)境進行RL研究。每種環(huán)境都有規(guī)范命名的版本號(semantically versioned),便于在論文中報告結果并易于理解。研究者們也能夠在分數(shù)板上將自己的算法的效果與其他人的算法作比較,并找到表現(xiàn)優(yōu)異的算法的代碼。
你們有計劃用NVIDIA GPU來加速OpenAI Gym嗎?GPU會為你們的工作帶來怎樣的增益?
GPU對于涉及大型神經網絡的學習問題來說正在逐漸變得不可或缺。我們將會使用GPU來為大規(guī)模任務訓練神經網絡,并且我們也預期我們的許多用戶也會這么做。
是的,我相信真實感渲染(photorealistic rendering)能讓機器人在虛擬環(huán)境下接受訓練、學習到能夠遷移到現(xiàn)實世界的策略。尚有許多激動人心的可能性等待我們發(fā)覺。
非監(jiān)督式學習和強化學習方面,我們很快就會開始發(fā)布我們一些持續(xù)進行的研究項目的結果。我們很期待看到用戶們用OpenAI Gym來做些什么,并計劃繼續(xù)更新它,讓它成為一款對于研究社區(qū)和領域內新人來說都很有用的工具。
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。