丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
專欄 正文
發(fā)私信給新智元
發(fā)送

2

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

本文作者: 新智元 2016-05-10 09:22
導(dǎo)語:馬斯克創(chuàng)立OpenAI目的何在?分析最近發(fā)布的OpenAI Gym,可以找出他的真正動機。

雷鋒網(wǎng)按:本文譯者王婉婷,弗格森。

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

【導(dǎo)讀】開源人工智能系統(tǒng)OpenAI的成立打破了谷歌、Facebook等巨頭霸占AI領(lǐng)域的格局,但其創(chuàng)始人、特斯拉CEO馬斯克多次發(fā)表人工智能威脅論。馬斯克創(chuàng)立OpenAI目的何在?分析最近發(fā)布的OpenAI Gym,可以找出他的真正動機。OpenAI Gym是一款用于研發(fā)和比較強化學(xué)習(xí)算法的工具包,它支持訓(xùn)練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的游戲,都在范圍中。本文其中一位作者是OpenAI內(nèi)部研究員,你想知道關(guān)于這個系統(tǒng)的一切,他都寫在這里了。

2015年12月16日,特斯拉CEO埃隆·馬斯克(Elon Musk)和創(chuàng)業(yè)孵化器Y Combinator總裁山姆·奧特曼(Sam Altman)創(chuàng)建了人工智能公司OpenAI,并表示將開源其研究成果分享給研究人工智能的每一個人。國外知名科技媒體《連線》雜志發(fā)表評論文章,稱開源的OpenAI的成立將人工智能研究推向高潮,同時也轉(zhuǎn)變了目前由谷歌、Facebook等巨頭引領(lǐng)的人工智能領(lǐng)域競爭格局。未來,OpenAI有望成為這一領(lǐng)域的監(jiān)管者,將其引向?qū)θ祟惛鼮榘踩陌l(fā)展軌跡上來。

谷歌和Facebook正在將人工智能推向新的時代,OpenAI至少還可以監(jiān)督它們,當然還會監(jiān)督其他人。深度學(xué)習(xí)初創(chuàng)企業(yè)Skymind.io的聯(lián)合創(chuàng)始人克里斯·尼科爾森(Chris Nicholson)說:“馬斯克和OpenAI已經(jīng)看到了人工智能的勢不可擋,他們唯一希望的是改變其發(fā)展軌跡?!?/span>

2016年4月28日,Open AI對外發(fā)布了人工智能一款用于研發(fā)和比較強化學(xué)習(xí)算法的工具包OpenAI Gym,正如Gym這詞所指的意思(健身房)一樣,在這一平臺上,開發(fā)者可以把自己開發(fā)的AI算法拿出來訓(xùn)練和展示,獲得專家和其他愛好者的點評,共同探討和研究。不管馬斯克希望把所有AI技術(shù)進行開發(fā)的夢想多么遠大和浪漫,其背后的真正動機是什么,至少,在OpenAI Gym里,可以看到AI開放化的步伐正在漸漸加快。

如果OpenAI能夠堅守他們的使命,讓所有人都能接觸到新技術(shù)理念,那么它至少將是對谷歌、Facebook等巨頭的一次考驗。

最近,OpenAI研究人員John Schulman與NVIDIA的GPU計算軟件首席技術(shù)員Mark Harris分享了一些關(guān)于這個組織的細節(jié),以及OpenAI Gym將如何讓AI研究者更容易地設(shè)計、迭代、優(yōu)化他們下一代的應(yīng)用程序。

John在加州理工大學(xué)修習(xí)物理學(xué),隨后在加州大學(xué)伯克利分校繼續(xù)深造。在伯克利,繼短暫地學(xué)習(xí)了神經(jīng)科學(xué)之后,他師從Pieter Abbeel研究機器學(xué)習(xí)與機器人學(xué),最終將強化學(xué)習(xí)作為他的主要研究興趣。

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

 John Schulman是OpenAI的一位研究員

OpenAI是什么?

OpenAI是一家非盈利性人工智能研究公司。每一天,我們都在致力于進行非監(jiān)督式學(xué)習(xí)和強化學(xué)習(xí)的研究。我們的使命和長期目標是以將最大限度地造福全人類的方式發(fā)展人工智能。

強化學(xué)習(xí)(reinforcement learning,RL)是機器學(xué)習(xí)的一個分支,它考慮的是做出一系列的決策。它假定有一個智能體(agent)存在于環(huán)境中。在每一步中,智能體(agent)采取一個行動,隨后從環(huán)境中收到觀察與回報。一個RL算法尋求的是,在一個原先毫無了解的環(huán)境中通過一段學(xué)習(xí)過程——通常包括許多試錯——讓智能體(agent)收到的總體回報最大化。

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析 

上面說到的強化學(xué)習(xí)問題——涉及到一個讓回報最大化的智能體(agent)——是非常寬泛的說法,而RL算法已經(jīng)被應(yīng)用到了許多不同的領(lǐng)域。它們被用于業(yè)務(wù)管理問題,比如用來決定一家商店應(yīng)該持有多少庫存商品、或是應(yīng)該如何設(shè)定商品價格。它們也被應(yīng)用在機器人控制問題上,這個領(lǐng)域最近有了非??焖俚陌l(fā)展。下面這個視頻展示了用OpenAI Gym訓(xùn)練Hopper(一個二維單腿機器人)來盡可能快速地向前單腳跳躍。

強化學(xué)習(xí)關(guān)注的是做出好決策,而監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)主要關(guān)注的是做出預(yù)測。然而,這之間有大量相通之處,有一些成為了研究中非?;钴S的話題。除了不同的側(cè)重點之外,強化學(xué)習(xí)本質(zhì)上的序列性也讓它無緣于大部分監(jiān)督式學(xué)習(xí)問題。在強化學(xué)習(xí)中,智能體(agent)的決策會影響到它得到怎樣的輸入數(shù)據(jù),也即它的決策最終帶來的效果。這使得強化學(xué)習(xí)更難發(fā)展出穩(wěn)定的算法,也讓探索成為必須——智能體(agent)需要不停地進入可能會收獲大量回報的未知領(lǐng)域。

OpenAI Gym將怎樣幫助AI的研發(fā)?

OpenAI Gym是一款用于研發(fā)和比較強化學(xué)習(xí)算法的工具包,其中包括了各種環(huán)境,目前有模擬的機器人學(xué)任務(wù)、桌面游戲、多位數(shù)加法之類的計算任務(wù)等等。我們預(yù)期工具包中包含的環(huán)境將隨時間不斷增多,用戶也會將他們自己創(chuàng)建的環(huán)境加入到其中。這些環(huán)境都有一個通用交互界面,使用戶能夠編寫可以應(yīng)用于許多不同環(huán)境的通用算法。

OpenAI Gym也有一個網(wǎng)站,人們可以將他們在這些環(huán)境中的訓(xùn)練結(jié)果發(fā)布到網(wǎng)站上并分享他們的代碼。這個網(wǎng)站的目的是讓人們能簡單地迭代并優(yōu)化他們的RL算法,并對什么算法才是有效的算法有一個概念。 

為了讓你感受一下代碼是什么樣的,下面給出的是創(chuàng)建其中一個環(huán)境(經(jīng)典倒立擺(cart-pole)任務(wù),目標是在一輛移動的小車上讓垂直放置的長桿保持平衡)、模擬一些隨機行為、隨后將結(jié)果提交到分數(shù)板上的方法(在實際操作中,你只有在應(yīng)用了一個學(xué)習(xí)算法以后才可能想要提交結(jié)果)。

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

這一小段代碼不包括任何學(xué)習(xí)或是訓(xùn)練——學(xué)習(xí)和訓(xùn)練會需要更多的代碼。很快我們就會貼出在OpenAI Gym的環(huán)境中簡潔實現(xiàn)各種重要算法的展示,如果你感興趣的話,記得關(guān)注我們的網(wǎng)站。

神經(jīng)網(wǎng)絡(luò)怎樣用于強化學(xué)習(xí)?

為了回答這個問題,我需要談一點關(guān)于RL算法學(xué)習(xí)了什么的問題。一些強化學(xué)習(xí)算法關(guān)注的是學(xué)習(xí)一個策略(policy),這是一個輸入觀察(例如相機照片)、然后輸出行動(例如motor torques)的函數(shù)。其他算法關(guān)注的是學(xué)習(xí)估值(value)函數(shù),它衡量的是狀態(tài)(也即世界的狀態(tài),the state of the world)以及行動的好壞。鑒于我們通常都無法查知世界的整體狀態(tài)(full state),我們一般會使用一個或是更多過去的觀察來作為替代。Q函數(shù)(估值函數(shù)的一種)衡量的是狀態(tài)-行動組(s, a)的好壞,也就是說,Q(s, a)能告訴你“如果我處于狀態(tài)s中并選擇行動a,我能獲得多少回報”。有了這個Q函數(shù)以后,你就能簡單地選擇出帶來最高預(yù)期回報的行動。這也就是說,Q函數(shù)定義了策略。下面這個視頻展示了如何在OpenAI Gym上訓(xùn)練深度Q網(wǎng)絡(luò)(Deep Q-Network)來玩Breakout。

基于策略的算法和基于Q函數(shù)的算法在核心上非常相似,我們可以用神經(jīng)網(wǎng)絡(luò)來表示策略和Q函數(shù)。例如,當玩Atari游戲的時候,向這些網(wǎng)絡(luò)輸入的是屏幕上的一個圖像,同時有一組離散的行動,例如{扔套索, 左走, 右走, 開火}。你可以用一個卷積神經(jīng)網(wǎng)絡(luò)將屏幕圖像作為輸入并輸出一個代表四種行動之一的數(shù)字,表示出行動的好壞,作為這個任務(wù)的Q函數(shù);用一個結(jié)構(gòu)相似、輸出每種行動可能性的卷積神經(jīng)網(wǎng)絡(luò)作為策略。

 馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

Schulman et al.(2015)使用的結(jié)構(gòu),上方的結(jié)構(gòu)用于模擬機器人控制,下方的結(jié)構(gòu)用于玩Atari游戲。

OpenAI Gym與眾不同之處在哪里?還有其他類似的開源環(huán)境嗎?

有各種各樣的開源環(huán)境集成,包括但不限于RL-Glue、RLPy、Arcade LearningEnvironment。我們從這些庫中獲得了靈感與一些代碼。OpenAI Gym也整合了最近加州大學(xué)伯克利分校的研究者們在對深度強化學(xué)習(xí)算法做基準測試時的工作成果。闡述這個基準測試研究的論文可以從ArXiv下載,并且將會在今年的ICML上作展示。

比起之前提到的那些環(huán)境集成,OpenAI Gym更為完善,擁有更多種類的任務(wù)、更多任務(wù)的難度級別(包括在去年之前都無法解決的模擬機器人任務(wù))。不僅如此,OpenAI Gym還獨有在線分數(shù)板,讓用戶能夠做比較并分享代碼。

OpenAI Gym的用戶都是誰?AI研究者如何從RL-Gym中獲益?

我們希望讓OpenAI Gym對于擁有不同背景的人來說都能夠使用。對RL毫無了解的用戶可以下載基礎(chǔ)代碼,在短短幾分鐘之內(nèi)開始實驗這些代碼。他們可以訪問不同環(huán)境的分數(shù)板并下載其上的解決方案代碼,隨后自行驗證這些解決方案(這是一個非常重要并且實用的功能?。┎⒆鲂薷摹?/p>

AI研究者將能運用其中包含的環(huán)境進行RL研究。每種環(huán)境都有規(guī)范命名的版本號(semantically versioned),便于在論文中報告結(jié)果并易于理解。研究者們也能夠在分數(shù)板上將自己的算法的效果與其他人的算法作比較,并找到表現(xiàn)優(yōu)異的算法的代碼。

你們有計劃用NVIDIA GPU來加速OpenAI Gym嗎?GPU會為你們的工作帶來怎樣的增益?

GPU對于涉及大型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題來說正在逐漸變得不可或缺。我們將會使用GPU來為大規(guī)模任務(wù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),并且我們也預(yù)期我們的許多用戶也會這么做。

更現(xiàn)實的環(huán)境渲染是否有助于讓學(xué)習(xí)遷移到現(xiàn)實世界?

是的,我相信真實感渲染(photorealistic rendering)能讓機器人在虛擬環(huán)境下接受訓(xùn)練、學(xué)習(xí)到能夠遷移到現(xiàn)實世界的策略。尚有許多激動人心的可能性等待我們發(fā)覺。

OpenAI和OpenAI Gym的下一步是什么?

非監(jiān)督式學(xué)習(xí)和強化學(xué)習(xí)方面,我們很快就會開始發(fā)布我們一些持續(xù)進行的研究項目的結(jié)果。我們很期待看到用戶們用OpenAI Gym來做些什么,并計劃繼續(xù)更新它,讓它成為一款對于研究社區(qū)和領(lǐng)域內(nèi)新人來說都很有用的工具。


雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

分享:
相關(guān)文章

產(chǎn)業(yè)鏈媒體

「新智元」深度鎖定人工智能及機器人產(chǎn)業(yè)鏈,關(guān)注產(chǎn)業(yè)前沿資訊,聚集學(xué)術(shù)和產(chǎn)業(yè)領(lǐng)袖,共同建構(gòu)智能 + 產(chǎn)業(yè)的新紀元。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說