丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局 | Arxiv Insights

本文作者: AI研習(xí)社-譯站 2018-01-15 11:40
導(dǎo)語:說來說去,就是不服輸

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights雷鋒網(wǎng):喜歡機(jī)器學(xué)習(xí)和人工智能,卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時(shí)間?油管頻道 Arxiv Insights 每周精選,從技術(shù)視角出發(fā),帶你輕松深度學(xué)習(xí)。

翻譯/ 曹晨

校對(duì)/ 凡江

整理/ 廖穎

雷鋒網(wǎng)本期Arxiv Insights圍繞一篇名為《研究電子游戲中人類的先驗(yàn)信息》(Investigating Human Priors For Playing Video Games)展開。論文提出的核心問題是:為什么人類擅長通關(guān)電子游戲?作者發(fā)現(xiàn)其中一個(gè)關(guān)鍵點(diǎn)是,人類能夠利用強(qiáng)大的先驗(yàn)?zāi)芰焖贈(zèng)Q策、快速通關(guān)。

視頻解讀

人類1分鐘通關(guān)的游戲,機(jī)器要花37小時(shí)

以“營救公主”的益智游戲?yàn)槔?,游戲通關(guān)方式是,需要營救者爬上梯子到達(dá)最頂端,越過敵人救出公主,對(duì)普通玩家來說,整個(gè)操作過程只需要1分鐘時(shí)間。但如果用現(xiàn)階段最先進(jìn)的增強(qiáng)學(xué)習(xí)算法進(jìn)行游戲,就算是最有效的一類算法也大約需要4百萬幀來訓(xùn)練。(要連續(xù)通關(guān),這個(gè)數(shù)量的幀數(shù)是必須的)

現(xiàn)在我們以時(shí)間為單位,來重新計(jì)算這些幀數(shù)。假設(shè)你運(yùn)行的游戲是每秒30幀左右,那么400萬幀就相當(dāng)于一個(gè)人不間斷地玩37個(gè)小時(shí)左右的游戲。這樣算下來,機(jī)器花費(fèi)的時(shí)間大約是人類闖關(guān)所需時(shí)間的2000倍。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

為什么人類擅長處理新的復(fù)雜環(huán)境?

很顯然你會(huì)說,這是因?yàn)槿祟愑泻芏嘁阎南闰?yàn)信息。比如,我們知道梯子是需要爬的,所以我們避開梯子。但關(guān)鍵問題不在信息數(shù)量,而在于信息的重要度和影響力:不同的先驗(yàn)信息重要程度會(huì)有所不同嗎?我們能否量化這些先驗(yàn)信息所帶來的影響?

在最近幾年中,機(jī)器學(xué)習(xí)取得了非常顯著的進(jìn)步,增強(qiáng)學(xué)習(xí)也取得了顯著的進(jìn)步。這些進(jìn)步大部分來自于類似谷歌的 DeepMind OpenAI 以及在人工智能研究前沿中聲名鵲起的大學(xué)。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

這些進(jìn)展表明我們能夠訓(xùn)練agent,使它在動(dòng)態(tài)環(huán)境中能學(xué)習(xí)到非常復(fù)雜的行為。agent使用了一種信號(hào),我們稱之為獎(jiǎng)勵(lì)信號(hào)。不同于監(jiān)督學(xué)習(xí),需要告知agent在給定情況下應(yīng)該采取什么行動(dòng)。這種agent可以在環(huán)境中按照其想要的方式自由行動(dòng)。但是它有一個(gè)信號(hào),即之前提到的獎(jiǎng)勵(lì)信號(hào),獎(jiǎng)勵(lì)信號(hào)試圖隨著時(shí)間的推移,不斷優(yōu)化agent,使其達(dá)到最優(yōu)值。

這些算法在各式各樣的場(chǎng)景中,表現(xiàn)非常出色。這樣的成就甚至讓很多人提出,我們可能看到了泛化人工智能早期的萌芽。盡管已取得一些可觀的成就,要使機(jī)器達(dá)到與人類水平相近的學(xué)習(xí)能力,還有很長的路要走。

機(jī)器學(xué)習(xí)究竟差在哪?

目前的算法擅長于泛化學(xué)習(xí)(general learning),但它們存在樣本利用率(sample efficiency)差的問題。這個(gè)問題意味著,在它們能夠分清什么行為是當(dāng)前環(huán)境所需要的之前,你必須給agent很多訓(xùn)練幀。還需要說明,算法和人類表現(xiàn)的不同之處,大部分研究者并沒有提到嵌入式知識(shí)(embedded knowledge),即人們帶到新的任務(wù)中的知識(shí)。這些知識(shí)使得我們找尋特定問題的最優(yōu)解法能比我們目前擁有的任何算法都快速。

如果你還了解些心理學(xué),我們就知道,新生嬰兒實(shí)際上是有模仿傾向的。如果一個(gè)父親伸出他的舌頭,雖然孩子沒有意識(shí)到發(fā)生了什么,但是我們經(jīng)常會(huì)看見嬰兒模仿這個(gè)動(dòng)作。這個(gè)事實(shí)說明有些信息是嵌入在我們基因中的。同樣我們有強(qiáng)烈的傾向去注意人臉。因此,對(duì)于新生嬰兒而言,如果給他很多很多圖片,他們總是會(huì)首先盯著人臉看。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

而還有一些人類的先驗(yàn)信息是沒有存儲(chǔ)到我們基因中的,但我們會(huì)在年輕的時(shí)候去學(xué)習(xí)。其中一個(gè)案例就是客體永久性(object permanence)??腕w永久性表明一個(gè)事實(shí):如果你有一個(gè)給定的物體,突然將該物體隱藏起來,我們還是認(rèn)為物體在那兒。

客體永久性這個(gè)概念經(jīng)常出現(xiàn)在兩個(gè)月左右大小的人類嬰兒。然而在黑猩猩和其他猴類,這種現(xiàn)象出現(xiàn)得更快更早。因此你可以看到,一只和人類嬰兒相同年齡的猴子,對(duì)于猴子來說,客體永久性的概念已經(jīng)表現(xiàn)出來了。為了檢測(cè)不同人類先驗(yàn)信息的出現(xiàn)和影響,研究者們?cè)O(shè)計(jì)了個(gè)游戲,他們故意用隨機(jī)結(jié)構(gòu)替換了游戲中的一些物體。這個(gè)想法其實(shí)是,如果處理得巧妙,你實(shí)際上可以掩蓋某些形式的先驗(yàn)信息。然后再通過人類玩家的表現(xiàn)變化來分辨,哪些形式的先驗(yàn)知識(shí)實(shí)際上對(duì)完成游戲是關(guān)鍵的。

人類贏了,靠的是先驗(yàn)信息

在繼續(xù)討論之前,我希望你們所有人都來試玩一下這個(gè)游戲,并且嘗試其中一個(gè)調(diào)整過的游戲版本,去看看如果你沒有了先驗(yàn)信息,玩下去是多么困難。沒有重新映射任何結(jié)構(gòu)的原始游戲,一個(gè)正常人需要大約1.4分鐘來闖關(guān)。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

研究者對(duì)游戲的第一個(gè)調(diào)整是改變了對(duì)象的語義,他們將可以看見的一把鑰匙或一扇門替換了,玩家只能簡(jiǎn)單地看到一種統(tǒng)一顏色的正方形。這樣做其實(shí)是拿走了我們關(guān)于對(duì)象屬性的先驗(yàn)知識(shí)。我們很顯然能發(fā)覺,在游戲的初始版本中,所有玩家需要先去拿鑰匙,然后去開門。而在重新映射了結(jié)構(gòu)的游戲中就不是這樣了。這明顯地展示了人們使用他們關(guān)于對(duì)象先驗(yàn)信息來引導(dǎo)他們的行為。

重新映射結(jié)構(gòu)的游戲中,平均游戲時(shí)間從1.4分鐘上升至大約4.4分鐘。在調(diào)整的第二個(gè)游戲版本中,研究者決定簡(jiǎn)單地在一個(gè)版本基礎(chǔ)上,再隱藏物體的位置。于是,現(xiàn)在所有玩家能自由移動(dòng)的位置已經(jīng)被統(tǒng)一顏色的正方形掩藏起來了。在這個(gè)版本游戲中,人類玩家闖關(guān)所需的平均間上升到9分鐘。我們不知道對(duì)象在哪兒,但我們?nèi)苑浅G宄匦问鞘裁礃拥?,比如我們知道平臺(tái)在哪兒,也知道晶格作用是什么。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

新版本游戲中,他們又重新映射了所有的這些結(jié)構(gòu),我們把這種行為叫做去除功能可見性(affordance removal)。這證明了去除功能可見性并不像移除對(duì)象語義那樣糟糕。最后研究者決定試試游戲的骨灰級(jí)模式,于是他們將重力感應(yīng)旋轉(zhuǎn)了90度,交換了左和右的控制鍵。此外,他們還重新映射了所有的功能可見性結(jié)構(gòu)。

這說明我們找到了關(guān)鍵點(diǎn),因此通過定量比較這些調(diào)整的游戲版本給人們闖關(guān)時(shí)間所帶來的影響,研究者們列出了一些人類已知道的先驗(yàn)信息,以及這些先驗(yàn)信息對(duì)于解決一個(gè)任務(wù)來說的重要性。

從結(jié)果我們能看出端倪,比如簡(jiǎn)單的判斷物體對(duì)于解決復(fù)雜環(huán)境來說非常關(guān)鍵。接下來,研究者們就做了非常有趣的事:他們使用了最先進(jìn)的增強(qiáng)學(xué)習(xí)算法,該算法稱為A3C(Asynchronous Advantage Actor-Critic),通過這個(gè)算法來嘗試經(jīng)過同樣處理的調(diào)整后游戲版本——這些版本都是之前人類玩家見過的。結(jié)果證明增強(qiáng)學(xué)習(xí)agent沒有任何問題,無論在調(diào)整的版本,哪怕是游戲版本中所有的物體結(jié)構(gòu)都被重新映射了,增強(qiáng)學(xué)習(xí)agent需要大約相同數(shù)量的訓(xùn)練幀來解決這部分問題。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

總體來說,人類使用非常強(qiáng)大的先驗(yàn)信息,使得他們能在之前從未遇見的情境中快速發(fā)現(xiàn)最佳的解決方案。而這正是當(dāng)前在增強(qiáng)學(xué)習(xí)算法中,所缺少的最主要的東西,因?yàn)樗惴]有預(yù)先建立起關(guān)于這個(gè)世界如何工作的知識(shí)。

先驗(yàn)信息不萬能,有時(shí)候還會(huì)成為絆腳石

最后需要注意的一點(diǎn)是,掌握對(duì)象的先驗(yàn)知識(shí)可能不總是一件好事情。想想我之前討論過的AlphaGo系統(tǒng),就可以很清楚地發(fā)現(xiàn),該算法從零開始訓(xùn)練,就需要丟掉一些基于人類知識(shí)和人類游戲的先驗(yàn)信息,而這些先驗(yàn)信息確實(shí)能使算法得到一個(gè)更好的性能。

還有另一個(gè)例子,如果你改變了游戲的重力,那么人們將會(huì)做出非常糟糕的決策,并做出比沒有預(yù)先輸入物理知識(shí)定義的目標(biāo)agent更糟糕的事情。這些表明,雖然人類的先驗(yàn)信息可能對(duì)解決新環(huán)境中的新任務(wù)有用,但是這些先驗(yàn)信息也可能是起到妨礙作用。

這種情況我們?cè)诹孔游锢硪矔?huì)中見到 。人類的知識(shí)是我們通過很多年的科學(xué)研究和自然界生活積累的。然而這些卻被量子物理中奇怪的規(guī)則所違背了,這些對(duì)我們來說非常不符合自然規(guī)律,也非常難以接受和理解。

論文原址:

https://openreview.net/pdf?id=Hk91SGWR-

論文中各個(gè)版本的游戲鏈接:

https://high-level-3.herokuapp.com/   

https://openreview.net/pdf?id=Hk91SGWR-

雷鋒網(wǎng)(雷鋒字幕組)出品。添加微信:雷鋒字幕組(leiphonefansub),加入我們。

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

相關(guān)文章:

神經(jīng)網(wǎng)絡(luò)平常都在做些啥?可視化特征解釋了一下

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

棋類大戰(zhàn)中慘敗的人類,現(xiàn)在想要在電子游戲上扳回一局  |  Arxiv Insights

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說