丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給彭博
發(fā)送

1

28天自制你的AlphaGo(四):結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的Policy Gradient(左右互搏自我進(jìn)化的基礎(chǔ))

本文作者: 彭博 2017-02-23 13:54
導(dǎo)語:強(qiáng)化學(xué)習(xí)在 AlphaGo 中究竟是怎么用的?

雷鋒網(wǎng)注:本文作者彭博,Blink·稟臨科技聯(lián)合創(chuàng)始人。文章由雷鋒網(wǎng)整理自作者知乎專欄,獲授權(quán)發(fā)布。

本篇提前回答一個(gè)大家經(jīng)常問的問題:強(qiáng)化學(xué)習(xí)在 AlphaGo 中究竟是怎么用的?比如說,SL策略網(wǎng)絡(luò),是怎么變成 RL 策略網(wǎng)絡(luò)的?

| Policy Gradient:簡(jiǎn)單而有效

很有意思的是,很少見到有人回答上述問題(可能是因?yàn)?AlphaGo 論文在此寫得很簡(jiǎn)略)。其實(shí),這個(gè)問題的答案特別簡(jiǎn)單:

  • 如果我贏了棋,就說明這次我選擇的策略是正確的。所以可以對(duì)于這次所經(jīng)歷的每一個(gè)局面,都加強(qiáng)選擇這局的走法的概率。

  • 如果我輸了棋,就說明這次我選擇的策略是錯(cuò)誤的。所以可以對(duì)于這次所經(jīng)歷的每一個(gè)局面,都減少選擇這局的走法的概率。

舉個(gè)例子,比如說電腦左右互搏,黑棋開局走星位,白棋回應(yīng)走小目,最后白棋輸了,那么黑棋就加強(qiáng)開局走星位的概率(以及后續(xù)的每一步選擇這局的走法的概率),白棋就減少在黑棋開局走星位的情況下走小目的概率(以及后續(xù)的每一步選擇這局的走法的概率)。

等一下,這里好像有問題。這是不是太傻了?也許白棋并不是敗在開局,而是敗在中盤的某一步?也許黑棋并不是真的這次走對(duì)了策略,而是白棋看漏了一步(而且白棋如果走對(duì)是可以贏的)?

以上說的很正確。但是,反過來想,如果黑棋的走法可以讓白棋后面打勺的概率增加,那也不錯(cuò)啊。另一方面,如果白棋發(fā)現(xiàn)自己目前的策略容易進(jìn)入自己不容易掌握的局面,那么盡管確實(shí)可能有完美的招數(shù)隱藏在里面,那白棋也不妨一開始就去避免這種局面吧。而且,勝和負(fù)的影響可以相互抵消,所以在經(jīng)過大量對(duì)局后,這個(gè)過程是比較穩(wěn)定的。比如說如果某個(gè)開局的后續(xù)勝率經(jīng)統(tǒng)計(jì)是50%,那它就不會(huì)被改變;但如果不是50%,這種改變就有一定道理。

這個(gè)過程,有點(diǎn)像人類棋手的“找到適合自己的棋風(fēng)”的過程。毫無疑問,現(xiàn)在的 AlphaGo 已經(jīng)找到了十分適合自己的棋風(fēng),它確實(shí)是會(huì)揚(yáng)長(zhǎng)避短的。

以上是最簡(jiǎn)單的 Policy Gradient 的例子,它的問題是有可能陷入局部的最優(yōu)(對(duì)付自己有效,不代表對(duì)付其他人有效),因此 AlphaGo 論文中會(huì)建立一個(gè)對(duì)手池(包括整個(gè)進(jìn)化過程中形成的所有策略),保證新策略盡量對(duì)于不同對(duì)手都有效。在這個(gè)基礎(chǔ)上,可以做各種各樣的改進(jìn),例如配合未來的價(jià)值網(wǎng)絡(luò),更清楚地看到自己的敗著在哪里,而不是傻傻地把所有概率都同樣修改 。

| Deepmind 的相關(guān)研究

其實(shí) Deepmind 自創(chuàng)始以來就在做類似的研究,在此簡(jiǎn)單說說。經(jīng)典的一系列論文是學(xué)會(huì)玩 Atari 游戲:

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

例如最經(jīng)典的 Pong:

28天自制你的AlphaGo(四):結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的Policy Gradient(左右互搏自我進(jìn)化的基礎(chǔ))

這里也有一個(gè)策略網(wǎng)絡(luò),它輸入的是目前的屏幕圖像(實(shí)際上要輸入幾幅圖像,或者前后兩幅圖像的差,用于判斷運(yùn)動(dòng)情況),輸出的是此時(shí)應(yīng)該往上移動(dòng)的概率。用這里所說的訓(xùn)練方法就可以讓它無師自通,自己學(xué)會(huì)玩游戲,最終達(dá)到相當(dāng)高的水準(zhǔn)(可以想象,這個(gè)學(xué)習(xí)過程會(huì)比較慢)。

但是如果我們仔細(xì)想想,這個(gè)辦法恐怕很難自己學(xué)會(huì)玩好星際!一個(gè)重要原因是星際的決策中有太復(fù)雜的“層次結(jié)構(gòu)”。因此盡管 Deepmind 此前說星際是下一個(gè)目標(biāo),目前我們尚未看到 Deepmind 在這方面發(fā)表的進(jìn)展。如果真的成功實(shí)現(xiàn),將是相當(dāng)大的成就。

最后,如果對(duì)于這方面感興趣,這是一篇很好的介紹:

Deep Reinforcement Learning: Pong from Pixels

相關(guān)閱讀:

28 天自制你的 AlphaGo(一)

28 天自制你的 AlphaGo(二):訓(xùn)練策略網(wǎng)絡(luò),真正與之對(duì)弈

28天自制你的AlphaGo(三):對(duì)策略網(wǎng)絡(luò)的深入分析以及它的弱點(diǎn)所在

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

28天自制你的AlphaGo(四):結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的Policy Gradient(左右互搏自我進(jìn)化的基礎(chǔ))

分享:
相關(guān)文章

專欄作者

Blink·稟臨科技 聯(lián)合創(chuàng)始人
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說