丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

本文作者: 楊曉凡 2017-05-24 22:32
導(dǎo)語:重磅|David Silver原文演講:揭秘昨天AlphaGo Master算法和訓(xùn)練細(xì)節(jié)

文章由三川,宗仁,曉帆聯(lián)合編輯。

雷鋒網(wǎng)AI科技評(píng)論按:烏鎮(zhèn)圍棋峰會(huì)第二天,在《AlphaGo研發(fā)介紹,AlphaGo意味著什么》主題演講上,Demis Hassabis+David Silver針對(duì)昨天與柯潔鏖戰(zhàn)的AlphaGo研發(fā)做了公開介紹,其中AlphaGo主程序員David Silver在演講中講到AlphaGo研發(fā)的關(guān)鍵介紹,雷鋒網(wǎng)AI科技評(píng)論根據(jù)現(xiàn)場(chǎng)原話整理出下文。

演講摘要:有了這樣強(qiáng)大的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),AlphaGo探索棋步的基本的搜索樹規(guī)模就得以大幅度縮減。前一個(gè)版本AlphaGo Lee還是通過“只考慮人類可能走的位置”和“預(yù)判50回合”來限制搜索規(guī)模,如今AlphaGo Master已經(jīng)考慮的是全局最有價(jià)值的位置,并且預(yù)測(cè)更少的回合數(shù)目還能達(dá)到更高的準(zhǔn)確率。這樣一來,蒙特卡洛樹更窄更淺,回合中考慮的走子位置更少、預(yù)判回合數(shù)更少,預(yù)判依靠更強(qiáng)大的網(wǎng)絡(luò),只用4個(gè)TPU、AlphaGo Lee十分之一的計(jì)算能力就達(dá)到了更高的棋力。

AlphaGo Master的硬件,算法和訓(xùn)練細(xì)節(jié)

先從外界一直在關(guān)心的AlphaGo硬件問題說起,具體來說,AlphaGo Lee使用了谷歌云上的50個(gè)左右TPU。依靠這樣的計(jì)算能力,我們可以做50層深的搜索,就是說落子前對(duì)棋盤上每一個(gè)可能的位置可以做50步預(yù)判。每秒它可以搜索10,000(ten thousand,1萬)個(gè)位置。聽起來挺多的,但是其實(shí)20年前的深藍(lán)可以每秒搜索100,000,000(a hundred million,1億)個(gè)位置。所以其實(shí)AlphaGo思考的時(shí)候比深藍(lán)聰明多了,它用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),大大減少了需要搜索的路徑數(shù)量。

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

說說新版本的AlphaGo吧,我們把它稱作AlphaGo Master。這是目前最強(qiáng)的AlphaGo,也正是此次大會(huì)中比賽的AlphaGo。AlphaGo Master使用的算法要比以前高效得多,以至于只需要AlphaGo Lee版本十分之一的計(jì)算量。以及,訓(xùn)練AlphaGo Master也要高效得多。

AlphaGo Master運(yùn)行在單臺(tái)(single machine)電腦上(會(huì)后采訪中,AI科技評(píng)論在內(nèi)的媒體跟Silver親自確認(rèn),是運(yùn)行在單臺(tái)電腦上,但包含4個(gè)TPU),但是比擁有更多TPU的AlphaGo Lee、AlphaGo Fan都要厲害。

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

AlphaGo Master為何如此厲害呢?背后的原因是因?yàn)槲覀冇昧俗詈玫臄?shù)據(jù)來訓(xùn)練它。我們能獲取到的最好的數(shù)據(jù)不是來自于人類,而是來自于AlphaGo自己。我們讓AlphaGo做自己的老師。我們利用AlphaGo強(qiáng)大的搜索能力,自己生成數(shù)據(jù),用生成的數(shù)據(jù)讓下一代的AlphaGo學(xué)習(xí)。自己教自己。

用這樣的方法,我們訓(xùn)練出的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)就比以前的AlphaGo都要厲害。下面我來仔細(xì)介紹一下算法中的細(xì)節(jié)。

首先,我們讓AlphaGo跟自己對(duì)弈。這是基于強(qiáng)化學(xué)習(xí)的,我們已經(jīng)不再拿人類的棋局給它學(xué)習(xí)了。AlphaGo自己訓(xùn)練自己,自己從自己身上學(xué)習(xí)。通過強(qiáng)化學(xué)習(xí)的形式,它學(xué)到如何提高。

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

在棋局的每一回合,AlphaGo 運(yùn)行火力全開(full power)的搜索以生成對(duì)落子的建議,即計(jì)劃。當(dāng)它選擇這一步落子、實(shí)施、并到一個(gè)新回合時(shí),會(huì)再一次運(yùn)行搜索,仍然是基于策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)、火力全開的搜索,來生成下一步落子的計(jì)劃,如此循環(huán),直到一局棋結(jié)束。它會(huì)無數(shù)次重復(fù)這一過程,來產(chǎn)生海量訓(xùn)練數(shù)據(jù)。隨后,我們用這些數(shù)據(jù)來訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)。

首先,當(dāng) AlphaGo 和它自己下棋時(shí),用這些訓(xùn)練數(shù)據(jù)來訓(xùn)練一個(gè)新策略網(wǎng)絡(luò)。事實(shí)上,在 AlphaGo 運(yùn)行搜索、選擇一個(gè)落子的方案之前,這些是我們能獲取的最高質(zhì)量的數(shù)據(jù)。

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

下一步,讓策略網(wǎng)絡(luò)只用它自己、不用任何搜索,來看它是否能產(chǎn)生同樣的落子的方案。這里的思路是:讓策略網(wǎng)絡(luò)只靠它自己,試圖計(jì)算出和整個(gè) AlphaGo 的火力全開搜索結(jié)果一樣的落子方案。這樣一來,這樣的策略網(wǎng)絡(luò)就比之前版本的 AlphaGo 要厲害得多。

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

我們還用類似的方式訓(xùn)練價(jià)值網(wǎng)絡(luò)。它用最好的策略數(shù)據(jù)來訓(xùn)練,而這些數(shù)據(jù),是出于完全版本的 AlphaGo 自己和自己下棋時(shí)的贏家數(shù)據(jù)。你可以想象,AlphaGo 自己和自己下了非常多盤棋。其中最有代表性的棋局被選取出來提取贏家數(shù)據(jù)。因此,這些贏家數(shù)據(jù)是棋局早期回合步法的非常高質(zhì)量的評(píng)估。

比如說,在某局棋中,我們想知道在第 10 回合的局勢(shì),怎么辦?我們從頭重新運(yùn)行一遍這局棋,發(fā)現(xiàn)最后黑方贏了,據(jù)此就可以做出合理推測(cè):黑方在第 10 回合占優(yōu)勢(shì)。

所以你需要高質(zhì)量訓(xùn)練數(shù)據(jù)來訓(xùn)練價(jià)值網(wǎng)絡(luò)。然后用價(jià)值網(wǎng)絡(luò)來預(yù)測(cè)這些 AlphaGo 自己和自己下棋的棋局中,哪一方是贏家。這些數(shù)據(jù)中,棋局的每一回合,我們都讓價(jià)值網(wǎng)絡(luò)來預(yù)測(cè)最后的贏家。

最后,我們重復(fù)這一過程許多遍,最終得到全新的策略和價(jià)值網(wǎng)絡(luò)。比起舊版本,它們要強(qiáng)大得多。然后再把新版本的策略、價(jià)值網(wǎng)絡(luò)整合到 AlphaGo 里面,得到新版本的、比之前更強(qiáng)大的 AlphaGo。這導(dǎo)致樹搜索中更好的決策、更高質(zhì)量的結(jié)果和數(shù)據(jù),再循環(huán)得到新的、更強(qiáng)大的策略、價(jià)值網(wǎng)絡(luò),再次導(dǎo)致更強(qiáng)大的 AlphaGo,如此不斷提升。

最后,AlphaGo的表現(xiàn)如何呢?以圍棋等級(jí)分來看,以前ZEN、CrazyStone軟件達(dá)到約2000分,樊麾版AlphaGo達(dá)到近3000分,李世石版AlphaGo上漲3子,達(dá)到3500分以上,AlphaGo Master又漲3子,達(dá)到4500分以上。

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

主題演講過后,Demis Hassabis+David Silver接受了雷鋒網(wǎng)AI科技評(píng)論在內(nèi)的多家媒體采訪,對(duì)一些大家比較感興趣的地方,這里一并附上:

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

1. 新版的AlphaGo已經(jīng)不需要向人類導(dǎo)師取經(jīng)了?

對(duì),它已經(jīng)不需要依賴外界的導(dǎo)師了,現(xiàn)在我們希望它往通用人工智能的AGI的方向發(fā)展。


2. 目前DeepMind在圍棋上取得的成就是否有應(yīng)用到其他方向的拓展上?DeepMind又在向其他方向拓展上有什么成果?

關(guān)于具體應(yīng)用,我們還在應(yīng)用的早期探索階段,包括剛剛演講中提到的新藥研制等應(yīng)用領(lǐng)域只是它中間某一個(gè)技術(shù)的行業(yè)使用。

3. 剛演講中,您提到AlphaGo在下棋過程中已經(jīng)開始擁有類似人類的“直覺”,這是否可以說其正在邁向強(qiáng)AI階段? 意味著擁有自主意識(shí)?

我想應(yīng)該這么說,在某一個(gè)具體的領(lǐng)域不斷強(qiáng)化訓(xùn)練,只能說它在這個(gè)確定領(lǐng)域中實(shí)現(xiàn)了這種直覺或者自主意識(shí),和人類直接產(chǎn)生的自主意識(shí)有區(qū)別。正因?yàn)檫@樣,它有機(jī)會(huì)應(yīng)用在不僅僅圍棋領(lǐng)域,而是包括其它領(lǐng)域。

4. 您昨天提到的它的計(jì)算量相當(dāng)于去年人機(jī)大戰(zhàn)的十分之一計(jì)算量,能不能說地再清楚一些?

對(duì),昨天我們說到,它用的是TPU,十個(gè)處理單位,只占到十分之一的計(jì)算量,這里強(qiáng)調(diào)一下,十分之一既指電力的消耗只占到之前的十分之一,也指運(yùn)行調(diào)用的資源只占到之前的十分之一。

5. 請(qǐng)問您提到AlphaGo Lee使用了谷歌云上的50個(gè)左右TPU,這次它的計(jì)算力少了十倍的計(jì)算量,到底是用了多少個(gè)TPU?

是用了一個(gè)單機(jī)(Single Machine),這個(gè)物理服務(wù)器上面有4個(gè)TPU。

6. AlphaGo昨天比賽的后半局,按理應(yīng)該是時(shí)間比前面用的更少,打你們?yōu)槭裁匆恢北3謩蛩俚穆渥铀俣龋@背后的算法做了什么樣的設(shè)置?

我們每一步的計(jì)算是持續(xù),穩(wěn)定的,所以制定了對(duì)等時(shí)間求穩(wěn)策略,來達(dá)到最大限度使用時(shí)間的目的,所以我們認(rèn)為勻速是最好的。

7. 為什么AlphaGo在喬裝成Master60連勝的時(shí)候已經(jīng)打敗過柯潔,為什么還要舉辦這次公開比賽?

來自David Silver先生,AlphaGo首席研究員的聲明: 

新版本的AlphaGo, 已經(jīng)過幾百萬次的自我訓(xùn)練,并在檢測(cè)舊版本弱點(diǎn)方面表現(xiàn)出色。也因此,新版本的AlphaGo可以讓舊的版本三個(gè)子。但當(dāng)AlphaGo與從未對(duì)弈過的人類棋手對(duì)局時(shí),這樣的優(yōu)勢(shì)就不復(fù)存在了,尤其是柯潔這樣的圍棋大師,他可能幫助我們發(fā)現(xiàn)Alphago未曾展露的新弱點(diǎn)。這樣的衡量標(biāo)準(zhǔn)是無法比較的。對(duì)于本周的第二輪和第三輪對(duì)局,我們拭目以待。

The new version of AlphaGo has trained against itself millions of times, and has learned to become very good at exploiting the weaknesses in previous versions. That's why it's about three stones stronger in head-to-head games against its older self. But that doesn't mean anything when it comes up against a human player with whom AlphaGo has never trained - particularly a great master like Ke Jie, who can uncover new weaknesses we don't know about. The scales just aren't comparable. We are excited for the second and third games this week!  - David Silver, lead researcher for AlphaGo

雷鋒網(wǎng)AI科技平路獨(dú)家報(bào)道,未經(jīng)許可,拒絕轉(zhuǎn)載。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

現(xiàn)場(chǎng)|David Silver原文演講:揭秘新版AlphaGo算法和訓(xùn)練細(xì)節(jié)

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說