丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

德?lián)銩I之父解答Libratus的13個(gè)疑問:沒有用到任何深度學(xué)習(xí),DL遠(yuǎn)非AI的全部

本文作者: 楊曉凡 編輯:郭奕欣 2017-12-20 10:26
導(dǎo)語:用深度學(xué)習(xí)了嗎?用強(qiáng)化學(xué)習(xí)了嗎?和別的 AI 相比怎么樣?你們還打算研究什么?

德?lián)銩I之父解答Libratus的13個(gè)疑問:沒有用到任何深度學(xué)習(xí),DL遠(yuǎn)非AI的全部

雷鋒網(wǎng) AI 科技評論按:昨天晚上,卡耐基梅隆大學(xué)計(jì)算機(jī)系在讀博士生 Noam Brown 和計(jì)算機(jī)系教授 Tuomas Sandholm 來到 reddit 的機(jī)器學(xué)習(xí)分版,和網(wǎng)友們一起來了一場「你問我答」(ask me anything)。這兩個(gè)名字大家現(xiàn)在也比較眼熟了,他們就是今年早些時(shí)候在人機(jī)大賽中首次打敗職業(yè)撲克選手的 AI「冷撲大師」(Libratus)的創(chuàng)造者。

具體來說,在持續(xù)了 20 天、4 位人類職業(yè)選手分別上陣的十二萬手一對一無限注德州撲克中,四位職業(yè)選手一共輸給「冷撲大師」1766250 分,單獨(dú)來看每個(gè)人類選手也都負(fù)于 AI。(如下圖)

德?lián)銩I之父解答Libratus的13個(gè)疑問:沒有用到任何深度學(xué)習(xí),DL遠(yuǎn)非AI的全部

Noam Brown 和 Tuomas Sandholm 兩位撰寫的介紹這個(gè) AI 中核心技術(shù)的論文《Safe and Nested Subgame Solving for Imperfect-Information Games》(在不完全信息博弈中安全、嵌套地求解子博弈)已經(jīng)被評選為 NIPS 2017的最佳論文,雷鋒字幕組也翻譯了作者們的論文介紹視頻。而且就在這兩天,兩位作者的新論文已經(jīng)發(fā)表在《Science》,其中介紹了關(guān)于整個(gè) AI 的更多細(xì)節(jié)。

借著 NIPS 2017 論文被關(guān)注,以及 AI 的更多細(xì)節(jié)發(fā)表在《Science》的機(jī)會(huì),Noam Brown 和 Tuomas Sandholm 教授兩位作者就來到 reddit 與網(wǎng)友們進(jìn)行這次「你問我答」,回答網(wǎng)友們提出的關(guān)于「冷撲大師」、這次比賽、人工智能領(lǐng)域、不完全信息博弈、卡耐基梅隆大學(xué)、在讀博士生或者教授的學(xué)術(shù)生活等等各種問題。

以下雷鋒網(wǎng) AI 科技評論精選了一些熱門問答呈現(xiàn)給大家

這次的比賽是一對一的,你們打算做一個(gè)能玩 6 人局比賽的 AI 嗎?

Noam Brown  簡單來說,目前看來我們提出的技術(shù)在 6 人局里也有很好的實(shí)戰(zhàn)效果(表現(xiàn)超過人類)。我覺得多于 3 個(gè)玩家參與的游戲是確實(shí)有一定技術(shù)挑戰(zhàn)的,但撲克這個(gè)領(lǐng)域里體現(xiàn)得不明顯。別的一些游戲更適合做多玩家參與的 AI 的研究。

下面仔細(xì)解釋下:多于兩個(gè)玩家參與的游戲?qū)ΜF(xiàn)有技術(shù)提出了很多有趣的理論和實(shí)踐方面的挑戰(zhàn)。對于博弈論的初學(xué)者來說,如果要估計(jì)一個(gè)納什均衡,從計(jì)算角度講已經(jīng)變得很低效了。即便找到了一個(gè),這也不一定是你想要執(zhí)行的玩法。在兩個(gè)玩家參與的零和博弈中,不管你的對手怎么做,納什均衡都可以保證你的期望是「不會(huì)輸」。然而在三個(gè)玩家及以上的博弈中就不會(huì)發(fā)生這樣的事情了,即便你達(dá)成了納什均衡,你還是可能會(huì)輸。所以我們需要新的技術(shù)才能處理三個(gè)玩家及以上的博弈,而且需要考慮如何在這樣的博弈中評價(jià) AI 的表現(xiàn)。

話雖這樣說,但目前我們在一對一 AI 中所用的技巧,看起來在三個(gè)玩家及以上的撲克中也有很好的實(shí)戰(zhàn)表現(xiàn)。這件事有兩個(gè)主要原因:

1,在玩撲克的時(shí)候,人類很快就會(huì)棄牌,所以實(shí)際比賽中,大多數(shù)手牌很快就變成了一對一比賽。

2,玩撲克的時(shí)候,玩家之間基本上沒有什么機(jī)會(huì)合作,你沒辦法和一個(gè)玩家組隊(duì)攻擊另一個(gè)玩家。真的嘗試這樣做的話(玩家間串通),就會(huì)違反游戲規(guī)則。

由于這兩個(gè)原因,我認(rèn)識的開發(fā)訓(xùn)練用途的 AI(以及訓(xùn)練 AI 的工具)的人告訴我這些技巧在 6 人局的德?lián)浔荣惱镆灿泻芎玫谋憩F(xiàn),而且基本上每種能在網(wǎng)上玩的撲克類型,現(xiàn)在都是有超過人類水平的 AI 的。說到底,達(dá)成有意義的 6 人局比賽可行性很低,因?yàn)楹茈y避免人類玩家之間串通起來對抗 AI(即便他們是無意識的)。

有沒有什么辦法,盡量小地修改撲克的玩法,同時(shí)把它變成 AI 玩不了的游戲?

Noam Brown  這個(gè)問題非常好!根據(jù)我和這個(gè)領(lǐng)域其它的人工智能開發(fā)者一起的研究和討論,我們認(rèn)為目前所有的撲克玩法都可以找到超越人類水平的 AI。即便是奧馬哈撲克、9 個(gè)人玩的奧馬哈撲克也不能阻止 AI 勝過人類。

如果要讓 AI 搞不定某個(gè)游戲,有一個(gè)很有可能會(huì)起到很大作用的要素,就是在游戲中引進(jìn)某些半合作機(jī)制,比如《Settlers of Catan》中的買賣和《Diplomacy》中的談判。所以可能在游戲規(guī)則里加一條可以和其它玩家換牌?當(dāng)然了,真要是這么改了,這還算不算是撲克都不好說了。

目前來講還沒有找到什么成功的理論方法可以解決半合作游戲。我覺得這將是未來研究的重要方向之一,而我們真正看到這類游戲中的良好表現(xiàn)也至少還需要好幾年的時(shí)間。

參加比賽的職業(yè)選手們?nèi)绾卧u價(jià)「冷撲大師」的牌技?有沒有什么很有趣或者很驚人的特點(diǎn)?

Noam Brown  簡單說幾條:

  1.  AI 可以使用各種不同的下注大小,而且可以高效地在它們之間做出取舍。人類玩家通常只用一到兩種下注大小。

  2. AI 會(huì)使用一個(gè)混合策略(對于不同的可能性采取不同的行動(dòng)),而人類玩家傾向于單獨(dú)使用某一種策略。所以局面復(fù)雜的時(shí)候人類玩家會(huì)覺得非常難以估計(jì) AI 所處的狀況,因?yàn)?nbsp;AI 各種行為都做得出來。

  3.  AI 用了很多不常見的下注大小。具體來說,下很大的注會(huì)給人類選手帶來很大的壓力。我從好幾個(gè)職業(yè)牌手那里聽說,在這場比賽之后頂級選手之間也開始更多地出現(xiàn)這種做法,很大程度上和「冷撲大師」用很大的下注大小取得了不小的成功有關(guān)系。

AlphaZero 和「冷撲大師」的泛化性誰高誰低?

Tuomas Sandholm 教授  AlphaZero 是為完全信息博弈設(shè)計(jì)的(比如圍棋、國際象棋),而冷撲大師是為不完全信息博弈設(shè)計(jì)的。這是非常大的一個(gè)區(qū)別。在不完全信息博弈中,有一部分信息是沒有對所有玩家公開的,比如,談判時(shí)談判者的個(gè)人偏好、撲克中玩家的手牌、拍賣時(shí)參與者心中的價(jià)值函數(shù)、網(wǎng)絡(luò)安全攻防中某一方被泄露出的零日漏洞,等等。多數(shù)真實(shí)世界中人和人之間的互動(dòng)過程都是不完全信息博弈。

對于給定的博弈大小,不完全信息博弈解決起來要難得多,因?yàn)橥婕倚枰诓煌淖硬┺拈g尋找平衡。比如在撲克中,玩家不應(yīng)該總是看到好牌就加注、看到差牌就棄牌。相比之下,在完全信息博弈中,要解決一個(gè)子博弈,只需要那個(gè)子博弈中的信息就夠了,而且不需要與其它的子博弈之間作取舍。

現(xiàn)在,在我們的 NIPS 論文和《Science》論文中,我們已經(jīng)闡述了理論上非常有力的不完全信息博弈中的子博弈解決方法。這些方法中借助對整個(gè)博弈的策略藍(lán)本得出不同子博弈的值,然后也就是依靠這些值在不同的子博弈之間取得平衡。

「冷撲大師」沒有使用深度學(xué)習(xí)啊。這是你們有意識地選的嗎?還是說到了最后發(fā)現(xiàn)反正沒用上?你們有沒有試過,效果不好嗎?以及,現(xiàn)在我們都知道了另一個(gè)用了神經(jīng)網(wǎng)絡(luò)的撲克 AI DeepStack 表現(xiàn)如何。如果回過頭重新考慮一下,你們有可能用神經(jīng)網(wǎng)絡(luò)嗎?

Noam Brown  對,「冷撲大師」沒有用到任何深度學(xué)習(xí)。我們希望這能告訴人們深度學(xué)習(xí)遠(yuǎn)遠(yuǎn)不是人工智能的全部。只靠深度學(xué)習(xí)自己,還不足以玩好撲克這樣的游戲。

不過,我們開發(fā)出的這些技術(shù)也是和深度學(xué)習(xí)兼容的。我覺得它們更像是蒙特卡洛樹搜索的一個(gè)替代選擇。對于解決撲克這樣的游戲,深度學(xué)習(xí)的必要性不是很高。但是我覺得在其它一些游戲中,某種形式的價(jià)值函數(shù)近似會(huì)有很大的幫助。

DeepStack 用的是深度學(xué)習(xí),但是目前還不清楚它的效率高到什么程度。比如它并沒有連續(xù)擊敗之前的頂級撲克 AI。我覺得 DeepStack 的實(shí)際表現(xiàn)還不錯(cuò)的原因是它也用了嵌套子博弈求解,他們團(tuán)隊(duì)和我們團(tuán)隊(duì)各自同時(shí)開發(fā)了相關(guān)的技術(shù)。這件事不需要深度學(xué)習(xí)?!咐鋼浯髱煛沟那短鬃硬呗郧蠼夥椒ū人麄兊母呒壱稽c(diǎn),再加上其它方面的一些優(yōu)勢,最終讓我們達(dá)成了很強(qiáng)力的表現(xiàn)。

DeepStack 2017 年 5 月就在《Science》發(fā)表了論文,你們發(fā)表論文的 NIPS 2017 則是在 12 月了,那么是誰先做出來的?可以做一下對比嗎?你們和其它的研究團(tuán)隊(duì)有合作嗎?

Tuomas Sandholm 教授  DeepStack 的方法確實(shí)有自己的有意思的地方,不過我贊同網(wǎng)友 LetterRip 對它的評價(jià)(「冷撲大師肯定可以碾壓 DeepStack,兩個(gè) AI 面對的選手的質(zhì)量簡直天上地下。DeepStack 比賽中遇到的職業(yè)撲克選手多數(shù)都很弱,雖然也有幾個(gè)非常厲害的,但沒有一個(gè)是算得上頂級選手的。另外,比賽設(shè)定里只有人類選手的第一名有獎(jiǎng)金,這其實(shí)是在鼓勵(lì)不常見的玩法」)。

下面我來談?wù)剝蓚€(gè) AI 之間的異同點(diǎn)。同時(shí)我推薦大家讀讀我們剛剛發(fā)表在《Science》上的論文,其中詳細(xì)介紹「冷撲大師」同時(shí)也和 DeepStack 做了對比。

DeepStack 中的算法和「冷撲大師」的嵌套子策略求解很相似,他們稱之為連續(xù)重新求解。在冷撲大師中它的工作方式是,剩余的子博弈在抽象提取、求解時(shí),也會(huì)加上對手的確切下注數(shù)目。我們的論文 2016 年 10 月就在網(wǎng)上發(fā)布了,2017 年 2 月也參加了 AAAI2017 的一個(gè) workshop;DeepStack 的論文是 2017 年 1 月上傳到 arXiv 的(投稿給《Science》的時(shí)間是 2017 年春末)。考慮到開發(fā)這些技術(shù)需要很長的時(shí)間,我覺得我們兩個(gè)團(tuán)隊(duì)都在此之前就花了好幾個(gè)月做研究,說「這些方法是兩個(gè)團(tuán)隊(duì)分別開發(fā)但時(shí)間上同步」是沒什么問題的。并且,兩個(gè)團(tuán)隊(duì)的方法也有很大的區(qū)別?!咐鋼浯髱煛沟淖硬呗郧蠼夥椒ㄖ辽僭谙旅鎺讉€(gè)方面都更先進(jìn),在我們的《Science》論文中也有詳細(xì)的解釋:

  • 「冷撲大師」中改進(jìn)了手牌的處理方法,降低了只有當(dāng)對手犯過錯(cuò)誤之后持有的手牌的看重程度;DeepStack 中就沒有這一項(xiàng)。

  • DeepStack 中對于不同手的牌,子博弈行為的抽象不會(huì)發(fā)生改變

  • 我們有許多不依賴算法的均衡搜索方法可以保證安全性,我們的子策略求解也是接近安全的,這在我們的《Science》論文和 NIPS2017 論文中都有講到

另外還有一個(gè)區(qū)別是兩個(gè) AI 是如何處理前兩輪下注的。DeepStack 會(huì)在前兩輪下注中求解一個(gè)有限深度的子博弈,而這個(gè)深度值的估計(jì)是通過神經(jīng)網(wǎng)絡(luò)做出的。這就讓它總是可以實(shí)時(shí)計(jì)算如何應(yīng)對對手做出的預(yù)測樹之外的行為。而「冷撲大師」只在前兩輪中做短暫的計(jì)算,然后根據(jù)提前算好的策略藍(lán)本向下執(zhí)行(如果賭注很高了就會(huì)用自己的子博弈求解器)。由于「冷撲大師」是根據(jù)前兩輪下注時(shí)提前計(jì)算好的策略藍(lán)本執(zhí)行的,它會(huì)把對手做出的策略樹之外的下注大小約等到某個(gè)相近的、已經(jīng)經(jīng)過抽象的行為上去。這幾輪中的行為藍(lán)本抽象就有很高的密度,就是為了改善這個(gè)問題。另外,「冷撲大師」有一個(gè)獨(dú)特的自我學(xué)習(xí)模塊,可以隨著時(shí)間逐漸增強(qiáng)策略藍(lán)本的計(jì)算水平,對于部分博弈樹中對手有可能在它的策略中發(fā)現(xiàn)潛在的漏洞的時(shí)候,它可以計(jì)算出更接近納什均衡的近似解。

在表現(xiàn)評估方面,除了剛才 LetterRip 寫的與人類選手對局中體現(xiàn)的之外,DeepStack 也從未表示過自己可以在正面交鋒中打敗在此之前就已公開的各個(gè)頂級撲克 AI,而「冷撲大師」以很大優(yōu)勢擊敗了此前最好的 HUNL 撲克 AI Baby Tartanian8(它是 2016 年計(jì)算機(jī)撲克大賽的冠軍)。

至于合作,我們兩個(gè)研究團(tuán)隊(duì)一直都在發(fā)表自己的工作、也一直學(xué)習(xí)借鑒對方的技巧,這已經(jīng)有 13 年的時(shí)間了。另外,加拿大撲克社團(tuán)的負(fù)責(zé)人 Michael Bowling 就是在 CMU 拿到他的博士學(xué)位的,我就是他的學(xué)位評審委員會(huì)成員之一。不過,我們目前還沒有過任何直接的合作。

如果有人在超級計(jì)算機(jī)上跑一個(gè)超大規(guī)模的 PIO 求解器,這種做法和你們的軟件區(qū)別在哪里?

Noam Brown 「冷撲大師」中的做法比 PIO 求解器不知道高明到哪里去了。下面我列舉幾個(gè)原因說明為什么在這種比賽中 PIO 求解器一點(diǎn)都不好使:

  1. PIO 求解器需要有一個(gè)人類輸入雙方的信念分布?!咐鋼浯髱煛雇耆强孔约号袛噙@些信息的。

  2. PIO 求解器是可以欺騙的,可以故意做一些均衡中出現(xiàn)概率為 0 的行為。比如如果你下注了 10%,并且 PIO 求解器認(rèn)為這種情況不可能發(fā)生的話,那么它對你手牌的信念分布就是未經(jīng)定義的,然后就會(huì)給出不合理的答案。我覺得 PIO 是一個(gè)很明顯的反面例子,提醒我們當(dāng)對手做了「奇怪」的事情的時(shí)候不要完全相信他。同樣明顯的是,如果你和頂級人類選手對局,而他們想要發(fā)現(xiàn)你的 AI 的弱點(diǎn),這就肯定會(huì)出現(xiàn)嚴(yán)重的問題?!咐鋼浯髱煛咕筒粫?huì)有這些問題。即便對手做出了在均衡中理應(yīng)出現(xiàn)概率為 0 的行為,它也能做出魯棒的、正確的回應(yīng)。

可以說說模型中為什么沒有加入強(qiáng)化學(xué)習(xí)嗎?強(qiáng)化學(xué)習(xí)挺配這個(gè)問題的。

Noam Brown  我們在「冷撲大師」中使用了反事實(shí)遺憾最小化(CFR)的一種變體。具體來說,我們用了蒙特卡洛 CFR 計(jì)算策略藍(lán)本,然后用 CFR+ 處理實(shí)時(shí)的子博弈求解。

CFR 就是一種自我對弈的算法,和強(qiáng)化學(xué)習(xí)有點(diǎn)類似,但是 CFR 會(huì)更多地考慮自我對局中沒有選擇的那些選擇,假設(shè)選了以后會(huì)有怎么樣的投入產(chǎn)出。完全像強(qiáng)化學(xué)習(xí)一樣的 CFR 變體也是有的,不過實(shí)際應(yīng)用中總是要花更長時(shí)間才能找到好的策略。

我聽說上一次「Claudico」人工智能對陣人類輸?shù)囊粩⊥康?,那么從「Claudico」到「冷撲大師」,都做出了哪些改進(jìn)或者調(diào)整?「Claudico」被打敗的事情是不是對「冷撲大師」的成功有很大的啟發(fā)?

Tuomas Sandholm 教授  2015年的時(shí)候,Claudico 對陣人類輸了每一百手 9 盲注,而「冷撲大師」以每一百手 15 盲注勝出了人類?!咐鋼浯髱煛乖谝韵氯齻€(gè)方面都編寫了新的算法:

  1.  新的、更好的平衡搜索算法,用來在比賽開始前計(jì)算策略藍(lán)本

  2.  新的子博弈求解方法,這次的方法是安全的、嵌套的。Claudico 中的殘局求解器既不安全,也不嵌套。

  3.  一個(gè)自我學(xué)習(xí)模塊,可以隨著時(shí)間逐漸增強(qiáng)策略藍(lán)本的計(jì)算水平,對于部分博弈樹中對手有可能在它的策略中發(fā)現(xiàn)潛在的漏洞的時(shí)候,它可以計(jì)算出更接近納什均衡的近似解。

「冷撲大師」已經(jīng)很厲害了,可以打敗人類職業(yè)選手。但是根據(jù)我的理解,它還不是「不可戰(zhàn)勝」的,也許過幾年還會(huì)出現(xiàn)可以打敗「冷撲大師」的 AI。那么「冷撲大師」距離能玩出完美的撲克的 AI 還有多遠(yuǎn)?

Noam Brown  我覺得各種主流的無限制德州撲克玩法里,要說達(dá)到一個(gè)完美的、理論上不可能被打敗的策略,是做不到的一件事。游戲的可能性就是太多了。有沒有激勵(lì)研發(fā)更好的德?lián)?nbsp;AI 也難說,現(xiàn)在 AI 已經(jīng)在這些游戲里超越人類了,我覺得整個(gè)研究領(lǐng)域更可能轉(zhuǎn)向其它還沒有解決的游戲中。

你們接下來計(jì)劃研究哪些任務(wù)/游戲?

Noam Brown  有意思的方向有很多!我們目前還沒決定下來。

有一種非常有意思的研究路線是「半合作博弈」,比如談判。在這里,玩家們有激勵(lì)一同合作,但同時(shí)每個(gè)人也都想達(dá)到自己的個(gè)人效用最大化?,F(xiàn)有的技術(shù)在這類博弈中根本無效,所以還有很多有意思的研究等待大家去做。帶有這種特性的休閑游戲有很多,比如《Settlers of Catan》(買賣)和《Diplomacy》(談判)。

Dota2 和星際爭霸這樣的 RTS 游戲也是非常有意思的研究領(lǐng)域,它們也是不完全信息博弈,那么如果想要研究一個(gè)難以捉摸、但總是可以擊敗頂尖人類選手的 AI 的話,我們在撲克方面做的研究全都可以起到幫助。

我覺得還有一個(gè)問題很有意思,就是如何縮小游戲 AI 之間的差距,比如 AlphaZero 和「冷撲大師」之間的差距?,F(xiàn)在,想要解決圍棋和國際象棋,我們有一組很棒的方法;要解決撲克這樣的游戲,我們有另一組很棒的辦法;但最好的情況當(dāng)然是我們用一個(gè)算法就可以解決所有這些游戲。現(xiàn)有的不同游戲的解決方案之間有巨大的差別,如何縮小差距目前也沒有明確的答案。

對于目前的算術(shù)方法博弈論,你們覺得有哪些有意思的研究方向?

Tuomas Sandholm 教授  有趣的問題有很多,整個(gè)領(lǐng)域也非?;钴S。以我個(gè)人來講,我最喜歡有這些特點(diǎn)的研究工作:1. 針對實(shí)際問題,而不是高度簡化的抽象模型,這類問題也就通常需要真實(shí)世界的數(shù)據(jù);2,研究那些如果理論研究部分得到了成果,就能對真實(shí)世界有許多正面影響的問題。

我自己特別喜歡的所以動(dòng)手在研究的方向有這么幾個(gè):

  • 不完全信息博弈中的博弈理論求解以及利用對手。在我的 CMU 實(shí)驗(yàn)室和創(chuàng)業(yè)公司 Strategic Machine 中,我都在做這方面的研究。

  • 自動(dòng)規(guī)則設(shè)計(jì) (比如通過數(shù)據(jù)對多物品、多買家的拍賣場景做定制化的拍賣設(shè)計(jì))

  • 腎移植(我的 CMU 實(shí)驗(yàn)室中的 AI 負(fù)責(zé) UNOS 的國家腎交換中心;這個(gè)交換中心下屬有 159 個(gè)移植中心)

  • 多種市場問題的組合優(yōu)化。我在我的 CMU 實(shí)驗(yàn)室和一個(gè)我創(chuàng)立的廣告宣傳公司 Optimized Markets 中做這方面的研究。

你們覺得這種方法拿到產(chǎn)業(yè)界來的話,最相符的應(yīng)用是什么?比如說你們覺得你們的方法可以用來為貿(mào)易協(xié)商建模嗎?另外,目前來看「冷撲大師」還是需要運(yùn)行在超計(jì)算機(jī)上的,有沒有可能把它改進(jìn)得更高效一點(diǎn),一般的電腦或者服務(wù)器就可以運(yùn)行?

Noam Brown  對于「讓 AI 進(jìn)入真實(shí)世界」這個(gè)目標(biāo),我覺得我們的研究至關(guān)重要,因?yàn)槎鄶?shù)真實(shí)世界中的策略互動(dòng)問題都多多少少有一些信息是隱藏的。我們在這項(xiàng)研究中想要解決的根本問題也就是這個(gè)。貿(mào)易協(xié)商肯定可以是未來的應(yīng)用方式之一,其它還可以有拍賣、金融市場、信息安全互動(dòng)以及軍事行動(dòng)相關(guān)。

話雖這樣說,但是想要從撲克這樣的所有行為、成本、收益都定義好的游戲拓展到定義得不那么明確的真實(shí)世界互動(dòng)中的話,我們還面臨著相當(dāng)大的挑戰(zhàn)。不過只要有人能夠提出一個(gè)貿(mào)易協(xié)商的模型,我們這次的研究成果肯定可以用在里面。這也會(huì)是未來研究中的一個(gè)有意思的方向。

是的我們覺得做一個(gè)能運(yùn)行在一般電腦和服務(wù)器上、然后稍微弱一點(diǎn)的版本是做得到的。我也覺得隨著算法的不斷升級改進(jìn),達(dá)到同樣的表現(xiàn)所需要的硬件性能也會(huì)越來越低。我覺得可能 5 年以后就能在智能手機(jī)上見到這個(gè)水平的人工智能了。


這次關(guān)于德?lián)?nbsp;AI AMA 的內(nèi)容就介紹到這里。我們也期待更多更接近現(xiàn)實(shí)生活的問題被人工智能逐一解決。via Machine Learning@Reddit,雷鋒網(wǎng) AI 科技評論編譯。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

德?lián)銩I之父解答Libratus的13個(gè)疑問:沒有用到任何深度學(xué)習(xí),DL遠(yuǎn)非AI的全部

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說