丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

本文作者: 汪思穎 2017-11-30 20:13
導(dǎo)語:本文對(duì)AlphaGo與AlphaGo Zero進(jìn)行了詳細(xì)的解釋說明。

雷鋒網(wǎng) AI科技評(píng)論按,北京時(shí)間10月19日凌晨,DeepMind在Nature上發(fā)布論文《Mastering the game of Go without human knowledge》(不使用人類知識(shí)掌握圍棋),在這篇論文中,DeepMind展示了他們更強(qiáng)大的新版本圍棋程序“AlphaGo Zero”,掀起了人們對(duì)AI的大討論。而在10月28日,Geoffrey Hinton發(fā)表最新的膠囊論文,徹底推翻了他三十年來所堅(jiān)持的算法,又一次掀起學(xué)界大討論。

究竟什么是人工智能?深度學(xué)習(xí)的發(fā)展歷程如何?日前,雷鋒網(wǎng) AI科技評(píng)論邀請(qǐng)到UC Berkeley機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)博士,他為大家深入淺出講解了何為人工智能,深度學(xué)習(xí)的發(fā)展歷程,如何從機(jī)器感知向機(jī)器認(rèn)知演進(jìn),并解析了AlphaGo與AlphaGo Zero的原理、學(xué)習(xí)過程、區(qū)別等。

嘉賓簡(jiǎn)介:王強(qiáng)博士,本科畢業(yè)于西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),后獲得卡內(nèi)基梅隆大學(xué)軟件工程專業(yè)碩士學(xué)位、機(jī)器人博士學(xué)位。美國(guó)貨幣監(jiān)理署(OCC)審計(jì)專家?guī)斐蓡T、IBM商業(yè)價(jià)值研究院院士及紐約Thomas J. Watson研究院主任研究員。IEEE高級(jí)會(huì)員,并擔(dān)任了2008、2009、2013及未來2018年CVPR的論文評(píng)委,同時(shí)是PAMI和TIP兩個(gè)全球頂級(jí)期刊的編委。王強(qiáng)博士在國(guó)際頂級(jí)期刊發(fā)表了90多篇論文,并多次在ICCV,CVPR等大會(huì)做論文分享。其主要研究領(lǐng)域圖像理解、機(jī)器學(xué)習(xí)、智能交易、金融反欺詐及風(fēng)險(xiǎn)預(yù)測(cè)等。

以下為他的分享內(nèi)容,本文為下篇,主要內(nèi)容是對(duì)AlphaGo和AlphaGo Zero詳細(xì)的解釋說明。上篇請(qǐng)參見:UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(上) | 分享總結(jié) 

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

今年9月19號(hào),DeepMind在Nature上發(fā)表了一篇論文,這篇論文是在人工智能、深度學(xué)習(xí)上具有顛覆性的文章。

大家知道,原來有AlphaGo,現(xiàn)在又出了AlphaGo Zero,那么AlphaGo和AlphaGo Zero之間到底有什么樣的區(qū)別。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

我先說AlphaGo,AlphaGo其實(shí)是由兩個(gè)網(wǎng)絡(luò)組成的,第一個(gè)是人類的經(jīng)驗(yàn),第二個(gè)是雙手互搏、自學(xué)習(xí)。第一部分是監(jiān)督策略網(wǎng)絡(luò),第二部分是強(qiáng)化策略網(wǎng)絡(luò),還有一個(gè)價(jià)值網(wǎng)絡(luò),再加上rollout網(wǎng)絡(luò),即快速走棋的網(wǎng)絡(luò),這四個(gè)網(wǎng)絡(luò)再加上MCTS,就組成AlphaGo。

在AlphaGo里面輸入了將近48種規(guī)則,但在AlphaGo Zero中,它的神經(jīng)網(wǎng)絡(luò)里面的輸入只有黑子和白子,而且輸入進(jìn)的是一個(gè)網(wǎng)絡(luò),不是兩套網(wǎng)絡(luò)。這里所說的兩套網(wǎng)絡(luò)就是指價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。AlphaGo和AlphaGo Zero的共同點(diǎn)是都用了MCTS。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

在這里會(huì)想到一個(gè)問題,為什么AlphaGo和AlphaGo Zero都會(huì)用到DCNN神經(jīng)網(wǎng)絡(luò)。

第一,大家都知道解決圍棋問題是比較有意思的,圍棋是19個(gè)格,19×19,361個(gè)落子的可能性,這時(shí)候落子可能存在的向量空間就是361乘以N,這個(gè)向量的狀態(tài)空間幾乎是無窮無盡的,大概計(jì)算量是10的171次方,用100萬個(gè)GPU去運(yùn)算100年也是算不完的。

第二,在這里MCTS的搜索方法是無效的。MCTS的搜索方式在這里我通俗地講解下,隨機(jī)拿一個(gè)蘋果,和下一個(gè)蘋果進(jìn)行對(duì)比,發(fā)覺到哪個(gè)蘋果比較大,我就會(huì)把小蘋果扔掉,然后再拿這個(gè)大的和隨機(jī)拿的下一個(gè)蘋果去對(duì)比。對(duì)比到最后,我一定會(huì)挑出一個(gè)最大的蘋果。

第三是我們希望走棋的時(shí)候的探索空間必須要縮小,要看這個(gè)子落下之后另一個(gè)子有幾種可能性,不要說別人下了一個(gè)子之后還有360個(gè)空間,那這360個(gè)空間里頭都有可能性。DeepMind比較厲害的地方是做了一個(gè)隨機(jī)過程,而不是說在三百多個(gè)里選哪個(gè)是最好的,這個(gè)用計(jì)算機(jī)是算不出來的。

第四個(gè)問題,它必須要做一種類似于人類下棋的方法。那么剛才有朋友問到什么是端到端,端到端在AlphaGo里邊表現(xiàn)得非常明確。我把數(shù)據(jù)扔給神經(jīng)網(wǎng)絡(luò),然后神經(jīng)網(wǎng)絡(luò)馬上給出我一個(gè)狀態(tài),這個(gè)狀態(tài)有兩個(gè),包括目前狀態(tài)和目前狀態(tài)的價(jià)值,這非常有效,表示棋子落在哪里,以及贏的概率到底有多大。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

在這里我先給大家講一下AlphaGo的原理。一般的棋盤比如圍棋、象棋等,我們第一步先做一件事,把棋盤的狀態(tài)向量標(biāo)記成s,圍棋的棋盤是19*19,它一共有361個(gè)交叉點(diǎn),每個(gè)交叉點(diǎn)有三個(gè)狀態(tài),1表示黑子,-1表示白子,0表示沒有子,考慮到每個(gè)位置還可能有落子的時(shí)間等信息,我們可以用361乘以N維的向量表示棋盤的狀態(tài)。

我們把棋盤的狀態(tài)向量變成s,從0開始,s0表示的棋盤里的所有狀態(tài),沒有任何子,s1落的是第一個(gè)子,s2是第二個(gè)子,第二步加入落子的狀態(tài)a,在當(dāng)前的狀態(tài)s下,我們暫時(shí)不考慮無法落子的情況。下第一個(gè)子的時(shí)候,可供下一步落子的空間是361個(gè),我們把下一步落子的行動(dòng)也用361維的向量表示,變成a。第三步我們來設(shè)計(jì)一個(gè)圍棋的人工智能程序,給定s狀態(tài),然后尋找最好的策略a,讓程序按照這個(gè)策略去走。有四個(gè)條件,先是棋盤的狀態(tài)s,尋找下棋最好的策略a,然后讓程序按照這個(gè)策略a走棋,獲得棋盤上最大的地盤,這是圍棋人工智能程序的基本原理和思路。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

DeepMind以及我們之前在沃森那邊做的,主要流程如下:

  • 第一步先找一個(gè)訓(xùn)練樣本,然后在觀察棋局的時(shí)候,發(fā)現(xiàn)在每一個(gè)狀態(tài)s里都會(huì)有落子a,那么這時(shí)候就會(huì)有一個(gè)天然的訓(xùn)練樣本。

  • 第二步,我們做一個(gè)網(wǎng)絡(luò),拿了一個(gè)3000萬的樣本,我們把s看成一個(gè)19×19的二維圖像,然后乘以N,N指的是48種圍棋的各種下贏的特征,落子向量a不斷訓(xùn)練網(wǎng)絡(luò),這樣就得到了一個(gè)模擬人下圍棋的神經(jīng)網(wǎng)絡(luò)。

  • 第三步我們?cè)O(shè)計(jì)一個(gè)策略函數(shù)和一個(gè)概率分布,我們拿到一個(gè)模擬人類棋手的策略函數(shù)跟某個(gè)棋局的狀態(tài)s,可計(jì)算出人類選手可能在棋盤落子的概率分布,每一步選擇概率最高的落子,對(duì)方對(duì)子后重新再算一遍,多次進(jìn)行迭代,那就是一個(gè)和人類相似的圍棋程序,這是最開始的設(shè)計(jì)思維和方式,策略函數(shù)和概率分布。

其實(shí)DeepMind還不是很滿意,他們?cè)O(shè)計(jì)好這個(gè)神經(jīng)網(wǎng)絡(luò)之后,可以和六段左右過招,互有勝負(fù),但還是下不過之前從沃森中做出來的一個(gè)電腦程序。這時(shí)候,DeepMind把他們的函數(shù)與從沃森中衍生出來的程序的函數(shù)算法結(jié)合在一塊,對(duì)原來的算法重新做了一個(gè)完整詳細(xì)的修正。

DeepMind最初對(duì)圍棋一概不知,先假設(shè)所有落子的分值,這個(gè)大家一定要記住,在做任何科學(xué)研究的時(shí)候,當(dāng)你發(fā)現(xiàn)你一無所知的時(shí)候,一定先要設(shè)定一個(gè)值,這個(gè)值千萬不能是零。然后第二部分就簡(jiǎn)單了,就像扔骰子一樣,從361種方法里隨機(jī)選一個(gè)走法,落第一個(gè)子a0,那么棋盤狀態(tài)就由s0變?yōu)閟1,對(duì)方再走一步,這時(shí)候棋盤狀態(tài)就變成s2,這兩個(gè)人一直走到狀態(tài)sN,N也許是360,也許是361,最后一定能分出勝負(fù),計(jì)算機(jī)贏的時(shí)候把R值記為1。

從s0、a0開始再模擬一次,接下來如PPT中卷積所示,做激活函數(shù)。在下到10萬盤次之后,這時(shí)候AlphaGo得到了非常完整的落子方案,比如說第一個(gè)子落在哪里贏的可能性比較大。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

MCTS在這里起的作用是什么呢?MCTS能保證計(jì)算機(jī)可以連續(xù)思考對(duì)策,在比較的過程中發(fā)現(xiàn)最好的落子方式。在這之后,DeepMind發(fā)現(xiàn)用MCTS還不是非常好,他們就開始設(shè)計(jì)了一個(gè)比較有意思的東西,就是評(píng)價(jià)函數(shù),我在這里就不太多講評(píng)價(jià)函數(shù)。

AlphaGo的監(jiān)督學(xué)習(xí)過程其實(shí)由兩個(gè)網(wǎng)絡(luò)組成,一個(gè)是從其他人中獲得的學(xué)習(xí)經(jīng)驗(yàn),先是做了一個(gè)softmax,即快速落子,它的神經(jīng)網(wǎng)絡(luò)比較窄,第二部分是深度監(jiān)督式神經(jīng)網(wǎng)絡(luò)。

到了做強(qiáng)化學(xué)習(xí)的時(shí)候,它會(huì)把原來通過機(jī)器學(xué)習(xí)過來的監(jiān)督神經(jīng)網(wǎng)絡(luò)copy到強(qiáng)化神經(jīng)網(wǎng)絡(luò)里,然后進(jìn)行初始化,讓強(qiáng)化神經(jīng)網(wǎng)絡(luò)作為對(duì)手和另一個(gè)強(qiáng)化神經(jīng)網(wǎng)絡(luò)進(jìn)行互相學(xué)習(xí),來選擇一個(gè)最優(yōu)的結(jié)果。具體細(xì)節(jié)如PPT所示,500次做一次迭代,在這里會(huì)用到一些梯度下降的方式。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

前面是我們看到的AlphaGo,接下來看AlphaGo Zero,它對(duì)原來的過程做了完整的簡(jiǎn)化,集成了價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò),放到一個(gè)架構(gòu)里頭,即將MCTS和兩個(gè)神經(jīng)網(wǎng)絡(luò)放在一塊。這兩個(gè)神經(jīng)網(wǎng)絡(luò)其實(shí)用了一個(gè)比較有意思的神經(jīng)網(wǎng)絡(luò),叫Resnet,Resnet的深度大家也知道,曾經(jīng)做到過151層,我在這里就不講得特別詳細(xì)了。如PPT所示,它的參數(shù)是θ,深度神經(jīng)網(wǎng)絡(luò)的輸入是s,輸出落子概率(p, v)。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

在這里我給大家大概說說AlphaGo Zero自我對(duì)弈訓(xùn)練的流程。

  • 第一步是程序自己和自己下棋,標(biāo)記為s1, ..., sT。在每個(gè)位置st,一個(gè)MCTS αθ被執(zhí)行。每個(gè)走子選擇的依據(jù)是通過MCTS(選擇最好的θ參數(shù))、at ~ πt計(jì)算的搜索概率。最終的位置sT根據(jù)游戲規(guī)則計(jì)算對(duì)局的最終勝者z。

  • 第二步是AlphaGo Zero中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。該神經(jīng)網(wǎng)絡(luò)將棋盤位置st作為輸入,與參數(shù)θ一起將它傳送到許多的卷積層,并同時(shí)輸出表示每一走子的概率分布的向量pt和一個(gè)表示當(dāng)前玩家在位置st上的贏率的標(biāo)量值vt。同時(shí)MCTS 使用神經(jīng)網(wǎng)絡(luò) fθ 指導(dǎo)其模擬。

搜索樹中的每條邊 (s, a) 都存儲(chǔ)了一個(gè)概率先驗(yàn) P(s, a)(概率先驗(yàn)是在CNN里非常關(guān)鍵的問題)、一個(gè)訪問數(shù) N(s, a)以及動(dòng)作值 Q(s, a)。每次模擬都從根節(jié)點(diǎn)狀態(tài)開始,不斷迭代,選擇能將置信區(qū)間 Q(s, a)+ U(s, a) 的上層最大化的落子結(jié)果,直到走到葉節(jié)點(diǎn)s′。 然后,網(wǎng)絡(luò)會(huì)擴(kuò)充這個(gè)葉節(jié)點(diǎn),并且再進(jìn)行一次評(píng)估,生成概率先驗(yàn)和評(píng)估值。在模擬中,遍歷每條邊(s, a) 后,會(huì)更新訪問量N(s, a),然后將動(dòng)作值更新,取得所有模擬的平均值。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

此外還要做時(shí)間步長(zhǎng)的計(jì)算,還有L2 權(quán)重正則化水平參數(shù)(防止過擬合)的覆蓋,包括用損失函數(shù)的梯度下降來進(jìn)行調(diào)節(jié)。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

在這里還有一件非常好玩的事情,他們用了張量處理單元(TPU),同時(shí)還做了一系列的說明,在訓(xùn)練網(wǎng)絡(luò)時(shí)完全用了分布式的訓(xùn)練方式,用了176個(gè)GPU,48個(gè)TPU,其實(shí)AlphaGo Zero比較厲害的地方的是只用了四個(gè)TPU去做。DeepMind還比較了AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)架構(gòu)和AlphaGo的神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能,在性能上我就不多說了。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)	AlphaGo Zero比較厲害的地方在哪里呢?一是它發(fā)現(xiàn)了五個(gè)人類的定式(常見的角落的序列),二是自我對(duì)弈中愛用的5個(gè)定式,三是在不同訓(xùn)練階段進(jìn)行的3次自我對(duì)弈的前80步棋,每次搜索使用1,600 次模擬(約0.4s)。

最開始,系統(tǒng)關(guān)注奪子,很像人類初學(xué)者,這是非常厲害的,白板+非監(jiān)督學(xué)習(xí)方式完全模擬到人類初學(xué)者。后面,關(guān)注勢(shì)和地,這是圍棋的根本。最后,整場(chǎng)比賽體現(xiàn)出了很好的平衡,涉及多次戰(zhàn)斗和一場(chǎng)復(fù)雜的戰(zhàn)斗,最終以白棋多半子獲勝。其實(shí)這種方式是在不停的參數(shù)優(yōu)化過程中做出的一系列工作。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

接下來大概說說AlphaGo和AlphaGo Zero的一些比較。

  • 第一,神經(jīng)網(wǎng)絡(luò)權(quán)值完全隨機(jī)初始化。不利用任何人類專家的經(jīng)驗(yàn)或數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)的權(quán)值完全從隨機(jī)初始化開始,進(jìn)行隨機(jī)策略選擇,使用強(qiáng)化學(xué)習(xí)進(jìn)行自我博弈和提升。

  • 第二,無需先驗(yàn)知識(shí)。不再需要人為手工設(shè)計(jì)特征,而是僅利用棋盤上的黑白棋子的擺放情況,作為原始輸入數(shù)據(jù),將其輸入到神經(jīng)網(wǎng)絡(luò)中,以此得到結(jié)果。

  • 第三,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性降低。原先兩個(gè)結(jié)構(gòu)獨(dú)立的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合為一體,合并成一個(gè)神經(jīng)網(wǎng)絡(luò)。在該神經(jīng)網(wǎng)絡(luò)中,從輸入層到中間層是完全共享的,到最后的輸出層部分被分離成了策略函數(shù)輸出和價(jià)值函數(shù)輸出。

  • 第四,舍棄快速走子網(wǎng)絡(luò)。不再使用快速走子網(wǎng)絡(luò)進(jìn)行隨機(jī)模擬,而是完全將神經(jīng)網(wǎng)絡(luò)得到的結(jié)果替換隨機(jī)模擬,從而在提升學(xué)習(xí)速率的同時(shí),增強(qiáng)了神經(jīng)網(wǎng)絡(luò)估值的準(zhǔn)確性。

  • 第五,神經(jīng)網(wǎng)絡(luò)引入Resnet。神經(jīng)網(wǎng)絡(luò)采用基于殘差網(wǎng)絡(luò)結(jié)構(gòu)的模塊進(jìn)行搭建,用了更深的神經(jīng)網(wǎng)絡(luò)進(jìn)行特征表征提取。從而能在更加復(fù)雜的棋盤局面中進(jìn)行學(xué)習(xí)。

  • 第六,硬件資源需求更少。AlphaGo Zero只需4塊TPU便能完成訓(xùn)練任務(wù)。

  • 第七,學(xué)習(xí)時(shí)間更短。AlphaGo Zero僅用3天的時(shí)間便能達(dá)到AlphaGo Lee的水平,21天后達(dá)到AlphaGo Master的水平。

今天講這么多,大家在聽我講這個(gè)科普類的東西時(shí),可能會(huì)需要有一些比較好的基礎(chǔ)知識(shí),包括MCTS、CNN、DNN、RNN、Relu、白板學(xué)習(xí)、Resnet、BP、RBM等,我希望大家對(duì)我講的這些神經(jīng)網(wǎng)絡(luò)有一個(gè)比較詳細(xì)的了解。

第一是了解它的基本網(wǎng)絡(luò)架構(gòu),第二是去了解優(yōu)點(diǎn)和缺點(diǎn)在哪里。第三個(gè)是它的應(yīng)用,是用在語言處理還是圖像上,用的時(shí)候它有哪些貢獻(xiàn)。到了第四步的時(shí)候,當(dāng)你了解這些深度學(xué)習(xí)的過程之后,你可以考慮在工程上應(yīng)用這些算法,再建立你的數(shù)據(jù)模型和算法。到第五步可以開始用MATLAB或Python去做復(fù)現(xiàn),然后最后再去看深度學(xué)習(xí)算法對(duì)自己所做的工作有什么樣的回報(bào)。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

然后特別是做一些微調(diào)的工作,這時(shí)候你很有可能就能發(fā)表論文了。在這種情況下,我給大家提供一個(gè)比較好的思維方式,如果大家去用深度學(xué)習(xí),怎么能保證從目前簡(jiǎn)單的AI的應(yīng)用工作變成復(fù)雜的應(yīng)用工作。其實(shí),這是從機(jī)器感知到機(jī)器認(rèn)知的轉(zhuǎn)變過程。

機(jī)器感知在這里要做一個(gè)總結(jié),機(jī)器感知是指從環(huán)境中獲取目標(biāo)觀測(cè)信息,這是第一步。到了機(jī)器認(rèn)知就比較有意思了,是將當(dāng)前的狀態(tài)映射到相應(yīng)操作,比如說旁邊的車要發(fā)動(dòng)了,可能會(huì)撞到你,這時(shí)候你戴的手表可能會(huì)智能提醒你,看你的動(dòng)作是否有改變,從而判斷提醒是否有效,再進(jìn)一步提高報(bào)警級(jí)別。

其實(shí)在機(jī)器認(rèn)知的過程中,可能會(huì)用到大批量的深度學(xué)習(xí)和NLP技術(shù)、圖像理解技術(shù)、語音識(shí)別技術(shù),多模態(tài)圖像識(shí)別技術(shù),在這些領(lǐng)域去做一些組合的時(shí)候,可能對(duì)大家的研究比較有意義。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

說說我們最近做的一些工作,這是一個(gè)MSR系統(tǒng),我們?cè)谟肈CNN的方法做優(yōu)化,用image captioning來做這個(gè)系統(tǒng)的時(shí)候會(huì)面臨一些問題。在這里用Multi-Scale Retinex技術(shù)會(huì)存在一些問題,比如邊緣銳化不足,陰影邊界突兀比較大, 部分顏色發(fā)生扭曲等。我們?cè)囘^了很多方法,也做了很多參數(shù)的優(yōu)化處理,發(fā)現(xiàn)效果都不是很好,Hinton出了capsule之后,我們立馬開始去對(duì)物體坐標(biāo)性的點(diǎn)進(jìn)行描述處理,而不用BP的反向處理方式,現(xiàn)在我們正在做一些算法的猜想證明。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

最后的結(jié)果如下:我們?cè)谟?xùn)練圖片的時(shí)候,它越來越能夠認(rèn)識(shí)到人在做什么事。圖中是人和機(jī)器所看到的,機(jī)器會(huì)認(rèn)為這個(gè)人在準(zhǔn)備食物,但其實(shí)人會(huì)認(rèn)為她在做更實(shí)際的東西,會(huì)把所有的圖片都認(rèn)出來,我們現(xiàn)在已經(jīng)做到跟人的匹配率達(dá)到97.8%,也是通過反復(fù)Resnet學(xué)習(xí)去做出來的。

下面是在COCO上的結(jié)果。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

今天公開課就結(jié)束了,我希望大家去看下AlphaGo Zero最新的論文,然后去看看Hinton的膠囊計(jì)劃,如果大家在這里有什么想法可以和我來探討。還有一個(gè)論壇大家可以進(jìn)來去看一下,地址是mooc.ai,大家可以看這里邊有什么需要去討論的東西。

視頻:

雷鋒網(wǎng) AI科技評(píng)論編輯整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng):Deep Learning 及 AlphaGo Zero(下) | 分享總結(jié)

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說