UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)：Deep Learning 及 AlphaGo Zero（上） | 分享總結(jié)

本文作者：汪思穎

2017-11-30 15:24

導(dǎo)語：看王強(qiáng)博士講解深度學(xué)習(xí)和AlphaGo Zero

雷鋒網(wǎng) AI科技評論按，北京時間10月19日凌晨，DeepMind在Nature上發(fā)布論文《Mastering the game of Go without human knowledge》（不使用人類知識掌握圍棋），在這篇論文中，DeepMind展示了他們更強(qiáng)大的新版本圍棋程序“AlphaGo Zero”，掀起了人們對AI的大討論。而在10月28日，Geoffrey Hinton發(fā)表最新的膠囊論文，徹底推翻了他三十年來所堅(jiān)持的算法，又一次掀起學(xué)界大討論。

究竟什么是人工智能？深度學(xué)習(xí)的發(fā)展歷程如何？日前，雷鋒網(wǎng) AI科技評論邀請到UC Berkeley機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)博士，他為大家深入淺出講解了何為人工智能，深度學(xué)習(xí)的發(fā)展歷程，如何從機(jī)器感知向機(jī)器認(rèn)知演進(jìn)，并解析了AlphaGo與AlphaGo Zero的原理、學(xué)習(xí)過程、區(qū)別等。

嘉賓簡介：王強(qiáng)博士，本科畢業(yè)于西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)，后獲得卡內(nèi)基梅隆大學(xué)軟件工程專業(yè)碩士學(xué)位、機(jī)器人博士學(xué)位。美國貨幣監(jiān)理署（OCC）審計(jì)專家?guī)斐蓡T、IBM商業(yè)價值研究院院士及紐約Thomas J. Watson研究院主任研究員。IEEE高級會員，并擔(dān)任了2008、2009、2013及未來2018年CVPR的論文評委，同時是PAMI和TIP兩個全球頂級期刊的編委。王強(qiáng)博士在國際頂級期刊發(fā)表了90多篇論文，并多次在ICCV，CVPR等大會做論文分享。其主要研究領(lǐng)域圖像理解、機(jī)器學(xué)習(xí)、智能交易、金融反欺詐及風(fēng)險預(yù)測等。

以下為他的分享內(nèi)容，本文為上篇，包括Hinton引導(dǎo)下的機(jī)器學(xué)習(xí)的發(fā)展過程，機(jī)器感知和機(jī)器認(rèn)知、深度學(xué)習(xí)在AI上的應(yīng)用、深度學(xué)習(xí)在未來的應(yīng)用。下篇請參見UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)：Deep Learning 及 AlphaGo Zero（下），主要內(nèi)容為對AlphaGo和AlphaGo Zero的詳細(xì)解釋說明。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)：Deep Learning 及 AlphaGo Zero（上） | 分享總結(jié)

大家好，今天有幸到雷鋒網(wǎng) AI研習(xí)社給大家分享關(guān)于 AlphaGo Zero 和 Deep Learning 的一些內(nèi)容，這些內(nèi)容其實(shí)比較科普，希望大家能夠喜歡。

我在考慮這個問題之前，一直在糾結(jié)到底是說一些技術(shù)性的東西，還是科普性的東西?，F(xiàn)在AI和deep learning這么火，我們怎么認(rèn)識它的整個過程呢。這里我分了幾部分內(nèi)容，第一部分是我對深度學(xué)習(xí)的整體介紹，第二部分是關(guān)于深度學(xué)習(xí)的一些應(yīng)用和未來的一些前瞻性分享。

可能時間會長一點(diǎn)，這次的分享要求大家具備一定的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)基本知識，這樣估計(jì)才能明白今天我所講的一些內(nèi)容。自我介紹我就不多去說了，我現(xiàn)在在一些大學(xué)做講座和客座教授，也有帶學(xué)生，同時也在金融行業(yè)做了很多工程上的應(yīng)用。

Hinton引導(dǎo)下的機(jī)器學(xué)習(xí)發(fā)展過程

開始咱們的第一部分，在這之前我第一個問題想談?wù)凙I到底是什么。Geoffrey Hinton最近提出了膠囊計(jì)劃，同時在10月19號DeepMind團(tuán)隊(duì)又發(fā)布了AlphaGo Zero，發(fā)布之后引起了大家思考，我們該怎么去考慮什么是 AI。

在這之前，我們先來說說Hinton的膠囊計(jì)劃，大家都知道Hinton是深度學(xué)習(xí)之父，也是神經(jīng)網(wǎng)絡(luò)先驅(qū)，他對深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的諸多核心算法和結(jié)構(gòu)，包括對深度學(xué)習(xí)這個名稱本身提供了很多貢獻(xiàn)，而且是非常巨大的貢獻(xiàn)。

首先，他提出了BP反向傳播算法，能夠系統(tǒng)解決一些多層的神經(jīng)網(wǎng)絡(luò)隱含層連接權(quán)的學(xué)習(xí)問題，并在數(shù)學(xué)中給出了完全的推導(dǎo)。大家也知道，BP算法一直帶領(lǐng)著機(jī)器學(xué)習(xí)，特別是神經(jīng)網(wǎng)絡(luò)的發(fā)展，用BP算法來計(jì)算導(dǎo)數(shù)的時候，隨著網(wǎng)絡(luò)深度的增加，傳播的梯度的幅度會急劇的減小，結(jié)果就造成了整體loss function的最初幾層的權(quán)重的倒數(shù)變得也非常小。

大家可能對這方面有所了解。當(dāng)我們在BP算法中使用梯度下降法時，最初幾層權(quán)重的變化非常緩慢，以至于我們不能從一些比較有用的樣本里進(jìn)行有效學(xué)習(xí)，其他比較臭名昭著的就是梯度彌散問題。如果當(dāng)神經(jīng)網(wǎng)絡(luò)的最后幾層有足夠數(shù)量神經(jīng)元，可能單獨(dú)這幾層足以對有效的標(biāo)簽進(jìn)行建模，那么我們最終建模的時候是在后面最深度的這部分，那么對所有層隨機(jī)初始化的方法的訓(xùn)練，不管是第一層還是第n層，訓(xùn)練得到的整個網(wǎng)絡(luò)的性能和訓(xùn)練得到的淺層網(wǎng)絡(luò)的性能是比較相似的，但是梯度彌散影響了BP的發(fā)展。

這時候Hinton又出現(xiàn)了，他做了一件事，他提出了一個設(shè)想，就是RBM，大家對RBM可能非常了解，我在這里不會做太多說明。我只說它一些基本的原理，RBM是兩層的結(jié)構(gòu)，一個是顯式結(jié)構(gòu)，一個是隱藏結(jié)構(gòu)，它是一個對稱鏈接、無自反饋的隨機(jī)神經(jīng)網(wǎng)絡(luò)，其實(shí)它也是一種特殊的馬爾可夫隨機(jī)場網(wǎng)絡(luò)。在這里頭，他會面臨一些問題，RBM里網(wǎng)絡(luò)和網(wǎng)絡(luò)之間隱單元和可見單元是不連接的，但是兩個隱單元和兩個可見單元之間是連接的，而且每個可見層的節(jié)點(diǎn)和隱藏層的節(jié)點(diǎn)處于激活狀態(tài)的值是1，未激活狀態(tài)的值是0。那么0和1的節(jié)點(diǎn)表明一個什么問題呢，代表整個模型選取哪些節(jié)點(diǎn)來使用。當(dāng)節(jié)點(diǎn)值為1的時候是可以被使用的，處于0的時候是不被使用的。節(jié)點(diǎn)的激活概率是由可見層和隱藏層節(jié)點(diǎn)的分布函數(shù)來進(jìn)行計(jì)算的。

在這里會有一個問題，RBM的參數(shù)一共用了三個，第一個就是W，W為可見單元和隱藏單元之間邊的權(quán)重。B和A是可見層和隱藏層的偏置，有了這個偏置之后，給它賦值能量，就可以得到聯(lián)合概率。

在這個問題中，只要看到梯度下降時的最大化L(θ)的內(nèi)容，然后對W進(jìn)行求導(dǎo)，求導(dǎo)時只需要V和H。但是如果涉及到所有可見層和隱藏層的組合，此時計(jì)算量非常大。那么在面對這些問題的時候，大家會不會認(rèn)為RBM在機(jī)器學(xué)習(xí)里是不可用的呢？

這時候Hinton又做了一個算法，這個算法是非常著名的CD算法，當(dāng)K等于1的時候，所有內(nèi)容的計(jì)算量大幅減少，那么CDK到底是怎么形成的，這時神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展到第三個優(yōu)化的過程，第一步是NN，第二步是ANN，到了第三步有了BP，到了第四步有了RBM，到第五步有了CD。有了CD的好處在哪里呢？可以通過顯層得到隱藏層狀態(tài)，然后再用隱藏層經(jīng)重構(gòu)可見的向量的顯示層。在這里我不會對CD做比較詳盡的解釋，大家之后可以去看看整個過程。接下來，到了第六步的時候，Hinton又提出了一個叫深度置信網(wǎng)絡(luò)，就是我們經(jīng)?？吹降腄BN，在這里比較有意思的是建立了觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布。

前面這些內(nèi)容PPT里都沒有，大家聽聽就可以了。我只是想告訴大家機(jī)器學(xué)習(xí)的發(fā)展過程是什么樣的，在RBM之后還有關(guān)鍵的一個就是我們所說的ReLU激活單元。Hinton之后又提出防止過擬合的Dropout功能，Dropout指的是在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過程中，按照一定概率把沒用的東西從網(wǎng)絡(luò)中丟棄掉。

其實(shí)大家都知道，在深度學(xué)習(xí)里最大的問題是費(fèi)時，第二個問題是容易過擬合，深度學(xué)習(xí)在早期的突破對這些內(nèi)容也產(chǎn)生了很大的影響，這時候Hinton提出了capsule計(jì)劃，這個計(jì)劃其實(shí)更多的是來挑戰(zhàn)計(jì)算機(jī)視覺的一些問題。

大家知道計(jì)算機(jī)視覺，包括圖像理解和圖像處理的時候，一般會用到CNN網(wǎng)絡(luò)，那么CNN網(wǎng)絡(luò)里最關(guān)鍵的一塊在哪里？最關(guān)鍵就是能夠保證網(wǎng)絡(luò)在變化的過程中識別效率是很高的。其實(shí)Hinton提出來一個問題，在capsule計(jì)劃中，雖然位置發(fā)生了變化，但內(nèi)容沒有變化，他其實(shí)提出了坐標(biāo)的觀念，建立物體的坐標(biāo)。面對一個物體，用不同的坐標(biāo)點(diǎn)表示出來，那么物體在變化的時候，只是位置和速率的變化。在這里capsule雖然沒有經(jīng)過太多的驗(yàn)證，但給我們做圖像理解時提供了非常好的方式。

說到這么多，大家會想到一個最大的問題，既然capsule這么好，那么有多少人會去用呢？其實(shí)大家都知道BP是一個反向的思維過程，人的思維過程是正向的，其實(shí)這次是Hinton對他30年所堅(jiān)持的算法的顛覆。在這里我會簡單介紹capsule計(jì)劃的一部分，更細(xì)致的內(nèi)容大家可以去看看Hinton最新發(fā)表的論文。在這里提醒一下大家，在看那篇論文的時候，需要考慮同變性和不變性的一些處理方式。

重新認(rèn)識AI

說到這些問題之后，還有一個比較有意思的事情，最近Hinton的capsule和AlphaGo Zero的出現(xiàn)，讓我們重新來認(rèn)識AI到底是一個什么樣的東西。我在這里會跟大家提出一個想法，可能不是很成熟，這個觀點(diǎn)當(dāng)時是由我的導(dǎo)師在今年4月份提出來的。

首先AI是靈活的，這是非常關(guān)鍵的，他靈活的表現(xiàn)在哪里，就是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的出現(xiàn)。第二個問題，它是通用的，可以用在不同的應(yīng)用場景里，接下來的PPT會講到。然后第三個，它是自適應(yīng)的，后面給大家講AlphaGo Zero的時候，會說明它表現(xiàn)出怎樣的自適應(yīng)。還有最關(guān)鍵的原則，他是從第一個規(guī)則開始學(xué)習(xí)起來的。

其實(shí)人工智能的建立過程需要模仿人的成長過程，就像小朋友剛來到世界之后的學(xué)習(xí)過程。還有一個問題，AI的基礎(chǔ)到底是什么？其實(shí)我在這里也提出這樣的一個想法供大家來探討，深度學(xué)習(xí)加上強(qiáng)化學(xué)習(xí)，再加無監(jiān)督學(xué)習(xí)，AI所有的基礎(chǔ)都是在這上面形成的。那么從應(yīng)用的角度來說，AI它到底會用在哪里呢？AI由兩部分組成，第一部分叫機(jī)器感知，第二部分叫機(jī)器認(rèn)知，怎么讓AI從機(jī)器感知向機(jī)器認(rèn)知轉(zhuǎn)化，我覺得這是個比較有意義的事情。

機(jī)器感知和機(jī)器認(rèn)知

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)：Deep Learning 及 AlphaGo Zero（上） | 分享總結(jié)

那么機(jī)器感知是什么概念？通俗來講，比如說當(dāng)機(jī)器發(fā)現(xiàn)一個人感冒的時候，它是智能體溫計(jì)。它通過和人進(jìn)行接觸之后，發(fā)現(xiàn)你的體溫是38度，你發(fā)燒了，那么機(jī)器會給反饋，告訴你發(fā)燒了。它是認(rèn)識這個物體，然后再給反饋，這個狀態(tài)是機(jī)器感知的過程。那么怎么變成機(jī)器認(rèn)知，變成機(jī)器認(rèn)知的時候它是什么樣的狀況？發(fā)現(xiàn)你感冒以后，如果你旁邊有一個醫(yī)療機(jī)器人，那么他會幫你去敷一個冰毛巾來幫助降溫，然后同時再去持續(xù)觀察你體溫的變化，來判斷給你敷冰毛巾的動作會帶來多大的價值，這就是我們所說的機(jī)器認(rèn)知過程。

認(rèn)知過程要比感知過程復(fù)雜，感知就是認(rèn)識之后反饋一個比較完整的信息狀態(tài)，認(rèn)知就是獲得你的信息，然后再把這個信息傳遞給動作，做出動作之后再對動作的價值做評價，然后持續(xù)改進(jìn)動作。

那么在機(jī)器感知里頭，大家可能經(jīng)?？吹较裾Z音、圖像識別、視頻識別、手勢、觸摸這些過程，在機(jī)器認(rèn)知這個領(lǐng)域，包括自然語言處理、attention、知識處理、決策、attention等內(nèi)容。

深度學(xué)習(xí)在AI上的應(yīng)用

下面我給大家談?wù)勆疃葘W(xué)習(xí)在AI里的一些應(yīng)用，這里會先談當(dāng)前深度學(xué)習(xí)已經(jīng)成功應(yīng)用的成果。

UC Berkeley 機(jī)器人與工程實(shí)驗(yàn)室講座教授王強(qiáng)：Deep Learning 及 AlphaGo Zero（上） | 分享總結(jié)

第一部分就是大家知道的語音識別，提到語音識別大家也知道中國的科大訊飛，到2010年之后，語音識別引入了監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法，大家也知道在傳統(tǒng)的通過計(jì)算機(jī)來處理語音的過程中，語音需要進(jìn)行分幀、加窗、提取特征，包括MFCC、PLP，還有一些機(jī)器神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型，此外通常會使用一些比較粗糙的特征，在后面有了監(jiān)督學(xué)習(xí)之后，就提出了end to end的識別模式。其實(shí)大家都知道語音識別的話，首先需要對語音進(jìn)行解壓縮，要還原成一個沒有任何壓縮的文件。一般語音識別的架構(gòu)就兩部分，第一部分是訓(xùn)練，第二部分是解碼，其實(shí)這里頭有很多關(guān)于機(jī)器學(xué)習(xí)的一些算法，大家可以自己去看看資料，包括像一些經(jīng)典的HTK、特征融合的內(nèi)容等。

第二部分就是圖像識別，現(xiàn)在最流行的就是人臉識別，總結(jié)為兩類，一類是二維圖像識別，一類是三維圖像識別。其實(shí)大家很清楚，做圖像識別或圖像理解的一些工程師、研究人員等，用張量的形式進(jìn)行操作來得到圖像處理過程，這塊我不做太多說明，我會在后邊的研究分享里給大家?guī)硪恍﹫D像識別的案例。在這里不得不提李飛飛的ImageNet，她建了一個龐大的圖片庫，工程師要對進(jìn)入圖片庫的圖片做標(biāo)簽化，比如說圖片中是不是一只貓，這是一只什么樣的貓，哪里是貓的頭，哪里是貓的尾巴。

目前在最新的圖像理解領(lǐng)域，結(jié)合我的研究方向，有三塊可以考慮。首先考慮的就是用CNN加RNN的方式，通過CNN理解原始圖像，把它變成語義分布的形式，然后用RNN把高級表示變成自然語言，這就是我們所說的圖像理解過程。比如你看到一個人站在這里，他到底是站在樹邊還是站在汽車邊，怎么來判斷他處于哪個狀態(tài)，就會產(chǎn)生一系列的序列化處理方式。

第三部分就是NLP，特別是像現(xiàn)在很火的機(jī)器翻譯，它面臨的一些比較大的問題在哪里？我不會說NLP現(xiàn)在的發(fā)展情況如何，我會提出它目前最大的一些難點(diǎn)，有興趣的同學(xué)可以在上面做一些相關(guān)研究。

第一個難點(diǎn)是單詞的邊界界定，在口語中的時候，詞與詞通常是連貫的，比如說你去了嗎？詞和詞之間是連貫的，要界定字詞邊界通常使用方法的是給上下文做一個最佳的組合。
第二個難點(diǎn)就是詞的意思，即消除歧義。我在IBM 沃森工作的時間比較長，相比中文，沃森在做語言識別處理的時候比較好辦。大家都知道一個英文單詞有多個意思，但是英文的一句話只代表一個意思，但中文就比較難，中文一個字就是一個意思，但是多個字組成一句話的時候可能代表很多個意思，這里我就不舉太多例子。很多NLP技術(shù)比如像沃森在北美那邊用得很好，為什么到中國會比較難呢。沃森進(jìn)入中國有九年的時間，包括我在IBM的時候，一部分的漢語學(xué)家和一部分科學(xué)家推動沃森進(jìn)入中國這種具有龐大歷史文化背景的國家，進(jìn)來之后它就面臨一個問題，詞義消歧的問題比較大。
第三個問題是句法的模糊性，第四是有瑕疵的、不規(guī)范的輸入，比如嗎和嘛。

2014年之后，大家開始用深度學(xué)習(xí)的方式來進(jìn)行自然語言處理，利用CNN+RNN的方式來幫助進(jìn)一步的識別，還有機(jī)器翻譯、語言識別都是用卷入神經(jīng)網(wǎng)絡(luò)加上遞歸神經(jīng)網(wǎng)絡(luò)去做。

第四部分大家很清楚，即多模態(tài)圖像，第四部分現(xiàn)在運(yùn)用得很成功。多模態(tài)圖像是什么呢，說白了就是看圖說話。用戶拍了一張照片之后，我們會用image captioning技術(shù)來匹配合適的文字，方便以后的檢索，省去用戶手動配字。2015年開始，做了一些監(jiān)督學(xué)習(xí)的算法。先做CNN的預(yù)訓(xùn)練，在這個基礎(chǔ)上做一些微調(diào)，然后再通過RNN網(wǎng)絡(luò)做一些supervised的訓(xùn)練。

第五部分是電子游戲，游戲方面大家都知道AlphaGo，AlphaGo的出現(xiàn)大大提升了強(qiáng)化學(xué)習(xí)的進(jìn)程。

深度學(xué)習(xí)在未來的應(yīng)用

在未來，機(jī)器學(xué)習(xí)會在哪些人工智能領(lǐng)域產(chǎn)生巨大的作用呢，現(xiàn)在是個開始，在下面這些領(lǐng)域都會有比較大的一些突破。我在這里也會給大家一個簡單的介紹。

第一個是IR，即信息檢索。信息檢索中比較有名的大會是SIGIR，國際計(jì)算機(jī)協(xié)會的信息檢索大會，IR更關(guān)注于效率和規(guī)模，Manning在2016年的時候提出用NLP加IR來提升了IR的正確率和召回率。

第二部分就是大家經(jīng)常會看到的目前在各個APP上面用到的mobile UI，即移動用戶界面和對話，包括聊天機(jī)器人、一些類似于Siri的個人助理、聲控界面等，在這里也有很多人在做研究，我在伯克利的一個實(shí)驗(yàn)室正在做一套新的深度學(xué)習(xí)模型，基于自然語言檢索生成的方式，包括循環(huán)神經(jīng)網(wǎng)絡(luò)、序列到系列的模型。這個形成過程比較有意思，我們在這里做了22個響應(yīng)模型，包括機(jī)器檢索的神經(jīng)網(wǎng)絡(luò)，機(jī)器生成的神經(jīng)網(wǎng)絡(luò)，機(jī)器知識庫問答系統(tǒng)和機(jī)器模板系統(tǒng)，一共有這四個功能體系。

第三部分就是實(shí)用的私人助理，像Siri、GoogNow等，這些在未來也會有比較好的發(fā)展。有些人在上面做了跨域的遷移學(xué)習(xí)過程，包括一些藝術(shù)的生成、電影腳本的生成，這些技術(shù)在未來都會用到深度學(xué)習(xí)的內(nèi)容。

前面是給大家?guī)淼谋容^籠統(tǒng)的認(rèn)識，即深度學(xué)習(xí)到底能做哪些事情，另外還有深度學(xué)習(xí)發(fā)展的過程。

視頻：

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章