AIR 008丨香港科技大學教授楊強：人工智能成功的幾個必要條件

本文作者：老王

2016-08-12 11:44

專題：CCF-GAIR | 全球人工智能與機器人峰會

導語：人工智能的未來：遷移學習。

人工智能的兩個研究分支：一個是科學，一個是應用。

在人工智能科學領域，人們一直有個問題：機器思維嗎？過去60年，計算機專家們一直努力在回答這個問題。而在人工智能應用方面，研究人員探討的問題是它如何對人們產(chǎn)生作用和影響。

楊強提到，AI的成功有著5大必要條件：

清晰的商業(yè)模式
高質量的大數(shù)據(jù)
清晰的問題定義和領域邊間
懂人工智能的跨界人才，擅長應用和算法
計算能力

人工智能在機器學習和深度學習方面已經(jīng)有著很高的成就。此外，另外一種技術正在開始應用：強化學習。強化學習不僅僅能夠學習人的行為，還能夠更好的使用延遲反饋功能。而之后人們能否發(fā)明一種新的學習方法，能把大數(shù)據(jù)的模型在用于小數(shù)據(jù)身上，于是楊強提到了遷移學習。遷移學習是把深度學習和強化學習疊加在一起。

三層結構算法系統(tǒng)

目前人機交互的對話系統(tǒng)包括閑聊類和功能類。而從技術上層面來講，這種對話系統(tǒng)分成兩種，第一種最早出現(xiàn)的是基于規(guī)則的系統(tǒng)，這些就像在符號領域，它的好處是很準確。但存在的問題是很難擴展，對數(shù)據(jù)不夠敏感。此外，它還不能應付很多不同的意外事件，所以學界關注的是機器學習的算法。

而對于機器學習的算法，楊強認為深度學習之后的最新算法模型是一個三明治式的三層結構：第一層就是遞歸的深度學習，在這之上的第二層有一個強化學習的學習器，而第三層就是遷移學習，它能把一個已有的模型遷移到一個新的領域。

遞歸深度神經(jīng)網(wǎng)絡RNN（深度學習）
強化學習RL
遷移學習TL

能否把一個成熟的人機交互對話系統(tǒng)算法模型用在其他領域？楊強現(xiàn)場演一個把對話系統(tǒng)置入機器人反應，之后他提到，他的學生曾把這個系統(tǒng)應用在了金融領域，用于股市預測。當人們一旦掌握某個領域，把它套用在其他領域就是遷移學習的作用。

個性化遷移

深度學習離不開大數(shù)據(jù)，強化學習重在反饋，但也離不開大數(shù)據(jù)，而大數(shù)據(jù)離不開大公司，當其他公司沒有大數(shù)據(jù)時，它們該怎么辦？

楊強提出一點

大數(shù)據(jù)設計出來的模型用于小數(shù)據(jù)上，它的副產(chǎn)品就是個性化。這就是遷移學習的目的。

有了這套系統(tǒng)，如果換在其他領域就沒必要收集大量數(shù)據(jù)了，直接套用模型即可。類似人學會騎自行車后，就差不多學會了騎摩托車。

遷移學習分為兩種：樣本遷移，特征遷移。其在應用場景中則如下：

基于模型的遷移：如圖像識別，訓練萬張頂千萬張。相似度越大，遷移的概率大。
社交網(wǎng)絡之間的遷移：將千萬人的大數(shù)據(jù)模型遷移到某個人身上。

最后，楊強指出，人工智能有很多領域，到現(xiàn)在為止最成功的一個領域就是機器學習，機器學習的一個基本概念就是從數(shù)據(jù)里面經(jīng)常重復的現(xiàn)象匯總學出規(guī)律，從而把現(xiàn)實中簡單重復煩瑣的工作給替代掉。

以下是楊強演講實錄

今天早上聽了非常精彩的報告，在這里我要跟大家分享有一些我個人的想法，尤其是我們今天，大家都知道人工智能有了很多的成就，我們能不能總結出一點點經(jīng)驗，能供給我們后面的人來使用。

首先我們看到人工智能尤其在商業(yè)上有很多的成就，我們看到在圖象識別，在語音識別，包括在大規(guī)模的產(chǎn)品推薦，我們今天每個人都是這些服務的享用者，我們都受益于它。但是我們有沒有想過，這些人工智能的成就到底來自哪些條件的滿足，為什么這些成就十年以前二十年以前卻沒有呢？所以我們下面要來問問這些問題。

在問這些問題之前，我們首先要來區(qū)分人工智能的兩個研究的分支，一個是人工智能的科學，人工智能的科學我們要追溯到它的鼻祖圖靈問的這個最關鍵最中心的問題：就是機器可以思維嗎？六十多年的努力，大家都是計算機學家，各行各業(yè)都在朝著這個方面努力，我們造更快的計算機，我們會聚更多的數(shù)據(jù)，我們研究更高級的算法，都是在試圖回答這樣的問題。

今天人工智能的這些成就也就了機會讓我們把它應用在我們的生活當中，所以這又帶來一個嶄新的問題，就是我們如何能夠去預測一個人工智能的技術，是不是能夠產(chǎn)生它應該有的作用。我們都說，如果它的應用面很廣也是它成功的一個標志。所以今天我想來看看人工智能在應用方面到底有哪些條件來驅使它讓它產(chǎn)生應該有的應用面。

在這里我要說一下，人工智能已經(jīng)有的很大的成就，比如機器學習，深度學習方面，但是在現(xiàn)在我們看到的一些端倪，已經(jīng)給了我們很興奮的理由，就是強化學習，強化學習不僅僅能夠學習人的行為，而且能夠特別好的使用這種延遲反饋，這種反饋可以延遲在一個時間段上。明天我們能不能發(fā)明一種新的學習方法，能讓它在小數(shù)據(jù)上也能適用？這就是我下面要講的遷移學習。所以我們也在這個角度來看，我們可以使用哪一種人工智能技術讓它產(chǎn)生應該有的作用。

提到強化學習，剛剛Michael Wooldridge教授說到Deepmind，我也是Deepmind的粉絲，這是Deepmind的一個流程，我們觀察到流程以后，緊接著我們可以理解這是一個計算機內部的表達形式，一個適量，這個適量加上我們得到的反饋，就可以幫助我們改進我們的策略，這個策略是什么呢？就是我們所說的平常我們做行為的規(guī)劃，我們工作的規(guī)劃，游戲里面的動作就對應著一個策略，這個策略又返回來，產(chǎn)生一個新的界面，我們觀察到這個界面又可以回去學習。大家看一下，這里面很強的一點是這個反饋是不斷給的，而且我們到終點的時候，我們才知道我們到底是贏家還是輸家。我們在現(xiàn)實生活中是不是有很多這樣的例子，是沒有用深度學習來選擇的。比如我們上一門課，只有考試的時候才知道我們的成就，我們投資一支股票，過了很長時間才知道效果怎么樣，所以這是延遲的反饋。

但是這種學習有一個弱點，就是如果我們人為的來定義這個策略里面的空間，叫做狀態(tài)空間的話，這個限制是非常大的，因為我們人永遠定不準，我們永遠不能事先地預計這個世界會發(fā)生什么，這里面有來了谷歌Deegming的第二個目標，就是端到端的深度學習，該有的狀態(tài)讓在學習器內部表達好了，整個我們形成了從輸入端到輸出端的端到端的深度學習，我們經(jīng)過幾百輪的學習之后，自我學會了怎么更好地玩一個游戲，這是當時的學習效果，每個圖對應不同的游戲。橫軸是隨著時間、隨著游戲的輪數(shù)越來越多，它的效果我們看到的是越來越好，這和我們人的學習過程是一樣的。我們說這個人的學習效率就大大地提高，學習效果大大提高。

我們總結一下，這些成功來自于什么呢？我們可以首先看到它有非常清晰的目標，什么叫贏什么叫輸，延到商業(yè)上也要有很強的目標。其次需要高質量的大數(shù)據(jù)，這里我特別要強調的是高質量，這個數(shù)據(jù)要持續(xù)地反饋，不能收一次就完了，不斷地到達才能使得我們學習不斷地提高。同時一定要有反饋，反饋的方式和內容和算法一定要匹配。所以我們常常聽到有一些人說，我這個領域有了幾千萬樣本的數(shù)據(jù)，一定可以做人工智能，我要告訴他不一樣，因為首先你那個樣本不一定是針對這個算法收集的，其次你的算法不一定持續(xù)得到，最后你的反饋不一定很好。

第三是問題不能非常寬泛和模糊，定義一定要非常清楚，清楚到像下棋一樣，我們知道什么時候邊界就達到了。另外一個是我們需要既懂人工智能又懂商業(yè)領域的人才，我們說這樣的人才到哪兒去找，從今天還是大家就關注身邊善于學習的人，著重培養(yǎng)他，這樣的人才能把兩個完全不同的垂直領域聯(lián)結在一起的人才是必不可少的。最后我要提的是計算能力，今天大家都有很強的計算能力，我們有云計算、并行計算、GPU，所以這個能力也是必不可少的。

再下面我要講的是另外一個例子，今天我就用例子再來繼續(xù)闡述我剛剛講的五個條件，這里我要講，我們現(xiàn)在知道對話系統(tǒng)是人工智能的熱點，甚至有的公司出來說對話系統(tǒng)，就是這種人機交互的對話系統(tǒng)，可能是下一個入口，下一個搜索引擎，我們先不管這些商業(yè)的說法，我們來看一看現(xiàn)在我們市場上有的這些對話系統(tǒng)，我們可以大致把它們分兩類，首先我們看到有很多是閑聊類的，我們大概很清楚的小冰，很幽默，但是也止于閑聊，還有一類是功能類，當我們打電話給酒店、航空公司，在尋求特殊具體垂直服務的時候，往往會受益于這樣一種功能型的對話。我們知道在不久以前，甚至很多的公司也有這種對話，但是它們的方式都是說你要這個服務按1，要那個服務按2，我們感覺體驗非常不好。

從技術上來說，這種對話系統(tǒng)也分成兩種，第一種最早出現(xiàn)的是基于規(guī)則，很多人專家來寫這些規(guī)則，這些就像在符號領域，它的好處是很準確的，但是不好的地方就是很難擴展，和數(shù)據(jù)無關，對數(shù)據(jù)不夠敏感。另外有很多不同的意外事件都不能應付，所以現(xiàn)在大家比較關注的是機器學習的算法。

我們在香港科技大學的實驗室里面也在進行研究，我們研究的一個主要目的是說如果我們再把人工智能往前推進一步，在深度學習之后，到底還有哪些技術是下一個熱點，我們關心的是明天的技術，這里我要說的是我們有一個三明治式的一個三層結構：第一層就是我們熟知的深度學習，這是一個遞歸的深度學習；在這個之上，我們有一個策略的學習器，叫做強化學習的學習器，在這里我要特別強調的是強化學習里面最難的一部分是當人工智能的機器人它不能全部觀察周圍的世界，只能部分觀察，所以這個有一個很怪的名字，叫做基于部分觀察的馬爾可夫的決策過程，簡化來說它是強化學習里非常難的階段。第三個就是遷移學習，它能讓我們把一個做好的模型遷移到一個新的領域來，所以我們希望這樣一個系統(tǒng)它能具有以下這兒功能，比方說閑聊、推薦、引導、提醒、學習，這個我們看到如果它具有這些功能的話，它就像一個真人一樣。

怎么達到這樣呢？我們首先要有基本的對話功能，就是深度學習的對話功能，其次我們要有一個策略，這個策略要能引導對話的對象去完成一個任務。最后我們要能實現(xiàn)個性化，我們最好能夠貼近用戶，讓用戶跟它對話以后，這個體驗覺得非常好，非常簡潔明了。怎么才能達到這一點，這就是我們的一些例子，比方說我們現(xiàn)在和一個O2O的公司合作，用真實的數(shù)據(jù)來訓練這個系統(tǒng)，這個綠色的就是用戶提的問題，白色的是系統(tǒng)，我們這個中文名字叫做“魔鏡系統(tǒng)”，就是白雪公主里面的魔鏡，當然這是一個好的魔鏡。

剛才的這個系統(tǒng)，它的演示，我們是把整個的對話系統(tǒng)給放到一個機器人的里面，讓機器人通過語音跟我們回答，實際上這個真正的系統(tǒng)是在手機上可以和人交流的。這里我要跟我們大家熟悉的一些系統(tǒng)來做比較，比方說小冰的話，左邊是用戶提的問題，綠色的，黃色這里是小冰的回答，這是真實的一個截圖。我們看小冰雖然很調侃，我們也試著用siri來做回答，siri是基于搜索，它很多的就是抱歉沒有找到匹配。

我們這樣一個系統(tǒng)之所以研究它，是我們對背后的系統(tǒng)感興趣，所以有這樣的應用領域，我們剛剛講的幾個條件，首先我們有很明確的目標，有很好的反饋，有不斷到來的數(shù)據(jù)，然后我們也有跨界的人才，我們和O2O公司的聯(lián)絡。另外這個問題最后我們是有非常明確的，不一定有明確的邊界條件，使得我們最后把這個問題的表達就好像是在下圍棋一樣，因此我們這里面也可以考慮說我們現(xiàn)在談話談到這兒，到底離我們的目標有多遠，這就好像在下棋里面我們有一個狀態(tài)網(wǎng)絡，我們對現(xiàn)在的狀態(tài)有一個估算，同時我們可以往下問的不同的話，可以當做我們下面要下的棋子，所以這和阿爾法狗的思維有很相象的地方。

有一個非常有趣的現(xiàn)象，就是這樣一個三層的模型，我剛才講的深度學習和強化學習還有遷移學習，這樣一個模型是非常通用的，對話領域是我們的適用場所，這樣的模型把它放到完全不一樣的應用領域去它也能工作，這就是通用型的發(fā)展目標，比如我們有的學生就把它應用在大家公認很難的領域，就是股市大勢的預測。這是A股里面的某個股票，我們拿過去好多年的數(shù)據(jù)，十年的數(shù)據(jù)做訓練，所有數(shù)據(jù)之間的連接，首先我們產(chǎn)生不同的狀態(tài)，讓這個狀態(tài)之間能夠互相遷移。其次是狀態(tài)和狀態(tài)之間的變化，我們用一個強化學習來模擬，最后我們發(fā)現(xiàn)深度學習的隱含層里面它自動產(chǎn)生出來的幾百個狀態(tài)，基本就把這幾年的經(jīng)濟狀況給了一個很完善的總結，所以它可以給一個非常好的大勢的走向，我們也做了一些測試。

這個例子當然是在金融領域的一個小的試驗，所以我應該說這個是我們有所保留的，但是我想說的事情是一旦我們對一個領域有了足夠的了解，一旦這個領域足夠的數(shù)據(jù)我們掌握了，我們就可以套用人工智能，剛剛講的一個邊界清晰的方法來解決它，以達到通用型的人工智能的目的。

我下面要講的，最后一個題目就是如何能做到個性化，這里其實有兩個題目：一個是我個人就是有一個很強烈的感覺，深度學習是離不開大數(shù)據(jù)的，大數(shù)據(jù)又離不開大公司，我們熟知的一些大公司都是大數(shù)據(jù)的擁有者，我們有一些中型和小型公司沒有大數(shù)據(jù)，也沒有這個能力去取得大數(shù)據(jù)。所以這里我說像深度學習，它的紅利來自于特征的選取，特征的準確選取又離不開大數(shù)據(jù)，這些大數(shù)據(jù)只有富人才能得到。

強化學習是把重點放在另一個角度，就是反饋，就是世界對系統(tǒng)的反饋，這個反饋可以延遲，但是它的訓練也離不開大數(shù)據(jù)，也是一個富人的游戲。我們要達到世界上每一個人都可以用到人工智能，我們一定要做這樣的研究，就是如何能把一個大的模型，大數(shù)據(jù)訓練出來的模型遷移到一個小數(shù)據(jù)的范圍內，讓它能在一個小數(shù)據(jù)上面也能起作用。它還帶來一個副產(chǎn)品，這個副產(chǎn)品就叫做個性化，也就是如果我們讓一個產(chǎn)品能夠有很強的用戶感覺，用戶體驗，那么我們一定要達到個性化的效果，這個就是我們之所以做遷移學習的目的。

什么是遷移學習呢？就是我們在一個數(shù)據(jù)領域已經(jīng)有了很好的領域建立了非常好的模型，我們換一個模型也能讓它應用，這樣既節(jié)省了資源，又達到時間和效果的好處。所以這樣的一個學習過程，把一個已有模型遷移到一個未知領域，就叫做遷移學習。所以我們人是自動地就會做這種舉一反三的嫌疑學習了，比如我們學會騎自行車以后，我們又去學摩托車，發(fā)現(xiàn)很簡單，我們打球、學語言、學物理化學也有很多這樣的例子。遷移學習大家也有了將近十年的努力，也積累了大量的文獻，這里我總結一下，通過幾種不同的方式，我們可以達到遷移，每一種方式都是很直觀的。第一種就是我們在數(shù)據(jù)集里面找到跟目標領域相似的數(shù)據(jù)，把這個數(shù)據(jù)放大多倍，這個叫做樣本遷移，通過樣本來達到遷移的目的。其次我們可以觀察到有些相似的特征，然后利用這些特征，在不同的層次的特征，來進行自動的遷移，這種叫做特征遷移。然后我們還可以做到基于模型的遷移，這是這樣的一個工作。利用上千萬的圖象來訓練一個圖象識別的系統(tǒng)，我們遇到一個新的圖象領域，我們就不用再去找?guī)浊f個圖象來訓練了，我們就把原來的那個遷移到新的領域，所以在新的領域只用幾萬張圖片就夠，同樣可以得到很高的效果，這叫做模型遷移，模型遷移的一個好處是我們可以區(qū)分，就是可以和深度學習結合起來，我們可以區(qū)分不同層次可遷移的度，相似度比較高的那些層次他們被遷移的可能性就大一些。最后我們也可以通過關系來進行遷移，比方說社會網(wǎng)絡，社交網(wǎng)絡之間的遷移。

如果用了遷移學習，我剛才講一個副產(chǎn)品就是從很多人的大數(shù)據(jù)遷移到一個人的小數(shù)據(jù)上，這樣可以達到一個效果，比方說我們僅用一個用戶的九個對話來訓練這樣的一個遷移學習的效果，從一個三萬人得到的大模型遷移到一個人的小模型身上，這個效果在強化學習的基礎上做起來就特別地得心應手，因為強化學習就使得我們能夠把遷移的結果變成短路，就好像是在電路當中的短路，使得我們能夠不用很煩瑣的去問用戶很多同樣的問題。

對，剛剛有幾個部分，其實系統(tǒng)都沒有具體地去問答案，它基本上就在問還是上一次那個答案嗎？還是送到你家嗎？這樣就節(jié)省了很多，所以就是這樣。

最后我就來再總結一下，就是我剛剛講的這幾個必要條件，剛才我是通過舉第一個例子谷歌Deepmind，第二個是強化遷移學習，就是三層的結構，同時我講了具有通用性、個性化的學習。這里我要再次強調一下我們總結的幾個條件：一個是要有清晰邊界的問題定義，一定要有持續(xù)不斷的外部反饋，要有足夠的計算資源、要有頂尖的數(shù)據(jù)科學家還要有足夠質量的大數(shù)據(jù)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

5人收藏

專題

CCF-GAIR | 全球人工智能與機器人峰會

本專題其他文章

老王

編輯

微信 wangyafeng123456

發(fā)私信

當月熱門文章