0
本文作者: 老王 | 2016-08-12 11:44 | 專題:CCF-GAIR | 全球人工智能與機器人峰會 |
人工智能的兩個研究分支:一個是科學(xué),一個是應(yīng)用。
在人工智能科學(xué)領(lǐng)域,人們一直有個問題:機器思維嗎?過去60年,計算機專家們一直努力在回答這個問題。而在人工智能應(yīng)用方面,研究人員探討的問題是它如何對人們產(chǎn)生作用和影響。
楊強提到,AI的成功有著5大必要條件:
清晰的商業(yè)模式
高質(zhì)量的大數(shù)據(jù)
清晰的問題定義和領(lǐng)域邊間
懂人工智能的跨界人才,擅長應(yīng)用和算法
計算能力
人工智能在機器學(xué)習(xí)和深度學(xué)習(xí)方面已經(jīng)有著很高的成就。此外,另外一種技術(shù)正在開始應(yīng)用:強化學(xué)習(xí)。強化學(xué)習(xí)不僅僅能夠?qū)W習(xí)人的行為,還能夠更好的使用延遲反饋功能。而之后人們能否發(fā)明一種新的學(xué)習(xí)方法,能把大數(shù)據(jù)的模型在用于小數(shù)據(jù)身上,于是楊強提到了遷移學(xué)習(xí)。遷移學(xué)習(xí)是把深度學(xué)習(xí)和強化學(xué)習(xí)疊加在一起。
三層結(jié)構(gòu)算法系統(tǒng)
目前人機交互的對話系統(tǒng)包括閑聊類和功能類。而從技術(shù)上層面來講,這種對話系統(tǒng)分成兩種,第一種最早出現(xiàn)的是基于規(guī)則的系統(tǒng),這些就像在符號領(lǐng)域,它的好處是很準(zhǔn)確。但存在的問題是很難擴展,對數(shù)據(jù)不夠敏感。此外,它還不能應(yīng)付很多不同的意外事件,所以學(xué)界關(guān)注的是機器學(xué)習(xí)的算法。
而對于機器學(xué)習(xí)的算法,楊強認(rèn)為深度學(xué)習(xí)之后的最新算法模型是一個三明治式的三層結(jié)構(gòu):第一層就是遞歸的深度學(xué)習(xí),在這之上的第二層有一個強化學(xué)習(xí)的學(xué)習(xí)器,而第三層就是遷移學(xué)習(xí),它能把一個已有的模型遷移到一個新的領(lǐng)域。
遞歸深度神經(jīng)網(wǎng)絡(luò)RNN(深度學(xué)習(xí))
強化學(xué)習(xí)RL
遷移學(xué)習(xí)TL
能否把一個成熟的人機交互對話系統(tǒng)算法模型用在其他領(lǐng)域?楊強現(xiàn)場演一個把對話系統(tǒng)置入機器人反應(yīng),之后他提到,他的學(xué)生曾把這個系統(tǒng)應(yīng)用在了金融領(lǐng)域,用于股市預(yù)測。當(dāng)人們一旦掌握某個領(lǐng)域,把它套用在其他領(lǐng)域就是遷移學(xué)習(xí)的作用。
個性化遷移
深度學(xué)習(xí)離不開大數(shù)據(jù),強化學(xué)習(xí)重在反饋,但也離不開大數(shù)據(jù),而大數(shù)據(jù)離不開大公司,當(dāng)其他公司沒有大數(shù)據(jù)時,它們該怎么辦?
楊強提出一點
大數(shù)據(jù)設(shè)計出來的模型用于小數(shù)據(jù)上,它的副產(chǎn)品就是個性化。這就是遷移學(xué)習(xí)的目的。
有了這套系統(tǒng),如果換在其他領(lǐng)域就沒必要收集大量數(shù)據(jù)了,直接套用模型即可。類似人學(xué)會騎自行車 后,就差不多學(xué)會了騎摩托車。
遷移學(xué)習(xí)分為兩種:樣本遷移,特征遷移。其在應(yīng)用場景中則如下:
基于模型的遷移:如圖像識別,訓(xùn)練萬張頂千萬張。相似度越大,遷移的概率大。
社交網(wǎng)絡(luò)之間的遷移:將千萬人的大數(shù)據(jù)模型遷移到某個人身上。
最后,楊強指出,人工智能有很多領(lǐng)域,到現(xiàn)在為止最成功的一個領(lǐng)域就是機器學(xué)習(xí),機器學(xué)習(xí)的一個基本概念就是從數(shù)據(jù)里面經(jīng)常重復(fù)的現(xiàn)象匯總學(xué)出規(guī)律,從而把現(xiàn)實中簡單重復(fù)煩瑣的工作給替代掉。
今天早上聽了非常精彩的報告,在這里我要跟大家分享有一些我個人的想法,尤其是我們今天,大家都知道人工智能有了很多的成就,我們能不能總結(jié)出一點點經(jīng)驗,能供給我們后面的人來使用。
首先我們看到人工智能尤其在商業(yè)上有很多的成就,我們看到在圖象識別,在語音識別,包括在大規(guī)模的產(chǎn)品推薦,我們今天每個人都是這些服務(wù)的享用者,我們都受益于它。但是我們有沒有想過,這些人工智能的成就到底來自哪些條件的滿足,為什么這些成就十年以前二十年以前卻沒有呢?所以我們下面要來問問這些問題。
在問這些問題之前,我們首先要來區(qū)分人工智能的兩個研究的分支,一個是人工智能的科學(xué),人工智能的科學(xué)我們要追溯到它的鼻祖圖靈問的這個最關(guān)鍵最中心的問題:就是機器可以思維嗎?六十多年的努力,大家都是計算機學(xué)家,各行各業(yè)都在朝著這個方面努力,我們造更快的計算機,我們會聚更多的數(shù)據(jù),我們研究更高級的算法,都是在試圖回答這樣的問題。
今天人工智能的這些成就也就了機會讓我們把它應(yīng)用在我們的生活當(dāng)中,所以這又帶來一個嶄新的問題,就是我們?nèi)绾文軌蛉ヮA(yù)測一個人工智能的技術(shù),是不是能夠產(chǎn)生它應(yīng)該有的作用。我們都說,如果它的應(yīng)用面很廣也是它成功的一個標(biāo)志。所以今天我想來看看人工智能在應(yīng)用方面到底有哪些條件來驅(qū)使它讓它產(chǎn)生應(yīng)該有的應(yīng)用面。
在這里我要說一下,人工智能已經(jīng)有的很大的成就,比如機器學(xué)習(xí),深度學(xué)習(xí)方面,但是在現(xiàn)在我們看到的一些端倪,已經(jīng)給了我們很興奮的理由,就是強化學(xué)習(xí),強化學(xué)習(xí)不僅僅能夠?qū)W習(xí)人的行為,而且能夠特別好的使用這種延遲反饋,這種反饋可以延遲在一個時間段上。明天我們能不能發(fā)明一種新的學(xué)習(xí)方法,能讓它在小數(shù)據(jù)上也能適用?這就是我下面要講的遷移學(xué)習(xí)。所以我們也在這個角度來看,我們可以使用哪一種人工智能技術(shù)讓它產(chǎn)生應(yīng)該有的作用。
提到強化學(xué)習(xí),剛剛Michael Wooldridge教授說到Deepmind,我也是Deepmind的粉絲,這是Deepmind的一個流程,我們觀察到流程以后,緊接著我們可以理解這是一個計算機內(nèi)部的表達(dá)形式,一個適量,這個適量加上我們得到的反饋,就可以幫助我們改進(jìn)我們的策略,這個策略是什么呢?就是我們所說的平常我們做行為的規(guī)劃,我們工作的規(guī)劃,游戲里面的動作就對應(yīng)著一個策略,這個策略又返回來,產(chǎn)生一個新的界面,我們觀察到這個界面又可以回去學(xué)習(xí)。大家看一下,這里面很強的一點是這個反饋是不斷給的,而且我們到終點的時候,我們才知道我們到底是贏家還是輸家。我們在現(xiàn)實生活中是不是有很多這樣的例子,是沒有用深度學(xué)習(xí)來選擇的。比如我們上一門課,只有考試的時候才知道我們的成就,我們投資一支股票,過了很長時間才知道效果怎么樣,所以這是延遲的反饋。
但是這種學(xué)習(xí)有一個弱點,就是如果我們?nèi)藶榈膩矶x這個策略里面的空間,叫做狀態(tài)空間的話,這個限制是非常大的,因為我們?nèi)擞肋h(yuǎn)定不準(zhǔn),我們永遠(yuǎn)不能事先地預(yù)計這個世界會發(fā)生什么,這里面有來了谷歌Deegming的第二個目標(biāo),就是端到端的深度學(xué)習(xí),該有的狀態(tài)讓在學(xué)習(xí)器內(nèi)部表達(dá)好了,整個我們形成了從輸入端到輸出端的端到端的深度學(xué)習(xí),我們經(jīng)過幾百輪的學(xué)習(xí)之后,自我學(xué)會了怎么更好地玩一個游戲,這是當(dāng)時的學(xué)習(xí)效果,每個圖對應(yīng)不同的游戲。橫軸是隨著時間、隨著游戲的輪數(shù)越來越多,它的效果我們看到的是越來越好,這和我們?nèi)说膶W(xué)習(xí)過程是一樣的。我們說這個人的學(xué)習(xí)效率就大大地提高,學(xué)習(xí)效果大大提高。
我們總結(jié)一下,這些成功來自于什么呢?我們可以首先看到它有非常清晰的目標(biāo),什么叫贏什么叫輸,延到商業(yè)上也要有很強的目標(biāo)。其次需要高質(zhì)量的大數(shù)據(jù),這里我特別要強調(diào)的是高質(zhì)量,這個數(shù)據(jù)要持續(xù)地反饋,不能收一次就完了,不斷地到達(dá)才能使得我們學(xué)習(xí)不斷地提高。同時一定要有反饋,反饋的方式和內(nèi)容和算法一定要匹配。所以我們常常聽到有一些人說,我這個領(lǐng)域有了幾千萬樣本的數(shù)據(jù),一定可以做人工智能,我要告訴他不一樣,因為首先你那個樣本不一定是針對這個算法收集的,其次你的算法不一定持續(xù)得到,最后你的反饋不一定很好。
第三是問題不能非常寬泛和模糊,定義一定要非常清楚,清楚到像下棋一樣,我們知道什么時候邊界就達(dá)到了。另外一個是我們需要既懂人工智能又懂商業(yè)領(lǐng)域的人才,我們說這樣的人才到哪兒去找,從今天還是大家就關(guān)注身邊善于學(xué)習(xí)的人,著重培養(yǎng)他,這樣的人才能把兩個完全不同的垂直領(lǐng)域聯(lián)結(jié)在一起的人才是必不可少的。最后我要提的是計算能力,今天大家都有很強的計算能力,我們有云計算、并行計算、GPU,所以這個能力也是必不可少的。
再下面我要講的是另外一個例子,今天我就用例子再來繼續(xù)闡述我剛剛講的五個條件,這里我要講,我們現(xiàn)在知道對話系統(tǒng)是人工智能的熱點,甚至有的公司出來說對話系統(tǒng),就是這種人機交互的對話系統(tǒng),可能是下一個入口,下一個搜索引擎,我們先不管這些商業(yè)的說法,我們來看一看現(xiàn)在我們市場上有的這些對話系統(tǒng),我們可以大致把它們分兩類,首先我們看到有很多是閑聊類的,我們大概很清楚的小冰,很幽默,但是也止于閑聊,還有一類是功能類,當(dāng)我們打電話給酒店、航空公司,在尋求特殊具體垂直服務(wù)的時候,往往會受益于這樣一種功能型的對話。我們知道在不久以前,甚至很多的公司也有這種對話,但是它們的方式都是說你要這個服務(wù)按1,要那個服務(wù)按2,我們感覺體驗非常不好。
從技術(shù)上來說,這種對話系統(tǒng)也分成兩種,第一種最早出現(xiàn)的是基于規(guī)則,很多人專家來寫這些規(guī)則,這些就像在符號領(lǐng)域,它的好處是很準(zhǔn)確的,但是不好的地方就是很難擴展,和數(shù)據(jù)無關(guān),對數(shù)據(jù)不夠敏感。另外有很多不同的意外事件都不能應(yīng)付,所以現(xiàn)在大家比較關(guān)注的是機器學(xué)習(xí)的算法。
我們在香港科技大學(xué)的實驗室里面也在進(jìn)行研究,我們研究的一個主要目的是說如果我們再把人工智能往前推進(jìn)一步,在深度學(xué)習(xí)之后,到底還有哪些技術(shù)是下一個熱點,我們關(guān)心的是明天的技術(shù),這里我要說的是我們有一個三明治式的一個三層結(jié)構(gòu):第一層就是我們熟知的深度學(xué)習(xí),這是一個遞歸的深度學(xué)習(xí);在這個之上,我們有一個策略的學(xué)習(xí)器,叫做強化學(xué)習(xí)的學(xué)習(xí)器,在這里我要特別強調(diào)的是強化學(xué)習(xí)里面最難的一部分是當(dāng)人工智能的機器人它不能全部觀察周圍的世界,只能部分觀察,所以這個有一個很怪的名字,叫做基于部分觀察的馬爾可夫的決策過程,簡化來說它是強化學(xué)習(xí)里非常難的階段。第三個就是遷移學(xué)習(xí),它能讓我們把一個做好的模型遷移到一個新的領(lǐng)域來,所以我們希望這樣一個系統(tǒng)它能具有以下這兒功能,比方說閑聊、推薦、引導(dǎo)、提醒、學(xué)習(xí),這個我們看到如果它具有這些功能的話,它就像一個真人一樣。
怎么達(dá)到這樣呢?我們首先要有基本的對話功能,就是深度學(xué)習(xí)的對話功能,其次我們要有一個策略,這個策略要能引導(dǎo)對話的對象去完成一個任務(wù)。最后我們要能實現(xiàn)個性化,我們最好能夠貼近用戶,讓用戶跟它對話以后,這個體驗覺得非常好,非常簡潔明了。怎么才能達(dá)到這一點,這就是我們的一些例子,比方說我們現(xiàn)在和一個O2O的公司合作,用真實的數(shù)據(jù)來訓(xùn)練這個系統(tǒng),這個綠色的就是用戶提的問題,白色的是系統(tǒng),我們這個中文名字叫做“魔鏡系統(tǒng)”,就是白雪公主里面的魔鏡,當(dāng)然這是一個好的魔鏡。
剛才的這個系統(tǒng),它的演示,我們是把整個的對話系統(tǒng)給放到一個機器人的里面,讓機器人通過語音跟我們回答,實際上這個真正的系統(tǒng)是在手機上可以和人交流的。這里我要跟我們大家熟悉的一些系統(tǒng)來做比較,比方說小冰的話,左邊是用戶提的問題,綠色的,黃色這里是小冰的回答,這是真實的一個截圖。我們看小冰雖然很調(diào)侃,我們也試著用siri來做回答,siri是基于搜索,它很多的就是抱歉沒有找到匹配。
我們這樣一個系統(tǒng)之所以研究它,是我們對背后的系統(tǒng)感興趣,所以有這樣的應(yīng)用領(lǐng)域,我們剛剛講的幾個條件,首先我們有很明確的目標(biāo),有很好的反饋,有不斷到來的數(shù)據(jù),然后我們也有跨界的人才,我們和O2O公司的聯(lián)絡(luò)。另外這個問題最后我們是有非常明確的,不一定有明確的邊界條件,使得我們最后把這個問題的表達(dá)就好像是在下圍棋一樣,因此我們這里面也可以考慮說我們現(xiàn)在談話談到這兒,到底離我們的目標(biāo)有多遠(yuǎn),這就好像在下棋里面我們有一個狀態(tài)網(wǎng)絡(luò),我們對現(xiàn)在的狀態(tài)有一個估算,同時我們可以往下問的不同的話,可以當(dāng)做我們下面要下的棋子,所以這和阿爾法狗的思維有很相象的地方。
有一個非常有趣的現(xiàn)象,就是這樣一個三層的模型,我剛才講的深度學(xué)習(xí)和強化學(xué)習(xí)還有遷移學(xué)習(xí),這樣一個模型是非常通用的,對話領(lǐng)域是我們的適用場所,這樣的模型把它放到完全不一樣的應(yīng)用領(lǐng)域去它也能工作,這就是通用型的發(fā)展目標(biāo),比如我們有的學(xué)生就把它應(yīng)用在大家公認(rèn)很難的領(lǐng)域,就是股市大勢的預(yù)測。這是A股里面的某個股票,我們拿過去好多年的數(shù)據(jù),十年的數(shù)據(jù)做訓(xùn)練,所有數(shù)據(jù)之間的連接,首先我們產(chǎn)生不同的狀態(tài),讓這個狀態(tài)之間能夠互相遷移。其次是狀態(tài)和狀態(tài)之間的變化,我們用一個強化學(xué)習(xí)來模擬,最后我們發(fā)現(xiàn)深度學(xué)習(xí)的隱含層里面它自動產(chǎn)生出來的幾百個狀態(tài),基本就把這幾年的經(jīng)濟(jì)狀況給了一個很完善的總結(jié),所以它可以給一個非常好的大勢的走向,我們也做了一些測試。
這個例子當(dāng)然是在金融領(lǐng)域的一個小的試驗,所以我應(yīng)該說這個是我們有所保留的,但是我想說的事情是一旦我們對一個領(lǐng)域有了足夠的了解,一旦這個領(lǐng)域足夠的數(shù)據(jù)我們掌握了,我們就可以套用人工智能,剛剛講的一個邊界清晰的方法來解決它,以達(dá)到通用型的人工智能的目的。
我下面要講的,最后一個題目就是如何能做到個性化,這里其實有兩個題目:一個是我個人就是有一個很強烈的感覺,深度學(xué)習(xí)是離不開大數(shù)據(jù)的,大數(shù)據(jù)又離不開大公司,我們熟知的一些大公司都是大數(shù)據(jù)的擁有者,我們有一些中型和小型公司沒有大數(shù)據(jù),也沒有這個能力去取得大數(shù)據(jù)。所以這里我說像深度學(xué)習(xí),它的紅利來自于特征的選取,特征的準(zhǔn)確選取又離不開大數(shù)據(jù),這些大數(shù)據(jù)只有富人才能得到。
強化學(xué)習(xí)是把重點放在另一個角度,就是反饋,就是世界對系統(tǒng)的反饋,這個反饋可以延遲,但是它的訓(xùn)練也離不開大數(shù)據(jù),也是一個富人的游戲。我們要達(dá)到世界上每一個人都可以用到人工智能,我們一定要做這樣的研究,就是如何能把一個大的模型,大數(shù)據(jù)訓(xùn)練出來的模型遷移到一個小數(shù)據(jù)的范圍內(nèi),讓它能在一個小數(shù)據(jù)上面也能起作用。它還帶來一個副產(chǎn)品,這個副產(chǎn)品就叫做個性化,也就是如果我們讓一個產(chǎn)品能夠有很強的用戶感覺,用戶體驗,那么我們一定要達(dá)到個性化的效果,這個就是我們之所以做遷移學(xué)習(xí)的目的。
什么是遷移學(xué)習(xí)呢?就是我們在一個數(shù)據(jù)領(lǐng)域已經(jīng)有了很好的領(lǐng)域建立了非常好的模型,我們換一個模型也能讓它應(yīng)用,這樣既節(jié)省了資源,又達(dá)到時間和效果的好處。所以這樣的一個學(xué)習(xí)過程,把一個已有模型遷移到一個未知領(lǐng)域,就叫做遷移學(xué)習(xí)。所以我們?nèi)耸亲詣拥鼐蜁鲞@種舉一反三的嫌疑學(xué)習(xí)了,比如我們學(xué)會騎自行車以后,我們又去學(xué)摩托車,發(fā)現(xiàn)很簡單,我們打球、學(xué)語言、學(xué)物理化學(xué)也有很多這樣的例子。遷移學(xué)習(xí)大家也有了將近十年的努力,也積累了大量的文獻(xiàn),這里我總結(jié)一下,通過幾種不同的方式,我們可以達(dá)到遷移,每一種方式都是很直觀的。第一種就是我們在數(shù)據(jù)集里面找到跟目標(biāo)領(lǐng)域相似的數(shù)據(jù),把這個數(shù)據(jù)放大多倍,這個叫做樣本遷移,通過樣本來達(dá)到遷移的目的。其次我們可以觀察到有些相似的特征,然后利用這些特征,在不同的層次的特征,來進(jìn)行自動的遷移,這種叫做特征遷移。然后我們還可以做到基于模型的遷移,這是這樣的一個工作。利用上千萬的圖象來訓(xùn)練一個圖象識別的系統(tǒng),我們遇到一個新的圖象領(lǐng)域,我們就不用再去找?guī)浊f個圖象來訓(xùn)練了,我們就把原來的那個遷移到新的領(lǐng)域,所以在新的領(lǐng)域只用幾萬張圖片就夠,同樣可以得到很高的效果,這叫做模型遷移,模型遷移的一個好處是我們可以區(qū)分,就是可以和深度學(xué)習(xí)結(jié)合起來,我們可以區(qū)分不同層次可遷移的度,相似度比較高的那些層次他們被遷移的可能性就大一些。最后我們也可以通過關(guān)系來進(jìn)行遷移,比方說社會網(wǎng)絡(luò),社交網(wǎng)絡(luò)之間的遷移。
如果用了遷移學(xué)習(xí),我剛才講一個副產(chǎn)品就是從很多人的大數(shù)據(jù)遷移到一個人的小數(shù)據(jù)上,這樣可以達(dá)到一個效果,比方說我們僅用一個用戶的九個對話來訓(xùn)練這樣的一個遷移學(xué)習(xí)的效果,從一個三萬人得到的大模型遷移到一個人的小模型身上,這個效果在強化學(xué)習(xí)的基礎(chǔ)上做起來就特別地得心應(yīng)手,因為強化學(xué)習(xí)就使得我們能夠把遷移的結(jié)果變成短路,就好像是在電路當(dāng)中的短路,使得我們能夠不用很煩瑣的去問用戶很多同樣的問題。
對,剛剛有幾個部分,其實系統(tǒng)都沒有具體地去問答案,它基本上就在問還是上一次那個答案嗎?還是送到你家嗎?這樣就節(jié)省了很多,所以就是這樣。
最后我就來再總結(jié)一下,就是我剛剛講的這幾個必要條件,剛才我是通過舉第一個例子谷歌Deepmind,第二個是強化遷移學(xué)習(xí),就是三層的結(jié)構(gòu),同時我講了具有通用性、個性化的學(xué)習(xí)。這里我要再次強調(diào)一下我們總結(jié)的幾個條件:一個是要有清晰邊界的問題定義,一定要有持續(xù)不斷的外部反饋,要有足夠的計算資源、要有頂尖的數(shù)據(jù)科學(xué)家還要有足夠質(zhì)量的大數(shù)據(jù)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。