1
本文作者: 溫曉樺 | 2016-12-17 20:33 | 專題:2016中國人工智能產(chǎn)業(yè)大會 |
今天大家討論比較多的人工智能,包括深度學(xué)習(xí)等這些技術(shù)為什么會對我們有幫助?究竟背后在什么地方能夠去改變這個(gè)世界?在今天于深圳舉辦的中國人工智能產(chǎn)業(yè)大會上,人工智能公司第四范式創(chuàng)始人兼CEO戴文淵就其專業(yè)研究以及產(chǎn)業(yè)實(shí)踐對這些問題做了闡述。雷鋒網(wǎng)也與其進(jìn)行了訪談。
第四范式是一家利用機(jī)器學(xué)習(xí)、遷移學(xué)習(xí)等人工智能技術(shù)進(jìn)行大數(shù)據(jù)價(jià)值挖掘的公司,其CEO戴文淵被業(yè)內(nèi)認(rèn)為是遷移學(xué)習(xí)全球領(lǐng)軍學(xué)者。據(jù)雷鋒網(wǎng)了解,戴文淵2005年曾獲得ACM國際大學(xué)生程序設(shè)計(jì)競賽世界總冠軍。他2009-2013年就職于百度,是百度廣告變現(xiàn)算法的核心負(fù)責(zé)人,也是百度鳳巢的總架構(gòu)師,是最年輕的百度高級科學(xué)家,2012年獲得百度最高獎(百萬美元獎)。在其后的2013-2014年,戴文淵就職華為,任華為諾亞方舟實(shí)驗(yàn)室主任科學(xué)家。
戴文淵表示,大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)的機(jī)遇在于贏在“維度”。如果企業(yè)內(nèi)部用人工智能知道企業(yè)經(jīng)營,最重要的就是要去做高VC維模型,我們要不斷地提高模型的維度,使得training loss和test loss不斷的降低。VC維度是什么?大腦的維度大概就是大腦腦細(xì)胞的個(gè)數(shù),所以可以把VC維度理解為腦細(xì)胞維度。而機(jī)器的維度也需要更多的腦細(xì)胞,才能更聰明,才能學(xué)習(xí)更多的知識。機(jī)器的誤差隨著模型維度的提升而降低。
VC維度是什么東西?學(xué)術(shù)一點(diǎn)來說是“Vapnik-Chervonenkis Dimension”,一個(gè)由Vapnik和Chervonenkis于1960年代至1990年代建立的統(tǒng)計(jì)學(xué)習(xí)理論,它反映了函數(shù)集的學(xué)習(xí)能力——VC維越大則模型或函數(shù)越復(fù)雜,學(xué)習(xí)能力就越強(qiáng)。
戴文淵以一個(gè)比喻解釋:大腦的維度大概就是大腦腦細(xì)胞的個(gè)數(shù),所以為什么人比狗聰明,狗比蟑螂聰明,因?yàn)槿说哪X細(xì)胞比狗多,所以可以把VC維度理解為腦細(xì)胞維度。同時(shí)這就可以理解:為什么要把機(jī)器的維度做高——因?yàn)闄C(jī)器的維度也需要更多的腦細(xì)胞,才能更聰明,才能學(xué)習(xí)更多的知識。
上圖是IMGENET比賽的結(jié)果示意圖。過去對于這個(gè)比賽,大家關(guān)心最多的是黑線曲線——它表示著是每年冠軍的錯誤率。因此大家都知道,每年冠軍的錯誤率誤差都在降低。但是戴文淵看到的是另一個(gè)問題:很少有人關(guān)心黃色的曲線——它代表著每年冠軍模型的VC維。所以這是我們也可以發(fā)現(xiàn),為什么錯誤率會降低?是因?yàn)槟P偷木S度在提升。隨著模型維度的提升,我們的誤差開始降低。
所以,今天的深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)都是要把維度做大?!吧疃葘W(xué)習(xí)其實(shí)是一種更好的去把VC維做高的算法,”戴文淵說道,“而為什么要做強(qiáng)化學(xué)習(xí)?強(qiáng)化學(xué)習(xí)是一個(gè)不斷VC維做得越來越大的模型。舉個(gè)例子——谷歌的阿爾法狗,如果只做深度學(xué)習(xí),它是基于KJS的網(wǎng)站上棋局做的模型,那只有30萬局棋;強(qiáng)化學(xué)習(xí)以后,通過自己和自己下,不斷地去提升,最后能夠達(dá)到8000萬局棋,所以這就是今天強(qiáng)化學(xué)習(xí)要做的事情,這都是要把維度越做越大。”
維度做得更高更細(xì),分析才能做得更精細(xì),效率才能夠提高。
去年亞馬遜的市值超過了沃爾瑪,更多的人會覺得亞馬遜超過沃爾瑪是互聯(lián)網(wǎng)顛覆傳統(tǒng)企業(yè)的。但這真的是互聯(lián)網(wǎng)方面帶來的厲害?“其實(shí)這背后是人工智能。在2010年前亞馬遜做的并不是比沃爾瑪成功的,但之后,亞馬遜基于其數(shù)據(jù)能夠讓大家看到亞馬遜的商品都是不一樣的,亞馬遜實(shí)際上是給每個(gè)人開了一家店?!?/span>
一家企業(yè)如何能同時(shí)開出3億多家個(gè)性化的店?亞馬遜有3億多的用戶,而沃爾瑪有一萬多家店,亞馬遜顯然是要解決一個(gè)比沃爾瑪復(fù)雜3萬多倍的問題。
“要解決3億多家店,就不是那么好解決,不太可能人工去設(shè)計(jì)布置3億多家店,這由誰來解決?由機(jī)器解決。機(jī)器沒有精力的局限,人不是說如何去開更多的店,而是人沒有精力開那么多店,用機(jī)器解決就是人工智能幫助亞馬遜超過沃爾瑪最重要的地方。”
所以,維度做得更高更細(xì),分析才能做得更精細(xì),效率才能夠提高。
除了客戶管理方面,倉儲也體現(xiàn)了亞馬遜人工智能分析維度的作用。
戴文淵介紹,沃爾瑪?shù)膫}儲是所有的保管員、倉庫配貨員都會去倉庫整理東西,但是亞馬遜的機(jī)器人是——需要這個(gè)貨物就搬過來,如果亞馬遜有個(gè)N個(gè)配貨員就有N種不一樣的貨架,這樣的擺放也是基于數(shù)據(jù)來做的,最后造成的一個(gè)差別就是——亞馬遜比沃爾瑪提升4倍。
過去我們談互聯(lián)網(wǎng),移動互聯(lián)網(wǎng),現(xiàn)在談人工智能,其實(shí)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時(shí)代,有大量的空地,我們做一個(gè)網(wǎng)站,可以圈一批客戶,我們做一個(gè)APP可以圈一批客戶,而到今天這個(gè)機(jī)會已經(jīng)沒有了,未來的機(jī)會在哪?不是說還有更多的客戶可以去圈,而是我可以做得更好。如果要讓一家企業(yè)做得比競爭對手更好,就會把預(yù)算搶過來,就像亞馬遜從沃爾瑪那邊搶過來一樣。
另外一個(gè)案例是臉書(Facebook),此前該公司因?yàn)樽儸F(xiàn)能力受到質(zhì)疑而股價(jià)一直往下走,但現(xiàn)在是很風(fēng)光的狀態(tài)。戴文淵講起這背后的故事:
在2012年,戴文淵面試過一些來自臉書的工程師,面完了以后他發(fā)現(xiàn),不是臉書不能賺錢,而是當(dāng)時(shí)的技術(shù)不足以(實(shí)現(xiàn))很高的變現(xiàn)效率?!拔耶?dāng)時(shí)問了工程師一個(gè)問題‘臉書的廣告有多少的變量?’,他們告訴我有兩千多的變量,于是他就沒有通過面試,因?yàn)槲覀儺?dāng)時(shí)已經(jīng)做到了一百多億的變量,這是巨大的差別?!?/span>
但是臉書發(fā)生了一個(gè)很大的變化,這是谷歌幫了他們。當(dāng)年谷歌印度人與白人團(tuán)隊(duì)的戰(zhàn)爭,導(dǎo)致白人團(tuán)隊(duì)離開谷歌到了臉書,幫助他們把變量數(shù)從兩千多個(gè)提升多了兩千多億個(gè)。這一下子讓臉書的變現(xiàn)能力大幅度提升,之后他們的財(cái)報(bào)都超過了華爾街的預(yù)期。
所以這里很關(guān)鍵的地方是維度。原來是用機(jī)器學(xué)習(xí)——也是用大數(shù)據(jù)做的廣告模型,但是做得不夠高不夠細(xì),如果能夠把維度做得更高,你就能做得更精細(xì),你的效率就能提升,獲得更多的廣告市場。
除了互聯(lián)網(wǎng)IT這些數(shù)據(jù)密集型的行業(yè),金融業(yè)也是數(shù)據(jù)量不可小覷、用戶群體涉及廣泛的行業(yè),因此,這首先也成為了AI產(chǎn)業(yè)應(yīng)用孵化的首選之地。
“今天已經(jīng)不再是亞馬遜、谷歌或者BAT的時(shí)代,如果退回五六年前做AI,就只能去BAT,在美國可能是谷歌臉書這樣的公司,但今天其實(shí)有更多的企業(yè)擁有數(shù)據(jù)?!?/span>
戴文淵介紹了第四范式與銀行合作的案例,其客戶是一家深圳的股份制商業(yè)銀行。作為一家商業(yè)銀行,他們也有很多營銷數(shù)據(jù),需要通過這些數(shù)據(jù)去精準(zhǔn)識別所有客戶當(dāng)中有哪些是分期客戶,歷史上有大量的客戶辦分期或者不辦分期,第四范式的任務(wù)是基于銀行的數(shù)據(jù)幫助他們更好地識別。
“過去他們不是不做營銷,他們也是做營銷的,但是他們的模型維度只有兩百多個(gè),而我們通過數(shù)據(jù),通過機(jī)器學(xué)習(xí),幫助他把維度提升到了五千萬,從兩百到五千萬的精細(xì)營銷,甚至我們可以幫他發(fā)現(xiàn)一些業(yè)務(wù)規(guī)律。比如當(dāng)有一筆交易出現(xiàn)在某一個(gè)POS機(jī),這個(gè)POS機(jī)一個(gè)月只有兩百人使用的時(shí)候,是一個(gè)商機(jī)。所以,通過機(jī)器就能夠用更高效、更低成本的方式來識別出這些場景?!?/span>
根據(jù)前面講到幾個(gè)案例,戴文淵表示,最大的差別就是過去我們在做的事情是低維的事情,而現(xiàn)在做的是高維的事情?!斑@可能跟我在學(xué)生時(shí)代學(xué)習(xí)的一些基本原理是相違背的——過去我們學(xué)數(shù)據(jù)挖掘的時(shí)候,有一個(gè)叫奧卡姆剃刀原理,它講的是盡可能簡單,而不是做深維的事情,而我們現(xiàn)在不是做化繁為簡,而是把問題做復(fù)雜?!?/span>
他繼續(xù)解釋說:
比如說(圖右)奧卡姆剃刀原理區(qū)分紅點(diǎn)和藍(lán)點(diǎn)的時(shí)候,到底是選擇綠色的線區(qū)分還是黑色線區(qū)分?過去的教科書是說黑色比綠色好,現(xiàn)在我們認(rèn)為是綠色比黑色好。為什么呢?過去的奧卡姆原理在做神經(jīng)網(wǎng)絡(luò)的時(shí)候,為什么我們要把神經(jīng)網(wǎng)絡(luò)控制在三層以內(nèi)?是因?yàn)槟莻€(gè)年代的數(shù)據(jù)量不夠。
那個(gè)年代的數(shù)據(jù)不多,所以數(shù)據(jù)不足以支撐我們把數(shù)據(jù)做大。在數(shù)據(jù)量不大的時(shí)候,我們要化繁為簡。而真正統(tǒng)計(jì)學(xué)習(xí)的基石并不是奧巴姆剃刀,不是說要控制三層,真正統(tǒng)計(jì)學(xué)習(xí)的原理叫VALIANT引理——這個(gè)公式我們可以就理解成,其實(shí)要做到的是模型的復(fù)雜度和規(guī)則數(shù)或者變量數(shù),這樣一個(gè)數(shù)據(jù)量相匹配。
從這個(gè)原理我們會知道——為什么過去做的模型簡單,為什么神經(jīng)網(wǎng)絡(luò)要深度學(xué)習(xí)?重點(diǎn)的原因就是現(xiàn)在數(shù)據(jù)量變大了。數(shù)據(jù)量變大了,模型的復(fù)雜度要和數(shù)據(jù)量成匹配,要相關(guān)。
所以,以往的定律、原理也許都是局限下的產(chǎn)物?!芭nD三大定律交給計(jì)算機(jī)做會怎么做?可能不是三大定律,可能是做速度區(qū)間劃分,如果說總結(jié)出三千萬個(gè)定律的時(shí)候可能就不需要相對論了,這就是大數(shù)據(jù)時(shí)代,我們怎么讓機(jī)器做到一些不一樣的事情?!?/span>
“從VALIANT引理來看,為什么牛頓提的是三大定律而不是三百三千定律?就是人的記憶是有局限的,人腦里面裝不了大數(shù)據(jù),所以人能產(chǎn)出的就是簡單的模型。為什么說過去的算法也很簡單?過去做決策,要減到五千以內(nèi),其實(shí)很重要的原因是過去的數(shù)據(jù)量有限?!?/span>
今天整個(gè)時(shí)代變了,我們從互聯(lián)網(wǎng)上可以獲得大量的數(shù)據(jù),傳統(tǒng)企業(yè)其實(shí)也有大量的數(shù)據(jù),比如說華大基因要測百萬人的基因,中石油每天探測回來的地震波有500T,招行每月會有幾億的交易,這些都是非常大的數(shù)據(jù)。這時(shí)候如果還是套用valiant引理的話,數(shù)據(jù)量大了,模型會復(fù)雜。
“‘奧卡姆’時(shí)代過去了。從工業(yè)界來說,如果我們企業(yè)內(nèi)部做人工智能指導(dǎo)企業(yè)經(jīng)營,最重要的就是我們要去做高VC維模型,我們要不斷的去提高模型的維度,使得training loss和test loss不斷的降低。”
現(xiàn)在也有在討論遷移學(xué)習(xí),遷移學(xué)習(xí)要做的是什么呢?
戴文淵向雷鋒網(wǎng)表示,遷移學(xué)習(xí)最佳的應(yīng)用場景在于醫(yī)療。“不是所有場景都有大數(shù)據(jù)的,比如說醫(yī)療。再比如,很多人覺得今日頭條做的是個(gè)性化推薦,千人千面。其實(shí)他們不是在做個(gè)性化,而是做遷移學(xué)習(xí)。如果頭條只有你的數(shù)據(jù),絕對不可能給你服務(wù)得好,服務(wù)得好是因?yàn)橛辛四愕臄?shù)據(jù),可以找到很多跟你相近的數(shù)據(jù)。今日頭條最強(qiáng)的是在于他能夠拿和你相近的哪些人的數(shù)據(jù)來幫助到你。所以它是一個(gè)遷移學(xué)習(xí)的問題,因?yàn)槊總€(gè)人提供的數(shù)據(jù)是有限的,不是一個(gè)大數(shù)據(jù),真正的幫助是來自于周圍,遷移學(xué)習(xí)就是說小數(shù)據(jù)也能做到高緯度?!?/span>
上述是人與人之間的遷移,另外一個(gè)例子是領(lǐng)域的遷移。領(lǐng)域的遷移是什么呢?舉例來說,像金融。金融資產(chǎn)管理中,做一個(gè)業(yè)務(wù)資產(chǎn)也許幾十億上百億,但是如果換一個(gè)視角看,上百億的資產(chǎn)做小額信貸,數(shù)據(jù)量非常非常大。但是如果上百億資產(chǎn)拿來做大額信貸,比如說房貸,每個(gè)人貸幾百萬并沒有多大數(shù)據(jù),那么問題來了——大額信貸沒有大數(shù)據(jù)就很難用現(xiàn)在的深度學(xué)習(xí)來做。
“我們現(xiàn)在也在關(guān)注金融領(lǐng)域。遷移學(xué)習(xí)恰恰是可以幫助金融業(yè)企業(yè)利用各種各樣的信貸數(shù)據(jù),無論是大額信貸還是小額信貸,來提升模型的效果。比如在銀行中,我們利用其小額消費(fèi)金額的數(shù)據(jù),幫助他做汽車貸款,也就是用別的領(lǐng)域的數(shù)據(jù)來提升效果,最后能夠幫助他的營銷提升?!?/span>
所以遷移學(xué)習(xí)要解決的是小數(shù)據(jù)實(shí)現(xiàn)超高維。另外一個(gè)數(shù)據(jù)是專家經(jīng)驗(yàn),如果說既沒有數(shù)據(jù),又沒有其他領(lǐng)域的知識,我們還可以用專家經(jīng)驗(yàn)來降低數(shù)據(jù)的使用量,提升小數(shù)據(jù)的模型維度。
我們今天會發(fā)現(xiàn)很多的話題在討論人臉識別或者無人車,個(gè)性化推薦,有人討論深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí),最關(guān)鍵的是所有事情都在解決一個(gè)問題就是維度。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章