丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給溫曉樺
發(fā)送

1

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

導(dǎo)語:把VC維度理解為腦細胞維度。而機器的維度也需要更多的腦細胞,才能更聰明,才能學(xué)習更多的知識。機器的誤差隨著模型維度的提升而降低。

今天大家討論比較多的人工智能,包括深度學(xué)習等這些技術(shù)為什么會對我們有幫助?究竟背后在什么地方能夠去改變這個世界?在今天于深圳舉辦的中國人工智能產(chǎn)業(yè)大會上,人工智能公司第四范式創(chuàng)始人兼CEO戴文淵就其專業(yè)研究以及產(chǎn)業(yè)實踐對這些問題做了闡述。雷鋒網(wǎng)也與其進行了訪談。

第四范式是一家利用機器學(xué)習、遷移學(xué)習等人工智能技術(shù)進行大數(shù)據(jù)價值挖掘的公司,其CEO戴文淵被業(yè)內(nèi)認為是遷移學(xué)習全球領(lǐng)軍學(xué)者。據(jù)雷鋒網(wǎng)了解,戴文淵2005年曾獲得ACM國際大學(xué)生程序設(shè)計競賽世界總冠軍。他2009-2013年就職于百度,是百度廣告變現(xiàn)算法的核心負責人,也是百度鳳巢的總架構(gòu)師,是最年輕的百度高級科學(xué)家,2012年獲得百度最高獎(百萬美元獎)。在其后的2013-2014年,戴文淵就職華為,任華為諾亞方舟實驗室主任科學(xué)家。

戴文淵表示,大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)的機遇在于贏在“維度”。如果企業(yè)內(nèi)部用人工智能知道企業(yè)經(jīng)營,最重要的就是要去做高VC維模型,我們要不斷地提高模型的維度,使得training loss和test loss不斷的降低。VC維度是什么?大腦的維度大概就是大腦腦細胞的個數(shù),所以可以把VC維度理解為腦細胞維度。而機器的維度也需要更多的腦細胞,才能更聰明,才能學(xué)習更多的知識。機器的誤差隨著模型維度的提升而降低。

“VC維”是什么?

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

VC維度是什么東西?學(xué)術(shù)一點來說是“Vapnik-Chervonenkis Dimension”,一個由Vapnik和Chervonenkis于1960年代至1990年代建立的統(tǒng)計學(xué)習理論,它反映了函數(shù)集的學(xué)習能力——VC維越大則模型或函數(shù)越復(fù)雜,學(xué)習能力就越強。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

戴文淵以一個比喻解釋:大腦的維度大概就是大腦腦細胞的個數(shù),所以為什么人比狗聰明,狗比蟑螂聰明,因為人的腦細胞比狗多,所以可以把VC維度理解為腦細胞維度。同時這就可以理解:為什么要把機器的維度做高——因為機器的維度也需要更多的腦細胞,才能更聰明,才能學(xué)習更多的知識。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

上圖是IMGENET比賽的結(jié)果示意圖。過去對于這個比賽,大家關(guān)心最多的是黑線曲線——它表示著是每年冠軍的錯誤率。因此大家都知道,每年冠軍的錯誤率誤差都在降低。但是戴文淵看到的是另一個問題:很少有人關(guān)心黃色的曲線——它代表著每年冠軍模型的VC維。所以這是我們也可以發(fā)現(xiàn),為什么錯誤率會降低?是因為模型的維度在提升。隨著模型維度的提升,我們的誤差開始降低。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

所以,今天的深度學(xué)習、強化學(xué)習都是要把維度做大?!吧疃葘W(xué)習其實是一種更好的去把VC維做高的算法,”戴文淵說道,“而為什么要做強化學(xué)習?強化學(xué)習是一個不斷VC維做得越來越大的模型。舉個例子——谷歌的阿爾法狗,如果只做深度學(xué)習,它是基于KJS的網(wǎng)站上棋局做的模型,那只有30萬局棋;強化學(xué)習以后,通過自己和自己下,不斷地去提升,最后能夠達到8000萬局棋,所以這就是今天強化學(xué)習要做的事情,這都是要把維度越做越大?!?/p>

三個案例說明:為什么需要把VC維做大

維度做得更高更細,分析才能做得更精細,效率才能夠提高。

去年亞馬遜的市值超過了沃爾瑪,更多的人會覺得亞馬遜超過沃爾瑪是互聯(lián)網(wǎng)顛覆傳統(tǒng)企業(yè)的。但這真的是互聯(lián)網(wǎng)方面帶來的厲害?“其實這背后是人工智能。在2010年前亞馬遜做的并不是比沃爾瑪成功的,但之后,亞馬遜基于其數(shù)據(jù)能夠讓大家看到亞馬遜的商品都是不一樣的,亞馬遜實際上是給每個人開了一家店。”

一家企業(yè)如何能同時開出3億多家個性化的店?亞馬遜有3億多的用戶,而沃爾瑪有一萬多家店,亞馬遜顯然是要解決一個比沃爾瑪復(fù)雜3萬多倍的問題。

“要解決3億多家店,就不是那么好解決,不太可能人工去設(shè)計布置3億多家店,這由誰來解決?由機器解決。機器沒有精力的局限,人不是說如何去開更多的店,而是人沒有精力開那么多店,用機器解決就是人工智能幫助亞馬遜超過沃爾瑪最重要的地方?!?/span>

所以,維度做得更高更細,分析才能做得更精細,效率才能夠提高。

除了客戶管理方面,倉儲也體現(xiàn)了亞馬遜人工智能分析維度的作用。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

戴文淵介紹,沃爾瑪?shù)膫}儲是所有的保管員、倉庫配貨員都會去倉庫整理東西,但是亞馬遜的機器人是——需要這個貨物就搬過來,如果亞馬遜有個N個配貨員就有N種不一樣的貨架,這樣的擺放也是基于數(shù)據(jù)來做的,最后造成的一個差別就是——亞馬遜比沃爾瑪提升4倍。

過去我們談互聯(lián)網(wǎng),移動互聯(lián)網(wǎng),現(xiàn)在談人工智能,其實互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代,有大量的空地,我們做一個網(wǎng)站,可以圈一批客戶,我們做一個APP可以圈一批客戶,而到今天這個機會已經(jīng)沒有了,未來的機會在哪?不是說還有更多的客戶可以去圈,而是我可以做得更好。如果要讓一家企業(yè)做得比競爭對手更好,就會把預(yù)算搶過來,就像亞馬遜從沃爾瑪那邊搶過來一樣。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

另外一個案例是臉書(Facebook),此前該公司因為變現(xiàn)能力受到質(zhì)疑而股價一直往下走,但現(xiàn)在是很風光的狀態(tài)。戴文淵講起這背后的故事:

在2012年,戴文淵面試過一些來自臉書的工程師,面完了以后他發(fā)現(xiàn),不是臉書不能賺錢,而是當時的技術(shù)不足以(實現(xiàn))很高的變現(xiàn)效率?!拔耶敃r問了工程師一個問題‘臉書的廣告有多少的變量?’,他們告訴我有兩千多的變量,于是他就沒有通過面試,因為我們當時已經(jīng)做到了一百多億的變量,這是巨大的差別?!?/span>

但是臉書發(fā)生了一個很大的變化,這是谷歌幫了他們。當年谷歌印度人與白人團隊的戰(zhàn)爭,導(dǎo)致白人團隊離開谷歌到了臉書,幫助他們把變量數(shù)從兩千多個提升多了兩千多億個。這一下子讓臉書的變現(xiàn)能力大幅度提升,之后他們的財報都超過了華爾街的預(yù)期。

所以這里很關(guān)鍵的地方是維度。原來是用機器學(xué)習——也是用大數(shù)據(jù)做的廣告模型,但是做得不夠高不夠細,如果能夠把維度做得更高,你就能做得更精細,你的效率就能提升,獲得更多的廣告市場。

VC維做高做大后還讓AI產(chǎn)業(yè)有更大的想象空間

除了互聯(lián)網(wǎng)IT這些數(shù)據(jù)密集型的行業(yè),金融業(yè)也是數(shù)據(jù)量不可小覷、用戶群體涉及廣泛的行業(yè),因此,這首先也成為了AI產(chǎn)業(yè)應(yīng)用孵化的首選之地。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

“今天已經(jīng)不再是亞馬遜、谷歌或者BAT的時代,如果退回五六年前做AI,就只能去BAT,在美國可能是谷歌臉書這樣的公司,但今天其實有更多的企業(yè)擁有數(shù)據(jù)?!?/span>

戴文淵介紹了第四范式與銀行合作的案例,其客戶是一家深圳的股份制商業(yè)銀行。作為一家商業(yè)銀行,他們也有很多營銷數(shù)據(jù),需要通過這些數(shù)據(jù)去精準識別所有客戶當中有哪些是分期客戶,歷史上有大量的客戶辦分期或者不辦分期,第四范式的任務(wù)是基于銀行的數(shù)據(jù)幫助他們更好地識別。

“過去他們不是不做營銷,他們也是做營銷的,但是他們的模型維度只有兩百多個,而我們通過數(shù)據(jù),通過機器學(xué)習,幫助他把維度提升到了五千萬,從兩百到五千萬的精細營銷,甚至我們可以幫他發(fā)現(xiàn)一些業(yè)務(wù)規(guī)律。比如當有一筆交易出現(xiàn)在某一個POS機,這個POS機一個月只有兩百人使用的時候,是一個商機。所以,通過機器就能夠用更高效、更低成本的方式來識別出這些場景?!?/span>

做高維度是與過去理論相悖的,為什么今天可以做到?

根據(jù)前面講到幾個案例,戴文淵表示,最大的差別就是過去我們在做的事情是低維的事情,而現(xiàn)在做的是高維的事情?!斑@可能跟我在學(xué)生時代學(xué)習的一些基本原理是相違背的——過去我們學(xué)數(shù)據(jù)挖掘的時候,有一個叫奧卡姆剃刀原理,它講的是盡可能簡單,而不是做深維的事情,而我們現(xiàn)在不是做化繁為簡,而是把問題做復(fù)雜。”

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

他繼續(xù)解釋說:

比如說(圖右)奧卡姆剃刀原理區(qū)分紅點和藍點的時候,到底是選擇綠色的線區(qū)分還是黑色線區(qū)分?過去的教科書是說黑色比綠色好,現(xiàn)在我們認為是綠色比黑色好。為什么呢?過去的奧卡姆原理在做神經(jīng)網(wǎng)絡(luò)的時候,為什么我們要把神經(jīng)網(wǎng)絡(luò)控制在三層以內(nèi)?是因為那個年代的數(shù)據(jù)量不夠。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

那個年代的數(shù)據(jù)不多,所以數(shù)據(jù)不足以支撐我們把數(shù)據(jù)做大。在數(shù)據(jù)量不大的時候,我們要化繁為簡。而真正統(tǒng)計學(xué)習的基石并不是奧巴姆剃刀,不是說要控制三層,真正統(tǒng)計學(xué)習的原理叫VALIANT引理——這個公式我們可以就理解成,其實要做到的是模型的復(fù)雜度和規(guī)則數(shù)或者變量數(shù),這樣一個數(shù)據(jù)量相匹配。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

從這個原理我們會知道——為什么過去做的模型簡單,為什么神經(jīng)網(wǎng)絡(luò)要深度學(xué)習?重點的原因就是現(xiàn)在數(shù)據(jù)量變大了。數(shù)據(jù)量變大了,模型的復(fù)雜度要和數(shù)據(jù)量成匹配,要相關(guān)。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

所以,以往的定律、原理也許都是局限下的產(chǎn)物。“牛頓三大定律交給計算機做會怎么做?可能不是三大定律,可能是做速度區(qū)間劃分,如果說總結(jié)出三千萬個定律的時候可能就不需要相對論了,這就是大數(shù)據(jù)時代,我們怎么讓機器做到一些不一樣的事情?!?/span>

“從VALIANT引理來看,為什么牛頓提的是三大定律而不是三百三千定律?就是人的記憶是有局限的,人腦里面裝不了大數(shù)據(jù),所以人能產(chǎn)出的就是簡單的模型。為什么說過去的算法也很簡單?過去做決策,要減到五千以內(nèi),其實很重要的原因是過去的數(shù)據(jù)量有限?!?/span>

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

今天整個時代變了,我們從互聯(lián)網(wǎng)上可以獲得大量的數(shù)據(jù),傳統(tǒng)企業(yè)其實也有大量的數(shù)據(jù),比如說華大基因要測百萬人的基因,中石油每天探測回來的地震波有500T,招行每月會有幾億的交易,這些都是非常大的數(shù)據(jù)。這時候如果還是套用valiant引理的話,數(shù)據(jù)量大了,模型會復(fù)雜。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

“‘奧卡姆’時代過去了。從工業(yè)界來說,如果我們企業(yè)內(nèi)部做人工智能指導(dǎo)企業(yè)經(jīng)營,最重要的就是我們要去做高VC維模型,我們要不斷的去提高模型的維度,使得training loss和test loss不斷的降低?!?/span>

用小數(shù)據(jù)實現(xiàn)超高維的遷移學(xué)習,是下一個研究風向?

現(xiàn)在也有在討論遷移學(xué)習,遷移學(xué)習要做的是什么呢?

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

戴文淵向雷鋒網(wǎng)表示,遷移學(xué)習最佳的應(yīng)用場景在于醫(yī)療。“不是所有場景都有大數(shù)據(jù)的,比如說醫(yī)療。再比如,很多人覺得今日頭條做的是個性化推薦,千人千面。其實他們不是在做個性化,而是做遷移學(xué)習。如果頭條只有你的數(shù)據(jù),絕對不可能給你服務(wù)得好,服務(wù)得好是因為有了你的數(shù)據(jù),可以找到很多跟你相近的數(shù)據(jù)。今日頭條最強的是在于他能夠拿和你相近的哪些人的數(shù)據(jù)來幫助到你。所以它是一個遷移學(xué)習的問題,因為每個人提供的數(shù)據(jù)是有限的,不是一個大數(shù)據(jù),真正的幫助是來自于周圍,遷移學(xué)習就是說小數(shù)據(jù)也能做到高緯度?!?/span>

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

上述是人與人之間的遷移,另外一個例子是領(lǐng)域的遷移。領(lǐng)域的遷移是什么呢?舉例來說,像金融。金融資產(chǎn)管理中,做一個業(yè)務(wù)資產(chǎn)也許幾十億上百億,但是如果換一個視角看,上百億的資產(chǎn)做小額信貸,數(shù)據(jù)量非常非常大。但是如果上百億資產(chǎn)拿來做大額信貸,比如說房貸,每個人貸幾百萬并沒有多大數(shù)據(jù),那么問題來了——大額信貸沒有大數(shù)據(jù)就很難用現(xiàn)在的深度學(xué)習來做。

“我們現(xiàn)在也在關(guān)注金融領(lǐng)域。遷移學(xué)習恰恰是可以幫助金融業(yè)企業(yè)利用各種各樣的信貸數(shù)據(jù),無論是大額信貸還是小額信貸,來提升模型的效果。比如在銀行中,我們利用其小額消費金額的數(shù)據(jù),幫助他做汽車貸款,也就是用別的領(lǐng)域的數(shù)據(jù)來提升效果,最后能夠幫助他的營銷提升?!?/span>

所以遷移學(xué)習要解決的是小數(shù)據(jù)實現(xiàn)超高維。另外一個數(shù)據(jù)是專家經(jīng)驗,如果說既沒有數(shù)據(jù),又沒有其他領(lǐng)域的知識,我們還可以用專家經(jīng)驗來降低數(shù)據(jù)的使用量,提升小數(shù)據(jù)的模型維度。


我們今天會發(fā)現(xiàn)很多的話題在討論人臉識別或者無人車,個性化推薦,有人討論深度學(xué)習、強化學(xué)習,最關(guān)鍵的是所有事情都在解決一個問題就是維度。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

第四范式戴文淵:大數(shù)據(jù)不再是AI發(fā)展瓶頸,未來企業(yè)贏在“維度” |2016 CAIIC

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說