0
本文作者: 張利 | 2017-04-23 15:43 |
雷鋒網(wǎng)按:4月21日,中國證券投資基金業(yè)協(xié)會主辦的2017金融科技高峰論壇在杭州召開。“人工智能贏在維度。”第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)在會議上講道,“將來的企業(yè)運(yùn)營中需要有更高的維度,維度的上升使得AI能力提升,從而使得企業(yè)能解決更復(fù)雜的問題,提升企業(yè)效率,進(jìn)而提升企業(yè)競爭力,搶到更多的客戶,提供更好服務(wù)?!?/p>
據(jù)雷鋒網(wǎng)了解,陳雨強(qiáng)曾在百度鳳巢主持架構(gòu)了世界上第一個(gè)商用的深度學(xué)習(xí)系統(tǒng),在今日頭條主持設(shè)計(jì)了中國用戶量最多的新媒體人工智能推薦系統(tǒng)。
那么,什么是更高的維度?企業(yè)如何提升運(yùn)營效率?如何用人工智能解決更復(fù)雜的問題呢?雷鋒網(wǎng)對于演講全文進(jìn)行編輯整理如下:
亞馬遜是北美最大的在線零售商,沃爾瑪是世界上最大的連鎖超市。最近幾年,亞馬遜增長良好,增長率高達(dá)50%-60%,最低也在10%左右,而沃爾瑪增長一直處于停滯的狀態(tài),有時(shí)甚至是負(fù)增長。那么兩者為何有這么大的差別呢?
沃爾瑪是一個(gè)超市,屬于人力密集型,全球大概有十多萬的員工,亞馬遜則偏技術(shù)密集型。亞馬遜員工人均年收益是62.1萬美元,而沃爾瑪員工的人均年收益只有22萬美元,相差了3倍,這代表兩者效率的差別。在這種情況下,亞馬遜增長速率會越來越快,越來越多地蠶食沃爾瑪市場份額。那是否說明沃爾瑪是一個(gè)菜鳥的公司或在互聯(lián)網(wǎng)時(shí)代不堪一擊呢?
其實(shí)并不是。從某種角落講,沃爾瑪是數(shù)據(jù)挖掘的先驅(qū),早在20年前,沃爾瑪就有數(shù)據(jù)挖掘方面的探索和研究,啤酒和尿布的例子就是典型代表。
沃爾瑪為什么在互聯(lián)網(wǎng)時(shí)落后了呢?我們發(fā)現(xiàn)沃爾瑪是基于地點(diǎn)推薦(Location Based)的,亞馬遜則是基于用戶推薦的(User Based)的,后者需要做到千人千面,每個(gè)人在亞馬遜上看到的首頁、搜索頁、推薦頁都是不同的,這種不同導(dǎo)致兩者員工的人均年收益相差了3倍。亞馬遜解決了一個(gè)更復(fù)雜的問題,所以增長率和市值都有較大提升。沃爾瑪是曾經(jīng)零售行業(yè)的老大,但在2014年-2015年間,亞馬遜以指數(shù)性上升的速度超過了沃爾瑪,成為了世界第一。
不僅如此,亞馬遜和沃爾瑪?shù)纳虉龌蛘邘齑婀芾硪泊嬖谥艽蟮膯栴}復(fù)雜度差別。
亞馬遜做了一個(gè)KIVA機(jī)器人,它可以自動(dòng)運(yùn)送貨架到撿貨員面前,撿貨員把需要打包的貨物挑出來打包即可。而沃爾瑪則是N個(gè)配貨員配一種貨架。兩者的問題復(fù)雜度相差也很大。
如今,運(yùn)營效率變得越來越重要。在傳統(tǒng)行業(yè),跑馬圈地是重中之重,這對于互聯(lián)網(wǎng)時(shí)代也是一樣的。對于一些傳統(tǒng)行業(yè)來說,移動(dòng)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)只是增加了一種新渠道,但還是以跑馬圈地方式做事。以這種方式行事時(shí),只需把產(chǎn)品做到60分,滿足客戶的基本需求即可,之后便盡最大可能獲取最大的市場,獲取市場和市場增長帶來的紅利。但隨著市場愈加飽和,跑馬圈地的模式逐漸失效。比如零售業(yè)的整體增長空間已經(jīng)非常小了,剩下的無非就是你爭我奪的過程。這時(shí),如果誰從60分做到了80分,那就能將其它公司的客戶轉(zhuǎn)變成自己的客戶。所以未來,運(yùn)營效率代表著企業(yè)的核心競爭力。
總而言之,未來企業(yè)運(yùn)營效率將會變得至關(guān)重要。我們可以通過解決更復(fù)雜的問題提升運(yùn)營效率,而在解決復(fù)雜問題時(shí),人工智能就需要粉墨登場。
人工智能沒有那么復(fù)雜,其實(shí)就是用數(shù)據(jù)解決問題。在數(shù)據(jù)方面,傳統(tǒng)方法首先做的事情是分析數(shù)據(jù)。數(shù)據(jù)按照“二八原則”分布,大部分集中在頭部。傳統(tǒng)的分析方法會首先把尾部數(shù)據(jù)全部去掉,因?yàn)槲膊康臄?shù)據(jù)太多、而且雜亂,用傳統(tǒng)的規(guī)則沒有辦法分析,而對于頭部數(shù)據(jù),會用十幾~幾十個(gè)特征或規(guī)則進(jìn)行刻劃。
這樣的人工智能問題有什么問題呢?數(shù)據(jù)的價(jià)值并沒有被完全發(fā)揮出來。
以證券公司為例,10萬客戶和1個(gè)億客戶的證券公司,如果只用頭部的客戶數(shù)據(jù)特征的話,兩家公司對客戶數(shù)據(jù)分析得出的結(jié)論沒有區(qū)別,無非是什么年齡、什么性別、什么學(xué)歷的人會喜歡什么樣的產(chǎn)品等特征。但如果能用到更多特征、分析更細(xì)分群體的話,兩者的結(jié)論將會有很大區(qū)別。1個(gè)億客戶的基金公司可能會發(fā)現(xiàn)一個(gè)100人的群體,他們的特征、喜好一致,那么公司就能基于此進(jìn)行精準(zhǔn)營銷。而這100客戶在只有10萬用戶的基金公司對應(yīng)的可能之后1~2人,不能得到可信的結(jié)論。
只有用上所有的數(shù)據(jù),并且分析得盡可能精細(xì),數(shù)據(jù)量才能成為壁壘,量大的數(shù)據(jù)產(chǎn)生的價(jià)值才能比量少數(shù)據(jù)更大。
我曾經(jīng)在今日頭條、百度蜂巢工作過。當(dāng)時(shí),今日頭條日活是幾千萬,特征總量大概有幾十億到幾百億,這意味著每個(gè)用戶都有上百個(gè)標(biāo)簽,公司就能能精確區(qū)分一個(gè)用戶在周二早上上班路上喜歡看什么新聞,或周五晚上下班后在家里夜深人靜時(shí)喜歡看什么等,所以推薦效果可以做得非常精細(xì)。百度的搜索廣告也是類似的,我們對一個(gè)什么樣的人在什么搜索關(guān)鍵詞下會看什么廣告的組合有非常精細(xì)的刻畫,每天上新的廣告有上千萬,日活上千萬,在這樣復(fù)雜的場景下用機(jī)器刻畫,會有大量的特征量、規(guī)則量。
高維度對商業(yè)的影響
2012年,F(xiàn)acebook上市,但上市后四個(gè)月,它的股價(jià)就連續(xù)暴跌。我們當(dāng)時(shí)和Facebook從市廣告技術(shù)同事聊天,發(fā)現(xiàn)那時(shí)Facebook只用了大概2000維的特征刻畫用戶,但這完全不能夠非常精細(xì)的、非常準(zhǔn)確地預(yù)測一個(gè)人點(diǎn)擊廣告的概率,或在什么場景上會想要買什么東西。
2013、2014年時(shí),一大批Google的廣告、算法工程師加盟Facebook從事廣告業(yè)務(wù),他們把當(dāng)時(shí)2千維系統(tǒng)做到2千億維,相當(dāng)于提升了1億倍的維度。從2013年末到2014年始,F(xiàn)acebook的股價(jià)一路攀升,走上了傳奇之路,維度對于整個(gè)Facebook收入提升至關(guān)重要。
在全國性商業(yè)銀行的信用卡中心,每天有大概上百萬筆的交易,這些交易過了風(fēng)控之后,由銀行來決定能不能讓某個(gè)人交易分期。對于能交易分期的人,比如每天有一百萬個(gè),可以通過短信方式營銷。但如何鎖定這群人呢?
首先把分期進(jìn)行目標(biāo)拆解,把用戶收入拆解成短信發(fā)送量×短信響應(yīng)率×分期費(fèi)率。通過短信發(fā)送歷史,就能知道每個(gè)用戶到底最終是否辦理了交易分期,并基于此建立預(yù)測模型。這樣在發(fā)送短信之前,就知道某個(gè)用戶接收之前的概率高低,并進(jìn)一步優(yōu)化響應(yīng)率。這種數(shù)據(jù)量并不大,但在當(dāng)時(shí)銀行里也算是最大的人工智能數(shù)據(jù)。當(dāng)時(shí)用到2T數(shù)據(jù),大概有4千萬左右的歷史發(fā)送的短信量,我們在其中抽取了很多特征,包括短信的信息、帳戶的信息、持卡人、卡片、交易的信息等,共有5千萬維信息,并且,最終響應(yīng)率提升68%的和收入提升61%。
傳統(tǒng)模型和AI模型之前存在一些本質(zhì)的區(qū)別。
維度是最大的區(qū)別。拿汽車分期問題為例,我們發(fā)現(xiàn)某個(gè)POS機(jī)進(jìn)行汽車分期的概率會特別大,這個(gè)POS來源于一個(gè)小型母嬰店, 這對于專家來說并不是特別復(fù)雜的問題。但問題在于這個(gè)母嬰店很小,日流量是100、200規(guī)模,全國這樣的母嬰店有幾千上萬家,專家不可能逐家分析這樣的母嬰店,但機(jī)器可以,這正是機(jī)器的優(yōu)勢。只要我們能把問題變得足夠復(fù)雜,機(jī)器就能分析每個(gè)維度。
另一方面是迭代自學(xué)習(xí)。傳統(tǒng)專家規(guī)則是事先確定的,可能每隔一段時(shí)間,比如半年、一年進(jìn)行一次規(guī)則調(diào)整。但改變很難,一方面成本高;另一方面,調(diào)整要求兼容原來的規(guī)則,同時(shí)加入新的規(guī)則,這是一件很藝術(shù)的事情。但對于機(jī)器學(xué)習(xí)、人工智能模型來說,在高維下加入新的特征、新的規(guī)則是非常容易的。正如AlphaGo每下一次棋,都會把棋譜拿回來復(fù)盤,使自己下棋的能力變得更高。
另外,電商推薦、智能理財(cái)、差異化定價(jià)、信貸、閱讀、智能客服、個(gè)性化定制產(chǎn)品等都能用到人工智能。所以人工智能的價(jià)值是非常大的,想象的空間也是非常大的。將來問題的解決需要很高的維度,同時(shí)用復(fù)雜的模型,用高維的模型解決高維的問題。這個(gè)理論是有科學(xué)依據(jù)的。
Vapnik和Chervonenkis兩位科學(xué)家提出了“VC”理論,來描述模型里函數(shù)復(fù)雜度的問題。函數(shù)復(fù)雜度可以類比為人腦神經(jīng)元的個(gè)數(shù),如果有更高的“VC”維,有更高函數(shù)能力,類比為有更多神經(jīng)元,即為更強(qiáng)的智能能力。比如說人腦腦細(xì)胞數(shù)量比小白鼠腦內(nèi)數(shù)量要多很多,所以說人比小白鼠聰明很多。所以說在將來復(fù)雜情況下,我們要不斷的提升“VC”維,讓企業(yè)運(yùn)營的效率得到不斷的提升。
最近深度學(xué)習(xí)在圖像上的發(fā)展日新月異,從2010年到2016年,圖象識別錯(cuò)誤率在不斷降低。2016年錯(cuò)誤率已經(jīng)達(dá)到了3.1%,而人做同樣圖片識別錯(cuò)誤率是5%。也就是說,2016年之后,對于標(biāo)準(zhǔn)的數(shù)據(jù)庫圖片,計(jì)算機(jī)識別的能力比人要高。在這樣的成績背后,從2010年到2015年,圖像識別維度從最開始幾十萬維,一直升到上億維,更高的維度讓整個(gè)效果有很大的提升。
總而言之,在將來的企業(yè)運(yùn)營中需要有更高的維度,VC維的上升使得AI能力提升,從而使得企業(yè)能解決更復(fù)雜的問題,提升企業(yè)效率,進(jìn)而提升企業(yè)競爭力,搶到更多的客戶,提供更好服務(wù)。
人工智能贏在維度。
基于此,讓人工智能落地有五大要素。第一要有明確的業(yè)務(wù)定義;第二需要不斷的外部反饋,比如AlphaGo需要不斷與人下棋,需要外部反饋不斷輸入;第三需要很強(qiáng)的外部資源;第四需要頂尖的數(shù)據(jù)科學(xué)家;第五需要大數(shù)據(jù),大數(shù)據(jù)加上機(jī)器學(xué)習(xí)等于人工智能。
相關(guān)文章:
易道博識:我們是如何用人工智能做商業(yè)自動(dòng)化并實(shí)現(xiàn)盈利的
IBM人工智能技術(shù)商業(yè)化落地現(xiàn)狀:目前已滲透到60多個(gè)職業(yè)領(lǐng)域
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。