1
本文作者: 李雨晨 | 2017-07-14 22:08 | 專題:GAIR 2017 |
雷鋒網(wǎng)消息,2017 年 7 月 8 日,由 CCF (中國計算機學會)主辦,雷鋒網(wǎng)與香港中文大學(深圳)承辦的全球人工智能與機器人峰會 CCF-GAIR 大會進入第二天。科技谷CEO陳思恩博士進行了題為“交通出行大數(shù)據(jù)——引爆智能商業(yè)新浪潮”的演講。他表示,公路、鐵路和民航等交通方式具有巨大的出行量,每年有數(shù)十億的需求,這其中就存在 AI 和大數(shù)據(jù)的需求,AI 落地的場景會逐步在出行的領(lǐng)域滲透。
陳思恩還認為,算法必須要和運籌學結(jié)合起來,因為最終實現(xiàn)的是數(shù)據(jù)驅(qū)動決策,真正的AI是要跟大數(shù)據(jù)有一個有效的融合,去解決用戶的痛點。
以下為陳思恩演講實錄,雷鋒網(wǎng)做了不改變原意的修改。
陳思恩:大家好,今天上午的最后一個環(huán)節(jié)由我給大家介紹一下 AI+交通出行的方向,其實大家看到這個命題就知道在這個領(lǐng)域里面肯定不會是一個偽命題,也不會是一個偽賽道,因為現(xiàn)在無論是創(chuàng)業(yè)公司還是投資機構(gòu)都擔心做的方向錯了。科技谷公司選擇的方向是在公路、鐵路和民航的出行上。大家知道一年鐵路有 30 億人次的出行量,民航大概有 5 億人次,公路總共有 30 億人次,在這里面有大量優(yōu)化的需求。也就是說他會存在 AI 和大數(shù)據(jù)的需求。隨著 AI 和大數(shù)據(jù)的推演, AI 落地的場景會逐步在出行的領(lǐng)域滲透。
傳統(tǒng)的智能改造方向已經(jīng)產(chǎn)生很多的應(yīng)用,從早期的人工智能到現(xiàn)在的機器學習。機器學習是實現(xiàn)人工智能的一種方法,而深度學習是對機器學習技術(shù)的推進??萍脊缺旧韺W⒃诮煌ǔ鲂泻痛髷?shù)據(jù)方向,在這個方向里面,不管是航空公司還是機場都有大量的需求,大家可以看到,在運營方面還是在收益、營銷的體系建設(shè)方面都有需求所在,同時大數(shù)據(jù)的引入需求也是比較旺盛的,所以我們選擇的點主要是在收益優(yōu)化和安防方向,也就是維穩(wěn)這個方向。
可以看到在交通大數(shù)據(jù)和 AI 這個方向的結(jié)合是比較好的,因為交通數(shù)據(jù)比較容易開放,而且開放完以后比較容易產(chǎn)生價值。首先它也是需要遵循一定的規(guī)則,大數(shù)據(jù)前面這一波的熱潮出來之后使得很多交通數(shù)據(jù)形成了堆積,無論是使用什么樣的大數(shù)據(jù)廠商提供的服務(wù),都把數(shù)據(jù)匯總起來了,這是很關(guān)鍵的。后面就用統(tǒng)計和機器學習的方法去建立相關(guān)的模型,為算法做一些準備。我們認為算法跟運籌的最優(yōu)解可以結(jié)合,因為最終是要實現(xiàn)某一個供應(yīng)鏈的配置,比如說通過客流、民航、鐵路和公路找到最優(yōu)解。同時能夠增加多種收益,比如說收放倉的控制,這種環(huán)節(jié)都需要用到一些比較核心的 AI 的算法,而且能夠自動化控制。
我們認為在交通出行領(lǐng)域需要三個要素才能夠比較好地實現(xiàn)整個環(huán)節(jié),也就是說它首先是需要有大量的數(shù)據(jù),無論是內(nèi)部還是外部的,這里面需要有大數(shù)據(jù)的掌控公司,同時還需要有大數(shù)據(jù)的中間商,也就是買賣、交易,現(xiàn)在國內(nèi)做了很多的交易所,還有一種是大數(shù)據(jù)的技術(shù)公司,可能是從統(tǒng)計部分的機器學習,再加上計算機的原理去實現(xiàn)大數(shù)據(jù)的架構(gòu),到后面需要用深度學習的方法去落地,所以三個環(huán)節(jié)是很重要的,一個是大數(shù)據(jù)本身,另外一個是大系統(tǒng),也就是前期在推使用的算法,要用什么樣的構(gòu)架來跑,還有你的服務(wù)器用什么方式來做。后面就是算法跟運籌優(yōu)化這一塊結(jié)合,解決一些比較實際的用戶的痛點。
為什么會跟運籌這一塊結(jié)合起來?因為你最終實現(xiàn)的是數(shù)據(jù)驅(qū)動決策,真正的AI是要跟大數(shù)據(jù)這一塊有一個有效的融合,去解決用戶的痛點,比如說如何更好地實現(xiàn)它的票價,更好地最優(yōu),會員日的如何更好地把優(yōu)惠券以合理的價格、合理的時間推送到真正有需求的用戶手上,這些都是真正去解決它的實際痛點。
在交通出行這一塊的分布,我們也是采用了漸進式的方式。什么叫漸進式?就是說它會采用除了PDCA形成一個閉環(huán),然后逐步 AI 實現(xiàn)的就是人工介入部分,把大數(shù)據(jù)落地。然后用工程的方式來做,所以我們把國外很多facebook、推特這些可以觸達旅客的點結(jié)合起來,比如說航空公司在訂票的時候,他根本不知道他的哪些顧客來自facebook,哪些來自推特。但是通過我們和他們合作,可以找到機票的用戶從哪里來,下一次有優(yōu)惠信息的時候可以推薦到他的行程上。把國外的數(shù)據(jù)源帶到國內(nèi),對大的航企、12306都有很大的幫助,也就是直接帶客源進去,他在整個大數(shù)據(jù)的連接上面產(chǎn)生價值之后,就需要開始去做內(nèi)部的數(shù)據(jù)深挖,這時候就需要用機器學習的方法,甚至是一些AI深度學習的方法去做。
外部的數(shù)據(jù)引入之后,就需要對某個人或者某個事件做畫像,這個航線要怎么畫像,客源是怎么來的,這些都要有深度的識別,對我們來說是上百個維度的識別。這些推演的背后就是機器學習,它是人工智能很好的實現(xiàn)方法,同時深度學習也是對機器學習很好的實現(xiàn),就像《黑鏡》里面的女主角通過機器學習的方式,在社交網(wǎng)絡(luò)上模仿她的男朋友的語態(tài)。你要更了解你的客戶,才能真正實現(xiàn)更好的策略。
剛才講的是大數(shù)據(jù)的數(shù)據(jù)部分,接下來是系統(tǒng)部分,微軟在這一塊有HD inside,我們也有自己的inside套裝,我們認為在企業(yè)需要混合云來搭,就像12306在出行高峰的時候用阿里云的資源,降低它的主機的負荷。所以分布式架構(gòu)用混合云的架構(gòu)會長期存在,而且對云端的依賴會加大,就像華為進入公有云的市場,中興通訊也有它的云,國內(nèi)是阿里云比較有名,我們也把我們的系統(tǒng)搭建在亞馬遜的云上,通過混合云的架構(gòu)幫助客戶實現(xiàn)大系統(tǒng)的搭建。
接下來這是我們的大系統(tǒng)的架構(gòu),因為要跟云結(jié)合,里面包含了各種技術(shù)的組合,然后有我們自己的 SDK,封裝了很多方式,這種方法已經(jīng)用在國內(nèi)的很多大型的航空公司和鐵路的12306,這里面還包括一些推薦的引擎和算法,這完全是To B的架構(gòu),但是它做的是B2C的方向。
這里面有兩個重要的東西,一個是平臺,在這個點上跟其它的平臺是大同小異的,但是它會偏行業(yè),因為行業(yè)的東西是比較不一樣的,特別是數(shù)據(jù)清洗這個環(huán)節(jié),還包括在數(shù)據(jù)建模。因為算法跑起來,模型是很重要的,還有約束條件、建模的方式都是不一樣的。另外inside這一塊是比較有特點的,也就是我們的套裝化之一,這里面含了畫像的場景、關(guān)系圖譜。知識圖譜里面很重要的一個就是建RDF,也就是整個關(guān)系建立的套件,還有推薦引擎和算法。這里面涉及到數(shù)據(jù)建模的優(yōu)化和神經(jīng)網(wǎng)絡(luò)的東西,所以這個套件我們花了大概三四年的時間,而且這個很需要在大的數(shù)據(jù)庫里面去練。因為我們做得比較早,在這個領(lǐng)域里面,像12306,中國大的企業(yè)都是我們的客戶,所以我們這個產(chǎn)品得到了很好的歷練,它相對來說是能夠接受體量很大的數(shù)據(jù)場景去找最優(yōu)解。
在這個之上,它這里面涉及到大量的運算方式,比如說畫像的場景,它可以支持上千個維度的自動化,它是通過參數(shù)配置的,自動化形成多種算法的場景。同時在推薦系統(tǒng)上也是多種關(guān)聯(lián),時間節(jié)點、分布式算法,同時對用戶行為進行預(yù)測。
之后我們關(guān)注在我剛才提到的三個要素,一個是數(shù)據(jù),第二個是平臺,第三個是算法。算法我們選擇的是收益這個環(huán)節(jié),我們能夠真正幫用戶實現(xiàn)收益,也就是 AI 這一塊新的優(yōu)化。就像星河互聯(lián)的傅總講的,航空這一塊的自動化程度高,但是對創(chuàng)業(yè)公司也不意味著沒有太多的機會,國外做這一塊的就有好幾家公司,但是國產(chǎn)化的公司還沒有,酒店行業(yè)現(xiàn)在有幾家起來了,但是航空產(chǎn)業(yè)基本上是沒有的,我們會從航空和鐵路的收益環(huán)節(jié)去做,把大量的運算放在云端,客戶用租用的方式就可以實現(xiàn)對算法的采購,用許可的方式和服務(wù)費、訂閱費的方式去支付我們的產(chǎn)品費用。
收益這一塊,我們也是大概6個月的時間可以幫助客戶實現(xiàn)從大數(shù)據(jù)的引入到平臺的建設(shè),到收益優(yōu)化算法的建立。所以現(xiàn)在已經(jīng)有比較大的合作伙伴在用這套系統(tǒng),而且這個平臺可以直接用于更多的平臺性的客戶,比如說阿里的飛豬、美團、滴滴,它需要做求解器,收益有關(guān)場景的用戶都會去用,我們會先從航空和鐵路這方面的客戶做起。
這里面具體做什么?在航空領(lǐng)域,它的 NO-SHOW 的模型也是要改變的,因為天氣數(shù)據(jù)現(xiàn)在都是開放的,這些維度的數(shù)據(jù)要實時的整合,你的算法現(xiàn)在不是靜態(tài)模型,而是需要動態(tài)模型,同時你在外部的行為都是動態(tài)的,這些環(huán)節(jié)都需要導入,導入完以后你對NO-SHOW這個環(huán)節(jié),包括座位分配的環(huán)節(jié),都要重新用機器學習的方式去做,最終實現(xiàn)一個最優(yōu)化。對航空公司來說,雖然是最優(yōu)化,但是它是基于機器學習的,最終它的 AI 對比就是說我算得比別人更準,我的收益提高得比別人更高,最終它就達到了結(jié)果,而且全面國產(chǎn)化是一個很好的趨勢,因為很多央企也都非常支持這個事情,我們這個公司現(xiàn)在就是在立足做國產(chǎn)化的收益求解器。同時我們在做的時候是用工程的方式落地,而不是把產(chǎn)品推過去用云的方式落地。針對大的企業(yè)級用戶,任務(wù)分解必須做得很細。這里面需要航旅類的企業(yè)配合,需要IT、營銷人員參與,當然任何做 AI 和大數(shù)據(jù)方向的都是公司的戰(zhàn)略決策,無論是首席數(shù)據(jù)官還是首席信息官,或者是 CEO 都要參與這個事情。中間它就需要我們的大數(shù)據(jù)工程師和數(shù)據(jù)科學方面的人一起整合去做這個事情,長期迭代服務(wù)才能夠建立比較有效的環(huán)節(jié),同時還要導入一些外部的數(shù)據(jù),因為企業(yè)內(nèi)部的數(shù)據(jù)遠遠是不夠的,包括 12306 都不敢稱自己是大數(shù)據(jù)公司,當然BAT是真正的大數(shù)據(jù)公司,因為它的數(shù)據(jù)夠多元化。
對科技谷來說最主要的是要幫客戶創(chuàng)造商業(yè)價值,帶來創(chuàng)新。真正使這套技術(shù)落地,給客戶變現(xiàn)帶來收益,所以我們也是立足這個方向,持續(xù)做這個市場相關(guān)的東西。
通過這幾年的積累,我們也建立了非常多的合作伙伴和客戶,因為要成就一個比較好的公司,它需要有一個完整的上下游的產(chǎn)業(yè)鏈配套,很多是我們的兄弟公司一起推動,對這種大的企業(yè),單打獨斗是很難在一個市場立足的。
我的報告就到這里,謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章