0
本文作者: 黃善清 | 2019-08-19 21:44 | 專題:IJCAI 2019 |
雷鋒網(wǎng) AI 開發(fā)者按:8 月 10 日至 16 日,IJCAI 2019 在中國(guó)澳門隆重召開,其中 14 日至 16 日為 Industry Day 環(huán)節(jié),是大會(huì)專為業(yè)界思想碰撞與交流而設(shè)的重磅環(huán)節(jié),邀請(qǐng)了眾多來(lái)自國(guó)內(nèi)外的 AI 企業(yè)與機(jī)構(gòu)代表前來(lái)做大會(huì)報(bào)告。
當(dāng)中,京東集團(tuán)副總裁、京東數(shù)字科技首席數(shù)據(jù)科學(xué)家、京東城市總裁鄭宇做了場(chǎng)題為《Building Intelligent Cities with Big Data and AI》的大會(huì)報(bào)告,在本次報(bào)告中,他強(qiáng)調(diào)了智能城市領(lǐng)域數(shù)據(jù)的特殊性,他表示,時(shí)空數(shù)據(jù)擁有不一樣的結(jié)構(gòu)與屬性,意味著需要使用不一樣的數(shù)據(jù)管理與人工智能算法來(lái)進(jìn)行應(yīng)對(duì),而不能單純直接套用已有針對(duì)語(yǔ)音、圖像和文本的算法。
大會(huì)報(bào)告結(jié)束后,AI 開發(fā)者對(duì)鄭宇進(jìn)行了專訪,請(qǐng)其解讀針對(duì)大會(huì)報(bào)告中的最新研究成果,并趁機(jī)聊了聊京東智能城市研究院的最新近況。以下為采訪全文。
鄭宇獨(dú)家解讀《Building Intelligent Cities with Big Data and AI》大會(huì)報(bào)告
簡(jiǎn)單來(lái)說(shuō),城市的數(shù)據(jù)種類很多,所以讓大家感覺(jué)有點(diǎn)紛繁復(fù)雜,按以前的方法,大家就會(huì)來(lái)一個(gè)數(shù)據(jù)建一個(gè)表格,并未對(duì)數(shù)據(jù)的結(jié)構(gòu)與規(guī)律進(jìn)行分析。
所以我們準(zhǔn)備做這么一個(gè)統(tǒng)籌的事情。
首先,我們針對(duì)數(shù)據(jù)的結(jié)構(gòu)以及關(guān)聯(lián)的時(shí)空屬性,做了一個(gè)分類方法上的設(shè)計(jì)。
按照結(jié)構(gòu)區(qū)分,可分為:
點(diǎn)數(shù)據(jù)
網(wǎng)絡(luò)數(shù)據(jù)
按照關(guān)聯(lián)的時(shí)空屬性區(qū)分,可分為三種:
空間靜態(tài)時(shí)間靜態(tài)
空間靜態(tài)時(shí)間動(dòng)態(tài)
時(shí)空動(dòng)態(tài)
將這三種時(shí)空屬性乘以兩種結(jié)構(gòu),我們就會(huì)獲得六種數(shù)據(jù)的分類方式。
什么是時(shí)空靜態(tài)的點(diǎn)數(shù)據(jù)?我們會(huì)說(shuō)像個(gè)車站或賓館,它的位置是不變的;賓館的屬性,比如有多少層樓,房間有多大,同樣也是固定的。所以它既是時(shí)空靜態(tài)數(shù)據(jù),也是點(diǎn)數(shù)據(jù)。
什么是空間靜態(tài)時(shí)間動(dòng)態(tài)數(shù)據(jù)?傳感器,比如我們把一個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)建在一個(gè)地方,建好后它的位置是不變的,但它的讀數(shù)卻每個(gè)小時(shí)都在變化著。
什么是時(shí)空動(dòng)態(tài)的數(shù)據(jù)?比如你給滴滴發(fā)請(qǐng)求時(shí),可能 13:10 也同樣有個(gè)人在給滴滴發(fā)請(qǐng)求,然后 13:20 又有另一個(gè)人在同個(gè)地方給滴滴發(fā)請(qǐng)求,這也意味著它的時(shí)間和空間是一直在變化的,甚至包括還有人使用摩拜掃碼。這些都屬于時(shí)空變化的點(diǎn)數(shù)據(jù)。
除此之外,這三類時(shí)空屬性的數(shù)據(jù)還有對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)。
路網(wǎng)其實(shí)是一個(gè)靜態(tài)結(jié)構(gòu),路一旦修好后,它的結(jié)構(gòu)是不變的,它屬于空間靜態(tài)時(shí)間靜態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)。
可一旦我們往馬路上疊加交通流量,它立馬就變成一個(gè)空間靜態(tài)時(shí)間動(dòng)態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)。
那什么屬于時(shí)空都動(dòng)態(tài)的網(wǎng)絡(luò)數(shù)據(jù)呢?比如固定軌跡,即是一系列點(diǎn)的結(jié)合,它同樣也是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
換而言之,這六種數(shù)據(jù)結(jié)構(gòu)覆蓋了一座城市涉及的所有數(shù)據(jù)類型,我們可以用這 6 種結(jié)構(gòu)來(lái)表示所有數(shù)據(jù),或者用它的組合來(lái)表達(dá)所有類型。
那么數(shù)據(jù)的類型不一樣,從時(shí)空屬性上來(lái)說(shuō)又存在哪些差異?
在時(shí)間和空間方面,它們都擁有專屬的距離與空間層次。從距離上說(shuō),比如兩個(gè)點(diǎn)之間的距離、兩邊之和大于第三邊三角不等式以及地理學(xué)第一定律;從空間上說(shuō),包括一個(gè)城市、不同區(qū)域、不同街道、不同小區(qū)。處在不同的層次,它所代表的含義是不一樣的,那么你在不同層次上的表達(dá),對(duì)于運(yùn)算的體現(xiàn)與幫助也是有差別的。
從時(shí)間上分析的話,它的屬性包括臨近性、周期性以及趨勢(shì)性三大塊。
所謂鄰近性,即是相鄰的兩個(gè)時(shí)間點(diǎn),它的讀數(shù)可能會(huì)比較接近,比如離得不遠(yuǎn)的兩個(gè)身體,所感受到的氣溫都會(huì)比較接近;另外我們也看到時(shí)空數(shù)據(jù)存在著周期性,比如今早8點(diǎn)的交通流量很可能與昨天早上8點(diǎn)的交通流量是很相似的,而今早 8 點(diǎn)的交通流量則與今天中午 12 點(diǎn)的交通流量特別不一樣,這就打破了之前我們所說(shuō)的鄰近規(guī)律,這個(gè)時(shí)候我們就可以看下一個(gè)屬性;趨勢(shì)性,這其實(shí)是一種預(yù)判,比如可能隨著氣溫變得越來(lái)越冷,我們起床起得越來(lái)越晚,然后出門的時(shí)間也就越來(lái)越晚,因此早高峰也就出現(xiàn)得越來(lái)越晚。
所以說(shuō)周期性并非恒定不變的,而是擁有一個(gè)趨勢(shì)性的上揚(yáng)或下降,我想表達(dá)的就是這個(gè)意思。
在明確好數(shù)據(jù)模型后,考慮到數(shù)據(jù)的結(jié)構(gòu)與屬性不一樣,因此我們得有專門的管理方法。
演講中我主要談三點(diǎn),分別是效率問(wèn)題、版權(quán)保護(hù)問(wèn)題和安全問(wèn)題。
先說(shuō)效率問(wèn)題,我們現(xiàn)在有一個(gè)大系統(tǒng),可以用更少的資源,以更快的速度來(lái)處理數(shù)據(jù),特別是軌跡數(shù)據(jù)管理這一塊。同時(shí)它已兼容已有的云計(jì)算平臺(tái),這一點(diǎn)其實(shí)很重要,說(shuō)明我們無(wú)需從頭建立平臺(tái),只要改變一下存儲(chǔ)格式,就能有效提升軌跡數(shù)據(jù)的查詢效率至一百倍,索引和數(shù)據(jù)和存儲(chǔ)的大小也減少了七倍。這些都是跟最好的方法進(jìn)行對(duì)比。
過(guò)去我們并不重視時(shí)空數(shù)據(jù)的版權(quán)保護(hù)問(wèn)題,比如你把時(shí)空數(shù)據(jù)拷貝一份拿出來(lái)賣,然后別人再拷貝一份拿去賣,你也無(wú)從得知,因?yàn)檫\(yùn)轉(zhuǎn)單都一樣。高階一點(diǎn)的,會(huì)隨意幫你做點(diǎn)修改,然后告訴你這個(gè)數(shù)據(jù)是屬于我的。一旦缺乏這種保護(hù)機(jī)制,未來(lái)就很難形成一個(gè)數(shù)據(jù)融合共享機(jī)制。
解決方案方面,我們的一個(gè)具體想法是讓數(shù)據(jù)帶有密鑰,首先將空間化成區(qū)域,再把軌跡放到空間里,利用空間將軌跡切成幾段,然后每一段里面再按照另外一個(gè)密鑰參數(shù)切成很多時(shí)間小段,接著每一小段里會(huì)隱藏一個(gè)億比特的信息。隱藏的方式是什么?我們的方法是算這一段軌跡的質(zhì)心,而這個(gè)質(zhì)心有個(gè)地理學(xué)的計(jì)算定律。當(dāng)我懷疑別人在出售我的數(shù)據(jù)時(shí),我就把它拿來(lái)并用算法進(jìn)行提取,如果連續(xù)好幾個(gè)提取出來(lái)都是我的信息,那就基本可以肯定是我的秘鑰做的。原理有點(diǎn)像數(shù)字水印,但卻是符合軌跡數(shù)據(jù)的。
國(guó)內(nèi)業(yè)界有幾個(gè)正在思考這件事情的人,至于學(xué)界思考這件事情的人基本上等于零。業(yè)界有這個(gè)需求,卻不知道應(yīng)該怎么做;學(xué)界的人并不怎么在乎這件事情,因?yàn)閿?shù)據(jù)分享對(duì)他們而言就是一件免費(fèi)的事情?,F(xiàn)在我們經(jīng)常說(shuō)要推數(shù)據(jù)交易,搞大數(shù)據(jù)交易平臺(tái),可你缺乏這一塊技術(shù)的話,你說(shuō)誰(shuí)敢賣,對(duì)吧?
第三點(diǎn)是安全性,因?yàn)橛行?shù)據(jù)的機(jī)密性太強(qiáng),是不允許進(jìn)行分享的,比如說(shuō)結(jié)婚登記數(shù)據(jù)、社保信息、犯罪記錄等等。我們的解決方案是通過(guò)數(shù)字網(wǎng)關(guān)技術(shù)將各個(gè)平臺(tái)的內(nèi)部聯(lián)到一起,在不泄漏信息的情況下,把不可逆的中間結(jié)果拿來(lái)互換一番,最終解決各自的問(wèn)題。
關(guān)于深度學(xué)習(xí)應(yīng)該怎么與時(shí)空數(shù)據(jù)相結(jié)合,我這里總結(jié)了三大挑戰(zhàn):
第一個(gè),怎么做數(shù)據(jù)變換。城市的好多數(shù)據(jù)拿來(lái)后,我們都是沒(méi)法直接使用的,畢竟它們不是簡(jiǎn)單的圖片,不然可以直接放在CNN 或者 RNN上搞定。在這種情況下,我們應(yīng)該怎么做數(shù)據(jù)變換?
第二,怎么將時(shí)空屬性給 encode 進(jìn)去?如果完全不encode,只把它當(dāng)成一個(gè)數(shù)據(jù)來(lái)做的話,周期性、趨勢(shì)性就會(huì)反映不出來(lái),你的結(jié)果就不會(huì)十分準(zhǔn)確。
第三,數(shù)據(jù)融合。怎么把不盡相同的數(shù)據(jù)融合在一起做決策?
基于這三者挑戰(zhàn),我們把現(xiàn)在可以使用深度學(xué)習(xí)能力進(jìn)行解決的城市應(yīng)用場(chǎng)景,變成了多種不同的時(shí)空應(yīng)用場(chǎng)景。
比如說(shuō)城市里有些稀疏的站點(diǎn),在這之前我們預(yù)測(cè)這些站點(diǎn)的讀數(shù)應(yīng)該是多少,這是一類問(wèn)題。
第二類問(wèn)題,我把城市轉(zhuǎn)換變成均勻的格子,希望每個(gè)格子都能進(jìn)行預(yù)測(cè)。
第三點(diǎn)就是它可能并非均勻的網(wǎng)格,而是由不規(guī)則的網(wǎng)格所組成,在這種前提下應(yīng)該怎么做預(yù)測(cè)?
第四點(diǎn)是做區(qū)域與區(qū)域之間的轉(zhuǎn)移預(yù)測(cè),這是相對(duì)于單點(diǎn)預(yù)測(cè)而言的,就是從A到B有多少人,從B到C又有多少人。
第五個(gè)就是我定義一個(gè)路線,然后想預(yù)測(cè)路線的時(shí)間、油耗等屬于動(dòng)態(tài)預(yù)測(cè)層面的東西。
AI 開發(fā)者:通過(guò)今日的分享,您想傳達(dá)的核心觀點(diǎn)是什么?
鄭宇:我今日的分享核心緊緊圍繞時(shí)空數(shù)據(jù),從數(shù)據(jù)表達(dá)、數(shù)據(jù)管理、數(shù)據(jù)分析到數(shù)據(jù)挖掘,提出了一整套不一樣的方法論,有別于過(guò)去針對(duì)文本與圖像的處理方案。其實(shí)任何一套數(shù)據(jù),都應(yīng)該擁有專屬的一套方法理論,從建模、表達(dá)、管理、存儲(chǔ)管理到挖掘分析一整套流程下來(lái)。
AI 開發(fā)者:城市數(shù)據(jù)整體來(lái)說(shuō)可以分為幾種類型?
鄭宇:大概可以分為三大類。一類是以圖像為代表的非結(jié)構(gòu)化數(shù)據(jù),它的存儲(chǔ)與挖掘方法都是比較傳統(tǒng)的;第二類是以表格為存儲(chǔ)形式的政務(wù)數(shù)據(jù),比如一個(gè)人的姓、收入等等,都屬于表格結(jié)構(gòu)化的數(shù)據(jù);第三類就是我強(qiáng)調(diào)的時(shí)空數(shù)據(jù),這一類會(huì)比較特別,既不屬于前面兩類,也沒(méi)有太多人去關(guān)注。我們相信在 5G 時(shí)代來(lái)臨以后,第三類數(shù)據(jù)的數(shù)量會(huì)越來(lái)越大,這是未來(lái)毫無(wú)疑問(wèn)的發(fā)展方向,所以我們就想重點(diǎn)去解決這部分問(wèn)題。
AI 開發(fā)者:所以從您的角度來(lái)看,這部分問(wèn)題的難點(diǎn)體現(xiàn)在什么地方?
鄭宇:如果是時(shí)空數(shù)據(jù)問(wèn)題,我相信方法論總會(huì)推陳出新,再結(jié)合實(shí)際的問(wèn)題,加上研究時(shí)間的投入,最終都會(huì)一個(gè)接一個(gè)被解決掉。
現(xiàn)在最重要的事情,是如何將大數(shù)據(jù)與人工智能領(lǐng)域的知識(shí)與行業(yè)背景、行業(yè)知識(shí)相結(jié)合,這其實(shí)是兩個(gè)不同的領(lǐng)域,一個(gè)是 domain work, 一個(gè)是 data science。你也許懂得很多工具模型、算法、K 平臺(tái),但你可能不懂交通、不懂環(huán)境,那你的方法就很難落地。如何將理論與各個(gè)行業(yè)的業(yè)務(wù)知識(shí)進(jìn)行結(jié)合,并形成真正的落地方案,這也是我覺(jué)得目前國(guó)內(nèi)許多AI企業(yè)特別是研究院,都會(huì)遇到很多難點(diǎn)的環(huán)節(jié)。
AI 開發(fā)者:要組成一支既懂技術(shù)又懂業(yè)務(wù)的團(tuán)隊(duì),其實(shí)還挺有挑戰(zhàn)性的,京東智能城市研究院在這塊有哪些經(jīng)驗(yàn)可以分享的嗎?
鄭宇:我們的團(tuán)隊(duì)跟事業(yè)部是一種深度綁定、深度融合的關(guān)系,很多人在兩邊都同時(shí)兼有崗位。比如我們的成員有可能既是一個(gè)部門的經(jīng)理,也可能是研究院的一個(gè) CV 研究員。當(dāng)然,也有真正有個(gè)別少量的,不是特別多,這部分人就會(huì)純粹做研究,因?yàn)槲覀儺吘惯€是會(huì)需要一些基礎(chǔ)理論層面的東西,只不過(guò)是說(shuō)我們會(huì)提前把問(wèn)題進(jìn)行拆解,再告訴他我們大概需要的是一個(gè)什么屬性、什么功能的東西,然后交由他們?nèi)ソ鉀Q算法本源的問(wèn)題。然后我們還有一部分人負(fù)責(zé)做銜接作用、偏應(yīng)用型的研究。
AI 開發(fā)者:京東智能城市研究院的人員結(jié)構(gòu)組成是什么樣的?
鄭宇:一大半人都是做的應(yīng)用型研究,一小半人做基礎(chǔ)型研究,大概是六四開的比例。人員數(shù)量方面,光 AI 部分目前已有三十幾個(gè)人,然后加上大數(shù)據(jù)團(tuán)隊(duì)的話,大概是一百來(lái)人的規(guī)模。
AI 開發(fā)者:您認(rèn)為一名 AI 開發(fā)者要想涉及智能城市領(lǐng)域,他必須具備哪些能力?
鄭宇:從技術(shù)層面來(lái)說(shuō),他起碼得具備數(shù)據(jù)挖掘的基礎(chǔ)知識(shí)。但要說(shuō)真正去設(shè)計(jì)一個(gè)特別復(fù)雜的模型,那倒不一定,因?yàn)槲覀兊钠脚_(tái)都已經(jīng)將這些組件開放出來(lái)了,比如說(shuō)交通流量預(yù)測(cè)、人員預(yù)測(cè)、空氣質(zhì)量預(yù)測(cè)、選址模塊等,你只要直接進(jìn)行調(diào)用,就可以快速構(gòu)建出自己的模型。
所以你只需要擁有基本的數(shù)據(jù)挖掘與人工智能基礎(chǔ)知識(shí),但不用特別高深;第二是要懂應(yīng)用,且對(duì)行業(yè)背景有所了解,否則可供調(diào)用的模塊很多,但對(duì)于該使用哪個(gè)工具、業(yè)務(wù)需求是什么,這到底是一個(gè)預(yù)測(cè)問(wèn)題,還是一個(gè)優(yōu)化問(wèn)題,還是一個(gè)分類問(wèn)題,還是一個(gè)回歸問(wèn)題,在此基礎(chǔ)上從業(yè)務(wù)出發(fā),把它關(guān)聯(lián)回來(lái)。
AI 開發(fā)者:目前京東智能城市研究院有哪些招人的需求?
鄭宇:商業(yè)項(xiàng)目交付、解決方案產(chǎn)品經(jīng)理、行業(yè)專家,這些都是我們需要的人才。我們目前這一塊業(yè)務(wù)的增長(zhǎng)非??欤枰嗳艘黄鸺尤脒M(jìn)來(lái)。
AI 開發(fā)者:您在這個(gè)領(lǐng)域深耕也有一段時(shí)日了,結(jié)合這些年的經(jīng)歷,您會(huì)怎么去定義“智能城市”這個(gè)概念?
鄭宇:在安全、穩(wěn)定的情況下去做數(shù)據(jù)互通,做到萬(wàn)物互連、數(shù)據(jù)互通,這是第一層;第二層是大數(shù)據(jù)與智能技術(shù),利用大數(shù)據(jù)、人工智能技術(shù)去改變交通、金融等領(lǐng)域;第三層,它一定是個(gè)生態(tài)城市,包括宜居綠色的生態(tài),包括不同機(jī)構(gòu)與產(chǎn)業(yè)之間形成的技術(shù)合作,等于一個(gè)生態(tài),因?yàn)槲也豢赡苁裁磫?wèn)題都自己解決。就是這樣一個(gè)概念。
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章