0
本文作者: 黃善清 | 2019-08-19 21:44 | 專題:IJCAI 2019 |
雷鋒網(wǎng) AI 開發(fā)者按:8 月 10 日至 16 日,IJCAI 2019 在中國澳門隆重召開,其中 14 日至 16 日為 Industry Day 環(huán)節(jié),是大會專為業(yè)界思想碰撞與交流而設(shè)的重磅環(huán)節(jié),邀請了眾多來自國內(nèi)外的 AI 企業(yè)與機(jī)構(gòu)代表前來做大會報(bào)告。
當(dāng)中,京東集團(tuán)副總裁、京東數(shù)字科技首席數(shù)據(jù)科學(xué)家、京東城市總裁鄭宇做了場題為《Building Intelligent Cities with Big Data and AI》的大會報(bào)告,在本次報(bào)告中,他強(qiáng)調(diào)了智能城市領(lǐng)域數(shù)據(jù)的特殊性,他表示,時(shí)空數(shù)據(jù)擁有不一樣的結(jié)構(gòu)與屬性,意味著需要使用不一樣的數(shù)據(jù)管理與人工智能算法來進(jìn)行應(yīng)對,而不能單純直接套用已有針對語音、圖像和文本的算法。
大會報(bào)告結(jié)束后,AI 開發(fā)者對鄭宇進(jìn)行了專訪,請其解讀針對大會報(bào)告中的最新研究成果,并趁機(jī)聊了聊京東智能城市研究院的最新近況。以下為采訪全文。
鄭宇獨(dú)家解讀《Building Intelligent Cities with Big Data and AI》大會報(bào)告
簡單來說,城市的數(shù)據(jù)種類很多,所以讓大家感覺有點(diǎn)紛繁復(fù)雜,按以前的方法,大家就會來一個(gè)數(shù)據(jù)建一個(gè)表格,并未對數(shù)據(jù)的結(jié)構(gòu)與規(guī)律進(jìn)行分析。
所以我們準(zhǔn)備做這么一個(gè)統(tǒng)籌的事情。
首先,我們針對數(shù)據(jù)的結(jié)構(gòu)以及關(guān)聯(lián)的時(shí)空屬性,做了一個(gè)分類方法上的設(shè)計(jì)。
按照結(jié)構(gòu)區(qū)分,可分為:
點(diǎn)數(shù)據(jù)
網(wǎng)絡(luò)數(shù)據(jù)
按照關(guān)聯(lián)的時(shí)空屬性區(qū)分,可分為三種:
空間靜態(tài)時(shí)間靜態(tài)
空間靜態(tài)時(shí)間動(dòng)態(tài)
時(shí)空動(dòng)態(tài)
將這三種時(shí)空屬性乘以兩種結(jié)構(gòu),我們就會獲得六種數(shù)據(jù)的分類方式。
什么是時(shí)空靜態(tài)的點(diǎn)數(shù)據(jù)?我們會說像個(gè)車站或賓館,它的位置是不變的;賓館的屬性,比如有多少層樓,房間有多大,同樣也是固定的。所以它既是時(shí)空靜態(tài)數(shù)據(jù),也是點(diǎn)數(shù)據(jù)。
什么是空間靜態(tài)時(shí)間動(dòng)態(tài)數(shù)據(jù)?傳感器,比如我們把一個(gè)空氣質(zhì)量監(jiān)測站點(diǎn)建在一個(gè)地方,建好后它的位置是不變的,但它的讀數(shù)卻每個(gè)小時(shí)都在變化著。
什么是時(shí)空動(dòng)態(tài)的數(shù)據(jù)?比如你給滴滴發(fā)請求時(shí),可能 13:10 也同樣有個(gè)人在給滴滴發(fā)請求,然后 13:20 又有另一個(gè)人在同個(gè)地方給滴滴發(fā)請求,這也意味著它的時(shí)間和空間是一直在變化的,甚至包括還有人使用摩拜掃碼。這些都屬于時(shí)空變化的點(diǎn)數(shù)據(jù)。
除此之外,這三類時(shí)空屬性的數(shù)據(jù)還有對應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)。
路網(wǎng)其實(shí)是一個(gè)靜態(tài)結(jié)構(gòu),路一旦修好后,它的結(jié)構(gòu)是不變的,它屬于空間靜態(tài)時(shí)間靜態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)。
可一旦我們往馬路上疊加交通流量,它立馬就變成一個(gè)空間靜態(tài)時(shí)間動(dòng)態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)。
那什么屬于時(shí)空都動(dòng)態(tài)的網(wǎng)絡(luò)數(shù)據(jù)呢?比如固定軌跡,即是一系列點(diǎn)的結(jié)合,它同樣也是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
換而言之,這六種數(shù)據(jù)結(jié)構(gòu)覆蓋了一座城市涉及的所有數(shù)據(jù)類型,我們可以用這 6 種結(jié)構(gòu)來表示所有數(shù)據(jù),或者用它的組合來表達(dá)所有類型。
那么數(shù)據(jù)的類型不一樣,從時(shí)空屬性上來說又存在哪些差異?
在時(shí)間和空間方面,它們都擁有專屬的距離與空間層次。從距離上說,比如兩個(gè)點(diǎn)之間的距離、兩邊之和大于第三邊三角不等式以及地理學(xué)第一定律;從空間上說,包括一個(gè)城市、不同區(qū)域、不同街道、不同小區(qū)。處在不同的層次,它所代表的含義是不一樣的,那么你在不同層次上的表達(dá),對于運(yùn)算的體現(xiàn)與幫助也是有差別的。
從時(shí)間上分析的話,它的屬性包括臨近性、周期性以及趨勢性三大塊。
所謂鄰近性,即是相鄰的兩個(gè)時(shí)間點(diǎn),它的讀數(shù)可能會比較接近,比如離得不遠(yuǎn)的兩個(gè)身體,所感受到的氣溫都會比較接近;另外我們也看到時(shí)空數(shù)據(jù)存在著周期性,比如今早8點(diǎn)的交通流量很可能與昨天早上8點(diǎn)的交通流量是很相似的,而今早 8 點(diǎn)的交通流量則與今天中午 12 點(diǎn)的交通流量特別不一樣,這就打破了之前我們所說的鄰近規(guī)律,這個(gè)時(shí)候我們就可以看下一個(gè)屬性;趨勢性,這其實(shí)是一種預(yù)判,比如可能隨著氣溫變得越來越冷,我們起床起得越來越晚,然后出門的時(shí)間也就越來越晚,因此早高峰也就出現(xiàn)得越來越晚。
所以說周期性并非恒定不變的,而是擁有一個(gè)趨勢性的上揚(yáng)或下降,我想表達(dá)的就是這個(gè)意思。
在明確好數(shù)據(jù)模型后,考慮到數(shù)據(jù)的結(jié)構(gòu)與屬性不一樣,因此我們得有專門的管理方法。
演講中我主要談三點(diǎn),分別是效率問題、版權(quán)保護(hù)問題和安全問題。
先說效率問題,我們現(xiàn)在有一個(gè)大系統(tǒng),可以用更少的資源,以更快的速度來處理數(shù)據(jù),特別是軌跡數(shù)據(jù)管理這一塊。同時(shí)它已兼容已有的云計(jì)算平臺,這一點(diǎn)其實(shí)很重要,說明我們無需從頭建立平臺,只要改變一下存儲格式,就能有效提升軌跡數(shù)據(jù)的查詢效率至一百倍,索引和數(shù)據(jù)和存儲的大小也減少了七倍。這些都是跟最好的方法進(jìn)行對比。
過去我們并不重視時(shí)空數(shù)據(jù)的版權(quán)保護(hù)問題,比如你把時(shí)空數(shù)據(jù)拷貝一份拿出來賣,然后別人再拷貝一份拿去賣,你也無從得知,因?yàn)檫\(yùn)轉(zhuǎn)單都一樣。高階一點(diǎn)的,會隨意幫你做點(diǎn)修改,然后告訴你這個(gè)數(shù)據(jù)是屬于我的。一旦缺乏這種保護(hù)機(jī)制,未來就很難形成一個(gè)數(shù)據(jù)融合共享機(jī)制。
解決方案方面,我們的一個(gè)具體想法是讓數(shù)據(jù)帶有密鑰,首先將空間化成區(qū)域,再把軌跡放到空間里,利用空間將軌跡切成幾段,然后每一段里面再按照另外一個(gè)密鑰參數(shù)切成很多時(shí)間小段,接著每一小段里會隱藏一個(gè)億比特的信息。隱藏的方式是什么?我們的方法是算這一段軌跡的質(zhì)心,而這個(gè)質(zhì)心有個(gè)地理學(xué)的計(jì)算定律。當(dāng)我懷疑別人在出售我的數(shù)據(jù)時(shí),我就把它拿來并用算法進(jìn)行提取,如果連續(xù)好幾個(gè)提取出來都是我的信息,那就基本可以肯定是我的秘鑰做的。原理有點(diǎn)像數(shù)字水印,但卻是符合軌跡數(shù)據(jù)的。
國內(nèi)業(yè)界有幾個(gè)正在思考這件事情的人,至于學(xué)界思考這件事情的人基本上等于零。業(yè)界有這個(gè)需求,卻不知道應(yīng)該怎么做;學(xué)界的人并不怎么在乎這件事情,因?yàn)閿?shù)據(jù)分享對他們而言就是一件免費(fèi)的事情?,F(xiàn)在我們經(jīng)常說要推數(shù)據(jù)交易,搞大數(shù)據(jù)交易平臺,可你缺乏這一塊技術(shù)的話,你說誰敢賣,對吧?
第三點(diǎn)是安全性,因?yàn)橛行?shù)據(jù)的機(jī)密性太強(qiáng),是不允許進(jìn)行分享的,比如說結(jié)婚登記數(shù)據(jù)、社保信息、犯罪記錄等等。我們的解決方案是通過數(shù)字網(wǎng)關(guān)技術(shù)將各個(gè)平臺的內(nèi)部聯(lián)到一起,在不泄漏信息的情況下,把不可逆的中間結(jié)果拿來互換一番,最終解決各自的問題。
關(guān)于深度學(xué)習(xí)應(yīng)該怎么與時(shí)空數(shù)據(jù)相結(jié)合,我這里總結(jié)了三大挑戰(zhàn):
第一個(gè),怎么做數(shù)據(jù)變換。城市的好多數(shù)據(jù)拿來后,我們都是沒法直接使用的,畢竟它們不是簡單的圖片,不然可以直接放在CNN 或者 RNN上搞定。在這種情況下,我們應(yīng)該怎么做數(shù)據(jù)變換?
第二,怎么將時(shí)空屬性給 encode 進(jìn)去?如果完全不encode,只把它當(dāng)成一個(gè)數(shù)據(jù)來做的話,周期性、趨勢性就會反映不出來,你的結(jié)果就不會十分準(zhǔn)確。
第三,數(shù)據(jù)融合。怎么把不盡相同的數(shù)據(jù)融合在一起做決策?
基于這三者挑戰(zhàn),我們把現(xiàn)在可以使用深度學(xué)習(xí)能力進(jìn)行解決的城市應(yīng)用場景,變成了多種不同的時(shí)空應(yīng)用場景。
比如說城市里有些稀疏的站點(diǎn),在這之前我們預(yù)測這些站點(diǎn)的讀數(shù)應(yīng)該是多少,這是一類問題。
第二類問題,我把城市轉(zhuǎn)換變成均勻的格子,希望每個(gè)格子都能進(jìn)行預(yù)測。
第三點(diǎn)就是它可能并非均勻的網(wǎng)格,而是由不規(guī)則的網(wǎng)格所組成,在這種前提下應(yīng)該怎么做預(yù)測?
第四點(diǎn)是做區(qū)域與區(qū)域之間的轉(zhuǎn)移預(yù)測,這是相對于單點(diǎn)預(yù)測而言的,就是從A到B有多少人,從B到C又有多少人。
第五個(gè)就是我定義一個(gè)路線,然后想預(yù)測路線的時(shí)間、油耗等屬于動(dòng)態(tài)預(yù)測層面的東西。
AI 開發(fā)者:通過今日的分享,您想傳達(dá)的核心觀點(diǎn)是什么?
鄭宇:我今日的分享核心緊緊圍繞時(shí)空數(shù)據(jù),從數(shù)據(jù)表達(dá)、數(shù)據(jù)管理、數(shù)據(jù)分析到數(shù)據(jù)挖掘,提出了一整套不一樣的方法論,有別于過去針對文本與圖像的處理方案。其實(shí)任何一套數(shù)據(jù),都應(yīng)該擁有專屬的一套方法理論,從建模、表達(dá)、管理、存儲管理到挖掘分析一整套流程下來。
AI 開發(fā)者:城市數(shù)據(jù)整體來說可以分為幾種類型?
鄭宇:大概可以分為三大類。一類是以圖像為代表的非結(jié)構(gòu)化數(shù)據(jù),它的存儲與挖掘方法都是比較傳統(tǒng)的;第二類是以表格為存儲形式的政務(wù)數(shù)據(jù),比如一個(gè)人的姓、收入等等,都屬于表格結(jié)構(gòu)化的數(shù)據(jù);第三類就是我強(qiáng)調(diào)的時(shí)空數(shù)據(jù),這一類會比較特別,既不屬于前面兩類,也沒有太多人去關(guān)注。我們相信在 5G 時(shí)代來臨以后,第三類數(shù)據(jù)的數(shù)量會越來越大,這是未來毫無疑問的發(fā)展方向,所以我們就想重點(diǎn)去解決這部分問題。
AI 開發(fā)者:所以從您的角度來看,這部分問題的難點(diǎn)體現(xiàn)在什么地方?
鄭宇:如果是時(shí)空數(shù)據(jù)問題,我相信方法論總會推陳出新,再結(jié)合實(shí)際的問題,加上研究時(shí)間的投入,最終都會一個(gè)接一個(gè)被解決掉。
現(xiàn)在最重要的事情,是如何將大數(shù)據(jù)與人工智能領(lǐng)域的知識與行業(yè)背景、行業(yè)知識相結(jié)合,這其實(shí)是兩個(gè)不同的領(lǐng)域,一個(gè)是 domain work, 一個(gè)是 data science。你也許懂得很多工具模型、算法、K 平臺,但你可能不懂交通、不懂環(huán)境,那你的方法就很難落地。如何將理論與各個(gè)行業(yè)的業(yè)務(wù)知識進(jìn)行結(jié)合,并形成真正的落地方案,這也是我覺得目前國內(nèi)許多AI企業(yè)特別是研究院,都會遇到很多難點(diǎn)的環(huán)節(jié)。
AI 開發(fā)者:要組成一支既懂技術(shù)又懂業(yè)務(wù)的團(tuán)隊(duì),其實(shí)還挺有挑戰(zhàn)性的,京東智能城市研究院在這塊有哪些經(jīng)驗(yàn)可以分享的嗎?
鄭宇:我們的團(tuán)隊(duì)跟事業(yè)部是一種深度綁定、深度融合的關(guān)系,很多人在兩邊都同時(shí)兼有崗位。比如我們的成員有可能既是一個(gè)部門的經(jīng)理,也可能是研究院的一個(gè) CV 研究員。當(dāng)然,也有真正有個(gè)別少量的,不是特別多,這部分人就會純粹做研究,因?yàn)槲覀儺吘惯€是會需要一些基礎(chǔ)理論層面的東西,只不過是說我們會提前把問題進(jìn)行拆解,再告訴他我們大概需要的是一個(gè)什么屬性、什么功能的東西,然后交由他們?nèi)ソ鉀Q算法本源的問題。然后我們還有一部分人負(fù)責(zé)做銜接作用、偏應(yīng)用型的研究。
AI 開發(fā)者:京東智能城市研究院的人員結(jié)構(gòu)組成是什么樣的?
鄭宇:一大半人都是做的應(yīng)用型研究,一小半人做基礎(chǔ)型研究,大概是六四開的比例。人員數(shù)量方面,光 AI 部分目前已有三十幾個(gè)人,然后加上大數(shù)據(jù)團(tuán)隊(duì)的話,大概是一百來人的規(guī)模。
AI 開發(fā)者:您認(rèn)為一名 AI 開發(fā)者要想涉及智能城市領(lǐng)域,他必須具備哪些能力?
鄭宇:從技術(shù)層面來說,他起碼得具備數(shù)據(jù)挖掘的基礎(chǔ)知識。但要說真正去設(shè)計(jì)一個(gè)特別復(fù)雜的模型,那倒不一定,因?yàn)槲覀兊钠脚_都已經(jīng)將這些組件開放出來了,比如說交通流量預(yù)測、人員預(yù)測、空氣質(zhì)量預(yù)測、選址模塊等,你只要直接進(jìn)行調(diào)用,就可以快速構(gòu)建出自己的模型。
所以你只需要擁有基本的數(shù)據(jù)挖掘與人工智能基礎(chǔ)知識,但不用特別高深;第二是要懂應(yīng)用,且對行業(yè)背景有所了解,否則可供調(diào)用的模塊很多,但對于該使用哪個(gè)工具、業(yè)務(wù)需求是什么,這到底是一個(gè)預(yù)測問題,還是一個(gè)優(yōu)化問題,還是一個(gè)分類問題,還是一個(gè)回歸問題,在此基礎(chǔ)上從業(yè)務(wù)出發(fā),把它關(guān)聯(lián)回來。
AI 開發(fā)者:目前京東智能城市研究院有哪些招人的需求?
鄭宇:商業(yè)項(xiàng)目交付、解決方案產(chǎn)品經(jīng)理、行業(yè)專家,這些都是我們需要的人才。我們目前這一塊業(yè)務(wù)的增長非???,需要更多人一起加入進(jìn)來。
AI 開發(fā)者:您在這個(gè)領(lǐng)域深耕也有一段時(shí)日了,結(jié)合這些年的經(jīng)歷,您會怎么去定義“智能城市”這個(gè)概念?
鄭宇:在安全、穩(wěn)定的情況下去做數(shù)據(jù)互通,做到萬物互連、數(shù)據(jù)互通,這是第一層;第二層是大數(shù)據(jù)與智能技術(shù),利用大數(shù)據(jù)、人工智能技術(shù)去改變交通、金融等領(lǐng)域;第三層,它一定是個(gè)生態(tài)城市,包括宜居綠色的生態(tài),包括不同機(jī)構(gòu)與產(chǎn)業(yè)之間形成的技術(shù)合作,等于一個(gè)生態(tài),因?yàn)槲也豢赡苁裁磫栴}都自己解決。就是這樣一個(gè)概念。
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章