0
本文作者: 王剛 | 2021-07-25 19:31 |
7月17日-18日,國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會前沿會議(KDD Pre-Conference)在成都開幕。京東集團(tuán)副總裁、IEEE Fellow鄭宇博士在本次組織換屆中當(dāng)選為新一屆KDD China主席。
會上,鄭宇博士做了題為《智能城市操作系統(tǒng)》的現(xiàn)場演講,詳細(xì)闡釋了智能城市操作系統(tǒng)的五大特征。他提到,智能城市操作系統(tǒng)是新基建的核心內(nèi)容之一,是智能城市建設(shè)的底座和數(shù)字基石。
據(jù)介紹,智能城市操作系統(tǒng)的五大特征分別是:數(shù)據(jù)直通車解決城市全域數(shù)據(jù)匯聚問題,時(shí)空數(shù)據(jù)引擎應(yīng)對海量數(shù)據(jù)管理問題,時(shí)空智能引擎解決數(shù)據(jù)支撐賦能弱的問題,聯(lián)邦數(shù)字網(wǎng)關(guān)解決數(shù)據(jù)互通不足的問題,莫奈視窗解決城市數(shù)字孿生問題。
演講中,鄭宇博士分享了他的洞察,并透露了出版兩本暢銷書的心得、感受。
以下為原文,雷鋒網(wǎng)做了不改變原意的編輯整理。
非常高興能夠回到母校,我在這兒讀書九年,現(xiàn)在也是西南交通大學(xué)的兼職教授和博導(dǎo),所以我從來就沒有離開過交大。今天借這個機(jī)會分享一下我們最近的進(jìn)展。我今天題目叫做《智能城市操作系統(tǒng)》,這也是我們在雄安及其他一系列城市落地的成果。
數(shù)據(jù)被列為第五個生產(chǎn)要素,前四大分別是土地、勞動力、資金和技術(shù),每一個生產(chǎn)要素都導(dǎo)致了行業(yè)的巨大變革。
既然數(shù)據(jù)作為生產(chǎn)要素,哪里的數(shù)據(jù)最多?現(xiàn)在城市里面因?yàn)閳鼍岸?、用戶多,所以產(chǎn)生的數(shù)據(jù)也最多,而政府作為數(shù)據(jù)的管理者,有責(zé)任、有動力,我相信也有能力來管理好和使用好數(shù)據(jù)這一生產(chǎn)要素。
當(dāng)然,做這個事情的時(shí)候,由于缺乏一個有力的平臺和工具,也面臨以下三大困難:
1)數(shù)據(jù)壁壘問題,各個部門的數(shù)據(jù)在各自的服務(wù)器內(nèi)部要打通很難,有的東西可能因?yàn)檎咴蛩斜C艽胧?,也不能直接物理匯聚到一個地方。
2)現(xiàn)在有一些大數(shù)據(jù)平臺、云計(jì)算平臺,但并不是為智能城市專屬設(shè)計(jì)的。云計(jì)算可以支持語音、文本、視覺分析,但并不直接支持諸如交通流量預(yù)測、空氣質(zhì)量分析、充電樁選址等系列工作。
3)以往在建設(shè)智能城市的時(shí)候,往往是一個特別大的項(xiàng)目拆成很多小包,由不同的公司用各自的技術(shù)系統(tǒng)分別搭建,搭建完畢之后系統(tǒng)之間相互不關(guān)聯(lián),就造成了數(shù)據(jù)孤島,但也很難有一家公司靠一己之力把整個城市里面所有問題都解決掉。
為了應(yīng)對這三個挑戰(zhàn),我們就提出了智能城市操作系統(tǒng)。
這是我們過去15年的積淀,從城市計(jì)算的理論體系到最近3年的產(chǎn)業(yè)化,我一直就在做這個事情。怎么定位呢?
它(指智能城市操作系統(tǒng))是在云的上面、“腦”的下面,它是智能城市的數(shù)字基石。我們來做一個簡單的類比:如果把云比成我們的PC(因?yàn)樵评锩嬗杏?jì)算和存儲單元,就跟PC機(jī)里面有主板、有芯片是一個道理),我們的PC上面有個操作系統(tǒng),沒有這個操作系統(tǒng)的話,去開發(fā)軟件成本是很高的,可擴(kuò)展性很低。
在云上面,以前是沒有這樣一個專門為智能城市打造的操作系統(tǒng)的,因此我們就推出了智能城市操作系統(tǒng),它就相當(dāng)于PC機(jī)上面的操作系統(tǒng),有了操作系統(tǒng)之后,我們才搭建了辦公等的應(yīng)用,才會有更多的生態(tài)企業(yè)進(jìn)來,基于統(tǒng)一底座共同高效地開發(fā)。未來城市的交通大腦、環(huán)境大腦就是我們智能城市操作系統(tǒng)的一個應(yīng)用。
如何清楚地描述智能城市操作系統(tǒng)到底是什么?它不是系統(tǒng)集成,不是云,不是“腦”和中樞,不控制城市,它是智能城市的數(shù)字基石,這就是智能城市操作系統(tǒng)。
那么這個操作系統(tǒng)到底有什么亮點(diǎn)和價(jià)值呢?我們總結(jié)下來,有這五大方面的亮點(diǎn)和價(jià)值:
1)能夠?qū)θ驍?shù)據(jù)進(jìn)行感知和匯聚,這個其實(shí)很難。
2)能夠?qū)?shù)據(jù)進(jìn)行高效的管理,尤其是對城市里面的時(shí)空數(shù)據(jù),我們能夠提供比業(yè)界高10-100倍速度的查詢效率。
3)專門為智能城市打造的AI引擎,它不是通用的自然語言處理、語音識別和人臉識別算法,而是為智能城市專屬定制的算法模型。
4)聯(lián)邦數(shù)字網(wǎng)關(guān)。怎么樣在數(shù)據(jù)不出庫的情況下做聯(lián)合的建模,這是一個特別關(guān)鍵的安全技術(shù)。
5)數(shù)字孿生,這相當(dāng)于操作系統(tǒng)跟人的一個交互的界面。如果Windows沒有視窗系統(tǒng)的話,那它就是個Dos,就是命令行,系統(tǒng)強(qiáng)大的能力是不能得以展現(xiàn)的,所以數(shù)字孿生一方面去接收人的反饋,一方面把計(jì)算結(jié)果展現(xiàn)出來,形成一個良好的可視化交互界面。
這里,提一下數(shù)據(jù)的感知和接入。
城市的數(shù)據(jù)紛繁復(fù)雜,尤其是政府內(nèi)部每個委辦局的垂直系統(tǒng)都是由不同的公司在不同年代開發(fā)的,這些公司有的可能都已經(jīng)不存在了,要去接這些數(shù)據(jù)本身就很難,它的接口不一致、應(yīng)用系統(tǒng)不一致,那怎么辦呢?
如果每一個系統(tǒng)都要去開發(fā),花大量的成本去定制,這一定是很難有擴(kuò)展性的,因此我們就提出了一個自動化和半自動化結(jié)合的方式,能夠自動去識別各種數(shù)據(jù)接口,自動接入各種各樣的數(shù)據(jù),用低代碼或者是無代碼的方法高效接入、安全穩(wěn)定接入各種各樣的數(shù)據(jù)。
在雄安,我們就用的這個技術(shù)——看上去簡單,但是是最難的一部分,這也是我們過去兩年多做了大量的應(yīng)用和系統(tǒng)之后,歸納總結(jié)出來的一個方法、沉淀出的一套很好的工具,這叫“數(shù)據(jù)直通車”。也就是說,只要城市里有數(shù)據(jù),我們就能接,無論是政務(wù)的、IoT的還是視覺、語音文本的,都能高效接入?,F(xiàn)在雄安的這套系統(tǒng),把五十多個委辦局所有的業(yè)務(wù)系統(tǒng)數(shù)據(jù)都接入,跑在我們的平臺之上。
關(guān)于如何對數(shù)據(jù)進(jìn)行高效的管理,重點(diǎn)強(qiáng)調(diào)一下我們對于時(shí)空數(shù)據(jù)的管理。
城市里面有大量時(shí)空數(shù)據(jù),這個量有多大呢?比視頻、語音、文本和政務(wù)數(shù)據(jù)都要大很多,我們的很多數(shù)據(jù)都是有時(shí)間屬性和空間坐標(biāo)的時(shí)空數(shù)據(jù),包括電網(wǎng)、路網(wǎng)、飛機(jī)軌跡,所有的能源消耗、IoT、環(huán)境都是時(shí)空數(shù)據(jù)。大概算了一下,一個城市里面一天的時(shí)空數(shù)據(jù)的量比一個城市過去十年的政務(wù)數(shù)據(jù)的總和都要多,所以現(xiàn)在其實(shí)還沒有哪個政府能夠真把這些時(shí)空數(shù)據(jù)都接入,現(xiàn)在屬于接不住、管不好,用不了、看不清的一個狀態(tài)。
如果城市里面大量數(shù)據(jù)是時(shí)空數(shù)據(jù),而智慧城市又不去管理和處理它,整個智慧城市數(shù)據(jù)的價(jià)值要素的價(jià)值就沒有發(fā)揮出來。
針對這個現(xiàn)狀,我們做了一系列的工作:首先提出了六個時(shí)空數(shù)據(jù)模型,能夠用這個數(shù)據(jù)模型,把城市里面看似紛繁復(fù)雜的各類數(shù)據(jù)都裝下,裝下來以后,針對每一類模型的設(shè)計(jì)、特有的管理算法和分析挖掘算法,保證數(shù)據(jù)的一致性。
其次,我們把這些數(shù)據(jù)模型、時(shí)空索引技術(shù)和分布式技術(shù)進(jìn)行結(jié)合。
以前算力不夠的時(shí)候,大家就會去堆機(jī)器做并行和分布式,這是一條路徑,但是如果能夠把時(shí)空索引技術(shù)跟分布式進(jìn)行結(jié)合,就可以用更少的機(jī)器、更少的資源做更高效的計(jì)算,而這些高效的計(jì)算帶來的并不僅僅只是效率和時(shí)間,甚至是生命。
城市操作系統(tǒng)里的AI技術(shù),有以下三個亮點(diǎn):
1)城市里大量數(shù)據(jù)是時(shí)空數(shù)據(jù),有周期性、臨近性和趨勢性,也有空間的距離、層次等屬性,我們作時(shí)空AI建模時(shí)就要把這些屬性考慮進(jìn)來。
2)城市里面,我們往往要用到多種數(shù)據(jù)的融合,而不是單一數(shù)據(jù)。比如做交通流量預(yù)測,除了交通本身,我們還用到氣象甚至事件,還有周邊的學(xué)校和廠礦信息,都需要把很多數(shù)據(jù)融合在一起。
3)把能力沉淀下來,變成模塊,放到平臺里面開放。早年間的PM2.5預(yù)測是用傳統(tǒng)的物理學(xué)和機(jī)理模型做的,準(zhǔn)確率只有60%。在行業(yè)里面,專家告訴我們有30年沒有技術(shù)突破。后面我們通過大數(shù)據(jù)和人工智能方法把這個精度從60%提到80%,提高了20個百分點(diǎn),然后推廣到中國的300多個城市。后來我們把這些能力沉淀成模塊,放到城市操作系統(tǒng)里開放出來給第三方使用,利用這些模塊就像搭積木一樣,只需要1人兩天時(shí)間就可以搭建出一個類似的應(yīng)用。
我們也是一邊做理論,一邊做實(shí)踐。我們一直強(qiáng)調(diào)“頂天立地”,給學(xué)生說論文的題目一定是來自于實(shí)際的工程項(xiàng)目,所以是從實(shí)際的工程中抽練抽象題目,完成之后落地應(yīng)用,有了結(jié)果之后再去發(fā)表論文,其實(shí)這本是論文的本質(zhì)。發(fā)表論文無非是跟同行去分享我們的經(jīng)驗(yàn),推動整個行業(yè)的進(jìn)步,所以我希望未來各位同學(xué)也能夠按照這個理念去做研究,就一定能越做越好。
關(guān)于聯(lián)邦數(shù)字網(wǎng)關(guān),楊強(qiáng)老師的團(tuán)隊(duì)在國際上面是非常領(lǐng)先的,在政府應(yīng)用場景里面也是非常有需求的。
政府有很多部門的數(shù)據(jù),像公安、財(cái)稅的都是垂直匯報(bào),你想完全把它集中到一個物理機(jī)房,不太可行,也沒有必要。政府有時(shí)候想跟企業(yè)之間建立關(guān)系,利用企業(yè)和政府的數(shù)據(jù)來聯(lián)合做一件事情。
大眾如何理解聯(lián)邦學(xué)習(xí)?
我們?nèi)绻巡煌臋C(jī)構(gòu)表示成不同的麥田,這個機(jī)構(gòu)里的數(shù)據(jù)就是這個麥田里的小麥。那么首先把兩個聯(lián)邦數(shù)字網(wǎng)關(guān)分別放在兩個麥田的內(nèi)部,用這個磨麥機(jī)把小麥進(jìn)行粗加工,變成了面粉,這個面粉是不能回溯出你小麥本身的品質(zhì)的,因?yàn)檫@是個不可逆的過程,它不是加密,不是可以解密的。
然后我們把這個小麥的面粉拿出來,加上水和成面做成那個包子,這個包子就是我們想要的應(yīng)用數(shù)據(jù),但是我們從包子里面看不到小麥的任何信息,原始數(shù)據(jù)是沒有離開這個場景的各自的機(jī)房的,這就是我們一個簡單的聯(lián)邦學(xué)習(xí)的示意,但其實(shí)比它要更加嚴(yán)謹(jǐn)。
我們第一個案例是跟聯(lián)通智慧足跡做的。
大家知道,聯(lián)通有很多線下的營業(yè)網(wǎng)點(diǎn),位置都特別好,往往都在市中心,但是現(xiàn)在大家很少去營業(yè)廳辦理業(yè)務(wù)了,基本上手機(jī)辦理,那些資源就閑置了,所以聯(lián)通會覺得這么好的資源怎么重新利用呢?
他們想的辦法是拿出一些營業(yè)廳出來改造成一些智能的網(wǎng)點(diǎn),什么叫智能網(wǎng)點(diǎn)呢?加入一些先進(jìn)的電子化設(shè)備讓大家體驗(yàn),但是這個區(qū)域的人到底喜歡什么樣的電子化設(shè)備呢?其實(shí)聯(lián)通是不知道的,如果你在一個學(xué)生聚集的區(qū)域,假設(shè)學(xué)生比較喜歡小米的產(chǎn)品,我們?nèi)シ帕撕芏嗵O果的設(shè)備,就沒有人去體驗(yàn),只要有人去體驗(yàn)它就可以轉(zhuǎn)化。
那問題又來了,怎么樣考慮用戶的購買行為和興趣,以及結(jié)合聯(lián)通用戶本身的分布情況,既考慮存量用戶也考慮增量用戶,來選出有限的網(wǎng)點(diǎn)進(jìn)行改造?并使得改造之后的收益獲客率最大化?這就變成一個問題了。
基于京東多年的知識庫的沉淀,所以把兩個數(shù)據(jù)庫進(jìn)行聯(lián)合建模,兩邊各自算,算完之后得到一個值,做一些排名算法或者預(yù)測算法,就可能得到一個結(jié)果,這就是一個典型的案例。
楊強(qiáng)老師這兩年帶領(lǐng)我們?nèi)プ稣麄€國際的標(biāo)準(zhǔn),這也是咱們?nèi)A人的驕傲。另外,現(xiàn)在我們的聯(lián)邦數(shù)字網(wǎng)關(guān)也通過了信創(chuàng)和公安部的認(rèn)證,我想未來中國也會走自主研發(fā)、自主可控的道路。
莫奈視窗是非常大的亮點(diǎn),這個就相當(dāng)于Windows視窗,如果Windows沒有視窗,就是Dos,這里面我們的莫奈視窗可以支持非常高效地通過拖拉拽的方法構(gòu)建我們各種各樣的展示和應(yīng)用,但它不只是個簡單展示,它一方面要展現(xiàn)結(jié)果,另一方面要接受反饋,還要去對下層的這種設(shè)備和系統(tǒng)進(jìn)行指導(dǎo)。
大家都聽過一個數(shù)字孿生的概念,其實(shí)莫奈就是支持?jǐn)?shù)字孿生的一個最好的工具,但數(shù)字孿生可能不同的人有不同的理解,我們也做了很多年,最后我也分享下我們的觀點(diǎn)。數(shù)字孿生有三個境界,三個層級。
第一個層級就是把物理世界在虛擬世界進(jìn)行1:1的建模,比如說這邊有一棟樓、一個大廳,這個大廳有多大、多少把椅子、椅子材質(zhì)、廠家是誰、哪個年代,全部數(shù)字化,但這只是第一層的,大家說這不就是3D地圖嗎?我也不認(rèn)為這是數(shù)字孿生。
第二層,物理世界里面已經(jīng)有大量的動態(tài)信息,比如說人流、車流信息,這種動態(tài)信息如何疊加過來,這就難了,因?yàn)檫@個量很大。如果把信息加載到我們的數(shù)字孿生體系里面來,你下面沒有強(qiáng)大的處理引擎、管理引擎,你連接都接不住,就更不要說看了,所以第二層就是要把大量的動態(tài)信息接入。
第三,對這些信息進(jìn)行分析和挖掘,產(chǎn)生決議,這個知識一定要去指導(dǎo)我們的行為,反控物理世界,指導(dǎo)物理世界人的真實(shí)的行為,比如說改變我們的出行軌跡、改變閘機(jī)開放狀態(tài)、改變紅綠燈信號、改變道路規(guī)劃的線路等等,這樣才形成了閉環(huán),
三點(diǎn)都做到了,才叫真正的數(shù)字孿生。
江蘇南通之前有105個指揮中心,我們在當(dāng)?shù)貛椭ê檬杏蛑卫憩F(xiàn)代化指揮中心后,把105個指揮中心全部打通,實(shí)現(xiàn)了四級聯(lián)動指揮,數(shù)據(jù)全部共享,然后做了大量的應(yīng)用,包括他們的消費(fèi)、經(jīng)濟(jì)、人流,全部都可以數(shù)字化,這樣的治理就會非常高效。
南通的輕紡業(yè)是最大的支柱產(chǎn)業(yè),但輕紡業(yè)的產(chǎn)業(yè)怎么發(fā)展?怎么布局?政府的資金怎么下?lián)??可能并不完全清楚,政府的?shù)據(jù)也不全,光靠經(jīng)信委、發(fā)改委、財(cái)政的數(shù)據(jù)也只是一個維度,我們還要結(jié)合一些互聯(lián)網(wǎng)的數(shù)據(jù),這個時(shí)候就需要用到聯(lián)邦學(xué)習(xí)了,建完之后我們還要加什么呢?還要加行業(yè)專家的知識。
做數(shù)據(jù)科學(xué)的人可能并不那么懂經(jīng)濟(jì)。懂宏觀經(jīng)濟(jì)的人可能不太懂大數(shù)據(jù)、人工智能,所以我們是把這個平臺做好之后,給我們的行業(yè)專家提供一套非常便利的工具,快速提煉他想要的各種指標(biāo),再結(jié)合專業(yè)知識寫出這個報(bào)告。我們并不是用AI去寫報(bào)告,而是用AI輔助經(jīng)濟(jì)學(xué)家來寫出高質(zhì)量的報(bào)告,這就是我們創(chuàng)新。
在南通,?;奋囕v是一個大問題,南通有兩千多家?;菲髽I(yè),但應(yīng)急管理的工作人員遠(yuǎn)遠(yuǎn)不足,根本管不過來,一旦危化品發(fā)生爆炸,對整個城市的隱患是極大的,那怎么辦呢?
我們有很多智能分析的方法,比如通過分析這些?;奋囕v的軌跡,找到它的駐留點(diǎn),再把駐留點(diǎn)去跟周邊的?;菲髽I(yè)進(jìn)行匹配,如果在一些沒有?;菲髽I(yè)的地方??苛?,要不是吃飯和加油的話,很可能是在非法的去拉一些黑工廠的?;罚@就是人工智能分析。通過數(shù)據(jù)結(jié)合,每一個禮拜南通都靠這個技術(shù)抓到5-6家非法復(fù)工的?;菲髽I(yè)或者是黑工廠,有大量的實(shí)戰(zhàn)成果。這也是中國第一個市域治理現(xiàn)代化指揮中心。
目前,智能城市操作系統(tǒng)其實(shí)在雄安、南通、北京很多地方都在落地,20多個城市在使用,除了這些落地場景之外,我們也在學(xué)術(shù)上去推進(jìn)。比如說京東智能城市牽頭承擔(dān)“國家物聯(lián)網(wǎng)與智慧城市重大專項(xiàng)”,是互聯(lián)網(wǎng)公司第一家做牽頭單位的,同時(shí),我們正在牽頭制定國際的智能城市操作系統(tǒng)標(biāo)準(zhǔn)。
過去兩年,我也有兩本書出版,一本是有關(guān)軌跡計(jì)算,據(jù)說是Springer旗下華人面最暢銷的十本計(jì)算機(jī)圖書;另外一個就是我們《城市計(jì)算》這本書,我也是寫完這本書才來業(yè)界工作。當(dāng)時(shí)我在想什么事情對我來說最重要,這個方法也跟大家去分享,如果你不知道什么對你最重要,你假設(shè)明天是你最后一天,你還有什么事情沒做完,你會感覺特別遺憾。
2017年的時(shí)候,我當(dāng)時(shí)想如果這本書沒寫完,我會特別遺憾,可能對我個人損失沒有太大,更多是我能不能把十幾年的知識沉淀下來,分享給這個社會。
我遇到很多同行專家,也有幾個院士跟我提到,希望我把智能城市操作系統(tǒng)寫出來,這是對行業(yè)有幫助的。從我寫完這文章之后,大家再搜一下城市操作系統(tǒng),現(xiàn)在已經(jīng)有很多家也推出來了各自的城市操作系統(tǒng)。我覺得能夠幫到行業(yè)、大家共同進(jìn)步、也是一個對社會的貢獻(xiàn)。 (雷鋒網(wǎng)雷鋒網(wǎng))
鄭宇博士
京東集團(tuán)副總裁、IEEE Fellow、美國計(jì)算機(jī)學(xué)會杰出科學(xué)家,具有超15年中美領(lǐng)先科技公司的管理和產(chǎn)品研發(fā)經(jīng)驗(yàn),是城市計(jì)算領(lǐng)域的先驅(qū)和奠基人,也是大數(shù)據(jù)、人工智能領(lǐng)域的領(lǐng)軍人物和實(shí)踐者。
他還是上海交通大學(xué)講座教授、南京大學(xué)、香港科技大學(xué)等多所知名高校的客座教授。他擔(dān)任人工智能頂尖國際期刊ACM TIST的主編、IEEE智能城市操作系統(tǒng)國際標(biāo)準(zhǔn)組主席、國家重點(diǎn)研發(fā)計(jì)劃-智慧城市與物聯(lián)網(wǎng)重大專項(xiàng)首席科學(xué)家、總負(fù)責(zé)人。
加入京東后,他開創(chuàng)了京東智能城市業(yè)務(wù)板塊,從0到1搭建了業(yè)務(wù)體系,為全國60多個城市提供了技術(shù)服務(wù)。他帶領(lǐng)團(tuán)隊(duì)設(shè)計(jì)和研發(fā)的城市操作系統(tǒng)成為雄安智能城市建設(shè)的數(shù)字基石;他作為總負(fù)責(zé)人在南通建設(shè)了中國第一個市域治理指揮中心,成為市域社會治理現(xiàn)代化的國家級標(biāo)桿。
2013年,他被MIT科技評論評為全球杰出青年創(chuàng)新者(TR35);2014年,被美國《財(cái)富》評選為中國40位40歲以下商界精英。2019年,作為大陸首位受邀學(xué)者,他在國際人工智能頂尖會議AAAI上發(fā)表主旨演講。2021年,根據(jù)AI2000的權(quán)威排名,鄭宇博士在數(shù)據(jù)挖掘領(lǐng)域的學(xué)術(shù)影響力位列中國第一。同年5月,因在智能城市領(lǐng)域作出杰出貢獻(xiàn),鄭宇博士被授予首都勞動獎?wù)隆?/p>
相關(guān)文章:
“摸石頭過河”,京東鄭宇5000字復(fù)盤“南通市域治理現(xiàn)代化實(shí)踐”背后心路
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。