0
本文作者: 我在思考中 | 2021-11-22 10:43 |
作者 | 王曄
目前,我國新的城市治理體系基本形成。與此同時,伴隨著經(jīng)濟社會的變革、大數(shù)據(jù)、互聯(lián)網(wǎng)的發(fā)展以及人工智能、云計算的興起,城市治理面臨著新要求、新挑戰(zhàn)的同時,也實現(xiàn)了跨越式的發(fā)展。
那么技術(shù)的進步為城市治理帶來了哪些進展?又面臨怎樣的瓶頸呢?
不久前,在CCAI 2021 大數(shù)據(jù)智能學術(shù)論壇上,過敏意教授分享了題為“面向城市治理的圖智能分析框架”的主題報告,分四部分介紹了城市治理方面的內(nèi)容。
過敏意 歐洲科學院外籍院士、上海交通大學講席教授、IEEE/CCF Fellow
過敏意教授是歐洲科學院外籍院士,上海交通大學致遠講席教授,電子信息與電氣工程學院計算機學科負責人,國家杰出青年基金獲得者,也是教育部創(chuàng)新團隊學術(shù)帶頭人,“973”計劃首席科學家。
他長期從事并行與分布式系統(tǒng)和云計算的研究,發(fā)表學術(shù)論文400多篇,著述英文著作4部,主持多項國家自然基金重點項目以及國家和省部級項目,曾獲得國家技術(shù)發(fā)明二等獎和省部級科技一等獎等多項獎項。
AI科技評論對過敏意教授在CCAI 2021 大數(shù)據(jù)智能學術(shù)論壇上的報告做了不改變原意的整理:
1. 從原來的物能說話,以數(shù)字化、網(wǎng)絡(luò)化為代表的城市管理,即智慧城市的初級形態(tài)。我們借助網(wǎng)絡(luò)實現(xiàn)連接使得物與物之間能夠互聯(lián)起來。
2. 到后來2.0版,就是物物對話。不僅是互聯(lián)網(wǎng),還有物聯(lián)網(wǎng)了。從物聯(lián)網(wǎng)在城市治理中的作用來看,運用系統(tǒng)化、程序化、標準化的手段,使城市各單元精確、高效、協(xié)同和持續(xù)發(fā)展,實現(xiàn)萬物互聯(lián)。
3. 到了3.0版,即人物協(xié)同。以人為本,充分發(fā)揮人機協(xié)同的作用,通過對城市大數(shù)據(jù)價值的挖掘,使城市各部分功能優(yōu)化運行,呈現(xiàn)的決策能夠更精準,最大程度地服務(wù)市民。
4. 4.0時代,就進入了城市大腦階段,即讓城市自身學會思考,能夠自主整合、引導(dǎo)和分配城市管理資源,具有自我優(yōu)化與進化能力,真正智慧化,這是最高版的城市精細化治理。
為了真正讓城市學會思考,實現(xiàn)城市治理智慧化,打造智慧、智能城市,我們正在實踐城市大腦的理念?!笆濉逼陂g,我們和阿里及杭州的“城云科技“合作,做了城市的交通管理、智慧停車等工作。
我們將人、機、物三元空間的物理世界、人類社會、信息社會得到的數(shù)據(jù)進行融合。結(jié)果發(fā)現(xiàn)越來越多的數(shù)據(jù),呈現(xiàn)出圖化的結(jié)構(gòu),其實是用圖的形式表示出來的。關(guān)于這個問題我們以前都沒有注意到,也沒有處理,但這樣以后很多數(shù)據(jù)都不能夠精準處理。因此,在城市化治理中,圖化治理場景是一個關(guān)鍵挑戰(zhàn)。
五個不同領(lǐng)域的圖化治理場景:
(3)醫(yī)療健康服務(wù)。生命健康基因圖譜的分析,也是圖的重構(gòu)、圖的迭代、圖的分析。還有人腦網(wǎng)絡(luò)的功能區(qū)域分析,現(xiàn)在腦電采集實際上都可以從圖的結(jié)構(gòu)里面反映出來,所以有大量的個性化的圖的分析。
因此目前對圖的分析和圖的管理越來越迫切,現(xiàn)在我們國家以及世界上很多科研機構(gòu)公司等都研發(fā)了一些面向圖計算的工具,但還是遇到了問題。
面對大規(guī)模結(jié)構(gòu)化的城市治理任務(wù),現(xiàn)有大數(shù)據(jù)計算平臺存在收斂慢、吞吐低問題,影響城市治理決策。
開發(fā)環(huán)境未針對圖應(yīng)用定制化設(shè)計,難以高效優(yōu)質(zhì)地進行執(zhí)行階段劃分
我們以前“十三五”期間做的事情,基本上都是用的傳統(tǒng)spark、MapReduce等大數(shù)據(jù)框架來做的,但是這些問題如果要弄到圖里面預(yù)處理,比如說圖要進行預(yù)置、分拆等等,用傳統(tǒng)框架就不適用了,它會非常慢,要循環(huán)往復(fù)來做。
(2)吞吐低:現(xiàn)有主流圖計算框架如PowerGraph/Ligra不支持高并發(fā)請求。
上述框架大都忽略了多用戶請求執(zhí)行共存的問題
現(xiàn)有主流圖計算框架如PowerGraph/Ligra等框架都是單機、單用戶的圖計算結(jié)構(gòu),雖然克服了spark、Mapreduce等的缺點,它可以圖分析、圖分解、圖查詢等,但是如果面向城市治理這些就不適用了,因為城市治理是高并發(fā)的。也就是說這些框架對高并發(fā)的圖的問題,都不太適用,所以就會遇到吞吐根本做不了城市大腦支撐的問題。
要解決上述問題就要做城市大數(shù)據(jù)協(xié)同計算框架。圖計算將成為未來城市大數(shù)據(jù)協(xié)同計算框架中的關(guān)鍵一環(huán),能夠支撐大規(guī)模高并發(fā)場景的圖智能分析尤其重要。
城市大數(shù)據(jù)協(xié)同計算框架
我們以前做了很多Mapreduce、PowerGraph的處理,但是還缺乏圖請求調(diào)度、圖結(jié)構(gòu)分析、圖數(shù)據(jù)分割、圖查詢、圖生成等面向圖計算的工具。所以 我們就一定要把這些工具給數(shù)據(jù)融合、數(shù)據(jù)感知開發(fā)出來。如果沒有圖分析、圖查詢、圖管理、圖結(jié)構(gòu)分析等,是沒有辦法支撐整個城市大數(shù)據(jù)協(xié)同平臺的。所以我們要在有限的資源下,處理高并發(fā)多元圖數(shù)據(jù)分析的請求,對單用戶的圖計算框架實行高并發(fā)多用戶的圖計算框架的轉(zhuǎn)變。
那么如何高效執(zhí)行不同用戶提交的多元化圖計算請求呢?
目前,我們要做的事情是實現(xiàn)可擴展和可持續(xù)。
擴展性需求:隨著圖規(guī)模和圖計算服務(wù)的激增,需解決平臺峰值負載問題。
高并發(fā)圖的圖分析、圖查詢也延續(xù)到了一些人工智能算法,比如說現(xiàn)在做人工智能的技術(shù)處理,如果講大模型,比如說GBT-3 1 751億個參數(shù)跑一次訓(xùn)練,相當于一輛用油汽車跑70萬公里,那么這對可持續(xù)發(fā)展、低碳環(huán)保非常不利。所以說圖計算也是這樣的,如果不斷地進行圖的迭代往復(fù),如果算法不好,那么可擴展、可持續(xù)都不行,所以現(xiàn)在各大公司和云商像華為和阿里都對此非常重視,都自己開發(fā)了這方面的工具對圖進行分析。我們有一個課題做國家重點研發(fā)計劃現(xiàn)在也是做的圖處理這方面的事情。
但是并發(fā)圖計算不同于如今的線上數(shù)據(jù)密集型計算(如MapReduce),更不同于以往的高性能數(shù)值計算。
對并發(fā)圖計算來講,請求間和請求內(nèi)的協(xié)同優(yōu)化變得更重要
比如做并行計算時,以往的傳統(tǒng)的并行計算比較規(guī)則,我從一個處理到下一個CPU的處理,通信是比較規(guī)則的。這邊處理好以后,下一個通信基本上模式是一樣的。但是并發(fā)圖不一樣,圖的計算模式是不規(guī)則的,這個到下一個的并發(fā)處理有可能是A節(jié)點到B節(jié)點,下一個可能是C節(jié)點到D節(jié)點,模式是完全不一樣的不規(guī)則的。
所以其中通信、優(yōu)化和它的并發(fā)都和原來的高性能計算完全不同,因此比較具有挑戰(zhàn)性。與數(shù)據(jù)密集型計算不一樣,和高性能計算也不一樣,即與以計算和數(shù)據(jù)為中心的都不一樣,我們現(xiàn)在要強調(diào)以圖為中心的計算。
并發(fā)圖計算主要面臨的瓶頸主要有以下三個。
(1)用戶圖計算請求主要有圖管理、圖分析。在圖管理方面,已有較多并發(fā)性優(yōu)化工作,比如說數(shù)據(jù)倉庫、圖查詢等。但對圖分析方面,比如管理查詢不到結(jié)果以后怎么樣能夠?qū)Ψ诺交鶎訂卧鰶Q策來,這方面還缺乏研究,易成為性能瓶頸,所以說我們要做這方面的事情。
(2)并發(fā)圖分析任務(wù)之間的不規(guī)則干擾,多個圖算法并發(fā)執(zhí)行時,會在時間與空間兩個維度對處理器和內(nèi)存等資源進行搶占,且干擾方式不規(guī)則,優(yōu)化空間很大。
(一)工業(yè)界項目概述
現(xiàn)在工業(yè)界對于圖的分析、圖的并發(fā)、圖的查詢非常重視,但是圖拓撲屬性分析現(xiàn)在還不多。Apache 上目前的開源圖計算系統(tǒng)主要以圖數(shù)據(jù)庫管理為主,面向圖拓撲屬性分析的并發(fā)圖管理系統(tǒng)還處于萌芽階段。這是我們調(diào)查下來整個Apache Graph Systems的列表,大概就是這幾十個:
(二)學術(shù)界研究總覽
早期基本上關(guān)注的是圖的請求,焦點主要是圖查詢。到2014年開始有并發(fā)圖分析,然后多用戶并發(fā)圖比如圖數(shù)據(jù)共享已經(jīng)開始關(guān)注了;2017年提出多圖多用戶場景,但對圖請求內(nèi)部缺乏分析;到2018年對請求內(nèi)部特征優(yōu)化以及圖并發(fā)的計算進行考慮。國內(nèi)主要在做的高校是上海交通大學、華中科技大學、北京大學。
(三)上海交通大學做的一些工作
(1)圖化治理任務(wù)的并發(fā)計算框架
文章先后發(fā)表在IEEE ICCD和IEEE TPDS上
我們做的工作就是對圖化治理任務(wù)的并發(fā)計算做了一個框架,也就是對線下進行繪像線上調(diào)度相結(jié)合,將訪存特性傳遞給調(diào)度器,這樣并發(fā)的會比較快,消息傳遞就會比較快。然后提出架構(gòu)感知的負載均衡和線程調(diào)度、優(yōu)化多圖的并發(fā)運行的效果請求性能可以提升5.4倍了。實現(xiàn)了一套面向圖化治理任務(wù)的冗余操作削除機制,對整個圖存在的冪律分布、縮減操作等都做了分析,然后改進了圖化治理任務(wù)流程,使分析提升了很多倍。
文章先后發(fā)表在IPDPS和ACM TACO上
如果將圖放到編程框架里面進行描述是很方便的。如果變成框架以后,就像人工智能框架一樣對編程是非常方便的。圖計算原子操作復(fù)雜,然后GPU內(nèi)存利用率是不高的。如果要對這些圖利用GPU來說,對于并發(fā)是絕對沒有問題的。所以改進數(shù)據(jù)結(jié)構(gòu),從圖冪律分布出發(fā)削減冗余的計算操作,我們提出統(tǒng)一內(nèi)存利用高效的圖計算原子操作,優(yōu)化多圖資源利用,搞出一個編程框架來對圖的算法進行精準的描述,就可以比較容易的對圖的性進行提升。
這是我們圖分析框架的編程接口,先把一個問題變成一個圖的結(jié)構(gòu)一個任務(wù),比如說多少頂點多少邊互相怎么連接,頂點預(yù)處理,然后對活躍邊進行更新,頂點生成等等迭代技術(shù)處理。經(jīng)過這一套預(yù)備、更新、生成框架以后,整個圖的分析和高并發(fā)處理就非常簡單了。
這是效果,實現(xiàn)系統(tǒng)資源高效利用。
(一)公共衛(wèi)生治理平臺
借助數(shù)據(jù)泛在發(fā)現(xiàn)和優(yōu)化組合,建立起多源異構(gòu)城市環(huán)境氣象數(shù)據(jù)的跨時空圖結(jié)構(gòu)關(guān)聯(lián)性。
這是我們和中國城市治理研究院合作的,他們的需求是對霧霾進行監(jiān)控,這個有點像對臭氧層的監(jiān)控一樣的,我們也是布了很多傳感器,然后用圖進行分析,對霧霾進行分析和處理。
第一個是利用空間的關(guān)聯(lián)分析制定霧霾判斷分析。這是對中國的31個省、市、自治區(qū)的霧霾和工業(yè)產(chǎn)值的關(guān)系的分析,所有的關(guān)聯(lián)數(shù)據(jù)都可以給出一個框架和處理,整個過程都有圖的分析和決策在里面。
(二)交通客流監(jiān)控平臺
借助城市大數(shù)據(jù)三元空間群智發(fā)現(xiàn)與群智建模,實現(xiàn)了多元多模數(shù)據(jù)下的多視圖細粒度人群分析。
這是我們和深圳地鐵集團對城市交通軌道進行了分析。這個數(shù)據(jù)很簡單,每個地鐵站實際上就是一張圖。
這張圖干什么用呢?就是實時監(jiān)控,比如進站人數(shù),出站人數(shù),在網(wǎng)人數(shù)等。然后用不同的顏色標出來,幾號線、哪個站有多少人等。這樣會便利人們的交通出行。比如知道坐哪條線、哪邊換乘??土黝A(yù)測精準度從87%提高到95%。
借助城市大數(shù)據(jù)的深度迭代計算,完成了實時感知與靜態(tài)預(yù)測的融合,實現(xiàn)城市人口的高效分布推演。
數(shù)據(jù)量:百萬級車輛千萬級用戶 需求方:深圳市交通運輸委
做什么事呢?人口密集時,有可能會出現(xiàn)危險。人口密度一般來說比較均勻,如果出現(xiàn)紅點了,那么就是人口密度超過正常均值,我們一般在800×800m的范圍內(nèi),比如說2萬人口是正常分布,如果超過兩萬就是熱點,黑洞表示人口密度超過正常均值的2倍,就要警示就是要派警力來疏散人群等等。這完全就是一個圖的分析,利用六維數(shù)據(jù)對圖進行分析對人口密度進行高度精準的預(yù)測。
這些方面,我們主要是和深圳、杭州,阿里城市大腦合作,進行大數(shù)據(jù)的分析,包括人、機、物三元空間分析以及圖分析工具都集成在一個平臺系統(tǒng)里面。前期相關(guān)技術(shù)應(yīng)用于阿里城市大腦、網(wǎng)易數(shù)據(jù)地圖等關(guān)鍵資源密集型應(yīng)用場景,整體性能提升顯著。去年也拿到了教育部科技進步一等獎。
首先是高并發(fā)圖化治理任務(wù)的硬件加速。這方面現(xiàn)在還沒有做,我們知道人工智能硬件加速非???。我認為硬件加速非常重要,如果有了硬件,那么我們用傳統(tǒng)的GPU和CPU進行調(diào)度會省很多事。針對圖算法,比如說給它可重構(gòu)計算加速硬件化,那么如何對動態(tài)參數(shù)調(diào)節(jié),比如說基于GPU加速的自適應(yīng)架構(gòu)等等,也是研究的另外一個課題。
硬件加速,這是一個自適應(yīng)的。比如說控制部件也可以硬件化。整個的軟硬件協(xié)同設(shè)計的一個框架必須要做出來。這對整個高并發(fā)圖計算的平臺會產(chǎn)生非常大的影響。
(二)圖化治理任務(wù)的運行時自主優(yōu)化
第二個是運行時自主優(yōu)化?,F(xiàn)在用戶請求、請求預(yù)處理及特征表示、調(diào)度分配等等這一套,還不是在更精準的狀態(tài)下可以做到。必須我們事先預(yù)知一些算法,一些統(tǒng)計上的框架來做。今后可能實現(xiàn)自主管理,自主調(diào)度。
(三)智慧城市多元化圖計算服務(wù)平臺
建立統(tǒng)一的并發(fā)圖計算多元支撐平臺,制定設(shè)計規(guī)范和關(guān)鍵技術(shù)標準,完善接入機制,促進高質(zhì)量多元化的圖計算服務(wù)。
做服務(wù)平臺,針對面向政務(wù)的、面向民生的、面向產(chǎn)業(yè)的能不能有一個統(tǒng)一化的平臺這個可能就比較大了。比如說現(xiàn)在在做城市特征的一些東西,面向政務(wù)的要求可能就會完全不一樣,要做這方面就會遇到很大的挑戰(zhàn)。
我認為這方面可以做很多事情,而且必須是要做的。目前對圖的多程序圖負載、圖并發(fā)機制的基準測試程序還很少。以及性能評估標準如何制定這一方面,弄出一個benchmark來大家都可以用,我們也正在做這件事。
圖計算應(yīng)用正快速普及,涉及智慧城市的方方面面
發(fā)展具有大規(guī)模高并發(fā)特性的圖計算系統(tǒng)正當其時
前期探索表明相關(guān)技術(shù)具有較高學術(shù)價值和應(yīng)用潛力
并發(fā)圖計算離不開底層硬件和系統(tǒng)軟件的密切配合
相關(guān)設(shè)計規(guī)范和評估體系尚不完備,機遇挑戰(zhàn)并存
雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。