1
本文作者: 奕欣 | 2017-11-04 07:37 |
雷鋒網 AI 科技評論按:距離 8·12 天津濱海新區(qū)爆炸事故已經過去了兩周年。這起因危險品的不合理存放和管理導致的重大傷亡事故也讓高??蒲腥藛T高度關注如何用大數據來防患于未然。如何尋找這些存在潛在威脅的區(qū)域,又如何能規(guī)避危險的發(fā)生?北京航空航天大學計算機學院和經管學院的合作團隊研發(fā)了一個名為 Dangerous Goods Eyes (DGeye) 的系統(tǒng),這一研究論文已被今年的 KDD 接收。在雷鋒網 AI 科技評論的邀請下,第一作者、北京航空航天大學計算機學院王靜遠副教授撰寫了獨家稿件,闡述了 DGeye 的誕生始末及核心技術原理。
本文主要介紹 KDD 2017 的一篇有關城市大數據應用的論文:「No Longer Sleeping with a Bomb: A Duet System for Protecting Urban Safety from Dangerous Goods.」這篇論文被 KDD 2017 的 applied data science track 接收并做口頭報告。作者包括:
第一作者王靜遠,北京航空航天大學計算機學院,副教授;
第二作者陳超,北京航空航天大學計算機學院,碩士研究生;
第三作者吳俊杰,北京航空航天大學經管學院,教授;
第四作者熊璋,北京航空航天大學計算機學院,教授。
本論文發(fā)表于 8·12 天津濱海新區(qū)爆炸事故兩周年之際,希望論文所提出的技術路線能夠對改善城市危險品管理提供啟發(fā)和參考。論文詳細信息如下:
Jingyuan Wang, Chao Chen, Junjie Wu, Xiong Zhang, et al. "No Longer Sleeping with a Bomb: A Duet System for Protecting Urban Safety from Dangerous Goods." ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2017:1673-1681.
論文獲取地址: https://dl.acm.org/citation.cfm?id=3097985
汽油、化工原料、毒害物質等危化品的運輸與存儲安全是城市公共安全領域備受關注的研究課題。長久以來,由于危險品存儲與運輸不當而造成的城市安全事故層出不窮。2015 年 8 月 12 日,天津濱海新區(qū)危險品倉庫發(fā)生爆炸,造成了 173 人死亡、8 人失蹤、798 人受傷的嚴重事故。事故原因是涉案公司在靠近住宅區(qū)的地點違規(guī)存儲了近 3000 噸的?;凡l(fā)生自燃。類似的事故在西方發(fā)達國家也曾經出現過,2001 年 9 月,位于法國西南部工業(yè)城市圖盧茲的 AZF 化工廠發(fā)生強烈爆炸,事故造成 31 人死亡和 2500 人受傷。時任圖盧茲市市長事后表示,此次事故說明圖盧茲市民實際上是在「與炸彈同眠」。
圖 1. 國內外危險品事故
頻發(fā)的事故與慘痛的教訓反映出城市危險品安全問題的解決迫在眉睫,并且面臨著諸多挑戰(zhàn)。如何尋找城市中由于危險品的不合理規(guī)劃導致的危險區(qū)域?如何得知造成城市區(qū)域危險的原因?如何預測危險的發(fā)生?北京航空航天大學計算機學院和經管學院的合作團隊,研發(fā)的 Dangerous Goods Eyes (DGeye) 系統(tǒng)從大數據的角度為這些問題的解決提供了新的視角。
DGeye 系統(tǒng)主要由多元數據融合、危險模式挖掘、因果依賴網絡及其應用構成。下面我們將具體介紹這些部分。
DGeye 系統(tǒng)的數據來源由危險品運輸車輛軌跡和手機信令數據兩部分構成。首先是危險品車輛的軌跡數據。2010 年 7 月,國務院印發(fā)《關于進一步加強企業(yè)安全生產工作的通知》,要求自 2011 年 8 月 1 日起,所有新出廠的危險品運輸車輛,均需安裝北斗衛(wèi)星定位裝置。定位數據由地方交通管理部門進行分級收集管理,并接入交通部運營平臺,從而實現了對于全國危險品車輛位置的實時管理。
然而只了解危險品車輛的位置并不能完全滿足危險品管理的要求。DGeye 系統(tǒng)除了需要知道危險品在哪里之外,還需要了解「人」在哪里。手機信令數據(手機和基站之間進行信號連接的次數記錄,不記名、不含隱私信息)能夠統(tǒng)計城市中手機用戶的數量,DGeye 系統(tǒng)使用手機信令數據作為第二個主要的數據來源。
DGeye 系統(tǒng)使用柵格化方法,將城市地圖劃分為 500m×500m 的正方形區(qū)域,并對每一個區(qū)域的危險品車輛數據和手機用戶所代表的人口數據進行了統(tǒng)計。下圖使用 2015 年 1 月的數據,展示了北京和天津兩座城市中人口數量的分布和危險品車輛的分布情況(左圖為人口分布,右圖為危險品車輛分布)。
圖 2 京津兩市人口與危險品車輛分布
從圖 2 中可以看出,如果我們只考慮危險品車輛而不考慮人口的分布,會因為絕大多數危險品車輛都分布在城市外圍,而認為城市中心區(qū)域并沒有太嚴重的危險品運輸風險。因此需要對兩種數據進行融合。
數據融合的主要挑戰(zhàn)是兩類數據在尺度上的異構性。全北京的總人口超過兩千萬,但是危險品車輛的總數不超過一千輛,如果直接將兩種數據進行融合,危險品車輛的信息會完全淹沒在巨量的人口數據當中。為了解決這一問題,DGeye 使用馬氏距離將兩種數據進行尺度歸一化。對于一個區(qū)域,我們使用人口和危險品數量在馬氏距離空間上的乘積作為該區(qū)域的風險評分(Risk Score),如下圖所示:
當一個區(qū)域的風險評分高于某個閾值時,系統(tǒng)就認為該區(qū)域是一個風險區(qū)域(Risky Zone)。下圖展示了京津兩地的風險區(qū)域分布和每個區(qū)域的風險評分。顏色由綠到紅,表示 Risk Score 由低到高。從圖中可以看出,一些位于市中心的高風險區(qū)域被檢測了出來。
圖 3. 京津兩市的 Risky Zone 分布
然而,Risky Zones 并不能完全表達一個城市的風險分布,因為其僅能反映短暫的風險事件,為了發(fā)現穩(wěn)定、頻繁的風險區(qū)域,我們提出了一種 Apriori-like 算法來挖掘城市中風險區(qū)域的時空模式。該算法的功能是發(fā)現城市中「空間上相鄰」(co-location)、「時間上頻繁」(co-occurrence)的風險區(qū)域組合,即如下圖所示。
通過 Apriori-like 算法,DGeye 系統(tǒng)提取出了穩(wěn)定的城市風險模式。下圖為北京和天津兩座城市在風險模式上的比較。
圖 4. 京津兩市的風險模式空間分布
從圖中可以看出,北京較大規(guī)模的風險模式集中在城市中心區(qū)域,而天津較大規(guī)模的風險模式則集中在天津港區(qū)。這種差異反映出兩座城市具有不同的危險品運輸需求:北京的危險品需求多為加油站、餐飲燃氣等民用燃料為主,運輸車輛需要穿行市區(qū),因此在市中心造成連片的風險模式;而天津的危險品需求主要是天津港的?;愤M出口,因此風險模式集中在天津港區(qū)。
在時間分布上,京津兩市的風險模式也極為不同。如下圖所示,北京的危險品需求內在驅動力為市民的生活需求,因此風險模式的時間分布和市民作息高度相關,具有有著很強的節(jié)律性;而天津的危險品需求為進出口工業(yè)需求,由于港口能夠進行三班倒的連續(xù)運營,因此天津的風險模式在時間上的分布比較均勻。
在同一個城市中,各個風險模式之間存在著很強的因果依賴關系。例如,城市道路上的風險模式往往是由加油站、餐館等危險品運輸目的地所導致的。為了便于城市管理部門對風險模式進行治理,我們需要進一步地分析風險模式之間的依賴關系。
如下圖所示,我們構建了一個模式之間的依賴網絡,該網絡中每一個節(jié)點代表一個危險模式,當一輛危險品運輸車從 A 模式經過并駛向 B 模式時,我們會對 A 到 B 模式之間構建一條邊,并對邊的權重加 1。
以此方法構建出的網絡,假設 px → py 有一條邊,那么我們可以認為區(qū)域 py 是危險品的下一目的地,py (或其下游節(jié)點)對危險品的需求其導致了區(qū)域 px 的風險,因此我們也稱該網絡為風險模式的因果依賴網絡。
基于風險模式的因果依賴網絡,我們使用帶重啟動的隨機游走算法 (Random Walk with Restart),對風險模式進行重要性排名。下圖是排名獲得的兩個例子。
圖 6. 風險模式排名案例分析
左圖為北京市的風險模式區(qū)域排名,其中紅色的模式為排名第一的風險模式。該模式覆蓋了北京市東四北大街和建國門內大街的一片區(qū)域。生活在北京的朋友們都知道,該區(qū)域是北京的休閑和娛樂區(qū),著名的「簋街」特色小吃一條街就在這里。該區(qū)域火鍋、烤魚、麻辣小龍蝦等特色餐飲吸引了眾多的食客(人口密度大)。同時,眾多餐館對煤氣罐等危險貨物的需求導致該區(qū)域危險品和人口聚集高度重合,形成了危險品安全風險。左圖中綠色和藍色的兩個模式是因果依賴網絡中依賴于紅色區(qū)域的兩個主要模式??梢钥闯觯@兩個模式覆蓋了從市區(qū)外到達紅色區(qū)域的幾條主干道路。紅色區(qū)域對于危險品的迫切需求,導致了這兩個區(qū)域發(fā)生了危險品運輸風險。2016 年 1 月 17 日,一輛液化氣運輸車在綠色區(qū)域發(fā)生了燃燒事故,其目的地就是紅色區(qū)域的特色餐館。
由于我們使用的是歷史數據,我們也想看看天津爆炸案發(fā)生前的風險排名情況。在圖 6 的右圖中,我們可以看到當時天津市排名第一的風險模式覆蓋了沿著天津港的一條南北走向的主干道,該道路直接和天津港碼頭的內部鐵路相連。由該模式引起的兩個模式覆蓋了通往碼頭的一條東西主干道路,該道路穿過了天津濱海新區(qū)人口密度較高的城市中心。東西道路和南北道路的交叉點,就是天津濱海新區(qū)爆炸事故的爆炸點!
此外,基于因果依賴網絡,我們提出了基于 Expectation-Maximization (EM) 算法的貝葉斯模型,以當前一小時的風險模式分布來預測未來的一個小時的風險模式分布。由于我們的因果依賴網絡能夠很好的建模模式之間的因果依賴關系,因此獲得了非常好的預測效果。
本文提出了一個新型系統(tǒng) DGeye 用于城市危險品風險檢查和預測。其重點技術在于危險模式的挖掘、Apriori-like 算法以及因果網絡的構建和應用。危險模式揭示了歷史數據中京津兩市危險品管理風險的時空間分布規(guī)律?;谝蚬蕾嚲W絡的應用能夠指導城市管理部門進行城市危險品治理和城市安全改造。
注:本論文所使用的數據均為歷史數據,實驗結果只用于驗證模型和算法的有效性,并不代表京津兩市的當前城市危險品風險。在天津爆炸事故發(fā)生之后,政府對天津港的危險品管理進行了重點治理,目前隱患已經排除。對北京簋街地區(qū)存在的液化氣運輸風險,大家也完全不必擔心。2016 年,北京市啟動了包括鋪設天燃氣管道在內簋街的改造工程。目前,簋街已經完全告別了罐裝氣時代。
更多精彩資訊,敬請關注雷鋒網AI科技評論。
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。