傳播動(dòng)態(tài)學(xué)的主動(dòng)監(jiān)控：一種組稀疏貝葉斯學(xué)習(xí)方法

本文作者：不靈叔

2018-03-20 15:53

導(dǎo)語：預(yù)測的基礎(chǔ)在于監(jiān)控，即及時(shí)地收集和報(bào)告系統(tǒng)的當(dāng)前狀態(tài)。

雷鋒網(wǎng) AI 科技評(píng)論按：本文作者吉林大學(xué)博士生裴紅斌，本文為對(duì)他發(fā)表在 AAAI 2018 論文的獨(dú)家解讀稿件，未經(jīng)許可不得轉(zhuǎn)載。

Group Sparse Bayesian Learning for ActiveSurveillance on Epidemic Dynamics
傳播動(dòng)態(tài)學(xué)的主動(dòng)監(jiān)控：一種組稀疏貝葉斯學(xué)習(xí)方法
https://arxiv.org/pdf/1712.00328.pdf

裴紅斌是吉林大學(xué)三年級(jí)在讀博士，師從吉林大學(xué)楊博教授。他近期的研究是利用機(jī)器學(xué)習(xí)技術(shù)解決人類傳染病的監(jiān)控、預(yù)測、和控制問題，為公共衛(wèi)生提供人工智能支持。他與香港浸會(huì)大學(xué)劉際明教授合作，相關(guān)工作發(fā)表在 TPAMI 2017 和 AAAI 2018。

傳播現(xiàn)象是廣泛存在于真實(shí)世界的一類動(dòng)態(tài)學(xué)過程，例如疾病傳播、信息擴(kuò)散等。預(yù)測傳播動(dòng)態(tài)學(xué)（epidemic dynamics）對(duì)于理解和控制傳播具有非常重要的意義?；趧?dòng)態(tài)系統(tǒng)模型，預(yù)測傳播動(dòng)態(tài)學(xué)可直觀地定義為：已知系統(tǒng)的當(dāng)前狀態(tài)估計(jì)其未來的狀態(tài)?？梢钥吹?，預(yù)測的基礎(chǔ)在于監(jiān)控，即及時(shí)地收集和報(bào)告系統(tǒng)的當(dāng)前狀態(tài)。

在實(shí)際應(yīng)用中傳播動(dòng)態(tài)學(xué)的監(jiān)控非常困難，因?yàn)檎鎸?shí)的傳播現(xiàn)象通常涉及巨大的時(shí)空范圍，有限的人力物力等監(jiān)控資源難以覆蓋大規(guī)模的監(jiān)控范圍。例如，由于毗鄰緬甸以及自身地理環(huán)境，云南省騰沖市是我國瘧疾的重發(fā)區(qū)，2005 至 2011 年共確認(rèn) 7,835 名瘧疾患者。然而，騰沖市疾控中心（CDC）執(zhí)行日常病例調(diào)查的工作人員卻僅有幾人！騰沖市幅員 5,845 平方公里（略小于上海市），共有 18 個(gè)鄉(xiāng)、221 個(gè)村、658,207 位居民。顯然有限的人力無法滿足及時(shí)、全面監(jiān)控瘧疾的需求。在其他傳播監(jiān)控中，資源有限的挑戰(zhàn)也普遍存在，例如空氣質(zhì)量檢測[1]、互聯(lián)網(wǎng)輿情感知[2]、城市交通監(jiān)控[3]。

主動(dòng)監(jiān)控（active surveillance）是解決上述資源有限問題的可行策略：選擇并監(jiān)控動(dòng)態(tài)系統(tǒng)中的少數(shù)關(guān)鍵節(jié)點(diǎn)，進(jìn)而利用這些節(jié)點(diǎn)的信息來預(yù)測整個(gè)系統(tǒng)未來的傳播動(dòng)態(tài)學(xué)。主動(dòng)監(jiān)控策略僅關(guān)注系統(tǒng)中的少數(shù)關(guān)鍵節(jié)點(diǎn)，能滿足有限監(jiān)控資源的約束，并較準(zhǔn)確地預(yù)測傳播動(dòng)態(tài)學(xué)，因此有著重要的實(shí)踐價(jià)值。實(shí)現(xiàn)主動(dòng)監(jiān)控的核心的問題是：在系統(tǒng)中如何評(píng)價(jià)和識(shí)別對(duì)傳播預(yù)測最關(guān)鍵的節(jié)點(diǎn)？該問題非常具有挑戰(zhàn)性，因?yàn)橄到y(tǒng)中各部分間的交互結(jié)構(gòu)是高度異構(gòu)且隱藏的。

現(xiàn)有的傳感器部署（sensor deployment）工作大多假設(shè)系統(tǒng)中的交互結(jié)構(gòu)已知，從而將關(guān)鍵節(jié)點(diǎn)識(shí)別問題轉(zhuǎn)換為有限候選集上的組合優(yōu)化問題，進(jìn)而使用啟發(fā)式算法對(duì)其求解，如次模最大化（sub-modular maximization）。然而在真實(shí)傳播現(xiàn)象中，這種交互結(jié)構(gòu)（有時(shí)被稱作擴(kuò)散網(wǎng)絡(luò)）往往無法被觀察，如傳染病在隱藏的人口接觸網(wǎng)絡(luò)上傳播[4]。另一類方法是利用高斯過程來預(yù)測未觀測節(jié)點(diǎn)的狀態(tài)，并使用主動(dòng)學(xué)習(xí)策略（如信息熵、互信息）來識(shí)別對(duì)預(yù)測最重要的節(jié)點(diǎn)[5]。高斯過程是黑盒模型，傳播機(jī)制等先驗(yàn)知識(shí)不易被融入，也就是說，高斯過程的參數(shù)學(xué)習(xí)倚重于大量的訓(xùn)練數(shù)據(jù)。然而，真實(shí)傳播現(xiàn)象積累的歷史數(shù)據(jù)往往是很有限的。

本文主動(dòng)監(jiān)控框架

我們首先提出面向傳播動(dòng)態(tài)學(xué)預(yù)測的主動(dòng)監(jiān)控框架。這個(gè)一般性的框架分為三步：

Step 1: 在 N 個(gè)感興趣的節(jié)點(diǎn)上收集傳播動(dòng)態(tài)學(xué)數(shù)據(jù)。
Step 2: 從所收集數(shù)據(jù)中挖掘哨兵網(wǎng)絡(luò)（sentinel network），其中哨兵節(jié)點(diǎn)（sentinel node）個(gè)數(shù) k 由預(yù)算決定。
Step 3: 基于哨兵網(wǎng)絡(luò)和 k 個(gè)哨兵上的監(jiān)控?cái)?shù)據(jù)，預(yù)測全部 N 個(gè)節(jié)點(diǎn)未來的傳播動(dòng)態(tài)學(xué)。

后兩步是主動(dòng)監(jiān)控框架的關(guān)鍵，我們?cè)诮酉聛韺?duì)其進(jìn)行詳細(xì)介紹。

問題定義

考慮一次持續(xù)時(shí)間為 T 的傳播，其在 N 個(gè)興趣點(diǎn)上被觀測，觀測數(shù)據(jù) D 為 T 乘 N 的矩陣。D中元素可能是連續(xù)實(shí)數(shù)（如某區(qū)域空氣污染物濃度）或離散數(shù)值（如某條公路是否阻塞）。使用矩陣 Ds 表示 k 個(gè)哨兵節(jié)點(diǎn)上的監(jiān)控?cái)?shù)據(jù)，即假若某節(jié)點(diǎn)為哨兵則 Ds 與 D 中該列元素相同，否則該列為零向量。f(Ds,S)表示利用監(jiān)控?cái)?shù)據(jù) Ds 預(yù)測傳播動(dòng)態(tài)學(xué)的動(dòng)態(tài)系統(tǒng)函數(shù)，，其中 N 乘 N 的矩陣 S 是哨兵矩陣。哨兵矩陣是動(dòng)態(tài)系統(tǒng)函數(shù)中一組關(guān)鍵參數(shù)，刻畫哨兵節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的影響。換句話說，實(shí)現(xiàn)主動(dòng)監(jiān)控的關(guān)鍵在于獲取動(dòng)態(tài)系統(tǒng)函數(shù)f(Ds,S)。我們分別形式化定義上述框架中后兩步的計(jì)算問題。

問題一哨兵識(shí)別：如何從數(shù)據(jù) D 中識(shí)別哨兵節(jié)點(diǎn)并挖掘哨兵網(wǎng)絡(luò) S？

問題二哨兵預(yù)測：基于哨兵節(jié)點(diǎn)上收集的數(shù)據(jù) Ds，如何利用哨兵網(wǎng)絡(luò) S 預(yù)測所有 N 個(gè)節(jié)點(diǎn)未來的傳播動(dòng)態(tài)學(xué)？

哨兵識(shí)別

我們的基本思想非常直觀：在動(dòng)態(tài)系統(tǒng)中，對(duì)其他節(jié)點(diǎn)沒有影響力的節(jié)點(diǎn)是不重要的；反之，重要的節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)有顯著的影響力，可主導(dǎo)整個(gè)系統(tǒng)未來的狀態(tài)，所以這類節(jié)點(diǎn)應(yīng)被選為哨兵節(jié)點(diǎn)。對(duì)應(yīng)于哨兵矩陣 S（S 編碼哨兵節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的影響），我們可通過推斷行稀疏結(jié)構(gòu)來確定一個(gè)節(jié)點(diǎn)是否關(guān)鍵。換言之，不重要節(jié)點(diǎn)在 S 中應(yīng)對(duì)應(yīng)于稀疏行，即行中絕大多數(shù)元素為零；重要的節(jié)點(diǎn)則應(yīng)對(duì)應(yīng)于非稀疏行。圖1以線性動(dòng)態(tài)系統(tǒng)為例演示了這一基本思想。