0
本文作者: 張馳 | 2017-03-27 15:13 |
對(duì)事件做出預(yù)測(cè)相對(duì)容易,但分析因果關(guān)系則是一件很困難的事。就像路上很多人帶著雨傘,代表可能 會(huì)下雨,但雨傘不是下雨的原因。而當(dāng)你想改變事件的結(jié)果時(shí),了解因果關(guān)系就變得十分重要了,比如要阻止一場(chǎng)雨,不可能讓所有人都不帶雨傘。
美國(guó)一家公司Via Science,就希望能通過(guò)其專利性的因果分析技術(shù),幫助電力、能源等公司找到電力系統(tǒng)中的風(fēng)險(xiǎn)所在。
公司CEO Colin Gounden向雷鋒網(wǎng)展示的下圖,是對(duì)美國(guó)麻省周?chē)麽t(yī)院出現(xiàn)電力故障的分析。系統(tǒng)會(huì)分析電力路線、植被、海拔、天氣、地理人口信息、金融市場(chǎng)等各類信息,得出風(fēng)險(xiǎn)值,并展示可能的原因所在。
經(jīng)過(guò)一百多年的發(fā)展,電力系統(tǒng)已經(jīng)是不可或缺的基礎(chǔ)設(shè)施,而且形成了極其復(fù)雜的網(wǎng)絡(luò)。電力公司想要的不僅是預(yù)測(cè)什么時(shí)候出現(xiàn)故障,更是想防止意外出現(xiàn),這就需要找到導(dǎo)致電力事故的原因。
Gounden告訴雷鋒網(wǎng),公司的技術(shù)核心是因果分析平臺(tái)Focus?,它應(yīng)用了UCLA教授Judea Pearl發(fā)明的貝葉斯網(wǎng)絡(luò),用于理解數(shù)據(jù)之間的關(guān)系。Pearl教授是2011年圖靈獎(jiǎng)得主。
簡(jiǎn)單來(lái)說(shuō),貝葉斯網(wǎng)絡(luò)會(huì)引入更多變量來(lái)創(chuàng)造一個(gè)圖(Graph),從而看這些變量之間的相互關(guān)系以及如何改變。比如展示雨、雨傘與天色的關(guān)系,會(huì)看到灰色的天空與下雨有關(guān)系,也會(huì)看到下雨時(shí)沒(méi)有雨傘 這個(gè)變量出現(xiàn),但仍會(huì)出現(xiàn)灰色的天空。然后比較兩種場(chǎng)景就會(huì)發(fā)現(xiàn),灰沉的天空與下雨的關(guān)系更強(qiáng),也就是它出現(xiàn)的原因。
Gounden表示,貝葉斯網(wǎng)絡(luò)的優(yōu)勢(shì)是用到了圖論(Graph Theory),相比于神經(jīng)網(wǎng)絡(luò),其運(yùn)作過(guò)程有透明性,不是黑盒子。
他告訴雷鋒網(wǎng),貝葉斯網(wǎng)絡(luò)兩個(gè)特點(diǎn):一是能讓人類了解到底發(fā)生了什么;二是由于知道發(fā)生了什么, 就可以做出改變。而深度學(xué)習(xí)網(wǎng)絡(luò)可以重新訓(xùn)練,但不能改變網(wǎng)絡(luò)模型。
改變網(wǎng)絡(luò)的理由是,可以讓它的效果更好。比如,如果已經(jīng)知道了天氣會(huì)影響能源供給和購(gòu)物的狀況,就可以直接告訴計(jì)算機(jī)這種結(jié)果,而不用讓它自己找到這種聯(lián)系。把這些規(guī)則輸入網(wǎng)絡(luò),可以節(jié)省計(jì)算時(shí)間。
另外一個(gè)理由是,可以在虛擬中模擬可能發(fā)生的情況,模擬某個(gè)變量可能產(chǎn)生什么樣的結(jié)果。比如,在 現(xiàn)實(shí)中可能想了解,如果稍微改變電路,某片樓宇中的電力狀況會(huì)發(fā)生什么變化?但不能真的這么做,用戶不會(huì)想承受這種試驗(yàn)的結(jié)果,而在計(jì)算機(jī)中可以做這種模擬。
Gounden畢業(yè)于哈佛大學(xué),是一位連續(xù)創(chuàng)業(yè)者,他曾創(chuàng)立了兩家公司并成功退出,其中一家在1999年以9800萬(wàn)美元的價(jià)格被收購(gòu)。他在2000年聯(lián)合成立GNS Healthcare公司,也是用因果貝葉斯網(wǎng)絡(luò)分析基因等健康數(shù)據(jù)。再后來(lái),他們開(kāi)始尋找其它同樣可以應(yīng)用機(jī)器學(xué)習(xí)的行業(yè),并在去年8月成立了Via Science。
從健康到能源行業(yè),跨度不可謂不大。不過(guò)他告訴雷鋒網(wǎng),兩者有不少共性。
一是,考慮到從基因到蛋白質(zhì)再到細(xì)胞的整個(gè)過(guò)程,它與能源從產(chǎn)生到經(jīng)過(guò)復(fù)雜的網(wǎng)絡(luò)再抵達(dá)終端用戶,整個(gè)過(guò)程十分相似,有相似的架構(gòu)。
二是兩者很復(fù)雜,有成千上萬(wàn)的變量。人體與電力網(wǎng)絡(luò)的復(fù)雜性是一樣的,在規(guī)模上與復(fù)雜性上很相似。
三是問(wèn)題的重要性。對(duì)人體來(lái)說(shuō),你不可能想做什么實(shí)驗(yàn)就做什么,臨床試驗(yàn)的成本很高。電力系統(tǒng)也一樣,不可能直接關(guān)掉某個(gè)地方的電源,看看會(huì)發(fā)生什么變化。而對(duì)于某地區(qū)是否應(yīng)該新建發(fā)電廠這樣的問(wèn)題, 由于建廠需要數(shù)年的時(shí)間,不可能等幾年再看看到底會(huì)有什么影響,這需要事先模擬。
對(duì)于新領(lǐng)域,數(shù)據(jù)是一個(gè)難點(diǎn)。機(jī)器學(xué)習(xí)需要的數(shù)據(jù),但沒(méi)有成功的案例也就沒(méi)有數(shù)據(jù)。所以Via Science的做法是不要求用戶提供數(shù)據(jù),而是使用公開(kāi)數(shù)據(jù)。公開(kāi)數(shù)據(jù)的豐富程度,也是他們考慮新應(yīng)用的重要標(biāo)準(zhǔn)。
Gounden告訴雷鋒網(wǎng),如果想知道接下來(lái)的幾分鐘哪里可能斷電,這需要實(shí)時(shí)的數(shù)據(jù);但如果想知道未來(lái)幾年中,電力設(shè)施會(huì)出現(xiàn)哪些風(fēng)險(xiǎn),這就不需要實(shí)時(shí)數(shù)據(jù),而是需要趨勢(shì)數(shù)據(jù),比如天氣、人口、地 域等。
他們的系統(tǒng)中會(huì)用到了衛(wèi)星圖數(shù)據(jù),無(wú)人機(jī)測(cè)繪數(shù)據(jù)。這樣可以看到建筑物、電力設(shè)施都在哪,而這些 數(shù)據(jù)不需要獲得授權(quán)。
當(dāng)然,如果有員工工作年限、專家評(píng)估和設(shè)備狀況等企業(yè)內(nèi)部數(shù)據(jù),模型會(huì)更準(zhǔn)確。他表示,在通過(guò)公開(kāi) 數(shù)據(jù)建模,證明了效果后,再讓企業(yè)提供一些較隱私的數(shù)據(jù)就容易得多。
由于能源公司很保守,不到萬(wàn)不得已不會(huì)改變,所以Gounden和同事們首先瞄準(zhǔn)的是聯(lián)邦政府部門(mén)。因著與政府不錯(cuò)的關(guān)系,他們首先申請(qǐng)了小范圍的試驗(yàn),由于對(duì)電力系統(tǒng)改善的效果不錯(cuò),也因此得到了政府的推薦。
Via Science也在考慮將同樣的技術(shù)用于中國(guó)市場(chǎng)。正如Gounden所說(shuō),各地電力系統(tǒng)的運(yùn)作方式都一樣。而看中中國(guó)市場(chǎng)的另一個(gè)原因是,國(guó)內(nèi)的電力公司,如上海電力,同時(shí)在印度、巴基斯坦等地也有項(xiàng)目,所以他們可以服務(wù)更廣泛的市場(chǎng)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。