實(shí)戰(zhàn)：利用知識圖譜分析企業(yè)信息資產(chǎn)威脅（要點(diǎn)＋視頻）

本文作者：李勤

2018-02-10 09:17

導(dǎo)語：如何利用知識圖譜，對企業(yè)信息資產(chǎn)面臨的安全威脅，進(jìn)行構(gòu)建、繪制、挖掘以及分析的實(shí)踐經(jīng)驗(yàn)。

知識圖譜能夠把復(fù)雜的知識領(lǐng)域通過語義匹配，數(shù)據(jù)挖掘、信息處理、知識計(jì)量和圖形繪制顯示出來，揭示知識領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律，為研究和決策提供切實(shí)的、有價(jià)值的參考。

因此，當(dāng)知識圖譜應(yīng)用于信息資產(chǎn)安全威脅的發(fā)現(xiàn)與分析時(shí)，能夠顯著提升發(fā)現(xiàn)資產(chǎn)安全威脅的效率和準(zhǔn)確率，為企業(yè)安全人員的威脅分析提供決策依據(jù)。

本次雷鋒網(wǎng)硬創(chuàng)公開課，北京數(shù)字觀星科技有限公司創(chuàng)始人郭亮分享了如何利用知識圖譜，對企業(yè)信息資產(chǎn)面臨的安全威脅，進(jìn)行構(gòu)建、繪制、挖掘以及分析的實(shí)踐經(jīng)驗(yàn)。

嘉賓介紹

郭亮，北京數(shù)字觀星科技有限公司創(chuàng)始人，超過20年大型業(yè)務(wù)信息系統(tǒng)安全運(yùn)營管理經(jīng)驗(yàn)，曾擔(dān)任過國家發(fā)改委多個(gè)重大技術(shù)專項(xiàng)課題的技術(shù)負(fù)責(zé)人。

演講提要

以下為雷鋒網(wǎng)該演講提要，要想獲取完整內(nèi)容，請移步視頻回放區(qū)：http://www.mooc.ai/course/443/learn#lesson/2420。

一、知識圖譜的相關(guān)概念和構(gòu)建

1.知識圖譜

Google于2012年首先提出了知識圖譜（Knowledge Graph）概念，目的在于描述真實(shí)世界中存在的各種實(shí)體、概念，以及它們之間的關(guān)聯(lián)關(guān)系，大幅改善搜索體驗(yàn)。

本質(zhì)上, 知識圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖，節(jié)點(diǎn)表示實(shí)體或概念，邊則由屬性或關(guān)系構(gòu)成。

知識是一個(gè)內(nèi)涵非常豐富的概念；知識廣泛存在于社會(huì)各個(gè)領(lǐng)域?？茖W(xué)知識圖譜廣義上包括：生物的基因圖譜、教育教學(xué)中的認(rèn)知地圖、探索太空的天體圖、描繪地形的GIS、模擬人腦的神經(jīng)網(wǎng)絡(luò)圖、各種金屬圖譜等。

知識圖譜是以科學(xué)知識為對象，顯示學(xué)科的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形，具有“圖”和“譜”的雙重性質(zhì)與特征。

2.知識圖譜的3種節(jié)點(diǎn)：

實(shí)體: 指的是具有可區(qū)別性且獨(dú)立存在的某種事物。如某一個(gè)人、某一個(gè)城市、某一種植物等、某一種商品等等。世界萬物有具體事物組成，此指實(shí)體。如圖1的“中國”、“美國”、“日本”等。，實(shí)體是知識圖譜中的最基本元素，不同的實(shí)體間存在不同的關(guān)系。

語義類（概念）：具有同種特性的實(shí)體構(gòu)成的集合，如國家、民族、書籍、電腦等。概念主要指集合、類別、對象類型、事物的種類，例如人物、地理等。

內(nèi)容: 通常作為實(shí)體和語義類的名字、描述、解釋等，可以由文本、圖像、音視頻等來表達(dá)。

基于上述定義?；谌M是知識圖譜的一種通用表示方式，即,其中，是知識庫中的實(shí)體集合，共包含|E|種不同實(shí)體；是知識庫中的關(guān)系集合，共包含|R|種不同關(guān)系；代表知識庫中的三元組集合。三元組的基本形式主要包括(實(shí)體1-關(guān)系-實(shí)體2)和(實(shí)體-屬性-屬性值)等。

每個(gè)實(shí)體(概念的外延)可用一個(gè)全局唯一確定的ID來標(biāo)識，每個(gè)屬性-屬性值對(attribute-value pair，AVP)可用來刻畫實(shí)體的內(nèi)在特性，而關(guān)系可用來連接兩個(gè)實(shí)體，刻畫它們之間的關(guān)聯(lián)。如下圖1的知識圖譜例子所示，中國是一個(gè)實(shí)體，北京是一個(gè)實(shí)體，中國-首都-北京是一個(gè)（實(shí)體-關(guān)系-實(shí)體）的三元組樣例北京是一個(gè)實(shí)體，人口是一種屬性2069.3萬是屬性值。北京-人口-2069.3萬構(gòu)成一個(gè)（實(shí)體-屬性-屬性值）的三元組樣例。

3.知識圖譜的構(gòu)建

包括3個(gè)步驟：

信息抽取，即從各種類型的數(shù)據(jù)源中提取出實(shí)體（概念）、屬性以及實(shí)體撿的相互關(guān)系，在此基礎(chǔ)上形成本體化的知識表達(dá)

知識融合，在獲得新知識后，需要對其進(jìn)行整合，以消除矛盾和歧義，比如某些實(shí)體可能有多種表達(dá)，某個(gè)特定稱謂也許對應(yīng)于多個(gè)不同的實(shí)體等

知識加工，對于經(jīng)過融合的新知識，需要經(jīng)過質(zhì)量評估之后（部分需要人工參與甄別），才能將合格的部分加入到知識庫中，以確保知識庫的質(zhì)量，新增數(shù)據(jù)之后，可以進(jìn)行知識推理、拓展現(xiàn)有知識、得到新知識。

實(shí)戰(zhàn)：利用知識圖譜分析企業(yè)信息資產(chǎn)威脅（要點(diǎn)＋視頻）

4.知識樣本數(shù)據(jù)的獲取

傳統(tǒng)靜態(tài)知識

主要數(shù)據(jù)來源：Web of Science

科學(xué)文獻(xiàn)數(shù)據(jù)：(SCI) (SSCI)

專利文獻(xiàn)數(shù)據(jù)：德溫特創(chuàng)新索引DII

國際會(huì)議文獻(xiàn)數(shù)據(jù)：(CPCI)

國內(nèi)數(shù)據(jù)庫：CNKI、CSSCI、CSCD、萬方等

網(wǎng)絡(luò)數(shù)據(jù)源：Google Scholar、arXiv、CiteSeerX

動(dòng)態(tài)知識

主要數(shù)據(jù)來源：事件數(shù)據(jù)

另外還有Scopus，Science Direct

設(shè)備可讀取以及可輸出的異常數(shù)據(jù)

4.樣本數(shù)據(jù)的梳理

基于數(shù)據(jù)進(jìn)行知識可視化的質(zhì)量、合理性和可靠性很大程度上依賴于所用數(shù)據(jù)的精確性和全面性，不準(zhǔn)確或不全面的數(shù)據(jù)往往造成不精確甚至錯(cuò)誤的結(jié)果。即使目前最權(quán)威、公認(rèn)質(zhì)量最高的WoS，也存在數(shù)據(jù)著錄格式（如人名和地名的不統(tǒng)一）和遺漏的問題。

5.數(shù)據(jù)標(biāo)準(zhǔn)化

為便于可視化，對簡單地頻次計(jì)算的單元數(shù)據(jù)，標(biāo)準(zhǔn)化常常通過數(shù)據(jù)間的相似度測量。主要有兩大類：一是集合論方法（Set-theoretic measures），包括Cosine、Pearson、Spearman、Inclusion 指數(shù)和Jaccard指數(shù)；二是概率論方法（Probabilistic measure），主要有合力指數(shù)（Association Strength）和概率親和力指數(shù)（Probabilistic Af?nity）

6.數(shù)據(jù)分析-簡化分析

因子分析以較少幾個(gè)因子描述許多指標(biāo)或因素間關(guān)系，即把較密切的變量歸在同一類，每類變量成為一個(gè)因子，以少量的因子反映原資料中大部分信息。

7.在知識圖譜的解讀過程中，常常需要對圖譜進(jìn)行相應(yīng)操作，包括瀏覽、放大、縮小、過濾、查尋、關(guān)聯(lián)和按需移動(dòng)等。主要從以下幾方面著手：網(wǎng)絡(luò)分析、歷時(shí)分析、空間分析、突變檢測

二、資產(chǎn)和威脅

資產(chǎn)數(shù)字化是趨勢，每個(gè)資產(chǎn)都有其特征；威脅是數(shù)字的表征，威脅數(shù)據(jù)有其特征

實(shí)戰(zhàn)：利用知識圖譜分析企業(yè)信息資產(chǎn)威脅（要點(diǎn)＋視頻）

三、關(guān)聯(lián)和分析

分三步：

第一步，先把企業(yè)開展工作需要哪些關(guān)鍵知識識別出來，找到源頭，不管是企業(yè)內(nèi)部的還是外部的，不管是數(shù)據(jù)庫、文檔庫還是網(wǎng)頁，都匯聚起來；

第二步，是通過知識圖譜，讓系統(tǒng)能“認(rèn)識理解”這些數(shù)字和文字代表的含義，把各個(gè)源頭的知識抽取出來，把知識和人都關(guān)聯(lián)起來，形成一張知識網(wǎng)；

第三步，讓知識圍繞業(yè)務(wù)轉(zhuǎn)起來，實(shí)現(xiàn)智能化應(yīng)用，包括語義搜索、個(gè)性化推薦、智能問答、協(xié)同研究、決策支持等等

要想獲取雷鋒網(wǎng)該公開課演講的完整內(nèi)容，請移步視頻回放區(qū)：http://www.mooc.ai/course/443/learn#lesson/2420。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

李勤

編輯、作者

跟蹤互聯(lián)網(wǎng)安全、黑客、極客。微信：qinqin0511。

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

實(shí)戰(zhàn)：利用知識圖譜分析企業(yè)信息資產(chǎn)威脅（要點(diǎn)＋視頻）

嘉賓介紹

演講提要

一、知識圖譜的相關(guān)概念和構(gòu)建

二、資產(chǎn)和威脅

三、關(guān)聯(lián)和分析

二、資產(chǎn)和威脅