0
本文作者: 李勤 | 2018-02-10 09:17 |
知識(shí)圖譜能夠把復(fù)雜的知識(shí)領(lǐng)域通過(guò)語(yǔ)義匹配,數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制顯示出來(lái),揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為研究和決策提供切實(shí)的、有價(jià)值的參考。
因此,當(dāng)知識(shí)圖譜應(yīng)用于信息資產(chǎn)安全威脅的發(fā)現(xiàn)與分析時(shí),能夠顯著提升發(fā)現(xiàn)資產(chǎn)安全威脅的效率和準(zhǔn)確率,為企業(yè)安全人員的威脅分析提供決策依據(jù)。
本次雷鋒網(wǎng)硬創(chuàng)公開課,北京數(shù)字觀星科技有限公司創(chuàng)始人郭亮分享了如何利用知識(shí)圖譜,對(duì)企業(yè)信息資產(chǎn)面臨的安全威脅,進(jìn)行構(gòu)建、繪制、挖掘以及分析的實(shí)踐經(jīng)驗(yàn)。
郭亮,北京數(shù)字觀星科技有限公司創(chuàng)始人,超過(guò)20年大型業(yè)務(wù)信息系統(tǒng)安全運(yùn)營(yíng)管理經(jīng)驗(yàn),曾擔(dān)任過(guò)國(guó)家發(fā)改委多個(gè)重大技術(shù)專項(xiàng)課題的技術(shù)負(fù)責(zé)人。
以下為雷鋒網(wǎng)該演講提要,要想獲取完整內(nèi)容,請(qǐng)移步視頻回放區(qū):http://www.mooc.ai/course/443/learn#lesson/2420。
1.知識(shí)圖譜
Google于2012年首先提出了知識(shí)圖譜(Knowledge Graph)概念,目的在于描述真實(shí)世界中存在的各種實(shí)體、概念,以及它們之間的關(guān)聯(lián)關(guān)系,大幅改善搜索體驗(yàn)。
本質(zhì)上, 知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。
知識(shí)是一個(gè)內(nèi)涵非常豐富的概念;知識(shí)廣泛存在于社會(huì)各個(gè)領(lǐng)域??茖W(xué)知識(shí)圖譜廣義上包括:生物的基因圖譜、教育教學(xué)中的認(rèn)知地圖、探索太空的天體圖、描繪地形的GIS、模擬人腦的神經(jīng)網(wǎng)絡(luò)圖、各種金屬圖譜等。
知識(shí)圖譜是以科學(xué)知識(shí)為對(duì)象,顯示學(xué)科的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形,具有“圖”和“譜”的雙重性質(zhì)與特征。
2.知識(shí)圖譜的3種節(jié)點(diǎn):
實(shí)體: 指的是具有可區(qū)別性且獨(dú)立存在的某種事物。如某一個(gè)人、某一個(gè)城市、某一種植物等、某一種商品等等。世界萬(wàn)物有具體事物組成,此指實(shí)體。如圖1的“中國(guó)”、“美國(guó)”、“日本”等。,實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。
語(yǔ)義類(概念):具有同種特性的實(shí)體構(gòu)成的集合,如國(guó)家、民族、書籍、電腦等。 概念主要指集合、類別、對(duì)象類型、事物的種類,例如人物、地理等。
內(nèi)容: 通常作為實(shí)體和語(yǔ)義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來(lái)表達(dá)。
基于上述定義?;谌M是知識(shí)圖譜的一種通用表示方式,即,其中,是知識(shí)庫(kù)中的實(shí)體集合,共包含|E|種不同實(shí)體; 是知識(shí)庫(kù)中的關(guān)系集合,共包含|R|種不同關(guān)系;代表知識(shí)庫(kù)中的三元組集合。三元組的基本形式主要包括(實(shí)體1-關(guān)系-實(shí)體2)和(實(shí)體-屬性-屬性值)等。
每個(gè)實(shí)體(概念的外延)可用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),每個(gè)屬性-屬性值對(duì)(attribute-value pair,AVP)可用來(lái)刻畫實(shí)體的內(nèi)在特性,而關(guān)系可用來(lái)連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。如下圖1的知識(shí)圖譜例子所示,中國(guó)是一個(gè)實(shí)體,北京是一個(gè)實(shí)體,中國(guó)-首都-北京 是一個(gè)(實(shí)體-關(guān)系-實(shí)體)的三元組樣例北京是一個(gè)實(shí)體 ,人口是一種屬性2069.3萬(wàn)是屬性值。北京-人口-2069.3萬(wàn)構(gòu)成一個(gè)(實(shí)體-屬性-屬性值)的三元組樣例。
3.知識(shí)圖譜的構(gòu)建
包括3個(gè)步驟:
信息抽取,即從各種類型的數(shù)據(jù)源中提取出實(shí)體(概念)、屬性以及實(shí)體撿的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá)
知識(shí)融合,在獲得新知識(shí)后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等
知識(shí)加工,對(duì)于經(jīng)過(guò)融合的新知識(shí),需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量,新增數(shù)據(jù)之后,可以進(jìn)行知識(shí)推理、拓展現(xiàn)有知識(shí)、得到新知識(shí)。
4.知識(shí)樣本數(shù)據(jù)的獲取
傳統(tǒng)靜態(tài)知識(shí)
主要數(shù)據(jù)來(lái)源:Web of Science
科學(xué)文獻(xiàn)數(shù)據(jù):(SCI) (SSCI)
專利文獻(xiàn)數(shù)據(jù):德溫特創(chuàng)新索引DII
國(guó)際會(huì)議文獻(xiàn)數(shù)據(jù):(CPCI)
國(guó)內(nèi)數(shù)據(jù)庫(kù):CNKI、CSSCI、CSCD、萬(wàn)方等
網(wǎng)絡(luò)數(shù)據(jù)源:Google Scholar、arXiv、CiteSeerX
動(dòng)態(tài)知識(shí)
主要數(shù)據(jù)來(lái)源:事件數(shù)據(jù)
另外還有Scopus,Science Direct
設(shè)備可讀取以及可輸出的異常數(shù)據(jù)
4.樣本數(shù)據(jù)的梳理
基于數(shù)據(jù)進(jìn)行知識(shí)可視化的質(zhì)量、合理性和可靠性很大程度上依賴于所用數(shù)據(jù)的精確性和全面性,不準(zhǔn)確或不全面的數(shù)據(jù)往往造成不精確甚至錯(cuò)誤的結(jié)果。即使目前最權(quán)威、公認(rèn)質(zhì)量最高的WoS,也存在數(shù)據(jù)著錄格式(如人名和地名的不統(tǒng)一)和遺漏的問(wèn)題。
5.數(shù)據(jù)標(biāo)準(zhǔn)化
為便于可視化,對(duì)簡(jiǎn)單地頻次計(jì)算的單元數(shù)據(jù),標(biāo)準(zhǔn)化常常通過(guò)數(shù)據(jù)間的相似度測(cè)量。主要有兩大類:一是集合論方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Inclusion 指數(shù)和Jaccard指數(shù);二是概率論方法(Probabilistic measure),主要有合力指數(shù)(Association Strength)和概率親和力指數(shù)(Probabilistic Af?nity)
6.數(shù)據(jù)分析-簡(jiǎn)化分析
因子分析以較少幾個(gè)因子描述許多指標(biāo)或因素間關(guān)系,即把較密切的變量歸在同一類,每類變量成為一個(gè)因子,以少量的因子反映原資料中大部分信息。
7.在知識(shí)圖譜的解讀過(guò)程中,常常需要對(duì)圖譜進(jìn)行相應(yīng)操作,包括瀏覽、放大、縮小、過(guò)濾、查尋、關(guān)聯(lián)和按需移動(dòng)等。主要從以下幾方面著手:網(wǎng)絡(luò)分析、歷時(shí)分析、空間分析、突變檢測(cè)
資產(chǎn)數(shù)字化是趨勢(shì),每個(gè)資產(chǎn)都有其特征;威脅是數(shù)字的表征,威脅數(shù)據(jù)有其特征
分三步:
第一步,先把企業(yè)開展工作需要哪些關(guān)鍵知識(shí)識(shí)別出來(lái),找到源頭,不管是企業(yè)內(nèi)部的還是外部的,不管是數(shù)據(jù)庫(kù)、文檔庫(kù)還是網(wǎng)頁(yè),都匯聚起來(lái);
第二步,是通過(guò)知識(shí)圖譜,讓系統(tǒng)能“認(rèn)識(shí)理解”這些數(shù)字和文字代表的含義,把各個(gè)源頭的知識(shí)抽取出來(lái),把知識(shí)和人都關(guān)聯(lián)起來(lái),形成一張知識(shí)網(wǎng);
第三步,讓知識(shí)圍繞業(yè)務(wù)轉(zhuǎn)起來(lái),實(shí)現(xiàn)智能化應(yīng)用,包括語(yǔ)義搜索、個(gè)性化推薦、智能問(wèn)答、協(xié)同研究、決策支持等等
要想獲取雷鋒網(wǎng)該公開課演講的完整內(nèi)容,請(qǐng)移步視頻回放區(qū):http://www.mooc.ai/course/443/learn#lesson/2420。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。