0
“我認(rèn)為,知識圖譜是企業(yè)下一代管理數(shù)據(jù)的一種新的組織方式,能夠更高效的連接上游的大數(shù)據(jù)和下游的AI建模任務(wù)。
企業(yè)最初數(shù)據(jù)量少、結(jié)構(gòu)單一的時候,用MySQL這樣的結(jié)構(gòu)化數(shù)據(jù)庫就夠了;再后來數(shù)據(jù)量越來越多、業(yè)務(wù)系統(tǒng)越來越復(fù)雜,就需要分布式數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市來管理數(shù)據(jù)資產(chǎn)。這類數(shù)據(jù)都需要事先定義好結(jié)構(gòu)。但在大數(shù)據(jù)時代,你不可能事先將數(shù)據(jù)的結(jié)構(gòu)定義好,于是很多企業(yè)開始利用像 Hadoop 等來搭建大數(shù)據(jù)平臺,以NOSQL的方式存儲那些事先無法定義的數(shù)據(jù)。但這些數(shù)據(jù)之間如何有效關(guān)聯(lián)?例如,當(dāng)一些查找稍微深度(例如四、五度或出現(xiàn)隱形關(guān)系),這就需要利用知識圖譜進(jìn)行數(shù)據(jù)組織了?!?/p>
在近期雷鋒網(wǎng) AI科技評論對張杰博士進(jìn)行的采訪中,張杰如是回答了他對知識圖譜未來發(fā)展的看法。
張杰博士是明略科技資深科學(xué)家,明略科學(xué)院知識工程實(shí)驗(yàn)室主任,加入明略科技后便一直在負(fù)責(zé)明略科技“行業(yè)知識圖譜”的研究和搭建工作,在此之前曾在華為中央研究院從事機(jī)器學(xué)習(xí)方面的研究工作。
張杰提到:“在我們內(nèi)部,我們認(rèn)為知識圖譜是企業(yè)下一代的數(shù)據(jù)倉庫。它的優(yōu)點(diǎn)除了能夠高效地進(jìn)行深度關(guān)系查詢外,還能圖譜基礎(chǔ)之上做一些推廣,通過引入常識知識和領(lǐng)域知識,由已有的知識產(chǎn)生新的知識?!?
雷鋒網(wǎng)AI科技評論認(rèn)為這是一個有趣的觀點(diǎn)。
數(shù)據(jù)倉庫的概念最早是在1990年由 比爾·恩門(Bill Inmon)提出。這里需要區(qū)別數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的不同。
數(shù)據(jù)庫是一種邏輯概念,用來存放數(shù)據(jù),由多表組成,目前市面上流行的數(shù)據(jù)庫例如有 Oracle、DB2、MySQL、Sybase、MS SQL Server等。
而數(shù)據(jù)倉庫則是數(shù)據(jù)庫概念的升級。從邏輯上理解,數(shù)據(jù)庫和數(shù)據(jù)倉庫沒有區(qū)別,都是通過數(shù)據(jù)庫軟件實(shí)現(xiàn)存放數(shù)據(jù)的地方;只不過從數(shù)據(jù)量來說,數(shù)據(jù)倉庫要比數(shù)據(jù)庫更龐大得多。數(shù)據(jù)倉庫主要用于數(shù)據(jù)挖掘和數(shù)據(jù)分析,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
在比爾的著作《Building the Data Warehouse》一書中,他將數(shù)據(jù)倉庫定義為:
數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
這種組織數(shù)據(jù)方式(即面向業(yè)務(wù)過程的數(shù)據(jù)組織方式),通俗來說,就是將數(shù)據(jù)物理集中在一起。從存儲的角度來看,數(shù)據(jù)就是一張張獨(dú)立的表結(jié)構(gòu),如常用的會員表、訂單表等,表與表之間無法在數(shù)據(jù)層面整合到一起,需要通過外在的輔助工具才能進(jìn)行邏輯與數(shù)據(jù)梳理,因此這種形式又被稱為物理集中,而不是邏輯集中。
這種傳統(tǒng)的數(shù)據(jù)倉庫,其優(yōu)勢在于統(tǒng)計性報表,能夠高效地進(jìn)行數(shù)據(jù)統(tǒng)計。
但其缺點(diǎn)正如前面張杰博士所提到的:
1)對于這種結(jié)構(gòu)化的數(shù)據(jù),需要提前定義好結(jié)構(gòu)(清楚地知道數(shù)據(jù)的格式和關(guān)系),且在添加數(shù)據(jù)的過程中很難改變結(jié)構(gòu)。這種結(jié)構(gòu)化的數(shù)據(jù)價值密度比較高,但在大數(shù)據(jù)時代我們不可能把所有的數(shù)據(jù)事先定義好,因此也就無法利用目前互聯(lián)網(wǎng)中出現(xiàn)的大量非結(jié)構(gòu)化的數(shù)據(jù)。
2)針對1)中的情況,目前也有很多企業(yè)使用像Hadoop這種分布式處理框架來開發(fā)大數(shù)據(jù)平臺,這可以存儲一些事先定義不好的、量特別大的、或結(jié)構(gòu)化數(shù)據(jù)庫不好索引的數(shù)據(jù)。但這些數(shù)據(jù)之間如何有效關(guān)聯(lián),如何進(jìn)行深度查詢依然存在困難。例如通過結(jié)構(gòu)化的或大數(shù)據(jù)平臺的數(shù)倉,可以勝任一度關(guān)系、二度關(guān)系的查詢,但涉及到四度、五度或者隱形關(guān)系查詢時,就會非常困難。
知識圖譜最早是在2012年由谷歌提出的一個概念,但事實(shí)上在很早就已經(jīng)有了相關(guān)的研究(稱為知識工程)。
知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識圖譜也是“關(guān)系”的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。
張杰表示:“在知識組織層面上,圖譜化將是企業(yè)進(jìn)行數(shù)據(jù)管理的未來趨勢?!?/p>
一方面,它便于將客戶已有的結(jié)構(gòu)化知識做更深的度數(shù)上的關(guān)聯(lián),同時保證查詢效率,深度關(guān)聯(lián)是傳統(tǒng)數(shù)倉的技術(shù)框架下不善于實(shí)現(xiàn)的。另一方面可以幫助客戶從來自于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等海量的非結(jié)構(gòu)化數(shù)據(jù)中抽取出知識片段,從而拓展客戶的數(shù)據(jù)維度,增大知識儲量,釋放出大數(shù)據(jù)紅利。
而在知識表示層面上,知識圖譜則是上游大數(shù)據(jù)和下游AI任務(wù)的有效連接。圖譜化之后的知識便于進(jìn)一步的語義化,知識碎片關(guān)聯(lián)起來形成圖譜之后,更多關(guān)聯(lián)信息意味著更加豐富的語義信息。
經(jīng)過適當(dāng)?shù)囊氤WR知識和領(lǐng)域知識,可以對圖譜中的節(jié)點(diǎn)和關(guān)系做向量化處理,進(jìn)而突破以往基于字符串匹配的淺層語義,更加便利、有效的幫助客戶組織領(lǐng)域知識,為流程優(yōu)化、輔助決策、預(yù)測分析等下游應(yīng)用提供基礎(chǔ)服務(wù)。
明略科技在這方面有足夠多的構(gòu)想和實(shí)踐。例如在知識表示方面,目前明略科技聚焦于如下幾個研究問題:帶有部分屬性和標(biāo)簽的靜態(tài)圖譜如何向量化表示,如何從動態(tài)變化且不符合馬爾可夫性的圖譜中挖掘出事件間的因果關(guān)系,常識知識、領(lǐng)域知識、非結(jié)構(gòu)化碎片知識如何映射到相同的語義空間中,如何用統(tǒng)一的知識表示框架為下游的分類、檢索、推薦、問答等任務(wù)提供知識服務(wù)。
然而目前為止知識圖譜在成為數(shù)倉的過程中,依然存在著研究上的和產(chǎn)業(yè)上的問題。
在研究方面,有人曾對近幾年國際頂會上的相關(guān)工作做了全方位分析,他們發(fā)現(xiàn)在知識圖譜落地過程中的每個環(huán)節(jié)都還存在各自的問題:構(gòu)建層面,目前比較關(guān)注的包括弱監(jiān)督、遠(yuǎn)程監(jiān)督、自監(jiān)督、小樣本等抽取方案;推理層面,主要集中在圖神經(jīng)網(wǎng)絡(luò)、基于圖表示學(xué)習(xí)的研究等;知識建模層面,則有一些事理圖譜(這個是由哈工大首先提出的一種概念)、動態(tài)知識圖譜、時序點(diǎn)過程的探索。
其次在產(chǎn)業(yè)應(yīng)用方面:
首先,對于構(gòu)建知識圖譜的“數(shù)倉”,眼下最主要的問題是大規(guī)模、低時延下的效率問題。目前企業(yè)所能掌握的關(guān)系數(shù)據(jù)一般都在千萬到百億節(jié)點(diǎn)的規(guī)模,未來隨著5G和物聯(lián)網(wǎng)的普及,其規(guī)模會更大,而且很多場景下要求在秒級甚至毫秒級返回查詢結(jié)果。這不光是對底層圖數(shù)據(jù)庫的挑戰(zhàn),很多上層AI任務(wù)的算法要配合中層的圖挖掘算法和更底層的圖數(shù)據(jù)庫操作算子一起做跨層聯(lián)合的并行化優(yōu)化。
另外一個挑戰(zhàn)是知識完備性問題,使用知識圖譜的目的,除了讓它做為一種中間態(tài)的數(shù)據(jù)服務(wù)之外,還期待能引入常識知識和領(lǐng)域知識,在大規(guī)模數(shù)據(jù)中做自動推理和補(bǔ)全,當(dāng)圖譜中的知識未達(dá)到一定的量級和豐富度之前,推理的準(zhǔn)確度很難保證甚至難以開展,兩者之間不是線性關(guān)系。
此外,也有人提到,現(xiàn)在越來越多的應(yīng)用,其輸入不僅限于文本,還會有圖片、音頻、視頻等多模態(tài)的內(nèi)容,如何為多模態(tài)的知識圖譜構(gòu)建提供一個比較好的解決方案,在未來一段時間里依然是一個具有挑戰(zhàn)性的問題。
因此,張杰博士作為補(bǔ)充也指出,“知識圖譜不是替換數(shù)據(jù)倉庫,而是作為數(shù)據(jù)倉庫的有效互補(bǔ)?!?/p>
雷鋒網(wǎng)報道。
參考文章:
[1] 百度百科, https://baike.baidu.com/item/數(shù)據(jù)倉庫
[2] 數(shù)據(jù)庫 與 數(shù)據(jù)倉庫的本質(zhì)區(qū)別是什么?,知乎問答,https://www.zhihu.com/question/20623931
[3] 機(jī)器之心 Pro, https://www.jiqizhixin.com/graph/technologies/6e896233-3f15-47a4-9b2e-479d7cc5478b
[4] 知識圖譜的下一步:知識指導(dǎo)的預(yù)訓(xùn)練模型和圖神經(jīng)網(wǎng)絡(luò), 蔡芳芳, https://www.infoq.cn/article/OfDP3jgOaZlg7ogmfEwk
[5] 知識圖譜 + 數(shù)據(jù)中臺,會是未來中臺戰(zhàn)略的答案嗎?, 佘磊, https://www.infoq.cn/article/DGJb0z4jKw8jzyf90dAE
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。