0
本文作者: 汪思穎 | 2018-03-15 11:59 |
雷鋒網(wǎng) AI 研習(xí)社消息,日前,上海交通大學(xué)王新兵教授和張偉楠教授指導(dǎo)的 Acemap 團(tuán)隊(duì)知識(shí)圖譜小組發(fā)布了學(xué)術(shù)知識(shí)圖譜 AceKG。從官網(wǎng)可以看到,Acemap知識(shí)圖譜(AceKG)描述了超過 1 億個(gè)學(xué)術(shù)實(shí)體、22 億條三元組信息,包含六千多萬篇論文、五千多萬位學(xué)者、五萬多個(gè)研究領(lǐng)域、將近兩萬個(gè)學(xué)術(shù)研究機(jī)構(gòu)等,數(shù)據(jù)集將近 100G。
知識(shí)圖譜(Knowledge Graph)是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu),揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為研究和決策提供切實(shí)的、有價(jià)值的參考。
目前,隨著機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的不斷發(fā)展,在大數(shù)據(jù)的推動(dòng)下,知識(shí)圖譜受到學(xué)界和業(yè)界的廣泛關(guān)注。但目前它的發(fā)展還存在著不少阻礙,例如從數(shù)據(jù)中挖掘出高質(zhì)量的知識(shí)需要大量的數(shù)據(jù)處理工作,構(gòu)建垂直領(lǐng)域知識(shí)圖譜的代價(jià)很大,很多研究工作都不具備實(shí)用性等等。
而 AceKG 究竟有何優(yōu)勢(shì)?據(jù)發(fā)布團(tuán)隊(duì)介紹,與現(xiàn)有學(xué)術(shù)知識(shí)圖譜相比,AceKG 主要有如下三個(gè)特點(diǎn):
AceKG 提供學(xué)術(shù)異構(gòu)圖譜,包含多樣的學(xué)術(shù)實(shí)體與相應(yīng)的屬性,可以支持多樣的學(xué)術(shù)大數(shù)據(jù)挖掘課題,例如現(xiàn)階段異構(gòu)網(wǎng)絡(luò)向量化的諸多課題。
AceKG 從更高的角度統(tǒng)覽整個(gè)學(xué)術(shù)圈,提供了近 100G 大小的數(shù)據(jù)集,包括論文、作者、領(lǐng)域、機(jī)構(gòu)、期刊、會(huì)議、聯(lián)盟,支持權(quán)威和實(shí)用的學(xué)術(shù)研究。
AceKG 以結(jié)構(gòu)化的 Turtle 文件格式給出(具體格式見下表),致力于減少數(shù)據(jù)預(yù)處理的不便,同時(shí)更易于機(jī)器處理,支持全部 Apache Jena API。
下圖是 AceKG 的結(jié)構(gòu)框架??梢钥吹剑珹ceKG 為每個(gè)實(shí)體提供了豐富的屬性信息,在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上加上語(yǔ)義信息,可以為眾多學(xué)術(shù)大數(shù)據(jù)挖掘項(xiàng)目提供全面支持。
以下是一些示例文件,大家可以點(diǎn)擊如下鏈接http://acemap.sjtu.edu.cn/app/Datasets/KG/example.zip,來了解和使用該知識(shí)圖譜。
此外,AceKG 使用 Apache Jena 框架驅(qū)動(dòng)。Apache Jena(http://jena.apache.org)使用 TDB 數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù),并且提供 SPARQL 引擎進(jìn)行數(shù)據(jù)查詢。它還為 Web 客戶端提供 FusekiHTTP 服務(wù),并提供完整的 Java API 查詢數(shù)據(jù)。架構(gòu)如下圖:
值得一提的是,AceKG 并不是雷鋒網(wǎng) AI 研習(xí)社報(bào)道的第一個(gè)學(xué)術(shù)知識(shí)圖譜。此前,清華大學(xué)教授、Arnetminer 創(chuàng)始人唐杰博士公開億級(jí)學(xué)術(shù)圖譜——Open Academic Graph。此圖譜集成了兩個(gè)最大的公開學(xué)術(shù)圖譜:微軟學(xué)術(shù)圖譜(MAG)和 AMiner 學(xué)術(shù)圖譜。開發(fā)團(tuán)隊(duì)通過集成 MAG 中 1.66 億學(xué)術(shù)論文和 AMiner 中 1.55 億學(xué)術(shù)論文的元數(shù)據(jù)信息,生成了這兩個(gè)學(xué)術(shù)圖譜之間近 6500 萬對(duì)鏈接(匹配)關(guān)系。
據(jù)唐杰教授介紹,公開 Open Academic Graph 目的如下:一是集成豐富的學(xué)術(shù)知識(shí)數(shù)據(jù),二是數(shù)據(jù)共享,三是服務(wù)共享。簡(jiǎn)言之,他們希望能夠造福學(xué)術(shù)界對(duì)知識(shí)圖譜、學(xué)者合作關(guān)系、學(xué)術(shù)主題挖掘等領(lǐng)域的研究,設(shè)計(jì)更加智能的學(xué)術(shù)圖譜連接系統(tǒng),以方便更多人使用服務(wù)以及加入開放學(xué)術(shù)社區(qū)。
在雷鋒網(wǎng) AI 研習(xí)社看來,這些學(xué)術(shù)知識(shí)圖譜的發(fā)布,不管對(duì)學(xué)界還是對(duì)業(yè)界來說都有極大的意義。一方面能助力大家當(dāng)前的研究,另一方面也能吸引更多人來進(jìn)行學(xué)術(shù)知識(shí)圖譜相關(guān)的研究。相信隨著越來越多學(xué)術(shù)知識(shí)圖譜的公開,將促進(jìn)學(xué)術(shù)大數(shù)據(jù)挖掘項(xiàng)目的持續(xù)發(fā)展。
AceKG 詳細(xì)信息,參見:http://acemap.sjtu.edu.cn/app/AceKG/index.html
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。