清華唐杰博士詳解億級(jí)學(xué)術(shù)圖譜Open Academic Graph，如何高效精準(zhǔn)生成6500萬(wàn)對(duì)匹配關(guān)系？

本文作者：汪思穎

編輯：郭奕欣

2017-08-29 09:57

導(dǎo)語(yǔ)：通過(guò)集成MAG中1.66億學(xué)術(shù)論文和AMiner中1.55億學(xué)術(shù)論文的元數(shù)據(jù)信息，Open Academic Graph生成了兩者間近 6500 萬(wàn)個(gè)鏈接關(guān)系。

雷鋒網(wǎng) AI 科技評(píng)論按：近日，清華大學(xué)副教授、Arnetminer 創(chuàng)始人唐杰博士在微博上公開(kāi)了開(kāi)放學(xué)術(shù)組織（Open Academic Society）發(fā)布的億級(jí)學(xué)術(shù)圖譜——Open Academic Graph。據(jù)唐杰博士介紹，該圖譜目前集成了兩個(gè)最大的公開(kāi)學(xué)術(shù)圖譜：微軟學(xué)術(shù)圖譜（MAG）和AMiner學(xué)術(shù)圖譜。具體來(lái)說(shuō)，團(tuán)隊(duì)通過(guò)集成MAG中1.66億學(xué)術(shù)論文和AMiner中1.55億學(xué)術(shù)論文的元數(shù)據(jù)信息，生成了這兩個(gè)學(xué)術(shù)圖譜之間近 6500 萬(wàn)對(duì)鏈接（匹配）關(guān)系。

雷鋒網(wǎng) AI 科技評(píng)論第一時(shí)間采訪了唐杰博士，詳細(xì)了解到這個(gè)億級(jí)學(xué)術(shù)圖譜和與之相關(guān)的研究難點(diǎn)以及技術(shù)突破。

億級(jí)數(shù)據(jù)，籌備半年

目前這個(gè)學(xué)術(shù)圖譜中的數(shù)據(jù)集主要是論文，包括論文中的題目、作者、會(huì)議、年份、摘要等元數(shù)據(jù)。不同于國(guó)內(nèi)大的學(xué)術(shù)數(shù)據(jù)庫(kù)知網(wǎng)、萬(wàn)方等以中文為主，Open Academic Graph中的論文主要是英文。根據(jù)唐杰博士的介紹，如此龐大的數(shù)據(jù)集，團(tuán)隊(duì)前后花了半年時(shí)間籌備。

耗費(fèi)如此多的時(shí)間和精力，做這個(gè)數(shù)據(jù)集目的何在？唐杰博士告訴雷鋒網(wǎng)AI科技評(píng)論，他們想要集成全球不同學(xué)術(shù)知識(shí)圖譜，并公開(kāi)共享學(xué)術(shù)圖譜數(shù)據(jù)和相關(guān)學(xué)術(shù)搜索與挖掘服務(wù)。具體包括如下三點(diǎn)：

一是集成豐富的學(xué)術(shù)知識(shí)數(shù)據(jù)。目前開(kāi)放學(xué)術(shù)圖譜的核心數(shù)據(jù)來(lái)自微軟學(xué)術(shù)圖譜和AMiner學(xué)術(shù)圖譜，下一步將集成更多其他學(xué)術(shù)圖譜數(shù)據(jù)，包括擴(kuò)充不同類型實(shí)體（如作者、論文等）的語(yǔ)義數(shù)據(jù)。通過(guò)數(shù)據(jù)集成和數(shù)據(jù)挖掘算法將鏈接更多實(shí)體更精準(zhǔn)和豐富的“畫(huà)像”數(shù)據(jù)，包括論文的元數(shù)據(jù)、概念網(wǎng)絡(luò)、研究領(lǐng)域、全文等和作者的基本信息（如：職位、單位、聯(lián)系信息、國(guó)別、性別等）、研究興趣以及論文列表等。

二是數(shù)據(jù)共享。通過(guò)共享不同的學(xué)術(shù)知識(shí)圖譜以及它們的鏈接關(guān)系，我們希望能夠造福學(xué)術(shù)界對(duì)知識(shí)圖譜、學(xué)者合作關(guān)系、學(xué)術(shù)主題挖掘以及大規(guī)模學(xué)術(shù)圖譜連接等領(lǐng)域的研究。同時(shí)，歡迎更多來(lái)自學(xué)術(shù)社區(qū)的貢獻(xiàn)來(lái)進(jìn)一步增強(qiáng)開(kāi)放學(xué)術(shù)圖譜。

三是服務(wù)共享。我們希望設(shè)計(jì)更加智能的學(xué)術(shù)圖譜連接系統(tǒng)，并提供相關(guān)的服務(wù)（如API），以方便更多人使用服務(wù)以及加入開(kāi)放學(xué)術(shù)社區(qū)。

精準(zhǔn)匹配，挑戰(zhàn)頗多

龐大的數(shù)據(jù)量，要實(shí)現(xiàn)精準(zhǔn)匹配勢(shì)必會(huì)存在各種各樣的問(wèn)題。唐杰博士坦言，在實(shí)際的研究過(guò)程中，由于學(xué)術(shù)數(shù)據(jù)在不同圖譜中的分布異構(gòu)特點(diǎn)，同名異義和異名同義問(wèn)題嚴(yán)重。對(duì)于出現(xiàn)的問(wèn)題，他也舉了幾個(gè)實(shí)例來(lái)具體說(shuō)明。

一是數(shù)據(jù)異構(gòu)問(wèn)題。由于數(shù)據(jù)分布在不同數(shù)據(jù)源，可能面臨數(shù)據(jù)異構(gòu)的問(wèn)題。比如論文作者可能存在不同的格式，如Quoc Le 和Le, Quoc。又如，論文所發(fā)表的期刊或會(huì)議有全稱或縮寫(xiě)等多種形式。

二是同名消歧問(wèn)題。同一名字可以表示多個(gè)實(shí)體，這也給圖譜連接帶來(lái)了很大困難。比如常見(jiàn)姓名通常是匹配的難點(diǎn)。在2016 年，中國(guó)重名最多的30 個(gè)姓名中，每個(gè)姓名重名人次達(dá)到20 萬(wàn)以上。對(duì)于論文來(lái)說(shuō)，不同論文也可能有相同的題目，如：Data, data everywhere 在數(shù)據(jù)庫(kù)中可對(duì)應(yīng)多篇文章。

除了前面提到的兩個(gè)問(wèn)題，要想實(shí)現(xiàn)億級(jí)數(shù)據(jù)的集成，如何進(jìn)行高效計(jì)算也是另一個(gè)重要挑戰(zhàn)。唐杰博士提到，以AMiner為例，已經(jīng)公布的論文數(shù)據(jù)就有1.55億，而微軟學(xué)術(shù)圖譜的公開(kāi)數(shù)據(jù)也達(dá)1.6億，計(jì)算兩個(gè)圖譜匹配關(guān)系的算法復(fù)雜度一般來(lái)說(shuō)是O(n²)，這需要大量計(jì)算。

精進(jìn)算法，不斷突破

那么團(tuán)隊(duì)究竟如何處理這些問(wèn)題？他們?cè)O(shè)計(jì)了一個(gè)折衷方法，同時(shí)考慮精度和效率。據(jù)介紹，他們的方法能將算法復(fù)雜度降低到O(nlogn)到O(n²)之間，目前每天能夠完成約2千萬(wàn)篇論文的匹配，基本完成了合計(jì)3億篇論文的自動(dòng)匹配，并保證了高匹配精度。

該算法是在RiMOM算法的基礎(chǔ)上進(jìn)行了改進(jìn)。

具體來(lái)說(shuō)，我們?cè)O(shè)計(jì)了一個(gè)針對(duì)大規(guī)模論文匹配的異步搜索框架。對(duì)于AMiner中的每篇論文，我們根據(jù)題目在MAG中搜索可能匹配的論文，每次搜索的時(shí)間在幾百毫秒到幾秒不等。通過(guò)異步搜索的策略，可以做到平均每秒搜索到20余篇論文，使得大規(guī)模的圖譜鏈接可以達(dá)到較快的速度。

為進(jìn)一步提高自動(dòng)集成速度，他們還嘗試了兩個(gè)新的匹配算法MHash和MCNN。

MHash是利用哈希算法，將每篇論文轉(zhuǎn)化為一串二值編碼，計(jì)算兩篇論文之間的漢明距離。由于使用了哈希，該算法速度很快，但同時(shí)精度也有所降低，大概能保持93+%的匹配準(zhǔn)確率。MCNN是基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法，MCNN基于單詞之間的相似度構(gòu)造兩篇論文的相似矩陣，然后利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)捕捉文本之間的相似模式。

采訪過(guò)程中，唐杰博士還提到在實(shí)際的操作過(guò)程中，該方法可以緩解數(shù)據(jù)異構(gòu)的問(wèn)題。如：對(duì)于作者Quoc Le 和Le, Quoc，它們對(duì)應(yīng)位置上的單詞是不相似的，但是在相似矩陣中可以捕捉不對(duì)應(yīng)位置上單詞的相似度。該方法可以達(dá)到非常高的匹配準(zhǔn)確率（98%+）。兩個(gè)論文匹配算法均結(jié)合了論文的多個(gè)屬性，如題目、作者等減輕同名消歧問(wèn)題。

總結(jié)

唐杰博士團(tuán)隊(duì)與微軟聯(lián)合發(fā)布的Open Academic Graph，不管對(duì)學(xué)界還是對(duì)業(yè)界來(lái)說(shuō)都有極大的意義。一方面能助力大家當(dāng)前的研究，另一方面也能吸引更多人來(lái)進(jìn)行學(xué)術(shù)知識(shí)圖譜相關(guān)的研究。

在未來(lái)，他們還將研究如何集成大規(guī)模異構(gòu)學(xué)術(shù)圖譜中不同類型的實(shí)體（如作者、會(huì)議等），公布更多學(xué)術(shù)圖譜連接數(shù)據(jù)（如作者連接數(shù)據(jù)），設(shè)計(jì)更加智能的學(xué)術(shù)圖譜連接系統(tǒng)并提供相應(yīng)的服務(wù)。

最快今年年底，我們可能就會(huì)看到更大的數(shù)據(jù)集。雷鋒網(wǎng) AI 科技評(píng)論也將持續(xù)關(guān)注。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

清華唐杰博士詳解億級(jí)學(xué)術(shù)圖譜Open Academic Graph，如何高效精準(zhǔn)生成6500萬(wàn)對(duì)匹配關(guān)系？

清華唐杰博士詳解億級(jí)學(xué)術(shù)圖譜Open Academic Graph，如何高效精準(zhǔn)生成6500萬(wàn)對(duì)匹配關(guān)系？