1
本文作者: 叢末 | 2019-03-01 10:03 |
雷鋒網(wǎng) AI 科技評論按:繼 2017 年 8 月份首度聯(lián)合發(fā)布開放學(xué)術(shù)圖譜(Open Academic Graph, OAG),近日,清華大學(xué)和微軟研究院再度攜手將 OAG 更新為 2.0 版本并進(jìn)行了發(fā)布。
OAG 2.0 版本下載網(wǎng)址:https://www.openacademic.ai/oag/
于 2017 年開放的 OAG 1.0 版本,通過整合清華 AMiner 學(xué)術(shù)圖譜的 154,771,162 篇學(xué)術(shù)論文的元數(shù)據(jù)和微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG)的 166,192,182 億篇論文,生成了兩個(gè)學(xué)術(shù)圖譜之間近 64,639,608 對鏈接(匹配)關(guān)系。
OAG 1.0 版本
而相較 OAG 的 1.0 版本,2.0 版本的更新在于它在論文相關(guān)數(shù)據(jù)的基礎(chǔ)上,增加了作者以及出版地點(diǎn)相關(guān)的數(shù)據(jù),也就是說新發(fā)布的 2.0 版本包括了論文、作者、出版地點(diǎn) 3 類實(shí)體以及相應(yīng)的匹配關(guān)系。
據(jù)悉,截止 2019 年 1 月,OAG 2.0版本包括約 7 億實(shí)體數(shù)據(jù)和約 20 億實(shí)體之間的鏈接關(guān)系,其中包括 AMiner 的 2.8 億實(shí)體數(shù)據(jù)和 MAG 的 4 億多實(shí)體。OAG v2 的統(tǒng)計(jì)數(shù)據(jù)如下面三張圖表所示:
OAG論文數(shù)據(jù)統(tǒng)計(jì),圖片截止官網(wǎng)
OAG作者數(shù)據(jù)統(tǒng)計(jì),圖片截止官網(wǎng)
OAG出版地點(diǎn)數(shù)據(jù)統(tǒng)計(jì),圖片截止官網(wǎng)
由于 MAG 和 AMiner 兩個(gè)學(xué)術(shù)圖譜都在不斷演變,在這三張圖表中,OAG 2.0版本采用了 MAG 2018 年 11 月的快照和 AMiner 2018 年 7 月或 2019 年 1 月的快照。另外值得一提的是,在對于作者匹配,學(xué)者們只考慮了論文數(shù)不少于 5 的作者,并將論文數(shù)量較少的作者排除后,其中,AMiner 中有 6,855,193 位作者,MAG 中有 13,173,936 位作者。
對于該上億規(guī)模 OAG 的構(gòu)建,無論是 1.0 版本還是最近更新的 2.0 版本,都存在著較大的挑戰(zhàn),其中包括:
數(shù)據(jù)+實(shí)體異構(gòu):在 1.0 版本中,由于數(shù)據(jù)分布在不同的數(shù)據(jù)源中,所以 OAG 面臨著異構(gòu)的數(shù)據(jù)問題。例如期刊或會(huì)議可能會(huì)使用全名或縮寫。而在 2.0 版本中,除了要面臨數(shù)據(jù)異構(gòu)的挑戰(zhàn),OAG 還迎來了實(shí)體異構(gòu)的挑戰(zhàn):OAG 2.0 中不同類型的實(shí)體具有異構(gòu)性,它們都有各自不同的特征。例如,出版地點(diǎn)的主要屬性是名稱,而論文有不同類型的屬性,如題目,作者列表,年份等。此外,不同數(shù)據(jù)源的相同屬性也有異構(gòu)性。例如論文作者可能存在不同的格式,如 Quoc Le 和 Le, Quoc;出版地點(diǎn)有全稱或縮寫等多種形式。
實(shí)體歧義:同一名稱可以表示多個(gè)實(shí)體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是作者匹配的難點(diǎn)。對于論文來說,相同的題目也可能代表不同的論文,如在 KDD 2016 中收集了兩篇題為「robust influence maximization」的不同論文。
大規(guī)模匹配、計(jì)算:面對億級數(shù)據(jù)集成,如何進(jìn)行高效計(jì)算是 1.0 版本和 2.0 版本都要面對的巨大挑戰(zhàn)。以已經(jīng)公布的論文數(shù)據(jù)為例,AMiner 和 MAG 各自有約 1.7 億和 2 億篇論文,因此需要設(shè)計(jì)一個(gè)高效的匹配框架。
在 OAG 1.0 版本發(fā)布之際,雷鋒網(wǎng) AI 科技評論曾對清華大學(xué)副教授、Arnetminer 創(chuàng)始人唐杰博士進(jìn)行了采訪。采訪中,當(dāng)問到如何解決數(shù)據(jù)異構(gòu)、同名歧義、大規(guī)模匹配和計(jì)算等問題時(shí),唐杰博士提到他們設(shè)計(jì)了一個(gè)折衷方法:同時(shí)考慮精度和效率。據(jù)介紹,該算法將算法復(fù)雜度降低到 O(nlogn) 到 O(n2) 之間,目前每天能夠完成約 2 千萬篇論文的匹配,基本完成了合計(jì) 3 億篇論文的自動(dòng)匹配,并保證了高匹配精度:
具體來說,我們設(shè)計(jì)了一個(gè)針對大規(guī)模論文匹配的異步搜索框架。對于 AMiner 中的每篇論文,我們根據(jù)題目在MAG中搜索可能匹配的論文,每次搜索的時(shí)間在幾百毫秒到幾秒不等。通過異步搜索的策略,可以做到平均每秒搜索到 20 余篇論文,使得大規(guī)模的圖譜鏈接可以達(dá)到較快的速度。
另外,為了進(jìn)一步提高自動(dòng)集成速度,他們還嘗試了兩個(gè)新的匹配算法 MHash 和 MCNN。
MHash是利用哈希算法,將每篇論文轉(zhuǎn)化為一串二值編碼,計(jì)算兩篇論文之間的漢明距離。由于使用了哈希,該算法速度很快,但同時(shí)精度也有所降低,大概能保持 93+% 的匹配準(zhǔn)確率。MCNN是基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,MCNN 基于單詞之間的相似度構(gòu)造兩篇論文的相似矩陣,然后利用卷積神經(jīng)網(wǎng)絡(luò)來捕捉文本之間的相似模式。
同時(shí),唐杰博士還提到在實(shí)際的操作過程中,該方法也可以緩解數(shù)據(jù)異構(gòu)的問題。如:對于作者Quoc Le 和Le, Quoc,它們對應(yīng)位置上的單詞是不相似的,但是在相似矩陣中可以捕捉不對應(yīng)位置上單詞的相似度。最終結(jié)果顯示,該方法可以達(dá)到非常高的匹配準(zhǔn)確率(98%+)。另外,這兩個(gè)論文匹配算法均結(jié)合了論文的多個(gè)屬性,如題目、作者等減輕同名消歧問題。
而對于增加了 2 個(gè)實(shí)體 OAG 2.0 版本來說,要應(yīng)對這些挑戰(zhàn)更是難上加難,對此,學(xué)者們在沿用哈希算法、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)等方法的同時(shí),也嘗試結(jié)合這些算法以及不同神經(jīng)網(wǎng)絡(luò)模型和注意力機(jī)制等方法,來連接兩個(gè)大規(guī)模學(xué)術(shù)圖譜上不同類型的實(shí)體(論文、作者和出版地點(diǎn))。學(xué)者們評估了少部分匹配關(guān)系(大約 1,000 個(gè)論文/作者/出版地點(diǎn)匹配對),得出了相對應(yīng)的匹配準(zhǔn)確率:其中論文最新的匹配準(zhǔn)確率為 99.10%;作者的匹配準(zhǔn)確率為 97.41%;出版地址的匹配準(zhǔn)確率為 99.26%。
實(shí)體匹配準(zhǔn)確率,圖片截止官網(wǎng)
OAG 是開放學(xué)術(shù)組織(Open Academic Society, OAS)的一個(gè)重要項(xiàng)目,OAS 是一個(gè)由微軟,清華,艾倫人工智能研究所,亞利桑那大學(xué),華盛頓大學(xué),加州大學(xué)洛杉磯分校和澳大利亞國立大學(xué)等全球 20 個(gè)機(jī)構(gòu)組成的促進(jìn)開放學(xué)術(shù)資料共享、加強(qiáng)學(xué)術(shù)交流與合作的聯(lián)盟。OAG 旨在整合全球?qū)W術(shù)知識(shí)圖譜,公開共享學(xué)術(shù)圖譜數(shù)據(jù),并提供相關(guān)學(xué)術(shù)搜索和數(shù)據(jù)挖掘服務(wù)。
具體來說,OAS 的主要功能包括:
整合豐富的學(xué)術(shù)知識(shí)數(shù)據(jù):目前,OAG 的核心數(shù)據(jù)來自 MAG 和 AMiner,下一步將會(huì)整合另外的學(xué)術(shù)數(shù)據(jù),包括不同類型的實(shí)體的語義數(shù)據(jù)。另外,數(shù)據(jù)集成和數(shù)據(jù)挖掘算法也會(huì)將更多的實(shí)體鏈接到更精確更豐富的數(shù)據(jù)(包括元數(shù)據(jù)、概念網(wǎng)絡(luò)、研究領(lǐng)域、全文和作者個(gè)人信息)上。
數(shù)據(jù)共享:通過分享不同的學(xué)術(shù)知識(shí)地圖及其鏈接,我們希望能夠促進(jìn)知識(shí)圖譜、學(xué)者合作關(guān)系、學(xué)術(shù)主題挖掘等領(lǐng)域的學(xué)術(shù)研究。
服務(wù)共享:希望設(shè)計(jì)更智能的學(xué)術(shù)圖譜連接系統(tǒng),并提供相關(guān)服務(wù)(如 API),以鼓勵(lì)更多的人使用該服務(wù)并加入開放學(xué)術(shù)組織。
資料參考自:學(xué)術(shù)頭條,《清華大學(xué)和微軟研究院聯(lián)合發(fā)布 “開放學(xué)術(shù)圖譜(OAG)2.0版本”》雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。