丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

清華唐杰博士詳解億級學(xué)術(shù)圖譜Open Academic Graph,如何高效精準(zhǔn)生成6500萬對匹配關(guān)系?

本文作者: 汪思穎 編輯:郭奕欣 2017-08-29 09:57
導(dǎo)語:通過集成MAG中1.66億學(xué)術(shù)論文和AMiner中1.55億學(xué)術(shù)論文的元數(shù)據(jù)信息,Open Academic Graph生成了兩者間近 6500 萬個鏈接關(guān)系。

雷鋒網(wǎng) AI 科技評論按:近日,清華大學(xué)副教授、Arnetminer 創(chuàng)始人唐杰博士在微博上公開了開放學(xué)術(shù)組織(Open Academic Society)發(fā)布的億級學(xué)術(shù)圖譜——Open Academic Graph。據(jù)唐杰博士介紹,該圖譜目前集成了兩個最大的公開學(xué)術(shù)圖譜:微軟學(xué)術(shù)圖譜(MAG)和AMiner學(xué)術(shù)圖譜。具體來說,團隊通過集成MAG中1.66億學(xué)術(shù)論文和AMiner中1.55億學(xué)術(shù)論文的元數(shù)據(jù)信息,生成了這兩個學(xué)術(shù)圖譜之間近 6500 萬對鏈接(匹配)關(guān)系。

雷鋒網(wǎng) AI 科技評論第一時間采訪了唐杰博士,詳細了解到這個億級學(xué)術(shù)圖譜和與之相關(guān)的研究難點以及技術(shù)突破。

億級數(shù)據(jù),籌備半年

目前這個學(xué)術(shù)圖譜中的數(shù)據(jù)集主要是論文,包括論文中的題目、作者、會議、年份、摘要等元數(shù)據(jù)。不同于國內(nèi)大的學(xué)術(shù)數(shù)據(jù)庫知網(wǎng)、萬方等以中文為主,Open Academic Graph中的論文主要是英文。根據(jù)唐杰博士的介紹,如此龐大的數(shù)據(jù)集,團隊前后花了半年時間籌備。

耗費如此多的時間和精力,做這個數(shù)據(jù)集目的何在?唐杰博士告訴雷鋒網(wǎng)AI科技評論,他們想要集成全球不同學(xué)術(shù)知識圖譜,并公開共享學(xué)術(shù)圖譜數(shù)據(jù)和相關(guān)學(xué)術(shù)搜索與挖掘服務(wù)。具體包括如下三點:

一是集成豐富的學(xué)術(shù)知識數(shù)據(jù)。目前開放學(xué)術(shù)圖譜的核心數(shù)據(jù)來自微軟學(xué)術(shù)圖譜和AMiner學(xué)術(shù)圖譜,下一步將集成更多其他學(xué)術(shù)圖譜數(shù)據(jù),包括擴充不同類型實體(如作者、論文等)的語義數(shù)據(jù)。通過數(shù)據(jù)集成和數(shù)據(jù)挖掘算法將鏈接更多實體更精準(zhǔn)和豐富的“畫像”數(shù)據(jù),包括論文的元數(shù)據(jù)、概念網(wǎng)絡(luò)、研究領(lǐng)域、全文等和作者的基本信息(如:職位、單位、聯(lián)系信息、國別、性別等)、研究興趣以及論文列表等。


二是數(shù)據(jù)共享。通過共享不同的學(xué)術(shù)知識圖譜以及它們的鏈接關(guān)系,我們希望能夠造福學(xué)術(shù)界對知識圖譜、學(xué)者合作關(guān)系、學(xué)術(shù)主題挖掘以及大規(guī)模學(xué)術(shù)圖譜連接等領(lǐng)域的研究。同時,歡迎更多來自學(xué)術(shù)社區(qū)的貢獻來進一步增強開放學(xué)術(shù)圖譜。


三是服務(wù)共享。我們希望設(shè)計更加智能的學(xué)術(shù)圖譜連接系統(tǒng),并提供相關(guān)的服務(wù)(如API),以方便更多人使用服務(wù)以及加入開放學(xué)術(shù)社區(qū)。

精準(zhǔn)匹配,挑戰(zhàn)頗多

龐大的數(shù)據(jù)量,要實現(xiàn)精準(zhǔn)匹配勢必會存在各種各樣的問題。唐杰博士坦言,在實際的研究過程中,由于學(xué)術(shù)數(shù)據(jù)在不同圖譜中的分布異構(gòu)特點,同名異義和異名同義問題嚴(yán)重。對于出現(xiàn)的問題,他也舉了幾個實例來具體說明。

一是數(shù)據(jù)異構(gòu)問題。由于數(shù)據(jù)分布在不同數(shù)據(jù)源,可能面臨數(shù)據(jù)異構(gòu)的問題。比如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,論文所發(fā)表的期刊或會議有全稱或縮寫等多種形式。

二是同名消歧問題。同一名字可以表示多個實體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是匹配的難點。在2016 年,中國重名最多的30 個姓名中,每個姓名重名人次達到20 萬以上。對于論文來說,不同論文也可能有相同的題目,如:Data, data everywhere 在數(shù)據(jù)庫中可對應(yīng)多篇文章。

除了前面提到的兩個問題,要想實現(xiàn)億級數(shù)據(jù)的集成,如何進行高效計算也是另一個重要挑戰(zhàn)。唐杰博士提到,以AMiner為例,已經(jīng)公布的論文數(shù)據(jù)就有1.55億,而微軟學(xué)術(shù)圖譜的公開數(shù)據(jù)也達1.6億,計算兩個圖譜匹配關(guān)系的算法復(fù)雜度一般來說是O(n2),這需要大量計算。

精進算法,不斷突破

那么團隊究竟如何處理這些問題?他們設(shè)計了一個折衷方法,同時考慮精度和效率。據(jù)介紹,他們的方法能將算法復(fù)雜度降低到O(nlogn)到O(n2)之間,目前每天能夠完成約2千萬篇論文的匹配,基本完成了合計3億篇論文的自動匹配,并保證了高匹配精度。

該算法是在RiMOM算法的基礎(chǔ)上進行了改進。

具體來說,我們設(shè)計了一個針對大規(guī)模論文匹配的異步搜索框架。對于AMiner中的每篇論文,我們根據(jù)題目在MAG中搜索可能匹配的論文,每次搜索的時間在幾百毫秒到幾秒不等。通過異步搜索的策略,可以做到平均每秒搜索到20余篇論文,使得大規(guī)模的圖譜鏈接可以達到較快的速度。

為進一步提高自動集成速度,他們還嘗試了兩個新的匹配算法MHash和MCNN。

MHash是利用哈希算法,將每篇論文轉(zhuǎn)化為一串二值編碼,計算兩篇論文之間的漢明距離。由于使用了哈希,該算法速度很快,但同時精度也有所降低,大概能保持93+%的匹配準(zhǔn)確率。MCNN是基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,MCNN基于單詞之間的相似度構(gòu)造兩篇論文的相似矩陣,然后利用卷積神經(jīng)網(wǎng)絡(luò)來捕捉文本之間的相似模式。

采訪過程中,唐杰博士還提到在實際的操作過程中,該方法可以緩解數(shù)據(jù)異構(gòu)的問題。如:對于作者Quoc Le 和Le, Quoc,它們對應(yīng)位置上的單詞是不相似的,但是在相似矩陣中可以捕捉不對應(yīng)位置上單詞的相似度。該方法可以達到非常高的匹配準(zhǔn)確率(98%+)。兩個論文匹配算法均結(jié)合了論文的多個屬性,如題目、作者等減輕同名消歧問題。

總結(jié)

唐杰博士團隊與微軟聯(lián)合發(fā)布的Open Academic Graph,不管對學(xué)界還是對業(yè)界來說都有極大的意義。一方面能助力大家當(dāng)前的研究,另一方面也能吸引更多人來進行學(xué)術(shù)知識圖譜相關(guān)的研究。

在未來,他們還將研究如何集成大規(guī)模異構(gòu)學(xué)術(shù)圖譜中不同類型的實體(如作者、會議等),公布更多學(xué)術(shù)圖譜連接數(shù)據(jù)(如作者連接數(shù)據(jù)),設(shè)計更加智能的學(xué)術(shù)圖譜連接系統(tǒng)并提供相應(yīng)的服務(wù)。

最快今年年底,我們可能就會看到更大的數(shù)據(jù)集。雷鋒網(wǎng) AI 科技評論也將持續(xù)關(guān)注。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

清華唐杰博士詳解億級學(xué)術(shù)圖譜Open Academic Graph,如何高效精準(zhǔn)生成6500萬對匹配關(guān)系?

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說