0
本文作者: 汪思穎 | 2018-06-26 14:50 |
雷鋒網(wǎng) AI 研習(xí)社按,日前,微軟研究院發(fā)布微軟研究院開放數(shù)據(jù)項(xiàng)目(Microsoft Research Open Data),這一開放數(shù)據(jù)項(xiàng)目包括 15 個(gè)研究領(lǐng)域的數(shù)據(jù)集,涵蓋計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)、物理學(xué)、天文學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等多個(gè)方面。據(jù)悉,這些數(shù)據(jù)集是微軟多年來在已發(fā)表的研究中所使用的數(shù)據(jù)管理和研究成果。(微軟憑借這一開放數(shù)據(jù)項(xiàng)目的發(fā)布,在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評論旗下數(shù)據(jù)庫項(xiàng)目「AI 影響因子」中增加 4 分。)
微軟表示,他們的目標(biāo)是為研究人員與合作者提供一個(gè)簡單方便的平臺(tái),用于共享數(shù)據(jù)集、研究技術(shù)和工具。開放這一項(xiàng)目的目的是簡化數(shù)據(jù)集的訪問流程,促進(jìn)使用云資源的研究人員之間的協(xié)作,實(shí)現(xiàn)研究資源的可復(fù)用性。
圖 微軟研究院開放數(shù)據(jù)項(xiàng)目中的數(shù)據(jù)集
隨著全球的數(shù)據(jù)量呈指數(shù)級(jí)增長,人們普遍認(rèn)為在 2025 年數(shù)據(jù)量將超過 150ZB,大家已經(jīng)意識(shí)到應(yīng)該優(yōu)先處理數(shù)據(jù)。微軟堅(jiān)信,這一開放數(shù)據(jù)集將為學(xué)術(shù)界和產(chǎn)業(yè)界帶來巨大的應(yīng)用價(jià)值。
用戶現(xiàn)在可以直接訪問 microsoftopendata.com 瀏覽和下載可用的數(shù)據(jù)集,或者利用自動(dòng)工作流直接將數(shù)據(jù)集通過 Azure 訂閱復(fù)制到基于 Azure 的 Data Science 虛擬機(jī)上,如下圖。
圖:直接在 microsoftopendata.com 上將數(shù)據(jù)集復(fù)制到基于 Azure 的 Linux 虛擬機(jī)上
數(shù)據(jù)集的分類如下圖所示:
其中開發(fā)的數(shù)據(jù)集包括微軟機(jī)器閱讀理解(MS MARCO),微軟研究院社交媒體對話語料庫,SigmaDolphin 等等。
大家可以訪問 https://msropendata.com/ 來查詢、下載各類數(shù)據(jù)。
via:微軟亞洲研究院,Microsoft blog
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。