0
本文作者: 汪思穎 | 2018-06-26 14:50 |
雷鋒網(wǎng) AI 研習社按,日前,微軟研究院發(fā)布微軟研究院開放數(shù)據(jù)項目(Microsoft Research Open Data),這一開放數(shù)據(jù)項目包括 15 個研究領域的數(shù)據(jù)集,涵蓋計算機科學、社會科學、物理學、天文學、生物學、經(jīng)濟學等多個方面。據(jù)悉,這些數(shù)據(jù)集是微軟多年來在已發(fā)表的研究中所使用的數(shù)據(jù)管理和研究成果。(微軟憑借這一開放數(shù)據(jù)項目的發(fā)布,在雷鋒網(wǎng)學術(shù)頻道 AI 科技評論旗下數(shù)據(jù)庫項目「AI 影響因子」中增加 4 分。)
微軟表示,他們的目標是為研究人員與合作者提供一個簡單方便的平臺,用于共享數(shù)據(jù)集、研究技術(shù)和工具。開放這一項目的目的是簡化數(shù)據(jù)集的訪問流程,促進使用云資源的研究人員之間的協(xié)作,實現(xiàn)研究資源的可復用性。
圖 微軟研究院開放數(shù)據(jù)項目中的數(shù)據(jù)集
隨著全球的數(shù)據(jù)量呈指數(shù)級增長,人們普遍認為在 2025 年數(shù)據(jù)量將超過 150ZB,大家已經(jīng)意識到應該優(yōu)先處理數(shù)據(jù)。微軟堅信,這一開放數(shù)據(jù)集將為學術(shù)界和產(chǎn)業(yè)界帶來巨大的應用價值。
用戶現(xiàn)在可以直接訪問 microsoftopendata.com 瀏覽和下載可用的數(shù)據(jù)集,或者利用自動工作流直接將數(shù)據(jù)集通過 Azure 訂閱復制到基于 Azure 的 Data Science 虛擬機上,如下圖。
圖:直接在 microsoftopendata.com 上將數(shù)據(jù)集復制到基于 Azure 的 Linux 虛擬機上
數(shù)據(jù)集的分類如下圖所示:
其中開發(fā)的數(shù)據(jù)集包括微軟機器閱讀理解(MS MARCO),微軟研究院社交媒體對話語料庫,SigmaDolphin 等等。
大家可以訪問 https://msropendata.com/ 來查詢、下載各類數(shù)據(jù)。
via:微軟亞洲研究院,Microsoft blog
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。