2
Google和數(shù)據(jù)技術(shù)的發(fā)展一直是齊頭并進(jìn)的,現(xiàn)在Google通過更快搜索數(shù)據(jù)來進(jìn)一步強(qiáng)化大眾和數(shù)據(jù)的關(guān)系。
眼下,一個(gè)好消息又來了:Google再次宣布開放一個(gè)全新的搜索服務(wù):Dataset Search(數(shù)據(jù)集搜索)。
還記得不久之前Google發(fā)布的Google Scholar(學(xué)術(shù)搜索)嗎?當(dāng)時(shí)的Google Scholar 填補(bǔ)了快速查找學(xué)術(shù)資料的空白,那么這一次,Google直接將注意力更精準(zhǔn)地聚焦到了數(shù)據(jù)集,簡(jiǎn)直“體貼又細(xì)心”!
Google人工智能研究科學(xué)家Natasha Noy表示,科學(xué)家、研究人員、數(shù)據(jù)記者和其他有興趣使用數(shù)據(jù)的人是這個(gè)工具的主要受眾,與此同時(shí),Google認(rèn)為這些數(shù)據(jù)集在整個(gè)Google產(chǎn)品中的地位將會(huì)變得更加突出。
數(shù)據(jù)工作者的又一“神器”
首先,數(shù)據(jù)集到底是什么?先來普及下概念。Dataset(數(shù)據(jù)集),又稱為資料集、數(shù)據(jù)集合或資料集合,是一種由數(shù)據(jù)所組成的集合。Dataset通常以表格形式出現(xiàn)。每一列代表一個(gè)特定變量,每一行都對(duì)應(yīng)于某一成員的數(shù)據(jù)集的問題。它列出的價(jià)值觀為每一個(gè)變量,如身高和體重的一個(gè)物體或價(jià)值的隨機(jī)數(shù)。每個(gè)數(shù)值被稱為數(shù)據(jù)資料。對(duì)應(yīng)于行數(shù),該數(shù)據(jù)集的數(shù)據(jù)可能包括一個(gè)或多個(gè)成員。
從歷史上看,這個(gè)術(shù)語起源于大型機(jī)領(lǐng)域,在那里它有一個(gè)明確界定的意義,非常接近現(xiàn)代的計(jì)算機(jī)檔案。
Natasha Noy表示,這個(gè)新服務(wù)會(huì)將數(shù)萬個(gè)不同在線數(shù)據(jù)集存檔統(tǒng)一起來。那最終這些數(shù)據(jù)集的歸屬在哪呢?Natasha Noy談到:“我們想要讓這些數(shù)據(jù)可以被發(fā)現(xiàn),但數(shù)據(jù)仍保留在原始位置。”
如何運(yùn)行?我們嘗試進(jìn)行了操作
這個(gè)Dataset Search怎么運(yùn)行的?事實(shí)上,即使對(duì)于組織最完善、數(shù)據(jù)最豐富的人來說,也需要利用來源于外部的數(shù)據(jù)。
舉個(gè)天氣和環(huán)境數(shù)據(jù)的典型例子。
假設(shè)你想要將農(nóng)業(yè)數(shù)據(jù)與天氣現(xiàn)象相關(guān)聯(lián)以預(yù)測(cè)作物生長(zhǎng),或者想要研究天氣對(duì)整個(gè)歷史時(shí)期發(fā)生的現(xiàn)象的影響。這種歷史天氣數(shù)據(jù),幾乎不可能由任何單一組織積累和策劃,很可能由NOAA和NASA等組織隨時(shí)提供(雷鋒網(wǎng)注:NOAA是美國(guó)國(guó)家海洋和大氣管理局,NASA是美國(guó)國(guó)家航空航天局)。
這些組織會(huì)通過專用數(shù)據(jù)門戶定期策劃和發(fā)布其數(shù)據(jù),因此,如果你需要定期獲取數(shù)據(jù),可能需要熟悉通過這些門戶定位數(shù)據(jù)的過程。當(dāng)然,你還必須同時(shí)關(guān)注NOAA和NASA之外的其他可能的信息來源。
如果不僅需要天氣數(shù)據(jù),還想找到正確的來源,然后再找到這些來源的更多正確數(shù)據(jù),在此之前一個(gè)搜索界面根本無法做到,現(xiàn)在Google開發(fā)了Dataset Search,可以實(shí)現(xiàn)一個(gè)界面搜索出來,是不是很驚喜很意外?
實(shí)際上,Google對(duì)結(jié)構(gòu)化數(shù)據(jù)的熱愛一直是持續(xù)的,標(biāo)志性事件就是通過收購(gòu)Metaweb整合了Google的知識(shí)圖譜,并通過schema.org支持結(jié)構(gòu)化元數(shù)據(jù)。
搜索數(shù)據(jù)集會(huì)檢索查詢的多個(gè)結(jié)果,顯示數(shù)據(jù)集提供者和時(shí)間段
雷鋒網(wǎng)編輯嘗試進(jìn)入Dataset Search官網(wǎng),發(fā)現(xiàn)在搜索頁面,如果一個(gè)數(shù)據(jù)集直接對(duì)應(yīng)于一個(gè)出版物,那么在數(shù)據(jù)集名稱旁邊就有一個(gè)出版物的鏈接。雷鋒網(wǎng)還觀察到,Google還提供了參考數(shù)據(jù)集的出版物的大致數(shù)量。
諸多問題值得考慮:錯(cuò)誤內(nèi)容、排名與盈利的可能
推出了這個(gè)搜索,不僅為專業(yè)用戶提供方便,而且對(duì)于數(shù)據(jù)集提供商也是大有好處。NOAA的CDO(首席開發(fā)官) Ed Kearns是該項(xiàng)目的堅(jiān)定支持者,并幫助NOAA在該工具中搜索了許多數(shù)據(jù)集。
“這種類型的搜索,長(zhǎng)期以來一直是開放數(shù)據(jù)和科學(xué)界許多研究人員的夢(mèng)想。對(duì)于NOAA而言,一部分工作是與他人共享我們的數(shù)據(jù),Dataset Search對(duì)于讓更廣泛的用戶社區(qū)更容易訪問我們的數(shù)據(jù)至關(guān)重要?!?/p>
Dataset Search搜索后進(jìn)入某一個(gè)數(shù)據(jù)集鏈接,其對(duì)一些信息的排名
為了避免數(shù)據(jù)集提供商將內(nèi)容錯(cuò)誤地描述為“數(shù)據(jù)集”,Google能夠告訴它“這不是一個(gè)數(shù)據(jù)集”或者降低它的排名嗎?Google并沒有給出明確的應(yīng)對(duì)措施,只是表示,Google會(huì)在用戶開始使用該工具后獲得更多經(jīng)驗(yàn),進(jìn)行改進(jìn),努力地提高結(jié)果的質(zhì)量。
如何解決被搜索出的數(shù)據(jù)集排名問題呢?Google表示,對(duì)數(shù)據(jù)集來自的頁面使用Web排名的組合(基于Google算法),并將其與數(shù)據(jù)集特定信號(hào)(如元數(shù)據(jù)質(zhì)量、引用等)相結(jié)合。
再進(jìn)一步想,如果排除在搜索排名上盈利的可能,Google哪一天會(huì)不會(huì)拿它出來盈利?比如從銷售渠道收集數(shù)據(jù),并使用它們來生成具有洞察力的定期報(bào)告?
不論如何,眼下這個(gè)項(xiàng)目是有助于科學(xué)決策的,需要的人士盡管放心的使用。不過隨著數(shù)據(jù)的價(jià)值越來越凸顯,Google也越來越重視,包括其在云計(jì)算和AI不斷加大投入。
大膽猜測(cè)一下,Dataset Search會(huì)是Google在學(xué)術(shù)數(shù)據(jù)領(lǐng)域的商業(yè)化的第一步。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。