丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給王剛
發(fā)送

2

Google打造的新搜索工具,有戲嗎?

本文作者: 王剛 2018-09-06 12:44
導語:Google為數(shù)據(jù)工作者推出的又一“神器”

Google和數(shù)據(jù)技術的發(fā)展一直是齊頭并進的,現(xiàn)在Google通過更快搜索數(shù)據(jù)來進一步強化大眾和數(shù)據(jù)的關系。

眼下,一個好消息又來了:Google再次宣布開放一個全新的搜索服務:Dataset Search(數(shù)據(jù)集搜索)。

Google打造的新搜索工具,有戲嗎?

還記得不久之前Google發(fā)布的Google  Scholar(學術搜索)嗎?當時的Google Scholar 填補了快速查找學術資料的空白,那么這一次,Google直接將注意力更精準地聚焦到了數(shù)據(jù)集,簡直“體貼又細心”!

Google人工智能研究科學家Natasha Noy表示,科學家、研究人員、數(shù)據(jù)記者和其他有興趣使用數(shù)據(jù)的人是這個工具的主要受眾,與此同時,Google認為這些數(shù)據(jù)集在整個Google產(chǎn)品中的地位將會變得更加突出。

數(shù)據(jù)工作者的又一“神器”

首先,數(shù)據(jù)集到底是什么?先來普及下概念。Dataset(數(shù)據(jù)集),又稱為資料集、數(shù)據(jù)集合或資料集合,是一種由數(shù)據(jù)所組成的集合。Dataset通常以表格形式出現(xiàn)。每一列代表一個特定變量,每一行都對應于某一成員的數(shù)據(jù)集的問題。它列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機數(shù)。每個數(shù)值被稱為數(shù)據(jù)資料。對應于行數(shù),該數(shù)據(jù)集的數(shù)據(jù)可能包括一個或多個成員。

從歷史上看,這個術語起源于大型機領域,在那里它有一個明確界定的意義,非常接近現(xiàn)代的計算機檔案。

Natasha Noy表示,這個新服務會將數(shù)萬個不同在線數(shù)據(jù)集存檔統(tǒng)一起來。那最終這些數(shù)據(jù)集的歸屬在哪呢?Natasha Noy談到:“我們想要讓這些數(shù)據(jù)可以被發(fā)現(xiàn),但數(shù)據(jù)仍保留在原始位置?!?/p>

如何運行?我們嘗試進行了操作

這個Dataset Search怎么運行的?事實上,即使對于組織最完善、數(shù)據(jù)最豐富的人來說,也需要利用來源于外部的數(shù)據(jù)。

舉個天氣和環(huán)境數(shù)據(jù)的典型例子。

假設你想要將農(nóng)業(yè)數(shù)據(jù)與天氣現(xiàn)象相關聯(lián)以預測作物生長,或者想要研究天氣對整個歷史時期發(fā)生的現(xiàn)象的影響。這種歷史天氣數(shù)據(jù),幾乎不可能由任何單一組織積累和策劃,很可能由NOAA和NASA等組織隨時提供(雷鋒網(wǎng)注:NOAA是美國國家海洋和大氣管理局,NASA是美國國家航空航天局)。

這些組織會通過專用數(shù)據(jù)門戶定期策劃和發(fā)布其數(shù)據(jù),因此,如果你需要定期獲取數(shù)據(jù),可能需要熟悉通過這些門戶定位數(shù)據(jù)的過程。當然,你還必須同時關注NOAA和NASA之外的其他可能的信息來源。

如果不僅需要天氣數(shù)據(jù),還想找到正確的來源,然后再找到這些來源的更多正確數(shù)據(jù),在此之前一個搜索界面根本無法做到,現(xiàn)在Google開發(fā)了Dataset Search,可以實現(xiàn)一個界面搜索出來,是不是很驚喜很意外?

實際上,Google對結(jié)構(gòu)化數(shù)據(jù)的熱愛一直是持續(xù)的,標志性事件就是通過收購Metaweb整合了Google的知識圖譜,并通過schema.org支持結(jié)構(gòu)化元數(shù)據(jù)。

Google打造的新搜索工具,有戲嗎?

搜索數(shù)據(jù)集會檢索查詢的多個結(jié)果,顯示數(shù)據(jù)集提供者和時間段

雷鋒網(wǎng)編輯嘗試進入Dataset Search官網(wǎng),發(fā)現(xiàn)在搜索頁面,如果一個數(shù)據(jù)集直接對應于一個出版物,那么在數(shù)據(jù)集名稱旁邊就有一個出版物的鏈接。雷鋒網(wǎng)還觀察到,Google還提供了參考數(shù)據(jù)集的出版物的大致數(shù)量。

諸多問題值得考慮:錯誤內(nèi)容、排名與盈利的可能

推出了這個搜索,不僅為專業(yè)用戶提供方便,而且對于數(shù)據(jù)集提供商也是大有好處。NOAA的CDO(首席開發(fā)官) Ed Kearns是該項目的堅定支持者,并幫助NOAA在該工具中搜索了許多數(shù)據(jù)集。

“這種類型的搜索,長期以來一直是開放數(shù)據(jù)和科學界許多研究人員的夢想。對于NOAA而言,一部分工作是與他人共享我們的數(shù)據(jù),Dataset Search對于讓更廣泛的用戶社區(qū)更容易訪問我們的數(shù)據(jù)至關重要?!?/p>

Google打造的新搜索工具,有戲嗎?

Dataset Search搜索后進入某一個數(shù)據(jù)集鏈接,其對一些信息的排名

為了避免數(shù)據(jù)集提供商將內(nèi)容錯誤地描述為“數(shù)據(jù)集”,Google能夠告訴它“這不是一個數(shù)據(jù)集”或者降低它的排名嗎?Google并沒有給出明確的應對措施,只是表示,Google會在用戶開始使用該工具后獲得更多經(jīng)驗,進行改進,努力地提高結(jié)果的質(zhì)量。

如何解決被搜索出的數(shù)據(jù)集排名問題呢?Google表示,對數(shù)據(jù)集來自的頁面使用Web排名的組合(基于Google算法),并將其與數(shù)據(jù)集特定信號(如元數(shù)據(jù)質(zhì)量、引用等)相結(jié)合。

再進一步想,如果排除在搜索排名上盈利的可能,Google哪一天會不會拿它出來盈利?比如從銷售渠道收集數(shù)據(jù),并使用它們來生成具有洞察力的定期報告?

不論如何,眼下這個項目是有助于科學決策的,需要的人士盡管放心的使用。不過隨著數(shù)據(jù)的價值越來越凸顯,Google也越來越重視,包括其在云計算和AI不斷加大投入。

大膽猜測一下,Dataset Search會是Google在學術數(shù)據(jù)領域的商業(yè)化的第一步。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:

主編

雷鋒網(wǎng)副主編,長期跟蹤企業(yè)技術戰(zhàn)略,聚焦ToB。選題重點是專訪和深度策劃文~ 加我請?zhí)砑游⑿牛簀arvis1587,備注來意。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說