0
本文作者: 恒亮 | 2017-01-21 10:48 |
2016年美國CrowdFlower公司從業(yè)內(nèi)80位數(shù)據(jù)科學(xué)家那里得到的調(diào)查結(jié)果顯示,他們平均花費(fèi)在數(shù)據(jù)收集和整理上的時(shí)間占到整個(gè)數(shù)據(jù)分析過程的80%,而只有余下20%的時(shí)間才是真正用來分析數(shù)據(jù)的。
這就是我們通常所說的數(shù)據(jù)分析過程,其實(shí)有一大部分時(shí)間都用在了前期的數(shù)據(jù)的收集和整理上。那么收集和整理又為什么如此耗時(shí)呢?
隨著數(shù)字化和信息化的深入,目前的可用數(shù)據(jù)并非集中于一點(diǎn),而是廣泛分布在各種文件、電子表格、分布式數(shù)據(jù)庫、數(shù)據(jù)湖和其他軟件系統(tǒng)之中,數(shù)據(jù)科學(xué)研究者需要從各種渠道獲取這些數(shù)據(jù),過濾其中的有效部分,再將數(shù)據(jù)組織成便于處理的格式,這一系列的過程都需要耗費(fèi)大量的精力和時(shí)間。
為此,一支國際化的科研團(tuán)隊(duì)近期發(fā)布了一個(gè)全新的大數(shù)據(jù)分析系統(tǒng)——Data Civilizer,試圖解決這一難題。該系統(tǒng)免去了一定程度的整理過程,可以自動(dòng)識(shí)別不同數(shù)據(jù)表格之間的內(nèi)在聯(lián)系,并允許用戶以類似查詢數(shù)據(jù)庫的方式直接操作這些零散的數(shù)據(jù)表格。更重要的是,用戶還可以將這些查詢結(jié)果重新組織成一個(gè)有序的新數(shù)據(jù)庫,以便進(jìn)行后續(xù)的分析和處理。
這里之所以稱Civilizer系統(tǒng)的研發(fā)團(tuán)隊(duì)是一支國際化的團(tuán)隊(duì),是因?yàn)槠渲饕蓡T并非來自同一個(gè)實(shí)驗(yàn)室或者同一所高校,甚至并非同一個(gè)國家。例如:來自CSAIL的博士后Dong Deng和Raul Castro Fernandez(他們同時(shí)也是論文的主要作者),上文提到的Sam Madden教授,以及其他6位來自柏林技術(shù)大學(xué)、南洋理工大學(xué)、滑鐵盧大學(xué)和卡塔爾計(jì)算機(jī)研究所的科研人員。另外值得一提的是,盡管并沒有參與論文的撰寫,但來自麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)系的副教授、2014圖靈獎(jiǎng)獲得者M(jìn)ichael Stonebraker同樣也為這項(xiàng)研究做出了貢獻(xiàn)。
麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)教授,CSAIL大數(shù)據(jù)教研室主任Sam Madden表示:“當(dāng)前,由于有成千上萬的數(shù)據(jù)被分散在各種軟件系統(tǒng)中,因此要組織一個(gè)龐大的數(shù)據(jù)集非常困難。Civilizer系統(tǒng)可以幫助數(shù)據(jù)科學(xué)家快速找到包含相關(guān)信息的數(shù)據(jù)表格,并將這些表格集合在一起,創(chuàng)建一個(gè)完整的數(shù)據(jù)庫,從而大大提高了大數(shù)據(jù)分析的效率?!?/p>
Civilizer系統(tǒng)假定其處理的所有數(shù)據(jù)都按照表格的形式組織。但正如Sam Madden所說,由于將數(shù)據(jù)轉(zhuǎn)換為表格的技術(shù)在大數(shù)據(jù)領(lǐng)域并不是什么高新的技術(shù),因此這一點(diǎn)并非新研究的重點(diǎn)。類似的,雖然Civilizer的系統(tǒng)原型可以從各種不同類型的文件中提取表格數(shù)據(jù),但配合現(xiàn)有程序?qū)?shù)據(jù)進(jìn)行處理卻并非研究者的首要任務(wù)?!斑@部分只是工程上的工作,而并非科研上的?!盨am Madden教授表示。
Civilizer系統(tǒng)的核心優(yōu)勢(shì)在于逐列分析所有的數(shù)據(jù)表格,然后得到每一列的統(tǒng)計(jì)概要。對(duì)于數(shù)值數(shù)據(jù),概要中可以包括該數(shù)值出現(xiàn)的頻率、數(shù)值的范圍、數(shù)值的基數(shù)、以及每列包含的不同數(shù)值的個(gè)數(shù)等。對(duì)于文本數(shù)據(jù),概要將包含每列中出現(xiàn)頻率最高的詞匯,以及不同詞匯的個(gè)數(shù)統(tǒng)計(jì)。此外,Civilizer系統(tǒng)還將對(duì)每個(gè)出現(xiàn)的詞匯和包含這些詞匯的表格生成一個(gè)索引目錄。
此后,系統(tǒng)將對(duì)比所有列的統(tǒng)計(jì)概要,根據(jù)概要內(nèi)容識(shí)別具有高度相似性的列(例如具有相似的數(shù)值范圍、相似的詞匯集合的列),并將這些單獨(dú)的列兩兩一組,組成一個(gè)一個(gè)的“列對(duì)”。Civilizer會(huì)為每個(gè)列對(duì)分配彼此相似的權(quán)值,并在權(quán)值的基礎(chǔ)上生成一個(gè)能夠反映列與列之前的連接關(guān)系、表格與表格之間的連接關(guān)系的映射圖。
這里可以通過一個(gè)例子來說明Civilizer系統(tǒng)的查詢能力:假設(shè)一家制藥公司有一些包含藥物品牌名的表格,一些包含藥物化學(xué)成分的表格,以及一些包含藥物內(nèi)部代號(hào)的表格。我們不妨稱這些表格為1類,2類和3類。現(xiàn)在假定1和2從未出現(xiàn)在同一個(gè)表格中,但至少有一份表格反映1和3的對(duì)應(yīng)關(guān)系,以及反映2和3的對(duì)應(yīng)關(guān)系。那么當(dāng)用戶利用Civilizer對(duì)所有這些表格展開分析時(shí),對(duì)1類的查詢結(jié)果也可以包含2類中的信息。
需要指出的是,Civilizer系統(tǒng)的識(shí)別結(jié)果也有可能是錯(cuò)誤的。但系統(tǒng)允許用戶丟棄不恰當(dāng)?shù)牟樵兘Y(jié)果,保留有效的數(shù)據(jù)。數(shù)據(jù)被裁減之后,用戶還可以將結(jié)果保存為一個(gè)獨(dú)立的數(shù)據(jù)文件,方便后續(xù)的使用。
Merck制藥公司的高級(jí)信息分析師Iain Wallace表示:“Civilizer的技術(shù)非常有趣,它或許能幫助數(shù)據(jù)科學(xué)家解決由于可用數(shù)據(jù)越來越多而引發(fā)的一個(gè)重要問題:究竟哪些數(shù)據(jù)集應(yīng)該被納入分析之列。而且組織機(jī)構(gòu)越龐大,這個(gè)問題就越嚴(yán)重。”
Sam Madden教授表示:“目前我們正在探索如何將Civilizer系統(tǒng)作為各種化學(xué)和生物學(xué)數(shù)據(jù)集之上的協(xié)調(diào)層。因?yàn)檫@些數(shù)據(jù)集通常需要將化合物、疾病和搜索目標(biāo)聯(lián)系在一起。一個(gè)典型例子就是當(dāng)用戶從一個(gè)化合物表格中找到某種特定的化合物后,常常還需要根據(jù)這種化合物在其他表格中搜索更多的附加信息。Civilizer系統(tǒng)允許用戶對(duì)所有列數(shù)據(jù)進(jìn)行全文搜索,并自動(dòng)識(shí)別出相關(guān)列。通過Civilizer,我們可以方便地添加額外數(shù)據(jù)源,并快速更新之前的分析結(jié)果。”
civilize意為使之文明、使之開化,MIT將新系統(tǒng)命名為Data Civilizer,意思很明顯,是希望通過這個(gè)系統(tǒng)讓大數(shù)據(jù)處理變得更簡(jiǎn)單方便,為開發(fā)者簡(jiǎn)化數(shù)據(jù)的預(yù)處理過程,把更多精力和時(shí)間放在真正的數(shù)據(jù)分析過程中。我們希望以MIT的這項(xiàng)最新研究成果為起點(diǎn),未來可以出現(xiàn)更多類似的數(shù)據(jù)處理工具,推動(dòng)數(shù)據(jù)科學(xué)更快的向前發(fā)展。雷鋒網(wǎng)雷鋒網(wǎng)
來源:mit,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。