數(shù)據(jù)整理太繁瑣？MIT發(fā)布能化零為整的分析系統(tǒng)

本文作者：恒亮

2017-01-21 10:48

導(dǎo)語：近期，一支國際化的科研團(tuán)隊(duì)發(fā)布了一個(gè)全新的大數(shù)據(jù)分析系統(tǒng)——Data Civilizer。

2016年美國CrowdFlower公司從業(yè)內(nèi)80位數(shù)據(jù)科學(xué)家那里得到的調(diào)查結(jié)果顯示，他們平均花費(fèi)在數(shù)據(jù)收集和整理上的時(shí)間占到整個(gè)數(shù)據(jù)分析過程的80%，而只有余下20%的時(shí)間才是真正用來分析數(shù)據(jù)的。

這就是我們通常所說的數(shù)據(jù)分析過程，其實(shí)有一大部分時(shí)間都用在了前期的數(shù)據(jù)的收集和整理上。那么收集和整理又為什么如此耗時(shí)呢？

隨著數(shù)字化和信息化的深入，目前的可用數(shù)據(jù)并非集中于一點(diǎn)，而是廣泛分布在各種文件、電子表格、分布式數(shù)據(jù)庫、數(shù)據(jù)湖和其他軟件系統(tǒng)之中，數(shù)據(jù)科學(xué)研究者需要從各種渠道獲取這些數(shù)據(jù)，過濾其中的有效部分，再將數(shù)據(jù)組織成便于處理的格式，這一系列的過程都需要耗費(fèi)大量的精力和時(shí)間。

為此，一支國際化的科研團(tuán)隊(duì)近期發(fā)布了一個(gè)全新的大數(shù)據(jù)分析系統(tǒng)——Data Civilizer，試圖解決這一難題。該系統(tǒng)免去了一定程度的整理過程，可以自動(dòng)識(shí)別不同數(shù)據(jù)表格之間的內(nèi)在聯(lián)系，并允許用戶以類似查詢數(shù)據(jù)庫的方式直接操作這些零散的數(shù)據(jù)表格。更重要的是，用戶還可以將這些查詢結(jié)果重新組織成一個(gè)有序的新數(shù)據(jù)庫，以便進(jìn)行后續(xù)的分析和處理。

這里之所以稱Civilizer系統(tǒng)的研發(fā)團(tuán)隊(duì)是一支國際化的團(tuán)隊(duì)，是因?yàn)槠渲饕蓡T并非來自同一個(gè)實(shí)驗(yàn)室或者同一所高校，甚至并非同一個(gè)國家。例如：來自CSAIL的博士后Dong Deng和Raul Castro Fernandez（他們同時(shí)也是論文的主要作者），上文提到的Sam Madden教授，以及其他6位來自柏林技術(shù)大學(xué)、南洋理工大學(xué)、滑鐵盧大學(xué)和卡塔爾計(jì)算機(jī)研究所的科研人員。另外值得一提的是，盡管并沒有參與論文的撰寫，但來自麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)系的副教授、2014圖靈獎(jiǎng)獲得者M(jìn)ichael Stonebraker同樣也為這項(xiàng)研究做出了貢獻(xiàn)。

麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)教授，CSAIL大數(shù)據(jù)教研室主任Sam Madden表示：“當(dāng)前，由于有成千上萬的數(shù)據(jù)被分散在各種軟件系統(tǒng)中，因此要組織一個(gè)龐大的數(shù)據(jù)集非常困難。Civilizer系統(tǒng)可以幫助數(shù)據(jù)科學(xué)家快速找到包含相關(guān)信息的數(shù)據(jù)表格，并將這些表格集合在一起，創(chuàng)建一個(gè)完整的數(shù)據(jù)庫，從而大大提高了大數(shù)據(jù)分析的效率?！?/p>

逐列分析

Civilizer系統(tǒng)假定其處理的所有數(shù)據(jù)都按照表格的形式組織。但正如Sam Madden所說，由于將數(shù)據(jù)轉(zhuǎn)換為表格的技術(shù)在大數(shù)據(jù)領(lǐng)域并不是什么高新的技術(shù)，因此這一點(diǎn)并非新研究的重點(diǎn)。類似的，雖然Civilizer的系統(tǒng)原型可以從各種不同類型的文件中提取表格數(shù)據(jù)，但配合現(xiàn)有程序?qū)?shù)據(jù)進(jìn)行處理卻并非研究者的首要任務(wù)?！斑@部分只是工程上的工作，而并非科研上的?！盨am Madden教授表示。

Civilizer系統(tǒng)的核心優(yōu)勢(shì)在于逐列分析所有的數(shù)據(jù)表格，然后得到每一列的統(tǒng)計(jì)概要。對(duì)于數(shù)值數(shù)據(jù)，概要中可以包括該數(shù)值出現(xiàn)的頻率、數(shù)值的范圍、數(shù)值的基數(shù)、以及每列包含的不同數(shù)值的個(gè)數(shù)等。對(duì)于文本數(shù)據(jù)，概要將包含每列中出現(xiàn)頻率最高的詞匯，以及不同詞匯的個(gè)數(shù)統(tǒng)計(jì)。此外，Civilizer系統(tǒng)還將對(duì)每個(gè)出現(xiàn)的詞匯和包含這些詞匯的表格生成一個(gè)索引目錄。

此后，系統(tǒng)將對(duì)比所有列的統(tǒng)計(jì)概要，根據(jù)概要內(nèi)容識(shí)別具有高度相似性的列（例如具有相似的數(shù)值范圍、相似的詞匯集合的列），并將這些單獨(dú)的列兩兩一組，組成一個(gè)一個(gè)的“列對(duì)”。Civilizer會(huì)為每個(gè)列對(duì)分配彼此相似的權(quán)值，并在權(quán)值的基礎(chǔ)上生成一個(gè)能夠反映列與列之前的連接關(guān)系、表格與表格之間的連接關(guān)系的映射圖。

自動(dòng)識(shí)別相關(guān)性

這里可以通過一個(gè)例子來說明Civilizer系統(tǒng)的查詢能力：假設(shè)一家制藥公司有一些包含藥物品牌名的表格，一些包含藥物化學(xué)成分的表格，以及一些包含藥物內(nèi)部代號(hào)的表格。我們不妨稱這些表格為1類，2類和3類。現(xiàn)在假定1和2從未出現(xiàn)在同一個(gè)表格中，但至少有一份表格反映1和3的對(duì)應(yīng)關(guān)系，以及反映2和3的對(duì)應(yīng)關(guān)系。那么當(dāng)用戶利用Civilizer對(duì)所有這些表格展開分析時(shí)，對(duì)1類的查詢結(jié)果也可以包含2類中的信息。

需要指出的是，Civilizer系統(tǒng)的識(shí)別結(jié)果也有可能是錯(cuò)誤的。但系統(tǒng)允許用戶丟棄不恰當(dāng)?shù)牟樵兘Y(jié)果，保留有效的數(shù)據(jù)。數(shù)據(jù)被裁減之后，用戶還可以將結(jié)果保存為一個(gè)獨(dú)立的數(shù)據(jù)文件，方便后續(xù)的使用。

Merck制藥公司的高級(jí)信息分析師Iain Wallace表示：“Civilizer的技術(shù)非常有趣，它或許能幫助數(shù)據(jù)科學(xué)家解決由于可用數(shù)據(jù)越來越多而引發(fā)的一個(gè)重要問題：究竟哪些數(shù)據(jù)集應(yīng)該被納入分析之列。而且組織機(jī)構(gòu)越龐大，這個(gè)問題就越嚴(yán)重。”

Sam Madden教授表示：“目前我們正在探索如何將Civilizer系統(tǒng)作為各種化學(xué)和生物學(xué)數(shù)據(jù)集之上的協(xié)調(diào)層。因?yàn)檫@些數(shù)據(jù)集通常需要將化合物、疾病和搜索目標(biāo)聯(lián)系在一起。一個(gè)典型例子就是當(dāng)用戶從一個(gè)化合物表格中找到某種特定的化合物后，常常還需要根據(jù)這種化合物在其他表格中搜索更多的附加信息。Civilizer系統(tǒng)允許用戶對(duì)所有列數(shù)據(jù)進(jìn)行全文搜索，并自動(dòng)識(shí)別出相關(guān)列。通過Civilizer，我們可以方便地添加額外數(shù)據(jù)源，并快速更新之前的分析結(jié)果。”

civilize意為使之文明、使之開化，MIT將新系統(tǒng)命名為Data Civilizer，意思很明顯，是希望通過這個(gè)系統(tǒng)讓大數(shù)據(jù)處理變得更簡(jiǎn)單方便，為開發(fā)者簡(jiǎn)化數(shù)據(jù)的預(yù)處理過程，把更多精力和時(shí)間放在真正的數(shù)據(jù)分析過程中。我們希望以MIT的這項(xiàng)最新研究成果為起點(diǎn)，未來可以出現(xiàn)更多類似的數(shù)據(jù)處理工具，推動(dòng)數(shù)據(jù)科學(xué)更快的向前發(fā)展。雷鋒網(wǎng)雷鋒網(wǎng)

來源：mit，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。