1
本文作者: 黃鑫 | 2016-08-31 14:31 | 專題:雷峰網(wǎng)公開課 |
數(shù)據(jù)挖掘的英文叫Data Mining,Mine有“礦”的意思。因此做數(shù)據(jù)挖掘的學(xué)者們常常戲稱自己為“礦工”。不過,其實數(shù)據(jù)挖掘的研究過程與采礦確實有異曲同工之妙。數(shù)據(jù)的收集、篩選、分析和應(yīng)用,正如礦石的勘探、開采、提純和使用一樣,每個步驟都看起來都是大海撈針,但在合適的方法下,這些“針”又每次都能被恰如其分的挖掘出來。
大數(shù)據(jù)這個詞我們聽得太多了,可是很少有人意識到,隨著互聯(lián)網(wǎng)的發(fā)展,今時今日的這些“大”字究竟已經(jīng)意味著一種什么樣的量級。除去少數(shù)嘩眾取寵的使用這個詞的公司外,那些真正擁有大數(shù)據(jù)的企業(yè),經(jīng)手和處理的都是一些普通人可能窮極一生也接觸不到的數(shù)字:微信朋友圈每天會上傳10億張圖片,支付寶日交易額峰值超過200億元人民幣,京東每天上傳幾百萬張新的商品信息圖……
這些數(shù)字對于急需數(shù)據(jù)訓(xùn)練的人工智能算法來說是莫大的好消息。也意味著數(shù)據(jù)對于人工智能的重要性正在隨著計算能力、算法的發(fā)展而呈直線上升。但是怎么在浩如煙海的數(shù)據(jù)中篩選出對我們真正有用的那些?又如何通過分析這些數(shù)據(jù)做出對自身有利的決策?這就是數(shù)據(jù)科學(xué)家們做的事了。
本期硬創(chuàng)公開課,我們邀請到了iPin的首席科學(xué)家潘嶸,他曾獲得2005年全球最高級別數(shù)據(jù)挖掘大賽KDDCUP的世界冠軍,也在科研和產(chǎn)業(yè)領(lǐng)域都積累了相當(dāng)豐富的經(jīng)驗,本周四下午3點,就讓潘嶸老師來為我們講講,一個合格的數(shù)據(jù)科學(xué)家是怎樣煉成的。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。