0
雷鋒網(wǎng) AI科技評(píng)論按,日前,Kaggle官網(wǎng)發(fā)布了一份關(guān)于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的調(diào)查報(bào)告,他們通過(guò)分析超過(guò)16000份相關(guān)用戶的問(wèn)卷調(diào)查,給出了數(shù)據(jù)科學(xué)行業(yè)從業(yè)人員的基本概況,大家在工作中使用比較多的方法以及對(duì)初入該行業(yè)的人的建議。
雷鋒網(wǎng) AI科技評(píng)論核心內(nèi)容編譯如下:
為了建立對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的全面認(rèn)識(shí),Kaggle在今年首次開(kāi)展了一項(xiàng)覆蓋多個(gè)行業(yè)的調(diào)查研究。
他們收到了超過(guò)16000份回復(fù),了解到該行業(yè)很多的相關(guān)信息,例如數(shù)據(jù)科學(xué)從業(yè)者的概括、機(jī)器學(xué)習(xí)領(lǐng)域的前沿研究,以及新手?jǐn)?shù)據(jù)科學(xué)家如何能最好地進(jìn)入這個(gè)領(lǐng)域。
在下面的報(bào)告中,他們分享了一些主要發(fā)現(xiàn),這里面包括一些交互式可視化圖,這樣大家可以輕松地找到自己想知道的內(nèi)容。以下是一些例子:
雖然Python從整體上來(lái)說(shuō)或許是最常使用的工具,不過(guò)我們的報(bào)告發(fā)現(xiàn)統(tǒng)計(jì)學(xué)家中用R語(yǔ)言的更多。
數(shù)據(jù)科學(xué)家的平均年齡在30歲左右,但不同國(guó)家之間又略有不同。例如印度受訪者的平均年齡比澳大利亞受訪者要小9歲。
受訪者中擁有碩士學(xué)位的人占比最高,但是在薪水最高(15萬(wàn)美元以上)的人中,擁有博士學(xué)位的人最多。
他們?cè)贙aggle上分享了這些完整的匿名數(shù)據(jù)集,大家可以下載、進(jìn)行探索。
下載地址:https://www.kaggle.com/kaggle/kaggle-survey-2017
大家可以參與進(jìn)來(lái)研究這些數(shù)據(jù),分享自己的思路和代碼,一起推進(jìn)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的研究。與此同時(shí),甚至可以贏得現(xiàn)金獎(jiǎng)勵(lì)。
數(shù)據(jù)科學(xué)家概況
分析這些數(shù)據(jù)科學(xué)從業(yè)人員概況的方法有很多,他們通過(guò)與這些數(shù)據(jù)科學(xué)家的工作和背景相關(guān)的統(tǒng)計(jì)信息入手:
年齡
調(diào)查對(duì)象的平均年齡在30歲左右,但不同國(guó)家之間又略有不同。例如印度受訪者的平均年齡比澳大利亞受訪者要小9歲。
在職情況
從圖中可以看到全職的人最多。
職位
雖然大家經(jīng)常將“數(shù)據(jù)科學(xué)家”定義為使用代碼來(lái)分析數(shù)據(jù)的人,但在調(diào)查中發(fā)現(xiàn)大量的職位都屬于數(shù)據(jù)科學(xué)領(lǐng)域。例如,在伊朗和馬來(lái)西亞,數(shù)據(jù)科學(xué)研究領(lǐng)域最常見(jiàn)的的職位是“科學(xué)家或研究員”。
全職年薪
雖然在此次調(diào)查中,“薪酬和福利”的重要性不如“職業(yè)發(fā)展機(jī)會(huì)”,但大家最好還是要了解到合理的薪酬范圍。在美國(guó),機(jī)器學(xué)習(xí)工程師平均工資最高。
最高學(xué)歷
一般來(lái)說(shuō),在從事數(shù)據(jù)科學(xué)研究的人中,研究生占比最高。但是在收入最高(15萬(wàn)美元—20萬(wàn)美元,20萬(wàn)美元以上)的人群中,擁有博士學(xué)位的人占比最多。
這次調(diào)查顯示,年齡為30歲,擁有碩士學(xué)位,年收入約為5.5萬(wàn)美元的數(shù)據(jù)科學(xué)家處于平均水平。不過(guò)每個(gè)人之間的差異也很大,上面只是從表面上給出了Kaggle上數(shù)據(jù)科學(xué)社群在年齡、性別、國(guó)家、職位、薪水、工作經(jīng)驗(yàn)和教育上的不同。
數(shù)據(jù)科學(xué)家的日常工作
數(shù)據(jù)科學(xué)家被定義為“寫代碼來(lái)分析數(shù)據(jù)”的人。Kaggle也調(diào)查了他們每天的工作生活情況,下面是調(diào)查中他們發(fā)現(xiàn)的一些亮點(diǎn):
在工作中使用什么數(shù)據(jù)科學(xué)方法?
調(diào)查顯示,工作中,在軍事/安全領(lǐng)域,神經(jīng)網(wǎng)絡(luò)用的稍微多一點(diǎn)。除了這兩個(gè)領(lǐng)域,Logistic回歸是大家使用頻率最高的數(shù)據(jù)科學(xué)方法。
使用的工作工具是什么?
Python是調(diào)查中大家最常用的數(shù)據(jù)分析工具,但從小的類別來(lái)看,統(tǒng)計(jì)學(xué)家使用最多的仍然是R語(yǔ)言。
大家使用的數(shù)據(jù)類型都是什么?
關(guān)系數(shù)據(jù)是在所有行業(yè)(除了學(xué)術(shù)和軍事/安全領(lǐng)域)中最常使用的數(shù)據(jù)類型,學(xué)術(shù)和軍事/安全領(lǐng)域中最常使用的數(shù)據(jù)類型是文本數(shù)據(jù)。
大家都是如何分享代碼的呢?
受訪者中使用Git分享代碼的人占比最高,但在大公司(員工人數(shù)超過(guò)10000)使用電子郵件等方式分享代碼的人更多,大家不怎么用云端傳輸,而小型公司(員工數(shù)少于10人)在云上分享會(huì)更靈活。
工作中面臨的障礙
一般來(lái)說(shuō),臟數(shù)據(jù)是在數(shù)據(jù)科學(xué)領(lǐng)域中最常見(jiàn)的問(wèn)題,不過(guò)對(duì)一絲不茍的數(shù)據(jù)庫(kù)工程師來(lái)說(shuō),這不是他們最頭疼的問(wèn)題。其實(shí),排在臟數(shù)據(jù)之后,公司政治問(wèn)題、缺乏管理/缺少財(cái)務(wù)支持才是最讓大家頭疼的。
如果大家點(diǎn)擊篩選鍵,就可能會(huì)注意到許多行業(yè)的受訪者都表示他們?nèi)狈?shù)據(jù)科學(xué)天賦。繼續(xù)看下去,就可以看到這些調(diào)查對(duì)象是如何逐步上手的了,大家可以學(xué)到他們的經(jīng)驗(yàn)。
新手?jǐn)?shù)據(jù)科學(xué)家如何才能進(jìn)入這個(gè)領(lǐng)域?
當(dāng)你開(kāi)始新的職業(yè)生涯時(shí),從別人的成功經(jīng)驗(yàn)中學(xué)習(xí)是很有幫助的。在這次調(diào)查中,Kaggle也詢問(wèn)了在數(shù)據(jù)科學(xué)行業(yè)工作的人,問(wèn)到他們是如何成功進(jìn)入這個(gè)領(lǐng)域的。以下是一些他們認(rèn)為應(yīng)該分享的建議:
你會(huì)推薦新手?jǐn)?shù)據(jù)科學(xué)家先學(xué)習(xí)什么語(yǔ)言?
每個(gè)數(shù)據(jù)科學(xué)家都對(duì)應(yīng)該先學(xué)什么語(yǔ)言都有自己的看法。事實(shí)證明,那些只使用Python或R的人認(rèn)為自己似乎做出了正確的選擇。但是,如果你詢問(wèn)同時(shí)使用R和Python的人,他們推薦Python的比例是R語(yǔ)言的兩倍。
你用的什么數(shù)據(jù)科學(xué)學(xué)習(xí)資源?
數(shù)據(jù)科學(xué)是一個(gè)快速變化的領(lǐng)域,有很多可以幫助你學(xué)習(xí)、讓你時(shí)刻保持在行業(yè)前沿的有價(jià)值的資源,這樣你在找工作時(shí)競(jìng)爭(zhēng)力會(huì)很顯著。
那些已經(jīng)在數(shù)據(jù)科學(xué)領(lǐng)域工作的人為了時(shí)刻知道最新動(dòng)態(tài),比正在入行的人使用Stack Overflow問(wèn)答、會(huì)議和播客的頻率更高。
如果你正在制作內(nèi)容或開(kāi)源軟件,請(qǐng)記住,正在進(jìn)入該領(lǐng)域的人更??吹氖枪俜轿募陀^看YouTube視頻。
從哪里找到開(kāi)放數(shù)據(jù)?
沒(méi)有數(shù)據(jù)就沒(méi)有數(shù)據(jù)科學(xué)。當(dāng)談到學(xué)習(xí)數(shù)據(jù)科學(xué)的經(jīng)驗(yàn),知道如何找到干凈的公開(kāi)數(shù)據(jù)集來(lái)用于實(shí)踐和項(xiàng)目是非常有價(jià)值的。從下圖可以看到,數(shù)據(jù)集聚合平臺(tái)(比如Kaggle數(shù)據(jù)集)是被數(shù)據(jù)科學(xué)社群的成員使用得最頻繁的工具。
你是怎么找到工作的呢?
當(dāng)你在找工作的時(shí)候,你可能會(huì)試圖在公司官網(wǎng)或技術(shù)類招聘平臺(tái)上找,但是根據(jù)數(shù)據(jù)科學(xué)領(lǐng)域工作人員的說(shuō)法,那是最沒(méi)用的方法。為了進(jìn)入這個(gè)領(lǐng)域,你應(yīng)該試著聯(lián)系招聘人員或者建立你自己的關(guān)系網(wǎng)。
想要知道更多詳細(xì)的信息,可以訪問(wèn) https://www.kaggle.com/surveys/2017 了解。
雷鋒網(wǎng) AI科技評(píng)論編輯整理。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。