0
雷鋒網(wǎng) AI科技評論按,日前,Kaggle官網(wǎng)發(fā)布了一份關于數(shù)據(jù)科學和機器學習的調(diào)查報告,他們通過分析超過16000份相關用戶的問卷調(diào)查,給出了數(shù)據(jù)科學行業(yè)從業(yè)人員的基本概況,大家在工作中使用比較多的方法以及對初入該行業(yè)的人的建議。
雷鋒網(wǎng) AI科技評論核心內(nèi)容編譯如下:
為了建立對數(shù)據(jù)科學和機器學習的全面認識,Kaggle在今年首次開展了一項覆蓋多個行業(yè)的調(diào)查研究。
他們收到了超過16000份回復,了解到該行業(yè)很多的相關信息,例如數(shù)據(jù)科學從業(yè)者的概括、機器學習領域的前沿研究,以及新手數(shù)據(jù)科學家如何能最好地進入這個領域。
在下面的報告中,他們分享了一些主要發(fā)現(xiàn),這里面包括一些交互式可視化圖,這樣大家可以輕松地找到自己想知道的內(nèi)容。以下是一些例子:
雖然Python從整體上來說或許是最常使用的工具,不過我們的報告發(fā)現(xiàn)統(tǒng)計學家中用R語言的更多。
數(shù)據(jù)科學家的平均年齡在30歲左右,但不同國家之間又略有不同。例如印度受訪者的平均年齡比澳大利亞受訪者要小9歲。
受訪者中擁有碩士學位的人占比最高,但是在薪水最高(15萬美元以上)的人中,擁有博士學位的人最多。
他們在Kaggle上分享了這些完整的匿名數(shù)據(jù)集,大家可以下載、進行探索。
下載地址:https://www.kaggle.com/kaggle/kaggle-survey-2017
大家可以參與進來研究這些數(shù)據(jù),分享自己的思路和代碼,一起推進數(shù)據(jù)科學和機器學習的研究。與此同時,甚至可以贏得現(xiàn)金獎勵。
數(shù)據(jù)科學家概況
分析這些數(shù)據(jù)科學從業(yè)人員概況的方法有很多,他們通過與這些數(shù)據(jù)科學家的工作和背景相關的統(tǒng)計信息入手:
年齡
調(diào)查對象的平均年齡在30歲左右,但不同國家之間又略有不同。例如印度受訪者的平均年齡比澳大利亞受訪者要小9歲。
在職情況
從圖中可以看到全職的人最多。
職位
雖然大家經(jīng)常將“數(shù)據(jù)科學家”定義為使用代碼來分析數(shù)據(jù)的人,但在調(diào)查中發(fā)現(xiàn)大量的職位都屬于數(shù)據(jù)科學領域。例如,在伊朗和馬來西亞,數(shù)據(jù)科學研究領域最常見的的職位是“科學家或研究員”。
全職年薪
雖然在此次調(diào)查中,“薪酬和福利”的重要性不如“職業(yè)發(fā)展機會”,但大家最好還是要了解到合理的薪酬范圍。在美國,機器學習工程師平均工資最高。
最高學歷
一般來說,在從事數(shù)據(jù)科學研究的人中,研究生占比最高。但是在收入最高(15萬美元—20萬美元,20萬美元以上)的人群中,擁有博士學位的人占比最多。
這次調(diào)查顯示,年齡為30歲,擁有碩士學位,年收入約為5.5萬美元的數(shù)據(jù)科學家處于平均水平。不過每個人之間的差異也很大,上面只是從表面上給出了Kaggle上數(shù)據(jù)科學社群在年齡、性別、國家、職位、薪水、工作經(jīng)驗和教育上的不同。
數(shù)據(jù)科學家的日常工作
數(shù)據(jù)科學家被定義為“寫代碼來分析數(shù)據(jù)”的人。Kaggle也調(diào)查了他們每天的工作生活情況,下面是調(diào)查中他們發(fā)現(xiàn)的一些亮點:
在工作中使用什么數(shù)據(jù)科學方法?
調(diào)查顯示,工作中,在軍事/安全領域,神經(jīng)網(wǎng)絡用的稍微多一點。除了這兩個領域,Logistic回歸是大家使用頻率最高的數(shù)據(jù)科學方法。
使用的工作工具是什么?
Python是調(diào)查中大家最常用的數(shù)據(jù)分析工具,但從小的類別來看,統(tǒng)計學家使用最多的仍然是R語言。
大家使用的數(shù)據(jù)類型都是什么?
關系數(shù)據(jù)是在所有行業(yè)(除了學術和軍事/安全領域)中最常使用的數(shù)據(jù)類型,學術和軍事/安全領域中最常使用的數(shù)據(jù)類型是文本數(shù)據(jù)。
大家都是如何分享代碼的呢?
受訪者中使用Git分享代碼的人占比最高,但在大公司(員工人數(shù)超過10000)使用電子郵件等方式分享代碼的人更多,大家不怎么用云端傳輸,而小型公司(員工數(shù)少于10人)在云上分享會更靈活。
工作中面臨的障礙
一般來說,臟數(shù)據(jù)是在數(shù)據(jù)科學領域中最常見的問題,不過對一絲不茍的數(shù)據(jù)庫工程師來說,這不是他們最頭疼的問題。其實,排在臟數(shù)據(jù)之后,公司政治問題、缺乏管理/缺少財務支持才是最讓大家頭疼的。
如果大家點擊篩選鍵,就可能會注意到許多行業(yè)的受訪者都表示他們?nèi)狈?shù)據(jù)科學天賦。繼續(xù)看下去,就可以看到這些調(diào)查對象是如何逐步上手的了,大家可以學到他們的經(jīng)驗。
新手數(shù)據(jù)科學家如何才能進入這個領域?
當你開始新的職業(yè)生涯時,從別人的成功經(jīng)驗中學習是很有幫助的。在這次調(diào)查中,Kaggle也詢問了在數(shù)據(jù)科學行業(yè)工作的人,問到他們是如何成功進入這個領域的。以下是一些他們認為應該分享的建議:
你會推薦新手數(shù)據(jù)科學家先學習什么語言?
每個數(shù)據(jù)科學家都對應該先學什么語言都有自己的看法。事實證明,那些只使用Python或R的人認為自己似乎做出了正確的選擇。但是,如果你詢問同時使用R和Python的人,他們推薦Python的比例是R語言的兩倍。
你用的什么數(shù)據(jù)科學學習資源?
數(shù)據(jù)科學是一個快速變化的領域,有很多可以幫助你學習、讓你時刻保持在行業(yè)前沿的有價值的資源,這樣你在找工作時競爭力會很顯著。
那些已經(jīng)在數(shù)據(jù)科學領域工作的人為了時刻知道最新動態(tài),比正在入行的人使用Stack Overflow問答、會議和播客的頻率更高。
如果你正在制作內(nèi)容或開源軟件,請記住,正在進入該領域的人更??吹氖枪俜轿募陀^看YouTube視頻。
從哪里找到開放數(shù)據(jù)?
沒有數(shù)據(jù)就沒有數(shù)據(jù)科學。當談到學習數(shù)據(jù)科學的經(jīng)驗,知道如何找到干凈的公開數(shù)據(jù)集來用于實踐和項目是非常有價值的。從下圖可以看到,數(shù)據(jù)集聚合平臺(比如Kaggle數(shù)據(jù)集)是被數(shù)據(jù)科學社群的成員使用得最頻繁的工具。
你是怎么找到工作的呢?
當你在找工作的時候,你可能會試圖在公司官網(wǎng)或技術類招聘平臺上找,但是根據(jù)數(shù)據(jù)科學領域工作人員的說法,那是最沒用的方法。為了進入這個領域,你應該試著聯(lián)系招聘人員或者建立你自己的關系網(wǎng)。
想要知道更多詳細的信息,可以訪問 https://www.kaggle.com/surveys/2017 了解。
雷鋒網(wǎng) AI科技評論編輯整理。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。