0
本文作者: AI研習(xí)社-譯站 | 2020-08-12 11:26 |
字幕組雙語(yǔ)原文:2020數(shù)據(jù)分析崗位報(bào)告:數(shù)據(jù)分析師需要哪些能力?
英語(yǔ)原文:Know What Employers are expecting for a Data Scientist Role in-2020
翻譯:雷鋒字幕組(Magiccodes)
在本文中,我們將試圖找到幾個(gè)重要問(wèn)題的答案,這些問(wèn)題是每個(gè)數(shù)據(jù)科學(xué)求職者都會(huì)想到的。
公司最需要的技能是什么?
在這個(gè)行業(yè)中最需要的經(jīng)驗(yàn)水平是什么?
哪些公司在積極提供這個(gè)領(lǐng)域的工作?
哪些地方有更多的空缺職位?
注意:你可以在結(jié)論部分找到完整代碼的鏈接。
我從印度的頂級(jí)招聘門(mén)戶網(wǎng)站Naukri.com收集了所有相關(guān)的工作信息,如今幾乎每個(gè)求職者和招聘人員都使用這個(gè)網(wǎng)站。我使用selenium-python進(jìn)行網(wǎng)頁(yè)抓取,因?yàn)閭鹘y(tǒng)的BeautifulSoap方法在這個(gè)站點(diǎn)上不太好用。
來(lái)自Naukri.com的示例工作列表(免責(zé)聲明:網(wǎng)頁(yè)抓取純粹用于教育目的。)
我們將為每個(gè)工作抓取出五個(gè)要素:角色、公司名稱、工作經(jīng)驗(yàn)、工作地點(diǎn)和關(guān)鍵技能。
抓取代碼:
在我們深入之前先簡(jiǎn)單做一些預(yù)處理。
進(jìn)行基本清理,查找丟失值并刪除它們。
在處理重復(fù)數(shù)據(jù)時(shí),我們需要非常小心,因?yàn)橐粋€(gè)公司可能會(huì)多次發(fā)布相同的要求,因?yàn)樵撀毼蝗栽谡衅钢?,或者另一方面,該公司可能正在尋找具有相同要求的全新職位。為了?jiǎn)單起見(jiàn),我沒(méi)有丟棄任何數(shù)據(jù)。
將所有字符串轉(zhuǎn)換為小寫(xiě),以避免冗余,并對(duì)location和skills列進(jìn)行標(biāo)記,因?yàn)檫@些列中有多個(gè)值。
這是預(yù)處理后的樣子。
現(xiàn)在我們已經(jīng)準(zhǔn)備就緒。
注:如果你不是來(lái)自印度,請(qǐng)隨意跳過(guò)這部分。
如果我們觀察上面的圖,幾乎38%的工作都在 Bengaluru。
排名前4位的城市 Bengaluru, Mumbai, Hyderabad and Pune 占據(jù)了印度數(shù)據(jù)科學(xué)工作崗位的72%。
因此,如果你來(lái)自這些城市中的任何一個(gè),你得到一份數(shù)據(jù)科學(xué)家的工作的機(jī)會(huì)可能比其他城市要多。
分析公司Vidhya educon以近21%的職位排名榜首。
名單上還有許多咨詢公司。這些咨詢公司通常為他們的客戶進(jìn)行招聘。
一般來(lái)說(shuō),求職門(mén)戶的競(jìng)爭(zhēng)會(huì)非常激烈。大多數(shù)時(shí)候,你的個(gè)人資料甚至可能不會(huì)被招聘人員看到,因?yàn)樗麄兪盏搅舜罅康纳暾?qǐng)。有些情況下,即使只有一個(gè)職位空缺,你也得和幾百個(gè)申請(qǐng)人競(jìng)爭(zhēng)。最好了解那些積極招聘的公司,這樣我們就可以直接通過(guò)他們的官方網(wǎng)站進(jìn)行申請(qǐng),增加獲得面試機(jī)會(huì)的幾率。
不同經(jīng)驗(yàn)水平的工作機(jī)會(huì)。
我們可以看到,公司顯然在尋找有經(jīng)驗(yàn)的候選人。有5-10年工作經(jīng)驗(yàn)的候選人似乎有更多的空缺。這是有道理的,因?yàn)閿?shù)據(jù)科學(xué)家的工作涉及關(guān)鍵的決策技能,而這些技能是隨著經(jīng)驗(yàn)而來(lái)的。
2年以上工作經(jīng)驗(yàn)的候選人將有相當(dāng)好的機(jī)會(huì)。
這并不意味著新生不能進(jìn)入,只是有經(jīng)驗(yàn)的候選人比新生有更多的空缺。公司通常不會(huì)從這些招聘網(wǎng)站上招聘新人,而是直接從校園招聘中招聘。新生總是可以選擇為初創(chuàng)公司工作,以獲得必要的經(jīng)驗(yàn)。
3.4. 有哪些角色被需要
這是需要研究的一個(gè)重要步驟,因?yàn)樵谇皫讉€(gè)結(jié)果之后,招聘門(mén)戶通常會(huì)開(kāi)始顯示一些與我們正在搜索的工作無(wú)關(guān)的其他工作。為了確保我們看到的是正確的角色,讓我們看看前10個(gè)經(jīng)常提到的角色。
如果我們?cè)谏弦还?jié)中觀察到,有更多的職位空缺需要有更多經(jīng)驗(yàn)的人,這就給我們留下了一個(gè)基于角色的空缺職位問(wèn)題。
大多數(shù)空缺職位仍被稱為數(shù)據(jù)科學(xué)家。其次是資深數(shù)據(jù)科學(xué)家和首席數(shù)據(jù)科學(xué)家,以上都需要良好的經(jīng)驗(yàn)。
最后,終于到了你讀這篇文章的重點(diǎn)。
看起來(lái)很復(fù)雜對(duì)吧,不用擔(dān)心,我將在后面的部分分解它。我之所以在以上部分中包含許多技能,是因?yàn)閿?shù)據(jù)科學(xué)涉及的領(lǐng)域非常廣泛。
盡管我們能夠在上面的部分中描述一些頂級(jí)技能,但它仍然不能滿足本文分析的目的。
讓我們深入了解一下這個(gè)趨勢(shì)。
機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家最重要的技能,這一點(diǎn)也不奇怪。
數(shù)據(jù)挖掘和數(shù)據(jù)分析是每個(gè)數(shù)據(jù)科學(xué)家都必須經(jīng)歷的關(guān)鍵活動(dòng)。
要成為一名更好的數(shù)據(jù)科學(xué)家,需要強(qiáng)大的統(tǒng)計(jì)建模。
各公司都希望對(duì)深度學(xué)習(xí)有很好的了解,因?yàn)樗峁┝俗钕冗M(jìn)的技術(shù)來(lái)解決一些有趣的實(shí)時(shí)問(wèn)題,如NLP和計(jì)算機(jī)視覺(jué)領(lǐng)域。
由于每天記錄的數(shù)據(jù)量大幅增加,雇主希望應(yīng)聘者具備大數(shù)據(jù)技術(shù)方面的知識(shí)。在實(shí)時(shí)情況下,我們可能會(huì)在巨大的數(shù)據(jù)集上工作,這些技能肯定會(huì)派上用場(chǎng)。
如果您剛開(kāi)始學(xué)習(xí)數(shù)據(jù)科學(xué),在一開(kāi)始,您肯定會(huì)發(fā)現(xiàn)很難選擇正確的編程語(yǔ)言。盡管有許多語(yǔ)言,競(jìng)爭(zhēng)總是在Python和R本身之間。讓我們看看數(shù)據(jù)告訴了我們什么。
業(yè)界仍然支持Python,因?yàn)樗胸S富的庫(kù)和R語(yǔ)言。
SQL是每個(gè)數(shù)據(jù)科學(xué)家的必修課。盡管它不適合作為編程語(yǔ)言來(lái)對(duì)待,但我還是冒險(xiǎn)把它包括在這里:)。
在python和R之后,似乎對(duì)SAS和c++語(yǔ)言有較好對(duì)需求。
由于深度學(xué)習(xí)的突然興起,許多深度學(xué)習(xí)框架從谷歌、Facebook等巨頭進(jìn)入市場(chǎng)。
業(yè)界更喜歡Tensorflow而不是PyTorch。
Keras在市場(chǎng)上占有很好的份額,人們喜歡它是因?yàn)樗暮?jiǎn)單易用。
雖然有許多其他框架像Caffe,Maxnet,但似乎沒(méi)有很多相關(guān)但空缺崗位。即使全球市場(chǎng)不是,至少在印度是這樣的。
Spark 排位最高,可以使用python版本的spark - Pyspark。
Hadoop與spark幾乎有相同的求職機(jī)會(huì),只是略有不同。
Hive也有相當(dāng)多的空缺崗位。
3.5.5. 哪個(gè)云提供商需要ML?
訓(xùn)練這些模型需要大量的計(jì)算,這些計(jì)算很容易變得非常昂貴。公司正在尋找更便宜的方式來(lái)完成工作,這就是云平臺(tái)的作用。
AWS位居榜首,其次是Azure。
各公司正迅速轉(zhuǎn)向云計(jì)算。在未來(lái)的日子里,這些技術(shù)將更有可能在數(shù)據(jù)科學(xué)中發(fā)揮重要作用。
雇主對(duì)數(shù)據(jù)可視化的Tableau表現(xiàn)出了更多的興趣。.
而微軟的Power BI仍然落后。
你真的必須要具備這篇文章中提到的所有技能才能得到這份工作嗎?
其實(shí)也不是,如果你的基礎(chǔ)很扎實(shí)的話,這個(gè)列表中有一些工具是在工作中很容易學(xué)會(huì)的。話雖如此,如果你只是在找工作,那么在簡(jiǎn)歷上寫(xiě)上這些技能可能會(huì)幫助你獲得面試機(jī)會(huì)。
如果你擅長(zhǎng)所有提到的數(shù)據(jù)科學(xué)家的必備技能,那么最好的方法應(yīng)該是從參加面試開(kāi)始,與此同時(shí)試圖填補(bǔ)你理解上和學(xué)習(xí)工具/技術(shù)的空缺,這些將會(huì)讓你勝過(guò)其他候選人。
雷鋒字幕組是由AI愛(ài)好者組成的志愿者翻譯團(tuán)隊(duì);團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營(yíng)、IT咨詢?nèi)?、在校師生;志愿者們?lái)自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。
了解字幕組請(qǐng)聯(lián)系微信:tlacttlact
轉(zhuǎn)載請(qǐng)聯(lián)系字幕組微信并注明出處:雷鋒字幕組
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。