2
聯(lián)合編譯:Blake、高斐
編者注:作者Alec Smith是數(shù)據(jù)科學領(lǐng)域中資深HR,之所以寫這篇文章是因為經(jīng)常被問到一個問題:“如何才能獲得一份數(shù)據(jù)科學家的職位?” 不僅這個問題經(jīng)常被問引起了注意,另外問這個問題的人不同的背景也非常很令人感興趣。作者曾經(jīng)和以下這些職業(yè)的人有過類似對話:軟件工程師、數(shù)據(jù)庫開發(fā)者、數(shù)據(jù)架構(gòu)師、保險精算師、數(shù)學家、學術(shù)界人士(不同領(lǐng)域)、生物學家、天文學家、理論物理學家—我還能接著往下數(shù)。通過和他們的這些談話,作者發(fā)現(xiàn)在這之中有很大的誤解存在,很多人都非常困惑——為了闖入這個領(lǐng)域的話,他們需要做些什么?
作者決定深入調(diào)查這個項目,同時提供一個任何想要加入商業(yè)計算機科學都能受益的干貨資料——無論你是剛剛開始,或者早已點滿所有的技能只是沒有相關(guān)的業(yè)界經(jīng)驗。因此我打算主要回答這兩個概覽性的問題:
數(shù)據(jù)科學需要哪些技能?如何才能學會這些技能?
從求職市場的角度來看的話,怎樣做才能最大化在數(shù)據(jù)科學崗位上被錄用的機會?
你可能會疑惑,憑什么我能回答這些問題?
因為我每天都喝數(shù)據(jù)科學家打交道,并且作為一個資深的HR,我需要了解相關(guān)職業(yè)道路,怎樣才能成為一名優(yōu)秀的數(shù)據(jù)科學家,以及雇主期望能招到哪一種員工。因此對于這件事我還是相當了解的。但是我也想直接找到那些沿著這條路走下來的人,所以我以不同背景的數(shù)據(jù)科學家開始,期待能發(fā)掘到不同的東西。這一次我找到了一個前軟件工程師、前天體物理學家、甚至還有一個前粒子物理學家(這令我非常激動,因為他曾經(jīng)親身參與過21世紀以來最重大的科學突破之一)。
你已經(jīng)下定決心要做一名數(shù)據(jù)科學家了,很好你已經(jīng)開始了。但是現(xiàn)在你有了另外一種選擇:你想做哪一種數(shù)據(jù)額科學家呢?因為(認識到這個很重要)雖然數(shù)據(jù)科學被承認是一種職業(yè)已經(jīng)有很多年了,但是有關(guān)于它到底是什么還沒有一個大家都認可的定義。
在現(xiàn)實生活,“數(shù)據(jù)科學家”這個詞可以指代非常廣泛的工種,因此它存在很多種形式,考慮到工業(yè)界以及商業(yè)界各種需求的不同,還有問題中目標與輸出角色的不同。因此,在某些方面擁有技能的話比其他要更好一些,這就是為什么通向數(shù)據(jù)科學的路徑是不相同的,可以通過多種領(lǐng)域如統(tǒng)計、計算機科學與其他科學學科來實現(xiàn)。
目的是決定數(shù)據(jù)科學形式類別的最大因素,這也與相應(yīng)的A類以及B類相關(guān)聯(lián)。廣義上來說,分類可以總結(jié)如下:
面向人類的數(shù)據(jù)科學(A類),舉例:分析支持以證據(jù)為基礎(chǔ)的決策
面向軟件的數(shù)據(jù)科學(B類),舉例:智能推薦系統(tǒng),如Netflix和Spotify
當這個領(lǐng)域越來越成熟之后,我們可以見到這些定義會愈加完善,在這里我們也要介紹我們第一個專家:Yanir Seroussi,Yanir目前是Car Next Door的首席數(shù)據(jù)科學家。
在我們深入研究之前,值得花一點時間來反思“數(shù)據(jù)科學”中的“科學”,因為在某種意義上,所有的科學家都是數(shù)據(jù)科學家,因為他們都是與各種各樣的數(shù)據(jù)進行打交道。但要考慮到通常被認為是數(shù)據(jù)科學的這個行業(yè),究竟是什么使它成為一門科學?這個問題很好!答案應(yīng)該是:“科學方法”??紤]到科學的多學科性,科學方法是把這些領(lǐng)域結(jié)合在一起。
然而,業(yè)界中職位名稱貌似越來越寬松了,并不是所有的數(shù)據(jù)科學家都是真正的科學家??梢赃@樣問你自己:你能證明自己是一個科學家即便你的工作并不包含真正的科學呢?個人來說,我不認為“分析師”不能作為一個選項 ,或者其他的最合適的也能作為選項。但是這可能只是我個人意見,也許我最好稱自己為招聘科學家。
通過討論的方式我們將繼續(xù)探索,哪些領(lǐng)域的專業(yè)知識你還需要掌握(如果你還沒有的話)。
1. 解決問題
如果這個不是你清單中的首位的話,馬上去修改。所有科學核心都是解決問題:一個偉大的數(shù)據(jù)科學家也是一個偉大的問題解決者;就是這么簡單。需要更進一步的證明嗎,基本我在這個項目中碰到的每一個人(不管其背景和目前工作環(huán)境如何)都提到數(shù)據(jù)科學中最重要的因素就是解決問題。
很明顯,你需要有工具去解決問題,但是它們只是:工具。在這種情況下,即便是統(tǒng)計/機器學習技術(shù)也可以認為是你解決問題的工具。新的技術(shù)出現(xiàn)了,科技進步了。唯一不變的就是解決問題。
在某種程度上,你解決問題的能力是由天賦決定的,但是與此同時有且僅有一個方式來進行提高:那就是練習、練習、練習。在后面我們會回顧這部分內(nèi)容,但是現(xiàn)在你只需要記?。耗阒荒芡ㄟ^嘗試來掌握某件事情。
2. 統(tǒng)計/機器學習
看完上面的內(nèi)容,似乎我輕視了統(tǒng)計和機器學習。不過在這里我們并不是討論一個強力的工具;它們是非常復(fù)雜的(而且在某種程度上是非常深奧的領(lǐng)域),如果你沒有專業(yè)的知識,你也不會很快地解決數(shù)據(jù)科學問題。
進一步對這些詞進行解釋說明,機器學習可以被認為是從人工智能/計算科學與統(tǒng)計學中發(fā)展起來的多學科領(lǐng)域。它通常被認為是人工智能的一個子領(lǐng)域,這是正確的,但是很重要的是要意識到?jīng)]有統(tǒng)計學的話就沒有機器學習(機器學習非常依賴統(tǒng)計算法來工作)。很長一段時間依賴統(tǒng)計學家都被機器學習所輕視,但是在這兩個領(lǐng)域的合作才造就了最近的發(fā)展(參見統(tǒng)計學習理論),順便提下高維統(tǒng)計學習只有在統(tǒng)計學家與機器學習結(jié)果合作時才會有良好的結(jié)果。
3. 計算
編程
對于我們來說只需要簡單的接觸程序就行,因為它應(yīng)該是很直觀的:但是對數(shù)據(jù)科學家來說編程是必須要會的。設(shè)想下如果你不會編程的話,如何才能通過編寫一段獨特的算法來實現(xiàn)你的理論?又或者建立一個統(tǒng)計模型?
分布式計算
并不是所有事情都需要超級大的數(shù)據(jù)組,但是考慮到現(xiàn)代世界的情況,建議在工作中都加上大數(shù)據(jù)。簡而言之:單一計算機中的主要內(nèi)存并不能實現(xiàn)大數(shù)據(jù)處理,如果你想同時在數(shù)百臺虛擬機中訓(xùn)練模型的話,你需要能夠使用分布計算與并行算法。
軟件工程
對于A類數(shù)據(jù)科學而言,讓我明確一點:工程是一門獨立的學科。因此如果這是你想成為的數(shù)據(jù)科學家類型,你其實不需要成為一個工程師。然而,如果你想把機器學習算法轉(zhuǎn)化到應(yīng)用中(即B類),那么你將需要一個強大的軟件工程基礎(chǔ)。
手動轉(zhuǎn)換數(shù)據(jù)
數(shù)據(jù)清理/準備是數(shù)據(jù)科學的重要內(nèi)在組成部分。這將耗費你大多數(shù)時間。倘若你沒有成功地對數(shù)據(jù)集進行降噪(例如,錯誤賦值,非標準化分類等),將會對建模的準確性產(chǎn)生影響,最終導(dǎo)致產(chǎn)生錯誤的結(jié)論。因此,如果你尚未做好處理數(shù)據(jù)的準備,這將使你先前的知識積累顯得無關(guān)重要。
有一點是非常重要的且值得注意的,即在商業(yè)化組織中數(shù)據(jù)質(zhì)量一直以來成為飽受爭議的話題,在數(shù)據(jù)儲存方面,許多業(yè)務(wù)又涉及到復(fù)雜的基礎(chǔ)事務(wù)需要處理。所以,如果你尚未準備好融入這個環(huán)境中,想要處理純粹的數(shù)據(jù)集,商業(yè)數(shù)據(jù)科學可能不是最適合你的選擇。
工具與技術(shù)
直至目前,你應(yīng)當意識到,成為一名具備解決問題的能力的數(shù)據(jù)科學家相比于其他一切條件來講是重中之重:因為技術(shù)將不斷發(fā)生變化,能夠在相對較短的時間內(nèi)得到掌握。但是,我們不能對其他影響因素置之不理,因而,能夠認清楚如今應(yīng)用最廣泛的工具對于成為一名數(shù)據(jù)科學家是有用的。
讓我們先從編程語言談起,R與Python是兩種最常用的編程語言,因而,如果能夠選擇的話,希望你選用其中一種語言用于實驗研究。
尤其是在A類數(shù)據(jù)科學工作領(lǐng)域,具備能夠直觀地觀察數(shù)據(jù)的能力將會對與非技術(shù)型商業(yè)股東交流溝通產(chǎn)生重大影響。你可能具有最優(yōu)的模型和最深刻的見解,但是如果不能有效地呈現(xiàn)/解釋這些研究成果,那又將有什么用呢?事實上,你運用什么工具實現(xiàn)數(shù)據(jù)直觀可視化并不重要,可以是通過使用R或Tableau(當時最為流行的編程語言),但是,說實話,工具是不太重要的。
最后,不論我們所討論的是關(guān)系型數(shù)據(jù)庫,還是運用大數(shù)據(jù)技術(shù)獲得的SQL衍生數(shù)據(jù)庫,由于SQL是當時產(chǎn)業(yè)界用于數(shù)據(jù)庫中最為廣泛的編程語言,大多數(shù)公司都非??粗豐QL這種編程語言。SQL對于手動轉(zhuǎn)換數(shù)據(jù)尤為重要,至少在處理更大規(guī)模的數(shù)據(jù)庫時??傊琒QL真的值得你花費一定的時間來好好研究應(yīng)用。
交流/商業(yè)頭腦
在商業(yè)數(shù)據(jù)科學領(lǐng)域工作,具備交流溝通能力/商業(yè)頭腦是不容忽視的。除非你將要從事非常具體的工作,可能是純研究類型的工作(盡管我們要面對現(xiàn)實,在產(chǎn)業(yè)界并沒有很多這種類型的工作),絕大多數(shù)數(shù)據(jù)科學領(lǐng)域的工作都涉及到業(yè)界交流互動,通常是與非學者類型的人打交道。
具備將商業(yè)化問題和催生這些問題的環(huán)境概念化是極為重要的。將統(tǒng)計學方面的觀點轉(zhuǎn)化為可以想普通大眾推薦的行動或啟發(fā)性觀點也是重要的,特別是對于A類型數(shù)據(jù)科學領(lǐng)域的工作來講。我曾與Yanir就該話題交談過,他的觀點如下:
“我發(fā)現(xiàn)一種奇怪的現(xiàn)象,當一些技術(shù)型人才開始使用行話與人交流時,他們并不留意他們的交談?wù)摺切┓羌夹g(shù)型人才,的目光早已落到了別處。在交談過程中,能夠設(shè)身處地地為他人著想是重要的?!?/p>
搖滾明星
乍看這樣一個標題,你可能會困惑不解:事實上,我用這一標題暗含諷刺意味。當然,數(shù)據(jù)科學家可不是搖滾明星,忍者,獨角獸或其他任何一種神秘生物。如果你計劃視自己為上述任何一種生物,那你可能該對著鏡子好好大量自己一番。但是,講到這里,我離題了。我想要表達的觀點是,有一些數(shù)據(jù)科學家,他們具備頂尖的專業(yè)水平,也可能專業(yè)水平更為高端。在別人眼中,可謂稀有物種,尤為寶貴。如果你有此般天賦或愿望成為其中一員,那簡直是太棒了。但是,如果你不具備這種才能或愿望,請記得:你可能在數(shù)據(jù)科學的某些領(lǐng)域做的術(shù)業(yè)有專攻,而且通常,好的團隊是由精通于不同專業(yè)領(lǐng)域的數(shù)據(jù)科學家組成的。決定自己的研究重點在哪一領(lǐng)域,這個問題有回到我們之前講的個人興趣和能力這個話題上,我們將在下一篇文章中對該話題作繼續(xù)討論。
相關(guān)閱讀
從世界冠軍到數(shù)據(jù)科學家 他是如何煉成的? | 硬創(chuàng)公開課
PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Alec Smith
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。