丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給李尊
發(fā)送

2

如何成為一名數(shù)據(jù)科學(xué)家?

本文作者: 李尊 2016-09-05 18:18
導(dǎo)語:很多人都非常困惑,想要成為數(shù)據(jù)科學(xué)家需要做些什么?

聯(lián)合編譯:Blake、高斐

編者注:作者Alec Smith是數(shù)據(jù)科學(xué)領(lǐng)域中資深HR,之所以寫這篇文章是因?yàn)榻?jīng)常被問到一個問題:“如何才能獲得一份數(shù)據(jù)科學(xué)家的職位?” 不僅這個問題經(jīng)常被問引起了注意,另外問這個問題的人不同的背景也非常很令人感興趣。作者曾經(jīng)和以下這些職業(yè)的人有過類似對話:軟件工程師、數(shù)據(jù)庫開發(fā)者、數(shù)據(jù)架構(gòu)師、保險精算師、數(shù)學(xué)家、學(xué)術(shù)界人士(不同領(lǐng)域)、生物學(xué)家、天文學(xué)家、理論物理學(xué)家—我還能接著往下數(shù)。通過和他們的這些談話,作者發(fā)現(xiàn)在這之中有很大的誤解存在,很多人都非常困惑——為了闖入這個領(lǐng)域的話,他們需要做些什么?

如何成為一名數(shù)據(jù)科學(xué)家?

作者決定深入調(diào)查這個項(xiàng)目,同時提供一個任何想要加入商業(yè)計算機(jī)科學(xué)都能受益的干貨資料——無論你是剛剛開始,或者早已點(diǎn)滿所有的技能只是沒有相關(guān)的業(yè)界經(jīng)驗(yàn)。因此我打算主要回答這兩個概覽性的問題:

  • 數(shù)據(jù)科學(xué)需要哪些技能?如何才能學(xué)會這些技能?

  • 從求職市場的角度來看的話,怎樣做才能最大化在數(shù)據(jù)科學(xué)崗位上被錄用的機(jī)會?

你可能會疑惑,憑什么我能回答這些問題?

因?yàn)槲颐刻於己葦?shù)據(jù)科學(xué)家打交道,并且作為一個資深的HR,我需要了解相關(guān)職業(yè)道路,怎樣才能成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家,以及雇主期望能招到哪一種員工。因此對于這件事我還是相當(dāng)了解的。但是我也想直接找到那些沿著這條路走下來的人,所以我以不同背景的數(shù)據(jù)科學(xué)家開始,期待能發(fā)掘到不同的東西。這一次我找到了一個前軟件工程師、前天體物理學(xué)家、甚至還有一個前粒子物理學(xué)家(這令我非常激動,因?yàn)樗?jīng)親身參與過21世紀(jì)以來最重大的科學(xué)突破之一)。

如何成為一名數(shù)據(jù)科學(xué)家?

第一章:什么是數(shù)據(jù)科學(xué)?

你已經(jīng)下定決心要做一名數(shù)據(jù)科學(xué)家了,很好你已經(jīng)開始了。但是現(xiàn)在你有了另外一種選擇:你想做哪一種數(shù)據(jù)額科學(xué)家呢?因?yàn)椋ㄕJ(rèn)識到這個很重要)雖然數(shù)據(jù)科學(xué)被承認(rèn)是一種職業(yè)已經(jīng)有很多年了,但是有關(guān)于它到底是什么還沒有一個大家都認(rèn)可的定義。

在現(xiàn)實(shí)生活,“數(shù)據(jù)科學(xué)家”這個詞可以指代非常廣泛的工種,因此它存在很多種形式,考慮到工業(yè)界以及商業(yè)界各種需求的不同,還有問題中目標(biāo)與輸出角色的不同。因此,在某些方面擁有技能的話比其他要更好一些,這就是為什么通向數(shù)據(jù)科學(xué)的路徑是不相同的,可以通過多種領(lǐng)域如統(tǒng)計、計算機(jī)科學(xué)與其他科學(xué)學(xué)科來實(shí)現(xiàn)。

目的是決定數(shù)據(jù)科學(xué)形式類別的最大因素,這也與相應(yīng)的A類以及B類相關(guān)聯(lián)。廣義上來說,分類可以總結(jié)如下:

  • 面向人類的數(shù)據(jù)科學(xué)(A類),舉例:分析支持以證據(jù)為基礎(chǔ)的決策

  • 面向軟件的數(shù)據(jù)科學(xué)(B類),舉例:智能推薦系統(tǒng),如Netflix和Spotify

當(dāng)這個領(lǐng)域越來越成熟之后,我們可以見到這些定義會愈加完善,在這里我們也要介紹我們第一個專家:Yanir Seroussi,Yanir目前是Car Next Door的首席數(shù)據(jù)科學(xué)家。

探討職位頭銜

在我們深入研究之前,值得花一點(diǎn)時間來反思“數(shù)據(jù)科學(xué)”中的“科學(xué)”,因?yàn)樵谀撤N意義上,所有的科學(xué)家都是數(shù)據(jù)科學(xué)家,因?yàn)樗麄兌际桥c各種各樣的數(shù)據(jù)進(jìn)行打交道。但要考慮到通常被認(rèn)為是數(shù)據(jù)科學(xué)的這個行業(yè),究竟是什么使它成為一門科學(xué)?這個問題很好!答案應(yīng)該是:“科學(xué)方法”。考慮到科學(xué)的多學(xué)科性,科學(xué)方法是把這些領(lǐng)域結(jié)合在一起。

然而,業(yè)界中職位名稱貌似越來越寬松了,并不是所有的數(shù)據(jù)科學(xué)家都是真正的科學(xué)家??梢赃@樣問你自己:你能證明自己是一個科學(xué)家即便你的工作并不包含真正的科學(xué)呢?個人來說,我不認(rèn)為“分析師”不能作為一個選項(xiàng) ,或者其他的最合適的也能作為選項(xiàng)。但是這可能只是我個人意見,也許我最好稱自己為招聘科學(xué)家。

通過討論的方式我們將繼續(xù)探索,哪些領(lǐng)域的專業(yè)知識你還需要掌握(如果你還沒有的話)。

1. 解決問題

如果這個不是你清單中的首位的話,馬上去修改。所有科學(xué)核心都是解決問題:一個偉大的數(shù)據(jù)科學(xué)家也是一個偉大的問題解決者;就是這么簡單。需要更進(jìn)一步的證明嗎,基本我在這個項(xiàng)目中碰到的每一個人(不管其背景和目前工作環(huán)境如何)都提到數(shù)據(jù)科學(xué)中最重要的因素就是解決問題。

很明顯,你需要有工具去解決問題,但是它們只是:工具。在這種情況下,即便是統(tǒng)計/機(jī)器學(xué)習(xí)技術(shù)也可以認(rèn)為是你解決問題的工具。新的技術(shù)出現(xiàn)了,科技進(jìn)步了。唯一不變的就是解決問題。

在某種程度上,你解決問題的能力是由天賦決定的,但是與此同時有且僅有一個方式來進(jìn)行提高:那就是練習(xí)、練習(xí)、練習(xí)。在后面我們會回顧這部分內(nèi)容,但是現(xiàn)在你只需要記?。耗阒荒芡ㄟ^嘗試來掌握某件事情。

2. 統(tǒng)計/機(jī)器學(xué)習(xí)

如何成為一名數(shù)據(jù)科學(xué)家?

看完上面的內(nèi)容,似乎我輕視了統(tǒng)計和機(jī)器學(xué)習(xí)。不過在這里我們并不是討論一個強(qiáng)力的工具;它們是非常復(fù)雜的(而且在某種程度上是非常深奧的領(lǐng)域),如果你沒有專業(yè)的知識,你也不會很快地解決數(shù)據(jù)科學(xué)問題。

進(jìn)一步對這些詞進(jìn)行解釋說明,機(jī)器學(xué)習(xí)可以被認(rèn)為是從人工智能/計算科學(xué)與統(tǒng)計學(xué)中發(fā)展起來的多學(xué)科領(lǐng)域。它通常被認(rèn)為是人工智能的一個子領(lǐng)域,這是正確的,但是很重要的是要意識到?jīng)]有統(tǒng)計學(xué)的話就沒有機(jī)器學(xué)習(xí)(機(jī)器學(xué)習(xí)非常依賴統(tǒng)計算法來工作)。很長一段時間依賴統(tǒng)計學(xué)家都被機(jī)器學(xué)習(xí)所輕視,但是在這兩個領(lǐng)域的合作才造就了最近的發(fā)展(參見統(tǒng)計學(xué)習(xí)理論),順便提下高維統(tǒng)計學(xué)習(xí)只有在統(tǒng)計學(xué)家與機(jī)器學(xué)習(xí)結(jié)果合作時才會有良好的結(jié)果。

3. 計算

  • 編程

對于我們來說只需要簡單的接觸程序就行,因?yàn)樗鼞?yīng)該是很直觀的:但是對數(shù)據(jù)科學(xué)家來說編程是必須要會的。設(shè)想下如果你不會編程的話,如何才能通過編寫一段獨(dú)特的算法來實(shí)現(xiàn)你的理論?又或者建立一個統(tǒng)計模型?

如何成為一名數(shù)據(jù)科學(xué)家?

  • 分布式計算

并不是所有事情都需要超級大的數(shù)據(jù)組,但是考慮到現(xiàn)代世界的情況,建議在工作中都加上大數(shù)據(jù)。簡而言之:單一計算機(jī)中的主要內(nèi)存并不能實(shí)現(xiàn)大數(shù)據(jù)處理,如果你想同時在數(shù)百臺虛擬機(jī)中訓(xùn)練模型的話,你需要能夠使用分布計算與并行算法。

  • 軟件工程

對于A類數(shù)據(jù)科學(xué)而言,讓我明確一點(diǎn):工程是一門獨(dú)立的學(xué)科。因此如果這是你想成為的數(shù)據(jù)科學(xué)家類型,你其實(shí)不需要成為一個工程師。然而,如果你想把機(jī)器學(xué)習(xí)算法轉(zhuǎn)化到應(yīng)用中(即B類),那么你將需要一個強(qiáng)大的軟件工程基礎(chǔ)。

  • 手動轉(zhuǎn)換數(shù)據(jù)

數(shù)據(jù)清理/準(zhǔn)備是數(shù)據(jù)科學(xué)的重要內(nèi)在組成部分。這將耗費(fèi)你大多數(shù)時間。倘若你沒有成功地對數(shù)據(jù)集進(jìn)行降噪(例如,錯誤賦值,非標(biāo)準(zhǔn)化分類等),將會對建模的準(zhǔn)確性產(chǎn)生影響,最終導(dǎo)致產(chǎn)生錯誤的結(jié)論。因此,如果你尚未做好處理數(shù)據(jù)的準(zhǔn)備,這將使你先前的知識積累顯得無關(guān)重要。

有一點(diǎn)是非常重要的且值得注意的,即在商業(yè)化組織中數(shù)據(jù)質(zhì)量一直以來成為飽受爭議的話題,在數(shù)據(jù)儲存方面,許多業(yè)務(wù)又涉及到復(fù)雜的基礎(chǔ)事務(wù)需要處理。所以,如果你尚未準(zhǔn)備好融入這個環(huán)境中,想要處理純粹的數(shù)據(jù)集,商業(yè)數(shù)據(jù)科學(xué)可能不是最適合你的選擇。

  • 工具與技術(shù)

直至目前,你應(yīng)當(dāng)意識到,成為一名具備解決問題的能力的數(shù)據(jù)科學(xué)家相比于其他一切條件來講是重中之重:因?yàn)榧夹g(shù)將不斷發(fā)生變化,能夠在相對較短的時間內(nèi)得到掌握。但是,我們不能對其他影響因素置之不理,因而,能夠認(rèn)清楚如今應(yīng)用最廣泛的工具對于成為一名數(shù)據(jù)科學(xué)家是有用的。

讓我們先從編程語言談起,R與Python是兩種最常用的編程語言,因而,如果能夠選擇的話,希望你選用其中一種語言用于實(shí)驗(yàn)研究。

尤其是在A類數(shù)據(jù)科學(xué)工作領(lǐng)域,具備能夠直觀地觀察數(shù)據(jù)的能力將會對與非技術(shù)型商業(yè)股東交流溝通產(chǎn)生重大影響。你可能具有最優(yōu)的模型和最深刻的見解,但是如果不能有效地呈現(xiàn)/解釋這些研究成果,那又將有什么用呢?事實(shí)上,你運(yùn)用什么工具實(shí)現(xiàn)數(shù)據(jù)直觀可視化并不重要,可以是通過使用R或Tableau(當(dāng)時最為流行的編程語言),但是,說實(shí)話,工具是不太重要的。

最后,不論我們所討論的是關(guān)系型數(shù)據(jù)庫,還是運(yùn)用大數(shù)據(jù)技術(shù)獲得的SQL衍生數(shù)據(jù)庫,由于SQL是當(dāng)時產(chǎn)業(yè)界用于數(shù)據(jù)庫中最為廣泛的編程語言,大多數(shù)公司都非常看重SQL這種編程語言。SQL對于手動轉(zhuǎn)換數(shù)據(jù)尤為重要,至少在處理更大規(guī)模的數(shù)據(jù)庫時。總之,SQL真的值得你花費(fèi)一定的時間來好好研究應(yīng)用。

  • 交流/商業(yè)頭腦

在商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域工作,具備交流溝通能力/商業(yè)頭腦是不容忽視的。除非你將要從事非常具體的工作,可能是純研究類型的工作(盡管我們要面對現(xiàn)實(shí),在產(chǎn)業(yè)界并沒有很多這種類型的工作),絕大多數(shù)數(shù)據(jù)科學(xué)領(lǐng)域的工作都涉及到業(yè)界交流互動,通常是與非學(xué)者類型的人打交道。

具備將商業(yè)化問題和催生這些問題的環(huán)境概念化是極為重要的。將統(tǒng)計學(xué)方面的觀點(diǎn)轉(zhuǎn)化為可以想普通大眾推薦的行動或啟發(fā)性觀點(diǎn)也是重要的,特別是對于A類型數(shù)據(jù)科學(xué)領(lǐng)域的工作來講。我曾與Yanir就該話題交談過,他的觀點(diǎn)如下:

“我發(fā)現(xiàn)一種奇怪的現(xiàn)象,當(dāng)一些技術(shù)型人才開始使用行話與人交流時,他們并不留意他們的交談?wù)摺切┓羌夹g(shù)型人才,的目光早已落到了別處。在交談過程中,能夠設(shè)身處地地為他人著想是重要的?!?/p>

搖滾明星

乍看這樣一個標(biāo)題,你可能會困惑不解:事實(shí)上,我用這一標(biāo)題暗含諷刺意味。當(dāng)然,數(shù)據(jù)科學(xué)家可不是搖滾明星,忍者,獨(dú)角獸或其他任何一種神秘生物。如果你計劃視自己為上述任何一種生物,那你可能該對著鏡子好好大量自己一番。但是,講到這里,我離題了。我想要表達(dá)的觀點(diǎn)是,有一些數(shù)據(jù)科學(xué)家,他們具備頂尖的專業(yè)水平,也可能專業(yè)水平更為高端。在別人眼中,可謂稀有物種,尤為寶貴。如果你有此般天賦或愿望成為其中一員,那簡直是太棒了。但是,如果你不具備這種才能或愿望,請記得:你可能在數(shù)據(jù)科學(xué)的某些領(lǐng)域做的術(shù)業(yè)有專攻,而且通常,好的團(tuán)隊(duì)是由精通于不同專業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家組成的。決定自己的研究重點(diǎn)在哪一領(lǐng)域,這個問題有回到我們之前講的個人興趣和能力這個話題上,我們將在下一篇文章中對該話題作繼續(xù)討論。

相關(guān)閱讀

從世界冠軍到數(shù)據(jù)科學(xué)家 他是如何煉成的? | 硬創(chuàng)公開課

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

via Alec Smith

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

如何成為一名數(shù)據(jù)科學(xué)家?

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說