0
Data Scientist,數(shù)據(jù)科學(xué)家,太火了,已經(jīng)成為新一代改變世界的職業(yè),引得每一個(gè)人都想往這個(gè)方向轉(zhuǎn)。
學(xué) CS 的覺得做碼農(nóng)太底層,給人打工,要轉(zhuǎn)數(shù)據(jù)科學(xué)家,完美。
學(xué)統(tǒng)計(jì)的覺得這個(gè)不需要過多的 Coding,適合自己,要轉(zhuǎn)數(shù)據(jù)科學(xué)家,完美。
學(xué)商科的覺得終于自己也可以成為科學(xué)家了,要轉(zhuǎn)數(shù)據(jù)科學(xué)家,完美。
似乎每個(gè)人都覺得自己可以成為,應(yīng)該成為,也一定能夠成為一名數(shù)據(jù)科學(xué)家。
然而現(xiàn)實(shí)呢?
一片混亂。
“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it”?—?Dan Ariely
人們的想象之中的獨(dú)角獸
幾乎所有贊美數(shù)據(jù)科學(xué)家的人,都認(rèn)為數(shù)據(jù)科學(xué)家是這樣一類人:
精通算法。例如各種機(jī)器學(xué)習(xí)算法(聚類,分類,NLP,CV,IR, etc.),理解統(tǒng)計(jì)的原理。
全棧開發(fā)能力。能夠完成從數(shù)據(jù)清洗,到產(chǎn)品上線的全部工作,且能做各種數(shù)據(jù)可視化與報(bào)表。
有資深的領(lǐng)域知識(shí)。了解行業(yè)背景,企業(yè)運(yùn)行規(guī)律,懂得 Business、Marketing、Finance、Operations 等等知識(shí),能夠幫助企業(yè)做決策。
除了技術(shù)能力要求高,同時(shí)還要有相當(dāng)?shù)能泴?shí)力,比如溝通和寫作的能力,比如領(lǐng)導(dǎo)團(tuán)隊(duì)的能力等等。
哇,真是全能的獨(dú)角獸。
可能有這樣的人嗎?當(dāng)然,這個(gè)世界這么大,出幾個(gè)超牛的人并不是沒有可能。
你可以追求成為這樣一個(gè)人,但是認(rèn)為所謂數(shù)據(jù)科學(xué)家就等于這一類人,并沒有什么意義。
但是,從現(xiàn)實(shí)角度來講,你并不需要成為這樣一個(gè)人才能為企業(yè)帶來價(jià)值。大量和數(shù)據(jù)相關(guān)的職責(zé)都被認(rèn)為是和數(shù)據(jù)科學(xué)家相關(guān)的,因此,更重要的是,找到合適自己的位置,使用新技術(shù)解決問題,創(chuàng)造收益。
兩類數(shù)據(jù)科學(xué)家
是的,Data Scientist 并不是一個(gè) Well Defined 的職位,在每個(gè)公司的職責(zé)都不一樣。但是,不論怎么樣,這個(gè)世界上不可能憑空出現(xiàn)一個(gè)職位:這個(gè)職位所解決的問題是以前從來沒出現(xiàn)過的,也沒人知道該怎么解決的?;蛟S我們可以慢慢逼近人們想象中的那個(gè)全能的獨(dú)角獸,但現(xiàn)在,數(shù)據(jù)科學(xué)家所擔(dān)當(dāng)?shù)穆氊?zé),一定會(huì)跟現(xiàn)有的職位大量的重合。
現(xiàn)實(shí)中的數(shù)據(jù)科學(xué)家是怎么樣的呢?常見的數(shù)據(jù)科學(xué)家被分為兩類。引用 Quora 上 Michael Hochster 的一個(gè)回答:
Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on.
Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).
我對(duì)于這兩類的理解稍有出入,但也大體相同:
Type A 數(shù)據(jù)科學(xué)家:偏 Analysis,一切為數(shù)據(jù)驅(qū)動(dòng)的決策服務(wù)。主要的工作是在清理數(shù)據(jù),做分析,找 Insight,做 Report 等等??梢哉f是某類升級(jí)版的 Analyst 或者 BD。
一方面這意味著對(duì)你的你要求跟做 BD 或 Analyst 的要求一樣甚至更高,對(duì)市場(chǎng)了解如何?對(duì)行業(yè)了解如何?對(duì)公司運(yùn)作了解如何?而所謂 Machine Learning 等工具只是技術(shù)與手段,能夠幫助更好地解決問題,但是問題有哪些,才是根本的問題。
另一方面?zhèn)鹘y(tǒng) Analyst 不足的地方在于隨著數(shù)據(jù)越來越大,越來越復(fù)雜,如果要更快更準(zhǔn),需要使用更好的模型(機(jī)器學(xué)習(xí)等),在更原始的數(shù)據(jù)中探索與分析,不能只等待其他人把數(shù)據(jù)都處理好。因此需要更強(qiáng)的數(shù)據(jù)處理、分析能力和對(duì)于新模型、工具的掌握和理解。
往這個(gè)方向發(fā)展,要補(bǔ)齊 Marketing、Business、Finance、Operation 等知識(shí),同時(shí)掌握各種機(jī)器學(xué)習(xí)的算法與工具。
Type B 數(shù)據(jù)科學(xué)家:偏 Research & Product,在算法即產(chǎn)品的職責(zé)下讓算法能夠與產(chǎn)緊密結(jié)合,甚至主導(dǎo)算法驅(qū)動(dòng)的產(chǎn)品。主要的工作是把算法從 Research 做到 Product。
一方面要對(duì)各類機(jī)器學(xué)習(xí)的算法了解足夠深刻,了解各種機(jī)器學(xué)習(xí)算法的常見應(yīng)用(NLP,CV,Recommendation,IR,etc.)。同時(shí)對(duì)工程要求更高,畢竟做 Prototype 和上 Production 是完全不一樣的。
另一方面要對(duì)產(chǎn)品的需求有更深層次的理解,以及了解公司的業(yè)務(wù)邏輯,因?yàn)殡S著不少算法的成熟,產(chǎn)品的需求已經(jīng)不僅僅來自于 product-market-fit,而是來自于算法本身的進(jìn)步,因此能夠把成熟的算法推向產(chǎn)品是非常重要的能力。
往這個(gè)方向發(fā)展,Coding 的要求與所有通用 Software Engineering 的要求一樣,該修 CS 課可能一樣都不能少,同時(shí)要能了解公司的業(yè)務(wù)邏輯,更好地推動(dòng)產(chǎn)品的上線,讓不可能變成可能。
職業(yè)生涯的起步與發(fā)展
既然典型的數(shù)據(jù)科學(xué)家是兩類,那么對(duì)照著這兩類對(duì)自己的技能樹查缺補(bǔ)漏就行。要么補(bǔ)業(yè)務(wù)知識(shí),要么補(bǔ)代碼能力,要么補(bǔ)機(jī)器學(xué)習(xí)相關(guān)的技術(shù)與工具。總之,不要一味追求所謂的新算法,而沒有基礎(chǔ)的分析或者工程能力,這樣并不能解決任何問題,也不能帶來任何價(jià)值。
從一位分析師或者程序員開始職業(yè)生涯,都是很好的選擇。
然而,職業(yè)生涯的追求肯定不是一個(gè) Title,而是某些能力,對(duì)照著理想中的獨(dú)角獸差缺補(bǔ)漏,確實(shí)是非常好的辦法。
雷鋒網(wǎng)按:原作者陳然,本文原載于作者的知乎專欄。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。