0
Data Scientist,數(shù)據(jù)科學家,太火了,已經(jīng)成為新一代改變世界的職業(yè),引得每一個人都想往這個方向轉(zhuǎn)。
學 CS 的覺得做碼農(nóng)太底層,給人打工,要轉(zhuǎn)數(shù)據(jù)科學家,完美。
學統(tǒng)計的覺得這個不需要過多的 Coding,適合自己,要轉(zhuǎn)數(shù)據(jù)科學家,完美。
學商科的覺得終于自己也可以成為科學家了,要轉(zhuǎn)數(shù)據(jù)科學家,完美。
似乎每個人都覺得自己可以成為,應(yīng)該成為,也一定能夠成為一名數(shù)據(jù)科學家。
然而現(xiàn)實呢?
一片混亂。
“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it”?—?Dan Ariely
人們的想象之中的獨角獸
幾乎所有贊美數(shù)據(jù)科學家的人,都認為數(shù)據(jù)科學家是這樣一類人:
精通算法。例如各種機器學習算法(聚類,分類,NLP,CV,IR, etc.),理解統(tǒng)計的原理。
全棧開發(fā)能力。能夠完成從數(shù)據(jù)清洗,到產(chǎn)品上線的全部工作,且能做各種數(shù)據(jù)可視化與報表。
有資深的領(lǐng)域知識。了解行業(yè)背景,企業(yè)運行規(guī)律,懂得 Business、Marketing、Finance、Operations 等等知識,能夠幫助企業(yè)做決策。
除了技術(shù)能力要求高,同時還要有相當?shù)能泴嵙?,比如溝通和寫作的能力,比如領(lǐng)導團隊的能力等等。
哇,真是全能的獨角獸。
可能有這樣的人嗎?當然,這個世界這么大,出幾個超牛的人并不是沒有可能。
你可以追求成為這樣一個人,但是認為所謂數(shù)據(jù)科學家就等于這一類人,并沒有什么意義。
但是,從現(xiàn)實角度來講,你并不需要成為這樣一個人才能為企業(yè)帶來價值。大量和數(shù)據(jù)相關(guān)的職責都被認為是和數(shù)據(jù)科學家相關(guān)的,因此,更重要的是,找到合適自己的位置,使用新技術(shù)解決問題,創(chuàng)造收益。
兩類數(shù)據(jù)科學家
是的,Data Scientist 并不是一個 Well Defined 的職位,在每個公司的職責都不一樣。但是,不論怎么樣,這個世界上不可能憑空出現(xiàn)一個職位:這個職位所解決的問題是以前從來沒出現(xiàn)過的,也沒人知道該怎么解決的?;蛟S我們可以慢慢逼近人們想象中的那個全能的獨角獸,但現(xiàn)在,數(shù)據(jù)科學家所擔當?shù)穆氊?,一定會跟現(xiàn)有的職位大量的重合。
現(xiàn)實中的數(shù)據(jù)科學家是怎么樣的呢?常見的數(shù)據(jù)科學家被分為兩類。引用 Quora 上 Michael Hochster 的一個回答:
Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on.
Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).
我對于這兩類的理解稍有出入,但也大體相同:
Type A 數(shù)據(jù)科學家:偏 Analysis,一切為數(shù)據(jù)驅(qū)動的決策服務(wù)。主要的工作是在清理數(shù)據(jù),做分析,找 Insight,做 Report 等等??梢哉f是某類升級版的 Analyst 或者 BD。
一方面這意味著對你的你要求跟做 BD 或 Analyst 的要求一樣甚至更高,對市場了解如何?對行業(yè)了解如何?對公司運作了解如何?而所謂 Machine Learning 等工具只是技術(shù)與手段,能夠幫助更好地解決問題,但是問題有哪些,才是根本的問題。
另一方面?zhèn)鹘y(tǒng) Analyst 不足的地方在于隨著數(shù)據(jù)越來越大,越來越復(fù)雜,如果要更快更準,需要使用更好的模型(機器學習等),在更原始的數(shù)據(jù)中探索與分析,不能只等待其他人把數(shù)據(jù)都處理好。因此需要更強的數(shù)據(jù)處理、分析能力和對于新模型、工具的掌握和理解。
往這個方向發(fā)展,要補齊 Marketing、Business、Finance、Operation 等知識,同時掌握各種機器學習的算法與工具。
Type B 數(shù)據(jù)科學家:偏 Research & Product,在算法即產(chǎn)品的職責下讓算法能夠與產(chǎn)緊密結(jié)合,甚至主導算法驅(qū)動的產(chǎn)品。主要的工作是把算法從 Research 做到 Product。
一方面要對各類機器學習的算法了解足夠深刻,了解各種機器學習算法的常見應(yīng)用(NLP,CV,Recommendation,IR,etc.)。同時對工程要求更高,畢竟做 Prototype 和上 Production 是完全不一樣的。
另一方面要對產(chǎn)品的需求有更深層次的理解,以及了解公司的業(yè)務(wù)邏輯,因為隨著不少算法的成熟,產(chǎn)品的需求已經(jīng)不僅僅來自于 product-market-fit,而是來自于算法本身的進步,因此能夠把成熟的算法推向產(chǎn)品是非常重要的能力。
往這個方向發(fā)展,Coding 的要求與所有通用 Software Engineering 的要求一樣,該修 CS 課可能一樣都不能少,同時要能了解公司的業(yè)務(wù)邏輯,更好地推動產(chǎn)品的上線,讓不可能變成可能。
職業(yè)生涯的起步與發(fā)展
既然典型的數(shù)據(jù)科學家是兩類,那么對照著這兩類對自己的技能樹查缺補漏就行。要么補業(yè)務(wù)知識,要么補代碼能力,要么補機器學習相關(guān)的技術(shù)與工具??傊灰晃蹲非笏^的新算法,而沒有基礎(chǔ)的分析或者工程能力,這樣并不能解決任何問題,也不能帶來任何價值。
從一位分析師或者程序員開始職業(yè)生涯,都是很好的選擇。
然而,職業(yè)生涯的追求肯定不是一個 Title,而是某些能力,對照著理想中的獨角獸差缺補漏,確實是非常好的辦法。
雷鋒網(wǎng)按:原作者陳然,本文原載于作者的知乎專欄。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。