丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

你和真正的數(shù)據(jù)科學(xué)究竟差在哪里

本文作者: AI研習(xí)社 編輯:賈智龍 2017-04-25 11:21
導(dǎo)語:現(xiàn)實(shí)中的數(shù)據(jù)科學(xué)家究竟什么樣的?不要再沉浸在幻想里了。


你和真正的數(shù)據(jù)科學(xué)究竟差在哪里

Data Scientist,數(shù)據(jù)科學(xué)家,太火了,已經(jīng)成為新一代改變世界的職業(yè),引得每一個(gè)人都想往這個(gè)方向轉(zhuǎn)。

學(xué) CS 的覺得做碼農(nóng)太底層,給人打工,要轉(zhuǎn)數(shù)據(jù)科學(xué)家,完美。

學(xué)統(tǒng)計(jì)的覺得這個(gè)不需要過多的 Coding,適合自己,要轉(zhuǎn)數(shù)據(jù)科學(xué)家,完美。

學(xué)商科的覺得終于自己也可以成為科學(xué)家了,要轉(zhuǎn)數(shù)據(jù)科學(xué)家,完美。

似乎每個(gè)人都覺得自己可以成為,應(yīng)該成為,也一定能夠成為一名數(shù)據(jù)科學(xué)家。

然而現(xiàn)實(shí)呢?

一片混亂。

“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it”?—?Dan Ariely

人們的想象之中的獨(dú)角獸

幾乎所有贊美數(shù)據(jù)科學(xué)家的人,都認(rèn)為數(shù)據(jù)科學(xué)家是這樣一類人:

  • 精通算法。例如各種機(jī)器學(xué)習(xí)算法(聚類,分類,NLP,CV,IR, etc.),理解統(tǒng)計(jì)的原理。

  • 全棧開發(fā)能力。能夠完成從數(shù)據(jù)清洗,到產(chǎn)品上線的全部工作,且能做各種數(shù)據(jù)可視化與報(bào)表。

  • 有資深的領(lǐng)域知識(shí)。了解行業(yè)背景,企業(yè)運(yùn)行規(guī)律,懂得 Business、Marketing、Finance、Operations 等等知識(shí),能夠幫助企業(yè)做決策。

  • 除了技術(shù)能力要求高,同時(shí)還要有相當(dāng)?shù)能泴?shí)力,比如溝通和寫作的能力,比如領(lǐng)導(dǎo)團(tuán)隊(duì)的能力等等。

哇,真是全能的獨(dú)角獸。

可能有這樣的人嗎?當(dāng)然,這個(gè)世界這么大,出幾個(gè)超牛的人并不是沒有可能。

你可以追求成為這樣一個(gè)人,但是認(rèn)為所謂數(shù)據(jù)科學(xué)家就等于這一類人,并沒有什么意義。

但是,從現(xiàn)實(shí)角度來講,你并不需要成為這樣一個(gè)人才能為企業(yè)帶來價(jià)值。大量和數(shù)據(jù)相關(guān)的職責(zé)都被認(rèn)為是和數(shù)據(jù)科學(xué)家相關(guān)的,因此,更重要的是,找到合適自己的位置,使用新技術(shù)解決問題,創(chuàng)造收益。

兩類數(shù)據(jù)科學(xué)家

是的,Data Scientist 并不是一個(gè) Well Defined 的職位,在每個(gè)公司的職責(zé)都不一樣。但是,不論怎么樣,這個(gè)世界上不可能憑空出現(xiàn)一個(gè)職位:這個(gè)職位所解決的問題是以前從來沒出現(xiàn)過的,也沒人知道該怎么解決的?;蛟S我們可以慢慢逼近人們想象中的那個(gè)全能的獨(dú)角獸,但現(xiàn)在,數(shù)據(jù)科學(xué)家所擔(dān)當(dāng)?shù)穆氊?zé),一定會(huì)跟現(xiàn)有的職位大量的重合。

現(xiàn)實(shí)中的數(shù)據(jù)科學(xué)家是怎么樣的呢?常見的數(shù)據(jù)科學(xué)家被分為兩類。引用 Quora 上 Michael Hochster 的一個(gè)回答:

Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on.

Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).

我對(duì)于這兩類的理解稍有出入,但也大體相同:

Type A 數(shù)據(jù)科學(xué)家:偏 Analysis,一切為數(shù)據(jù)驅(qū)動(dòng)的決策服務(wù)。主要的工作是在清理數(shù)據(jù),做分析,找 Insight,做 Report 等等??梢哉f是某類升級(jí)版的 Analyst 或者 BD。

一方面這意味著對(duì)你的你要求跟做 BD 或 Analyst 的要求一樣甚至更高,對(duì)市場(chǎng)了解如何?對(duì)行業(yè)了解如何?對(duì)公司運(yùn)作了解如何?而所謂 Machine Learning 等工具只是技術(shù)與手段,能夠幫助更好地解決問題,但是問題有哪些,才是根本的問題。

另一方面?zhèn)鹘y(tǒng) Analyst 不足的地方在于隨著數(shù)據(jù)越來越大,越來越復(fù)雜,如果要更快更準(zhǔn),需要使用更好的模型(機(jī)器學(xué)習(xí)等),在更原始的數(shù)據(jù)中探索與分析,不能只等待其他人把數(shù)據(jù)都處理好。因此需要更強(qiáng)的數(shù)據(jù)處理、分析能力和對(duì)于新模型、工具的掌握和理解。

往這個(gè)方向發(fā)展,要補(bǔ)齊 Marketing、Business、Finance、Operation 等知識(shí),同時(shí)掌握各種機(jī)器學(xué)習(xí)的算法與工具。

Type B 數(shù)據(jù)科學(xué)家:偏 Research & Product,在算法即產(chǎn)品的職責(zé)下讓算法能夠與產(chǎn)緊密結(jié)合,甚至主導(dǎo)算法驅(qū)動(dòng)的產(chǎn)品。主要的工作是把算法從 Research 做到 Product。

一方面要對(duì)各類機(jī)器學(xué)習(xí)的算法了解足夠深刻,了解各種機(jī)器學(xué)習(xí)算法的常見應(yīng)用(NLP,CV,Recommendation,IR,etc.)。同時(shí)對(duì)工程要求更高,畢竟做 Prototype 和上 Production 是完全不一樣的。

另一方面要對(duì)產(chǎn)品的需求有更深層次的理解,以及了解公司的業(yè)務(wù)邏輯,因?yàn)殡S著不少算法的成熟,產(chǎn)品的需求已經(jīng)不僅僅來自于 product-market-fit,而是來自于算法本身的進(jìn)步,因此能夠把成熟的算法推向產(chǎn)品是非常重要的能力。

往這個(gè)方向發(fā)展,Coding 的要求與所有通用 Software Engineering 的要求一樣,該修 CS 課可能一樣都不能少,同時(shí)要能了解公司的業(yè)務(wù)邏輯,更好地推動(dòng)產(chǎn)品的上線,讓不可能變成可能。

職業(yè)生涯的起步與發(fā)展

既然典型的數(shù)據(jù)科學(xué)家是兩類,那么對(duì)照著這兩類對(duì)自己的技能樹查缺補(bǔ)漏就行。要么補(bǔ)業(yè)務(wù)知識(shí),要么補(bǔ)代碼能力,要么補(bǔ)機(jī)器學(xué)習(xí)相關(guān)的技術(shù)與工具。總之,不要一味追求所謂的新算法,而沒有基礎(chǔ)的分析或者工程能力,這樣并不能解決任何問題,也不能帶來任何價(jià)值。

從一位分析師或者程序員開始職業(yè)生涯,都是很好的選擇。

然而,職業(yè)生涯的追求肯定不是一個(gè) Title,而是某些能力,對(duì)照著理想中的獨(dú)角獸差缺補(bǔ)漏,確實(shí)是非常好的辦法。

雷鋒網(wǎng)按:原作者陳然,本文原載于作者的知乎專欄

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

你和真正的數(shù)據(jù)科學(xué)究竟差在哪里

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請(qǐng)?jiān)L問:yanxishe.com
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說