丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
專欄 正文
發(fā)私信給朱赟
發(fā)送

2

Airbnb資深程序媛:公司里的Data Scientist

本文作者: 朱赟 2016-06-15 11:32
導(dǎo)語(yǔ):怎樣才算是好的Data Scientist ?硅谷的Data Scientist 薪資如何?

雷鋒網(wǎng)按:本文作者朱赟,Airbnb資深美女程序媛一枚(友情提示:頭像即真人)。

Airbnb資深程序媛:公司里的Data Scientist

(圖:Emily Cheng 手繪,Airbnb 程序媛,我的鄰座)

硅谷的大部分公司,都有很多的Data Scientist,簡(jiǎn)稱 DS,不知道國(guó)內(nèi)是不是叫數(shù)據(jù)科學(xué)家。

前幾天 InfoQ 的網(wǎng)站上發(fā)布了一篇文章《Airbnb支付平臺(tái)如何進(jìn)行異常檢測(cè)》,翻譯的是 Airbnb 公司博客上的一篇英文原文。

這篇文章講的是 Airbnb 的一個(gè)異常探測(cè)系統(tǒng):

Airbnb為全球190個(gè)國(guó)家提供服務(wù),支持多種貨幣類型。大部分情況下,支付系統(tǒng)會(huì)成功支付,但有時(shí)會(huì)出現(xiàn)暫歇性故障,比如,某些貨幣不能處理或者支付渠道不可訪問(wèn)。為了能夠盡可能快的捕捉到這些故障信息,公司的數(shù)據(jù)團(tuán)隊(duì)開發(fā)了一個(gè)實(shí)時(shí)的異常檢測(cè)系統(tǒng)來(lái)甄別這些問(wèn)題。這個(gè)異常檢測(cè)系統(tǒng)可以很好的幫助產(chǎn)品團(tuán)隊(duì)定位問(wèn)題,也讓數(shù)據(jù)分析師能騰出更多的時(shí)間來(lái)做其它工作,比如,新的付費(fèi)方式或者產(chǎn)品上線的A/B 測(cè)試、定價(jià)或者價(jià)格預(yù)測(cè)和構(gòu)建機(jī)器學(xué)習(xí)模型來(lái)做個(gè)性化推薦。

注:InfoQ 作為 IT 媒體界的翹首,在規(guī)范翻譯英文博客的流程上起了一個(gè)很好的表率。首先就翻譯的準(zhǔn)確性來(lái)說(shuō),InfoQ 網(wǎng)站上的翻譯總的來(lái)說(shuō)質(zhì)量是很高的,也有專人校對(duì)。此外,我知道他們翻譯的文章是聯(lián)系授權(quán)的,就說(shuō)這一篇,也是得到了 Aribnb 的 eng 部門和 PR 部門首肯的。在此對(duì) InfoQ 對(duì)知識(shí)產(chǎn)權(quán)的尊重表示一下個(gè)人小小的敬意。

這個(gè)異常檢測(cè)系統(tǒng)我們現(xiàn)在仍然是在使用的,不過(guò)略有進(jìn)一步的改進(jìn)和完善。英文原文是我們組的一位 Data Scientist 陸競(jìng)驍寫的。發(fā)布之后,也有幾個(gè)朋友私下問(wèn)了一些細(xì)節(jié)問(wèn)題,比如:“這樣的系統(tǒng)是怎么從無(wú)到有做出來(lái)的?” “需要什么樣的人來(lái)做?” 等等。所以今天就大概聊聊公司對(duì) Data Scientist 的技能要求以及平時(shí)工作的一些大概內(nèi)容吧。

順便提一句,Twitter 其實(shí)也有一個(gè)類似的異常檢測(cè)系統(tǒng)的基于R語(yǔ)言的開源包 。和我們的主要區(qū)別在于對(duì)于 seasonality 的處理。Airbnb 使用 FFT 模型來(lái)模擬 seasonality 的方式可能使用起來(lái)更加靈活一些。有興趣的可以下載 Twitter 的開源包,然后根據(jù)自己的需求做類似的系統(tǒng)。我們的系統(tǒng)目前還沒(méi)有開源。

| Data Scientist 都做什么?

在一般的互聯(lián)網(wǎng)公司,DS 的工作可能包括(卻不止于)下面四類:

  • 構(gòu)建 Dashboard。這在有些公司是由 Business Intelligence(BI)來(lái)做的。主要是使用一些統(tǒng)計(jì)工具和畫圖工具來(lái)用創(chuàng)建 Dashboard,使得關(guān)鍵的 metrics 和信息可以一目了然的表示出來(lái)。并將一些數(shù)據(jù)之間錯(cuò)綜復(fù)雜的聯(lián)系用最直觀的方式,為公司別的員工展示。讓包括 PM、經(jīng)理等人員對(duì)于公司各個(gè)層次、各個(gè)方向的信息有更準(zhǔn)確的了解。

  • 和數(shù)據(jù)工程師一起采集和清理數(shù)據(jù),構(gòu)建數(shù)據(jù)管道。這包括使用各種腳本語(yǔ)言(如 Python),寫一些程序,獲取需要的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行一定的處理。

  • 機(jī)器學(xué)習(xí)方向的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)方向的軟件工程師一起構(gòu)建機(jī)器學(xué)習(xí)模型。并一起對(duì)學(xué)習(xí)的結(jié)果進(jìn)行分析,和參與到參數(shù)和模型的調(diào)整中。

  • 各種數(shù)據(jù)分析。包括對(duì) A/B 測(cè)試的結(jié)果的統(tǒng)計(jì)分析。A/B 測(cè)試可能在很多公司的使用和機(jī)器學(xué)習(xí)差不多的廣泛了。簡(jiǎn)單有效,尤其適合面向用戶的產(chǎn)品特性或者 UI 方面的決策選取。方法很簡(jiǎn)單,將一個(gè)產(chǎn)品的兩種/多種設(shè)計(jì)隨機(jī)均等地推送給不同的用戶組,根據(jù)用戶的使用反饋回來(lái)的數(shù)據(jù)的分析,快速有效地決定哪一種設(shè)計(jì)更優(yōu)?;蛘哒f(shuō)哪一種設(shè)計(jì)針對(duì)不同的人群和場(chǎng)景更優(yōu)。這些結(jié)果有時(shí)甚至?xí)c設(shè)計(jì)時(shí)的直覺判斷相悖。但是當(dāng)采樣范圍和數(shù)據(jù)累積均達(dá)到一定的程度時(shí),提供的結(jié)果還是相當(dāng)有說(shuō)服力的。

| Data Scientist 都有什么樣的學(xué)術(shù)背景?

大都 DS 都是來(lái)自于數(shù)學(xué)和統(tǒng)計(jì)專業(yè)。然而也有很多來(lái)自物理、機(jī)械工程、金融等專業(yè)。相對(duì)而言,DS 比碼工的平均學(xué)歷要高,也就是碩士博士的比例更大一些。

知乎日?qǐng)?bào)上《如何成為一名數(shù)據(jù)科學(xué)家?》一文中提到:

數(shù)據(jù)科學(xué)(Data Science)是從數(shù)據(jù)中提取知識(shí)的研究,關(guān)鍵是科學(xué)。數(shù)據(jù)科學(xué)集成了多種領(lǐng)域的不同元素,包括信號(hào)處理,數(shù)學(xué),概率模型技術(shù)和理論,機(jī)器學(xué)習(xí),計(jì)算機(jī)編程,統(tǒng)計(jì)學(xué),數(shù)據(jù)工程,模式識(shí)別和學(xué)習(xí),可視化,不確定性建模,數(shù)據(jù)倉(cāng)庫(kù),以及從數(shù)據(jù)中析取規(guī)律和產(chǎn)品的高性能計(jì)算。數(shù)據(jù)科學(xué)并不局限于大數(shù)據(jù),但是數(shù)據(jù)量的擴(kuò)大誠(chéng)然使得數(shù)據(jù)科學(xué)的地位越發(fā)重要。


數(shù)據(jù)科學(xué)的從業(yè)者被稱為數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家通過(guò)精深的專業(yè)知識(shí)在某些科學(xué)學(xué)科解決復(fù)雜的數(shù)據(jù)問(wèn)題。不遠(yuǎn)的將來(lái),數(shù)據(jù)科學(xué)家們需要精通一門、兩門甚至多門學(xué)科,同時(shí)使用數(shù)學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的生產(chǎn)要素展開工作。所以數(shù)據(jù)科學(xué)家就如同一個(gè)team。


曾經(jīng)投資過(guò) Facebook,LinkedIn 的格雷洛克風(fēng)險(xiǎn)投資公司把數(shù)據(jù)科學(xué)家描述成“能夠管理和洞察數(shù)據(jù)的人”。在 IBM 的網(wǎng)站上,數(shù)據(jù)科學(xué)家的角色被形容成“一半分析師,一半藝術(shù)家”。他們代表了商業(yè)或數(shù)據(jù)分析這個(gè)角色的一個(gè)進(jìn)化。

| 怎樣算一個(gè)優(yōu)秀的 Data Scientist?

其實(shí)除了金融等領(lǐng)域?qū)?DS 的技術(shù)背景有著上面的嚴(yán)格的要求,很多互聯(lián)網(wǎng)公司如 Square、Airbnb、Facebook 等對(duì)于技術(shù)背景達(dá)到一定的水準(zhǔn)后,更看重的其實(shí)是另外一些軟技能,如:

  • 對(duì)數(shù)據(jù)的敏感性。能不能將數(shù)據(jù)里隱藏的信息通過(guò)建模等的方式找到并加以驗(yàn)證。

  • 和各種非 DS 的溝通能力。Data Scientest 通常都是分配到組里的,需要和產(chǎn)品經(jīng)理、工程師等很緊密的合作。協(xié)調(diào)組員之間的信息傳遞,將一個(gè)數(shù)據(jù)驅(qū)動(dòng)的測(cè)試方案執(zhí)行出來(lái),都是一個(gè)優(yōu)秀的 DS 應(yīng)該具備的素質(zhì)。

  • 數(shù)據(jù)的可視化表示。知道怎樣選取最有效的方式,將數(shù)據(jù)中的信息準(zhǔn)確明了的表示出來(lái)。

  • 對(duì)數(shù)據(jù)和公司核心 Metrics 之間的依賴性、相關(guān)性能做出準(zhǔn)確的分析。這樣才能有助于提出更有利于提高公司 Metrics 的方案。

這也是為什么很多硅谷的公司在招 DS 的時(shí)候,更愿意招有工作經(jīng)驗(yàn)的 DS,很多中小公司甚至干脆不招畢業(yè)生。而因?yàn)楦鞣N數(shù)據(jù)生成的 dashboard, 更是公司高層做決定的一些主要依據(jù)。

Data Scientist 在硅谷的薪資是怎樣的?

這個(gè)問(wèn)題我的數(shù)據(jù)不夠,不好以偏概全的來(lái)誤導(dǎo)。不過(guò)倒是讓我想起來(lái)另外一件事。

大家經(jīng)??吹?LinkedIn、GlassDoor 等網(wǎng)站對(duì)各個(gè)職業(yè)的平均水平進(jìn)行統(tǒng)計(jì)。我和我的一些朋友覺得,這些數(shù)據(jù)其實(shí)是很 bias 的,而且基本可以說(shuō)是偏低的。為什么這么說(shuō)呢?我猜有兩個(gè)原因。第一,剛?cè)肼殘?chǎng)的人更喜歡參與這樣的統(tǒng)計(jì)調(diào)查。而比較 Senior 的人,其實(shí)幾乎沒(méi)有人或者很少有人去參與這樣的調(diào)查。第二,很多高工資的公司參與這樣的統(tǒng)計(jì)調(diào)查的人要相對(duì)較少。我為什么這么猜?只是從我認(rèn)識(shí)的人提起這樣的一些統(tǒng)計(jì)數(shù)據(jù)都覺得比實(shí)際情況偏低推測(cè)的。不用跟我爭(zhēng)辯,我只是說(shuō)出我的觀點(diǎn),信不信由你。

| 為什么 Data Scientist 很重要?

沒(méi)啥可說(shuō)的了:可信的數(shù)據(jù)、靠譜的解讀,是做出正確判斷的重要基礎(chǔ)。

所以對(duì)于很多公司而言,招到優(yōu)秀的 Data Scientest,其實(shí)和招到優(yōu)秀的軟件工程師一樣重要。

而一個(gè)公司在多大程度上由數(shù)據(jù)驅(qū)動(dòng),看看他們 Data Scientist 與工程師的比例,也就大概有個(gè)譜了。

雷鋒網(wǎng)注:題圖來(lái)自ju.outofmemory.cn。轉(zhuǎn)載本文請(qǐng)聯(lián)系授權(quán)并保留完整信息,注明出處和作者,不得修改文章。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Airbnb資深程序媛:公司里的Data Scientist

分享:
相關(guān)文章

專欄特約作者

我是朱赟,也叫 angela。硅谷 Airbnb 資深程序媛一枚,希望通過(guò)女碼工的視角為你講述硅谷程序員的技術(shù)和故事。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)