數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

本文作者： s5248

編輯：汪思穎

2018-04-19 14:29

導語：作者 Alex 結(jié)合自身四年的行業(yè)經(jīng)驗，講述了真實場景下的數(shù)據(jù)科學工作，以及如何管理好數(shù)據(jù)科學團隊。

雷鋒網(wǎng) AI 研習社按：本篇是來自 Schibsted 多媒體組的數(shù)據(jù)科學經(jīng)理 Alex 發(fā)布于 Medium 上的一篇文章，作者結(jié)合自身四年的行業(yè)經(jīng)驗，詳細介紹了實際的數(shù)據(jù)科學工作，以及如何管理好數(shù)據(jù)科學團隊，雷鋒網(wǎng) AI 研習社對原文進行了編譯整理。

本文為上篇，主要講了實際的數(shù)據(jù)科學工作。下篇講了如何管理好數(shù)據(jù)科學團隊。

2014 年我加入 Schibsted 傳媒集團的一個小團隊，當時是第六位數(shù)據(jù)科學家。這些年，我在這家公司研究了許多數(shù)據(jù)科學方法，目前該公司已經(jīng)有 40 多名數(shù)據(jù)科學家了。在這篇文章中，我將回顧過去四年所學到的經(jīng)驗-——首先是作為數(shù)據(jù)科學家的經(jīng)驗，然后是作為數(shù)據(jù)科學管理者的經(jīng)驗。

這篇文章仿效 Robert Chang「在推特搞數(shù)據(jù)科學」一文，他的那篇文章非常有價值。我希望能為世界各地的數(shù)據(jù)科學家和數(shù)據(jù)科學管理人員提供同樣有價值的思考。

這篇文章分為兩部分：

第一部分：數(shù)據(jù)科學家的實際工作
第二部分：如何管理數(shù)據(jù)科學家團隊

第一部分著重于描述數(shù)據(jù)科學家要做的實際工作，而第二部分則討論如何管理數(shù)據(jù)科學團隊以獲得最大的影響力。我認為這兩個部分對科學家和管理者來說是相互聯(lián)系的。

我不會花很多時間來界定怎樣才算或不算數(shù)據(jù)科學家?，網(wǎng)上已經(jīng)有很多文章來討論這一點了。

關于 Schibsted：這是一家在全球 20 多個國家擁有用戶和市場的媒體公司，我主要負責市場業(yè)務。如果你想看幾個 Schibsted 數(shù)據(jù)科學工作的一些具體案例，這里有 3 個選擇：

汽車定價
 預測可能的新聞訂閱者
 推斷用戶屬性

說完這些，讓我們進入正題吧！

第一部分：現(xiàn)實世界中的數(shù)據(jù)科學

充滿雄心壯志，在一家公司當數(shù)據(jù)科學家，這真的很讓人興奮，但也會讓人望而生畏。比如：周圍人對自己的期望是什么？同齡人有什么技能？應該怎樣工作才能對公司有用？

作為一位被吹得天花亂墜的數(shù)據(jù)科學家，有時很難覺得自己不是騙子。

由于擔心被認為是在做一些容易的事情，數(shù)據(jù)科學家常常被迫選擇首先關注更復雜的情形。這就引出了第一課。

1. 太復雜會增加成本——從簡單的開始

他們聘請了一名數(shù)據(jù)科學家，所以這個問題肯定很復雜，對吧？

數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

不要被復雜的事物所誘惑

這種假設常常會使你誤入歧途，從而不能成為一名真正的數(shù)據(jù)科學家。

首先，你在行業(yè)中遇到的問題通?？梢杂孟喈敽唵蔚姆椒▉斫鉀Q。

其次，重要的是要記住太復雜會增加成本。一個復雜的模型可能需要更多的工作，具有更高的錯誤風險，更難向股東解釋清楚。因此，你首先應該采取最簡單的方法。

那么，怎么知道最簡單的方法是否足夠好呢？

2. 總有基準

如果沒有比較模型性能的基準，那么你的評估指標可能毫無意義。

數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

我們建立了一個模型（保留模型，retention model）來預測用戶回到我們網(wǎng)站的概率?；谟脩舻男袨?，我們的模型大約有15個特征，ROC-AUC 在 0.8 左右。與隨機性能的 0.5 相比，我們對這個結(jié)果相當滿意。

但當我們把模型分解為兩個最有預測能力的特征：recency（最近訪問的那一天）和 frequency（過去訪問的天數(shù)），通過這兩個變量的 logistic 回歸，ROC-AUC 達到了 78% 。換句話說，我們可以扔掉多余 85% 的特征來達到超過 97% 的性能。

我有很多次看到數(shù)據(jù)科學家基于復雜的模型報告離線實驗結(jié)果，沒有任何比較基準。每當你看到這種情況，你都應該問：我們能用一個更簡單的模型取得同樣的結(jié)果嗎？

3. 使用你所擁有的數(shù)據(jù)

一天，我和一名數(shù)據(jù)工程師、一名數(shù)據(jù)科學家共進午餐。這位科學家談到，只要他有 X，Y，Z 的數(shù)據(jù)，就能做出令人驚奇的事情。他的眼神都在發(fā)光。但工程師突然說道：“你們數(shù)據(jù)科學家總是在談論你獲取了實際獲取不到的數(shù)據(jù)時能做什么。那么就你所擁有的數(shù)據(jù)你能做些什么呢？！”

數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

這聽起來很刺耳，但工程師表達了一個重要的真理：永遠也不會有完美的數(shù)據(jù)集，而且總會有你可以使用的數(shù)據(jù)。在大多數(shù)情況下，你可以用你的數(shù)據(jù)做點什么。

4. 擁有數(shù)據(jù)

與上述觀點相關的是，數(shù)據(jù)質(zhì)量和完整性幾乎總是同一個問題。你需要去獲取你需要的數(shù)據(jù)，而不是坐在那里等待某人把數(shù)據(jù)給你。

數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

我不是在討論數(shù)據(jù)治理模型中的真正所有權(quán)。我的意思是擴展你的角色，幫助你找到自己需要的數(shù)據(jù)。

這可能有助于數(shù)據(jù)收集的模式和格式，這可能意味著查看 Web 應用程序前端執(zhí)行的 JavaScript 代碼，以確保在合適的時候才觸發(fā)事件。或者這可能意味著建立數(shù)據(jù)管道——不要期望數(shù)據(jù)工程師來為你做好一切。

5. 忘記數(shù)據(jù)

這似乎與我上面說的一切相矛盾，非常重要的一點是不要太受束縛于手頭的數(shù)據(jù)。

數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

空白的黑板

當出現(xiàn)一個新問題時，首先應該嘗試忘記數(shù)據(jù)。為什么？現(xiàn)有的數(shù)據(jù)會限制你想出更多的解決辦法，它會分散你尋找最佳方法的注意力。你會陷入局部最優(yōu)，只在手頭已有數(shù)據(jù)的基礎上思考問題（開發(fā)勝于研究）。

6. 形成一種微妙的因果性

我們都知道相關性并不意味著存在因果關系。問題在于，許多數(shù)據(jù)科學家都止步于此，并回避做出因果聲明。

數(shù)據(jù)科學進階之路：了解數(shù)據(jù)科學工作，管理數(shù)據(jù)科學家團隊（上）

懦夫?qū)σ蚬P系的探討

為什么那是個問題？因為產(chǎn)品經(jīng)理、營銷團隊、CEO，或者和你一起工作的人都不在乎相關性。他們更關心因果關系。

產(chǎn)品經(jīng)理希望當她決定推出這個新功能時，有信心將訂單量提高 10%。營銷團隊希望知道，電子郵件數(shù)量從每周 2 封增加到 4 封不會導致人們退出郵件列表。CEO 想知道，投資于更精準的功能可以帶來廣告收入的增加。

那么有折中辦法嗎？似乎有兩個。

最著名的是在線實驗?；旧夏銜M行隨機試驗?——?A/B 測試是最常見的。想法很簡單，隨機選擇目標群體和對照組，如果發(fā)現(xiàn)兩組之間有統(tǒng)計學上的顯著差異，我們所采用的辦法就被認為是因果參數(shù)。

另一個不太有名的因果關系推斷方法是因果模型。這里的想法是，你假設世界的因果結(jié)構(gòu)，然后你使用觀察（非實驗）數(shù)據(jù)來檢驗這些假設是否與預測數(shù)據(jù)一致，或者估計不同因果效應的強度。Adam Kelleher寫了一系列很好的因果數(shù)據(jù)科學文章，我推薦閱讀下。除此之外，因果關系分析的圣經(jīng)數(shù)據(jù)是 Judea Pearl 的因果關系（Causality）。

根據(jù)我的經(jīng)驗，大多數(shù)數(shù)據(jù)科學家在構(gòu)建機器學習模型和離線評估方面有豐富的經(jīng)驗。而在在線評估和實驗方面有經(jīng)驗的數(shù)據(jù)科學家要少得多。原因很簡單：你可以從 Kaggle 上下載一個數(shù)據(jù)集，訓練一個模型，并在幾分鐘內(nèi)對它進行線下評估。另一方面，對該模型進行在線評估，需要訪問真實世界。即使你在一家擁有數(shù)百萬用戶的互聯(lián)網(wǎng)公司工作，你也常常需要越過層層關卡找到一個針對當前用戶的機器學習模型。

現(xiàn)在，很少有數(shù)據(jù)科學家有廣泛的在線評估以及因果模型推斷的經(jīng)驗，出現(xiàn)這一現(xiàn)象的原因有很多。其中一個原因是大多數(shù)因果關系的文獻都是相當理論性的，對于如何在現(xiàn)實世界中構(gòu)建因果模型并沒有實際的指導意義。我預測在未來幾年我們會看到更多關于因果建模的實用指南。

形成微妙的因果關系觀意味著你可以給股東提供可行的建議，同時也能保證科學性。

via：4 Years of Data Science at Schibsted Media Group，雷鋒網(wǎng) AI 研習社編譯整理。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。