0
雷鋒網(wǎng) AI 研習(xí)社按:本篇是來自 Schibsted 多媒體組的數(shù)據(jù)科學(xué)經(jīng)理 Alex 發(fā)布于 Medium 上的一篇文章,作者結(jié)合自身四年的行業(yè)經(jīng)驗,詳細(xì)介紹了實際的數(shù)據(jù)科學(xué)工作,以及如何管理好數(shù)據(jù)科學(xué)團隊,雷鋒網(wǎng) AI 研習(xí)社對原文進(jìn)行了編譯整理。
本文為上篇,主要講了實際的數(shù)據(jù)科學(xué)工作。下篇講了如何管理好數(shù)據(jù)科學(xué)團隊。
2014 年我加入 Schibsted 傳媒集團的一個小團隊,當(dāng)時是第六位數(shù)據(jù)科學(xué)家。這些年,我在這家公司研究了許多數(shù)據(jù)科學(xué)方法,目前該公司已經(jīng)有 40 多名數(shù)據(jù)科學(xué)家了。在這篇文章中,我將回顧過去四年所學(xué)到的經(jīng)驗-——首先是作為數(shù)據(jù)科學(xué)家的經(jīng)驗,然后是作為數(shù)據(jù)科學(xué)管理者的經(jīng)驗。
這篇文章仿效 Robert Chang「在推特搞數(shù)據(jù)科學(xué)」一文,他的那篇文章非常有價值。我希望能為世界各地的數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)管理人員提供同樣有價值的思考。
這篇文章分為兩部分:
第一部分:數(shù)據(jù)科學(xué)家的實際工作
第二部分:如何管理數(shù)據(jù)科學(xué)家團隊
第一部分著重于描述數(shù)據(jù)科學(xué)家要做的實際工作,而第二部分則討論如何管理數(shù)據(jù)科學(xué)團隊以獲得最大的影響力。我認(rèn)為這兩個部分對科學(xué)家和管理者來說是相互聯(lián)系的。
我不會花很多時間來界定怎樣才算或不算數(shù)據(jù)科學(xué)家?,網(wǎng)上已經(jīng)有很多文章來討論這一點了。
關(guān)于 Schibsted:這是一家在全球 20 多個國家擁有用戶和市場的媒體公司,我主要負(fù)責(zé)市場業(yè)務(wù)。如果你想看幾個 Schibsted 數(shù)據(jù)科學(xué)工作的一些具體案例,這里有 3 個選擇:
說完這些,讓我們進(jìn)入正題吧!
充滿雄心壯志,在一家公司當(dāng)數(shù)據(jù)科學(xué)家,這真的很讓人興奮,但也會讓人望而生畏。比如:周圍人對自己的期望是什么?同齡人有什么技能?應(yīng)該怎樣工作才能對公司有用?
作為一位被吹得天花亂墜的數(shù)據(jù)科學(xué)家,有時很難覺得自己不是騙子。
由于擔(dān)心被認(rèn)為是在做一些容易的事情,數(shù)據(jù)科學(xué)家常常被迫選擇首先關(guān)注更復(fù)雜的情形。這就引出了第一課。
他們聘請了一名數(shù)據(jù)科學(xué)家,所以這個問題肯定很復(fù)雜,對吧?
不要被復(fù)雜的事物所誘惑
這種假設(shè)常常會使你誤入歧途,從而不能成為一名真正的數(shù)據(jù)科學(xué)家。
首先,你在行業(yè)中遇到的問題通??梢杂孟喈?dāng)簡單的方法來解決。
其次,重要的是要記住太復(fù)雜會增加成本。一個復(fù)雜的模型可能需要更多的工作,具有更高的錯誤風(fēng)險,更難向股東解釋清楚。因此,你首先應(yīng)該采取最簡單的方法。
那么,怎么知道最簡單的方法是否足夠好呢?
如果沒有比較模型性能的基準(zhǔn),那么你的評估指標(biāo)可能毫無意義。
我們建立了一個模型(保留模型,retention model)來預(yù)測用戶回到我們網(wǎng)站的概率?;谟脩舻男袨椋覀兊哪P痛蠹s有15個特征,ROC-AUC 在 0.8 左右。與隨機性能的 0.5 相比,我們對這個結(jié)果相當(dāng)滿意。
但當(dāng)我們把模型分解為兩個最有預(yù)測能力的特征:recency(最近訪問的那一天)和 frequency(過去訪問的天數(shù)),通過這兩個變量的 logistic 回歸,ROC-AUC 達(dá)到了 78% 。換句話說,我們可以扔掉多余 85% 的特征來達(dá)到超過 97% 的性能。
我有很多次看到數(shù)據(jù)科學(xué)家基于復(fù)雜的模型報告離線實驗結(jié)果,沒有任何比較基準(zhǔn)。每當(dāng)你看到這種情況,你都應(yīng)該問:我們能用一個更簡單的模型取得同樣的結(jié)果嗎?
一天,我和一名數(shù)據(jù)工程師、一名數(shù)據(jù)科學(xué)家共進(jìn)午餐。這位科學(xué)家談到,只要他有 X,Y,Z 的數(shù)據(jù),就能做出令人驚奇的事情。他的眼神都在發(fā)光。但工程師突然說道:“你們數(shù)據(jù)科學(xué)家總是在談?wù)撃惬@取了實際獲取不到的數(shù)據(jù)時能做什么。那么就你所擁有的數(shù)據(jù)你能做些什么呢?!”
這聽起來很刺耳,但工程師表達(dá)了一個重要的真理:永遠(yuǎn)也不會有完美的數(shù)據(jù)集,而且總會有你可以使用的數(shù)據(jù)。在大多數(shù)情況下,你可以用你的數(shù)據(jù)做點什么。
與上述觀點相關(guān)的是,數(shù)據(jù)質(zhì)量和完整性幾乎總是同一個問題。你需要去獲取你需要的數(shù)據(jù),而不是坐在那里等待某人把數(shù)據(jù)給你。
我不是在討論數(shù)據(jù)治理模型中的真正所有權(quán)。我的意思是擴展你的角色,幫助你找到自己需要的數(shù)據(jù)。
這可能有助于數(shù)據(jù)收集的模式和格式,這可能意味著查看 Web 應(yīng)用程序前端執(zhí)行的 JavaScript 代碼,以確保在合適的時候才觸發(fā)事件?;蛘哌@可能意味著建立數(shù)據(jù)管道——不要期望數(shù)據(jù)工程師來為你做好一切。
這似乎與我上面說的一切相矛盾,非常重要的一點是不要太受束縛于手頭的數(shù)據(jù)。
空白的黑板
當(dāng)出現(xiàn)一個新問題時,首先應(yīng)該嘗試忘記數(shù)據(jù)。為什么?現(xiàn)有的數(shù)據(jù)會限制你想出更多的解決辦法,它會分散你尋找最佳方法的注意力。你會陷入局部最優(yōu),只在手頭已有數(shù)據(jù)的基礎(chǔ)上思考問題(開發(fā)勝于研究)。
我們都知道相關(guān)性并不意味著存在因果關(guān)系。問題在于,許多數(shù)據(jù)科學(xué)家都止步于此,并回避做出因果聲明。
懦夫?qū)σ蚬P(guān)系的探討
為什么那是個問題?因為產(chǎn)品經(jīng)理、營銷團隊、CEO,或者和你一起工作的人都不在乎相關(guān)性。他們更關(guān)心因果關(guān)系。
產(chǎn)品經(jīng)理希望當(dāng)她決定推出這個新功能時,有信心將訂單量提高 10%。營銷團隊希望知道,電子郵件數(shù)量從每周 2 封增加到 4 封不會導(dǎo)致人們退出郵件列表。CEO 想知道,投資于更精準(zhǔn)的功能可以帶來廣告收入的增加。
那么有折中辦法嗎?似乎有兩個。
最著名的是在線實驗。基本上你會進(jìn)行隨機試驗?——?A/B 測試是最常見的。想法很簡單,隨機選擇目標(biāo)群體和對照組,如果發(fā)現(xiàn)兩組之間有統(tǒng)計學(xué)上的顯著差異,我們所采用的辦法就被認(rèn)為是因果參數(shù)。
另一個不太有名的因果關(guān)系推斷方法是因果模型。這里的想法是,你假設(shè)世界的因果結(jié)構(gòu),然后你使用觀察(非實驗)數(shù)據(jù)來檢驗這些假設(shè)是否與預(yù)測數(shù)據(jù)一致,或者估計不同因果效應(yīng)的強度。Adam Kelleher寫了一系列很好的因果數(shù)據(jù)科學(xué)文章,我推薦閱讀下。除此之外,因果關(guān)系分析的圣經(jīng)數(shù)據(jù)是 Judea Pearl 的因果關(guān)系(Causality)。
根據(jù)我的經(jīng)驗,大多數(shù)數(shù)據(jù)科學(xué)家在構(gòu)建機器學(xué)習(xí)模型和離線評估方面有豐富的經(jīng)驗。而在在線評估和實驗方面有經(jīng)驗的數(shù)據(jù)科學(xué)家要少得多。原因很簡單:你可以從 Kaggle 上下載一個數(shù)據(jù)集,訓(xùn)練一個模型,并在幾分鐘內(nèi)對它進(jìn)行線下評估。另一方面,對該模型進(jìn)行在線評估,需要訪問真實世界。即使你在一家擁有數(shù)百萬用戶的互聯(lián)網(wǎng)公司工作,你也常常需要越過層層關(guān)卡找到一個針對當(dāng)前用戶的機器學(xué)習(xí)模型。
現(xiàn)在,很少有數(shù)據(jù)科學(xué)家有廣泛的在線評估以及因果模型推斷的經(jīng)驗,出現(xiàn)這一現(xiàn)象的原因有很多。其中一個原因是大多數(shù)因果關(guān)系的文獻(xiàn)都是相當(dāng)理論性的,對于如何在現(xiàn)實世界中構(gòu)建因果模型并沒有實際的指導(dǎo)意義。我預(yù)測在未來幾年我們會看到更多關(guān)于因果建模的實用指南。
形成微妙的因果關(guān)系觀意味著你可以給股東提供可行的建議,同時也能保證科學(xué)性。
via:4 Years of Data Science at Schibsted Media Group,雷鋒網(wǎng) AI 研習(xí)社編譯整理。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。