0
本文作者: AI研習(xí)社-譯站 | 2019-02-13 10:54 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
What is the key skill that the best data scientists have?
作者 | André Sionek
翻譯 | kylechenoO、Ophria
校對 | 醬番梨 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/what-is-the-key-skill-that-the-best-data-scientists-have-655edea228ac
學(xué)習(xí)如何應(yīng)用不同的Python或R算法真的很簡單:眾所周知, 我們只需要修改一兩行代碼,就能將線性回歸遷移到神經(jīng)網(wǎng)絡(luò)、SVM,或者你喜歡的其他模型。
定義超參數(shù)也不是那么困難:只需為這些參數(shù)創(chuàng)建一個交叉驗證和網(wǎng)格搜索,以提高模型精度。部署一個模型可能會更為復(fù)雜,需要有一點點耐心和堅持、大量的教程和不斷嘗試與試錯,您就可以上傳一個每分鐘可以處理數(shù)百萬個請求的模型(或者您可以使用諸如marvin這樣的工具,它將替你做大量的工作)。但究竟是什么讓你突顯出你的優(yōu)勢呢?最優(yōu)秀的數(shù)據(jù)科學(xué)家需要掌握的關(guān)鍵技能又是什么?
簡而言之:關(guān)鍵在于知道如何根據(jù)數(shù)據(jù)創(chuàng)建分析視圖。
交易數(shù)據(jù)庫-那些存儲交易數(shù)據(jù)的數(shù)據(jù)庫,如訂單、付款、訪問日志等-是為存儲應(yīng)用程序交易數(shù)據(jù)而定制的,對數(shù)據(jù)科學(xué)沒有直接幫助。構(gòu)建這些數(shù)據(jù)庫的開發(fā)人員卻不這么認(rèn)為,也許不應(yīng)該考慮如何使用這些數(shù)據(jù)進行分析。他們只是簡單地創(chuàng)建了數(shù)據(jù)模型,以提高應(yīng)用程序的性能。
嘗試創(chuàng)建基于事務(wù)的機器學(xué)習(xí)模型是行不通的,除非你希望對某一項事務(wù)進行預(yù)測。數(shù)據(jù)科學(xué)家工作時通常需要基于數(shù)據(jù)分析。那么,究竟應(yīng)該如何基于數(shù)據(jù)分析呢?它又如何區(qū)別于基于事務(wù)?
分析數(shù)據(jù)庫是為了某項特定的研究而設(shè)計的?;诳蛻袅魇У念A(yù)測與基于購物車中的產(chǎn)品推薦不同。然而,兩者的數(shù)據(jù)源可能是相同的:事務(wù)性數(shù)據(jù)庫??蛻袅魇ьA(yù)測必須對每個客戶的行為數(shù)據(jù)進行分組,因此可以隨著時間的推移觀察客戶的行為。至于產(chǎn)品推薦,數(shù)據(jù)必須按會話分組,以預(yù)測哪些項目與購物車關(guān)聯(lián)。
能夠創(chuàng)建分析數(shù)據(jù)庫比精通多種算法更重要。
了解如何創(chuàng)建分析基礎(chǔ)是數(shù)據(jù)科學(xué)家需要培養(yǎng)的最重要技能之一。同時,它也是課程、MOOC和教程中教得較少的課程之一。為了將事務(wù)性數(shù)據(jù)轉(zhuǎn)換為可以分析的數(shù)據(jù),必須真正了解你正在處理的業(yè)務(wù)。這一點,加上批判性思維,是正確界定問題的基礎(chǔ)。
創(chuàng)建目標(biāo)與分析數(shù)據(jù)一致性并不容易:它需要一個長期的調(diào)研過程,這往往會讓您的經(jīng)理失望。
數(shù)據(jù)科學(xué)家經(jīng)常需要target來訓(xùn)練他/她的模型。如果看一看Kaggle,你會發(fā)現(xiàn)無數(shù)的比賽和數(shù)據(jù)集,其中的target已經(jīng)定義,并可以在培訓(xùn)和評估中直接使用。但是,事務(wù)性數(shù)據(jù)庫通常沒有準(zhǔn)備好的target。數(shù)據(jù)科學(xué)家必須明確客戶何時需要放棄服務(wù), 以便創(chuàng)建客戶流失模型。并且需要定義什么是不良付款行為,即使難以預(yù)測到。創(chuàng)建目標(biāo)和分析數(shù)據(jù)一致性并不是那么容易:它需要一個長期的調(diào)查過程,這通常會讓您的經(jīng)理失望(直到現(xiàn)在,他們都相信自己擁有所有的數(shù)據(jù),他們所需要的只是一個數(shù)據(jù)科學(xué)家)。
事實上,數(shù)據(jù)科學(xué)遠(yuǎn)大于將數(shù)據(jù)輸入模型并評估性能指標(biāo)的即插即用過程。
數(shù)據(jù)探索
設(shè)想一種情況,在這種情況下,您有一個數(shù)據(jù)庫,幾個銷售分析師根據(jù)行為概況對銷售線索進行分類。為了對客戶進行分類,分析師必須在談判過程中判斷銷售線索的行為,然后為客戶選擇一個適當(dāng)?shù)拿枋霾⑻顚懸粡埍砀?。我們這里有一些潛在的問題:
在同一談判過程中,分析師對潛在客戶的判斷不一定與其他分析師的判斷相同。不同的分析師可以對同一個潛在客戶可能會進行不同的分類。
分析師真的了解每個行為特征代表什么嗎?是否有明確的標(biāo)準(zhǔn)來將潛在客戶分類為“描述X”而不是“描述Y”?
在收集期間,流程是否發(fā)生變化,如插入新的行為類別/描述?如果是這樣的話,那么在定義目標(biāo)時,你必須決定如何考慮它們。
如何收集數(shù)據(jù)?在與潛在客戶的每次新接觸中,行為模式是否都會改變,以便分析師真正選擇最佳的模式?
管理者是否要求準(zhǔn)確地對其分類?如果要求分析師回答的只是一個“無聊”的過程,那么很有可能有些分類是“因為他們必須”填寫的。當(dāng)行為模式總是以相同的順序呈現(xiàn)給分析師時,這個問題變得更加明顯:目標(biāo)可能偏向于第一個選項。
在這個過程之后,您可能會得出這樣的結(jié)論:到目前為止收集的數(shù)據(jù)是完全無用的,因為沒有標(biāo)準(zhǔn)和過程。這肯定會讓很多人失望(甚至你也可能會失望)。
為了使創(chuàng)建分析數(shù)據(jù)庫的過程更清晰,讓我們看看正確定義問題和創(chuàng)建用于執(zhí)行預(yù)測的分析數(shù)據(jù)庫所需的一組過程的示例。
創(chuàng)建一個預(yù)測客戶信用違約的模型涉及一系列業(yè)務(wù)和技術(shù)決策,這些決策必須由數(shù)據(jù)科學(xué)家做出。
假設(shè)你與金融服務(wù)部門合作,并且面臨以下問題:
我們需要創(chuàng)建一個模型來識別哪些客戶在不久的將來不會支付他們的發(fā)票。
為此,你需要創(chuàng)建描述客戶付款的變量。然后有必要創(chuàng)建一個回歸模型,能夠區(qū)分好的和壞的付款人。最后,你需要計算客戶好壞的概率。
1.定義目標(biāo)是什么
在數(shù)據(jù)庫中的任何地方都找不到一個類別變量,它指示某個客戶是好的還是壞的付款人。首先,有必要定義什么是好客戶或壞客戶。為此,我們可以研究逾期付款。例如,你可能會發(fā)現(xiàn)平均延遲為20天,但75%的發(fā)票在到期日后17天內(nèi)支付。
你可以通過逾期天數(shù)內(nèi)的付款來設(shè)計累積分布。因此,你將能夠核實,30天后,87%的發(fā)票已經(jīng)支付。但6個月后,這個百分比將上升到90%。然后,我們可以使用貝葉斯推理來預(yù)測客戶在逾期30天后支付發(fā)票的概率。
代碼查看請點擊鏈接:https://ai.yanxishe.com/page/TextTranslation/1405
我們可以得出的結(jié)論是,如果客戶的付款已經(jīng)延遲了30天,那么他/她將來償還債務(wù)的可能性非常低(只有23%)。要決定什么是好的或壞的付款行為,需要對業(yè)務(wù)有深入的了解,因為你需要了解這種可能性是否足夠低,以便將延遲30天以內(nèi)的客戶分類為好的付款方,而那些超過30天的客戶則是壞的付款方。
2.創(chuàng)建觀察和性能框架
我們感興趣的是,利用過去一段時間內(nèi)客戶行為的數(shù)據(jù),預(yù)測未來一段時間內(nèi)客戶違約的可能性。選擇這些框架的大小是一個比統(tǒng)計更重要的業(yè)務(wù)/談判決策,請記住,它們必須足夠大,能夠包含多個客戶的行為觀察結(jié)果。窗口太短會增加觀察結(jié)果的方差,因此模型會失去精度。
定義:
根據(jù)客戶過去12個月的行為,我想預(yù)測他/她在未來6個月內(nèi)成為一個好付款人的可能性。
為了實現(xiàn)這一定義,你需要:
定義至少比當(dāng)前日期早6個月的觀察點。
定義一個觀察框架,該框架在觀察點之前12個月開始并在其中結(jié)束。
定義一個性能框架,該框架在觀察點之后擴展6個月。
定義一個好的付款人是什么。我們剛才做的!
在創(chuàng)建分析數(shù)據(jù)庫的過程中,時間框架問題是一個非常重要的步驟。
注意,這個定義帶來了一些含義:
你需要至少18個月的數(shù)據(jù)
你的預(yù)測必然會有一個時間框架。每次運行模型時,它都會計算出未來6個月內(nèi)的默認(rèn)概率。
在分析數(shù)據(jù)庫中創(chuàng)建特征時,觀察點和時間范圍的大小始終是您的參考。
3.創(chuàng)建目標(biāo)功能
既然我們已經(jīng)定義了什么是我們的目標(biāo),什么是觀察和性能框架,我們就可以最終在數(shù)據(jù)庫上創(chuàng)建目標(biāo)了。為此,您將計算績效時間范圍內(nèi)每個客戶的最大逾期天數(shù),并根據(jù)以下規(guī)則創(chuàng)建一個好的付款方變量:
if max(delay) >= 30 days then is bad = 0 If max(delay) < 30 days then is good = 1
因此,如果在履行期限內(nèi),客戶的付款延遲超過30天,即使發(fā)票延遲付款,他/她也將被歸類為不良。
我們輸入0代表壞,1代表好,因為我們要定義分?jǐn)?shù)越高,默認(rèn)概率越低。
4.除外條款
現(xiàn)在我們需要對業(yè)務(wù)結(jié)構(gòu)有廣泛的了解,所以我們可以從我們的基地執(zhí)行一些排除。實例:
排除觀察點沒有信用額度的所有客戶
排除在觀察點發(fā)票過期超過30天的所有客戶,因為我們已經(jīng)知道他們是壞人
排除所有從未進行過交易的客戶
5.特色結(jié)構(gòu)
對于本研究,必須按客戶對基礎(chǔ)進行分組。每個變量必須描述觀察時間框架內(nèi)客戶的特定行為。以下是一些可處理變量的示例:
創(chuàng)建的分析數(shù)據(jù)庫示例,用于提供預(yù)測客戶違約的行為評分模型。
狀態(tài):個人信息功能-表示客戶居住的省/州
年齡:個人信息功能-表示在觀察點計算的客戶年齡
性別:個人信息功能-表示客戶的性別
MOB:客戶簽到到觀察點后的月數(shù)
平均限額:觀察12個月內(nèi)限額使用的平均百分比
最大限值:觀察12個月內(nèi)最大限值使用百分比
采購總額:觀察12個月內(nèi)的采購總額
dpd_op:觀察點過期天數(shù)
max_dpd:觀察12個月內(nèi)到期的最長天數(shù)。如果所有發(fā)票都提前支付,則可能為負(fù)數(shù)。
平均每日住院天數(shù):觀察12個月內(nèi)到期的平均天數(shù)。如果所有發(fā)票都提前支付,則可能為負(fù)數(shù)。
到期前數(shù)量:觀察12個月內(nèi)到期前支付的發(fā)票數(shù)量。
好的付款人:target-表示客戶在績效窗口的6個月內(nèi),發(fā)票是否延遲超過30天。
6.表現(xiàn)的時間到了!
現(xiàn)在我們終于要討論建立一個模型了!你現(xiàn)在可以應(yīng)用你在數(shù)據(jù)科學(xué)課程中學(xué)到的所有知識。您的分析基礎(chǔ)已經(jīng)設(shè)計好,可以開始在這種情況下數(shù)據(jù)處理和應(yīng)用模型的行動。
最簡單的解決方案是使用上面創(chuàng)建的變量應(yīng)用邏輯回歸,以預(yù)測好的付款人目標(biāo)。模型將為每個客戶返回0和1之間的值,表明他/她是一個好付款人的概率。
務(wù)必正確解釋結(jié)果:
分?jǐn)?shù)將表明某個客戶在未來6個月內(nèi)不會延遲付款超過30天的可能性。
你喜歡嗎?
這篇文章對你有用嗎?分享!我說了什么蠢話嗎?糾正我!想添加一些內(nèi)容嗎?請留言!
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?
長按鏈接點擊打開【杰出數(shù)據(jù)科學(xué)家的關(guān)鍵技能是什么?】:
https://ai.yanxishe.com/page/TextTranslation/1405
AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
等你來譯:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。