0
本文作者: sharpzero | 2017-03-23 17:07 |
雷鋒網(wǎng)按:隨著數(shù)據(jù)科學(xué)成為炙手可熱的領(lǐng)域,相關(guān)的應(yīng)聘崗位也多了起來。面試者們在準(zhǔn)備應(yīng)聘的過程中,往往會(huì)有一個(gè)疑問:面試官們會(huì)問些什么?我又應(yīng)該如何回答? Gregory Piatetsky在KDnuggets上分享了17個(gè)緊跟熱點(diǎn)的數(shù)據(jù)科學(xué)相關(guān)職位可能會(huì)接觸的問題及答案。從AI未能正確預(yù)測2016年美國總統(tǒng)選舉結(jié)果和第51屆超級碗大逆轉(zhuǎn)的經(jīng)驗(yàn)教訓(xùn),如何區(qū)分偏差和方差,預(yù)測變量數(shù)目越少越好,甚至到如何增強(qiáng)模型抵抗異常的魯棒性都一應(yīng)俱全,本文為第一部分,雷鋒網(wǎng)做了相關(guān)編譯。
去年,21個(gè)必知的數(shù)據(jù)科學(xué)相關(guān)職位面試問題和答案成為了年度瀏覽次數(shù)最多的帖子 ,頁面瀏覽量超過了25萬。 2017年,KDnuggets編輯為您帶來超過17個(gè)新的和重要的數(shù)據(jù)科學(xué)相關(guān)職位面試問題和答案。本篇回答了下面六個(gè)問題:
運(yùn)用數(shù)據(jù)科學(xué)知識未能正確預(yù)測2016美國總統(tǒng)選舉(第51屆超級碗大逆轉(zhuǎn))結(jié)果的教訓(xùn)
新的(不可見的)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布的顯著差異所導(dǎo)致的問題?
偏差和方差的定義以及它們與建模數(shù)據(jù)的關(guān)系是什么?
為什么更少個(gè)數(shù)的預(yù)測變量較佳?
二進(jìn)制分類器性能評估采用何種錯(cuò)誤指標(biāo)衡量? 類不平衡的對策?超過2組的對策?
增加模型抗異常魯棒性的方法?
Gregory Piatetsky的答案:
2016年11月8日大選之前,大多數(shù)選民認(rèn)為希拉里·克林頓在大眾選舉和選舉團(tuán)選舉分別占有大約3%的優(yōu)勢和70%到95%的獲勝可能。 內(nèi)特·希爾沃的FiveThirtyEight這樣的大數(shù)據(jù)公司預(yù)測特朗普獲勝的概率最高,約為30%,而紐約時(shí)報(bào)旗下的大數(shù)據(jù)公司的Upshot和普林斯頓選舉聯(lián)盟預(yù)測特朗普獲勝的概率只有約15%,而像新聞博客網(wǎng)站赫芬頓郵報(bào)這樣的民意調(diào)查媒體預(yù)測特朗普只有2%的勝率。 不過,特朗普贏了。 那么,數(shù)據(jù)科學(xué)家應(yīng)該從中汲取哪些教訓(xùn)呢?
統(tǒng)計(jì)有效的預(yù)測需要滿足兩個(gè)條件:
1)足夠多的歷史數(shù)據(jù)
2)假設(shè)歷史事件與我們需要預(yù)測結(jié)果的當(dāng)前事件足夠相似。
事件可以分為確定的(2 + 2總等于4)、強(qiáng)可預(yù)測(例如行星和衛(wèi)星的軌道,擲硬幣時(shí)頭像一面落地的平均次數(shù))、弱可預(yù)測(如選舉和體育賽事)、隨機(jī)(如公平的彩票)。
如果擲硬幣1億次,估計(jì)頭像朝上的次數(shù)(平均)為5000萬,標(biāo)準(zhǔn)差= 10,000(公式0.5 * SQRT(N)),可預(yù)測99.7%的頭像朝上的次數(shù)將在平均值的3個(gè)標(biāo)準(zhǔn)偏差內(nèi)。
但使用民意調(diào)查預(yù)測1億人的投票要困難得多。調(diào)查者需要有代表性的樣本,估計(jì)個(gè)體實(shí)際投票的可能性,做出許多合理和不合理的假設(shè),避免有意或無意的偏見。
因?yàn)楣爬系倪x舉團(tuán)制度、各州(除緬因州和內(nèi)布拉斯加州外)勝者全得、民調(diào)的需要以及預(yù)測結(jié)果各州獨(dú)立導(dǎo)致總統(tǒng)選舉結(jié)果的預(yù)測更為棘手。
下圖顯示,2016年美國總統(tǒng)選舉民調(diào)結(jié)果在多個(gè)州與實(shí)際大相徑庭,其中大多數(shù)低估了特朗普獲得的選票,尤其在密歇根州,威斯康星州和賓夕法尼亞州這三個(gè)關(guān)鍵州,以上三州的選票都投給了特朗普。
資料來源: @ NateSilver538 推特,2016年11月9日。
有幾個(gè)統(tǒng)計(jì)學(xué)家譬如Salil Mehta @salilstatistics認(rèn)為民調(diào)不切實(shí)際,538的David Wasserman實(shí)際上在2016年9月的一篇《特朗普為何丟掉了大眾選舉卻贏得了總統(tǒng)選舉》闡述了上述觀點(diǎn),但大多數(shù)民調(diào)者錯(cuò)得離譜。
因此,數(shù)據(jù)科學(xué)家從中汲取的一條有價(jià)值的教訓(xùn)便是要質(zhì)疑自己做出的假設(shè) ,并且在對弱可預(yù)測事件進(jìn)行預(yù)測時(shí)保持懷疑,尤其是針對基于人類行為的預(yù)測時(shí)更是如此。
其它重要的教訓(xùn)是:
檢查數(shù)據(jù)質(zhì)量 - 這次選舉中民調(diào)沒有覆蓋所有選民
小心偏見:許多民調(diào)者可能是克林頓希拉里的支持者,不想質(zhì)疑對其有利的結(jié)果。 例如,赫芬頓郵報(bào)預(yù)測克林頓希拉里有95%的獲勝機(jī)會(huì)。
對2016年民調(diào)失敗的其它分析可參考:
《特朗普獲勝并非宣告大數(shù)據(jù)的死亡——它一直有缺陷》(連線)
《數(shù)據(jù)在預(yù)測選舉失敗中扮演了怎樣的角色》(紐約時(shí)報(bào))
《民調(diào)的重大挫敗提供的六個(gè)數(shù)據(jù)科學(xué)可以汲取的教訓(xùn)》(Datanami)
《特朗普的選舉:民調(diào)失敗帶給IT領(lǐng)域的數(shù)據(jù)技術(shù)方面的教訓(xùn)》(InformaitonWeek)
《為什么我要在美國有線電視新聞網(wǎng)直播吃蟲子》(普林斯頓選舉聯(lián)盟的Sam Wang)
( 注意:該答案基于KDnuggets上的一篇舊帖子《選舉預(yù)測失敗于數(shù)據(jù)科學(xué)家的啟示》)
還有另一個(gè)從統(tǒng)計(jì)學(xué)角度來看的小概率事件:2017年2月5日的第51屆超級碗比賽中發(fā)生了劇情般的反轉(zhuǎn):半場結(jié)束后,亞特蘭大獵鷹隊(duì)21比3領(lǐng)先,第三節(jié)后比分?jǐn)U大到了28比9。ESPN估計(jì)亞特蘭大獵鷹當(dāng)時(shí)勝券在握。
(參考:Salil Mehta tweet Salil Mehta tweet,2017年2月6日 )
從來沒有一支隊(duì)伍在這樣的巨大比分優(yōu)勢下將冠軍拱手相送。 然而,每場超級碗比賽都充滿變數(shù),這次可稱得上是驚天逆轉(zhuǎn)。 集超凡的技能(畢竟愛國者隊(duì)決賽前也是奪冠熱門)和運(yùn)氣(憑借 Julian Edelman好運(yùn)的接球爭取到了加時(shí)賽)于一身,愛國者隊(duì)最終贏得比賽。
這次超級碗比賽也給了數(shù)據(jù)科學(xué)家另外一個(gè)有意義的教訓(xùn)。對弱可預(yù)測事件進(jìn)行預(yù)測時(shí),大多的自信是不可取的。在預(yù)測此類事件時(shí)需要了解風(fēng)險(xiǎn)因素,并盡量避免使用概率,或者如果必須使用數(shù)字,則需要具有寬泛的置信范圍。
而如果呈現(xiàn)一邊倒的預(yù)測,但它只是微弱的可預(yù)測事件,不妨堅(jiān)持自己的觀點(diǎn)——有時(shí)你甚至能擊敗賠率。
Gregory Piatetsky和Thuy Pham回答:
核心問題在于預(yù)測是錯(cuò)誤的。
如果新測試數(shù)據(jù)在預(yù)測模型的關(guān)鍵參數(shù)與訓(xùn)練數(shù)據(jù)中非常不同,則說明預(yù)測模型不再有效??赡馨l(fā)生這一情況的主要原因在于樣本選擇偏差,種群漂移或非平穩(wěn)環(huán)境。
這里的數(shù)據(jù)是靜態(tài)的,但是訓(xùn)練實(shí)例是通過一種有偏差的方法獲得的,例如數(shù)據(jù)到訓(xùn)練和測試的非均勻選擇或非隨機(jī)分割。
如果你有一個(gè)大的靜態(tài)數(shù)據(jù)集,那么你應(yīng)該隨機(jī)分成訓(xùn)練/測試數(shù)據(jù),測試數(shù)據(jù)的分布應(yīng)該類似于訓(xùn)練數(shù)據(jù)。
這里的數(shù)據(jù)不是靜態(tài)的,一部分人口用作訓(xùn)練數(shù)據(jù),另一個(gè)部分用于測試。
(圖via iwann )。
有時(shí),訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是通過不同的過程得到的 - 例如對一個(gè)群體測試的藥物被給予可能具有顯著差異的新群體。因此,基于訓(xùn)練數(shù)據(jù)的分類器性能較差。
一個(gè)提出的解決方案是應(yīng)用統(tǒng)計(jì)測試來確定分類器使用的目標(biāo)類和關(guān)鍵變量的概率是否顯著不同,如果是,則使用新數(shù)據(jù)重新訓(xùn)練模型。
無論是由于時(shí)間或空間變化,培訓(xùn)環(huán)境與測試不同。
這與情況b類似,但適用于數(shù)據(jù)不是靜態(tài)的情況——我們有一個(gè)數(shù)據(jù)流,我們定期對其進(jìn)行抽樣以開發(fā)未來行為的預(yù)測模型。 這發(fā)生在對抗分類問題中,例如垃圾郵件過濾和網(wǎng)絡(luò)入侵檢測,其中垃圾郵件發(fā)送者和黑客經(jīng)常改變他們的行為。 另一個(gè)典型的案例是客戶分析,其中客戶行為隨時(shí)間改變。 電話公司開發(fā)用于預(yù)測客戶流失的模型或者信用卡公司開發(fā)預(yù)測交易欺詐的模型。 訓(xùn)練數(shù)據(jù)是歷史數(shù)據(jù),而(新的)測試數(shù)據(jù)是當(dāng)前數(shù)據(jù)。
這種模型需要定期重新訓(xùn)練,并確定何時(shí)可以比較舊數(shù)據(jù)(訓(xùn)練集)和新數(shù)據(jù)中預(yù)測模型中關(guān)鍵變量的分布,如果有足夠顯著的差異,則該模型需要再培訓(xùn)。
有關(guān)更詳細(xì)和技術(shù)的討論,請參見下面的參考文獻(xiàn)。
參考文獻(xiàn):
[1] Marco Saerens,Patrice Latinne,Christine Decaestecker:Adjusting the Outputs of a Classifier to New a Priori Probabilities:A Simple Procedure。 Neural Computation 14(1):21-41(2002)
[2]非固定環(huán)境中的機(jī)器學(xué)習(xí):協(xié)變量適應(yīng)的介紹,杉山杉山,Motoaki Kawanabe,MIT出版社,2012年,ISBN 0262017091,9780262017091
[3] Quora:《如果測試數(shù)據(jù)的分布明顯不同于訓(xùn)練數(shù)據(jù)的分布,原因何在?》
[4] 《數(shù)據(jù)集轉(zhuǎn)移的分類:方法和問題》 ,弗朗西斯科·赫雷拉,2011年。
[5] 《當(dāng)訓(xùn)練和測試集不同:表征學(xué)習(xí)傳遞》,Amos Storkey,2013。
Matthew Mayo答案:
偏差是模型的預(yù)測與正確性的差距,而方差是這些預(yù)測在模型迭代之間變化的程度。
例如 ,以一個(gè)總統(tǒng)選舉調(diào)查作為例子,我們可以通過偏差和方差的雙重透鏡解釋調(diào)查中的錯(cuò)誤:從電話簿中選擇調(diào)查參與者會(huì)導(dǎo)致偏差;小樣本量會(huì)導(dǎo)致方差。
最小化總模型誤差依賴于偏差和方差誤差的平衡。 理想情況下,模型是低方差的無偏差數(shù)據(jù)的集合的結(jié)果。 然而不幸的是,模型變得越復(fù)雜,它的趨勢是偏差越小,但方差越大; 因此,最優(yōu)模型需要考慮這兩個(gè)屬性之間的平衡。
交叉驗(yàn)證的統(tǒng)計(jì)評估方法在證明這種平衡的重要性,而找到這個(gè)平衡點(diǎn)也同樣重要。 使用的數(shù)據(jù)折疊數(shù)量 - k倍交叉驗(yàn)證中的k值是一個(gè)重要的決定;值越低,誤差估計(jì)中的偏差越大,方差越小。
偏差和方差造成總誤差 , 圖像源
相反,當(dāng)k被設(shè)置為等于實(shí)例數(shù)時(shí),誤差估計(jì)在偏差方面非常低,但具有高方差的可能性。
最重要的是,在建立模型時(shí),偏差和方差是一個(gè)重要權(quán)衡的兩個(gè)方面,即使是最常規(guī)的統(tǒng)計(jì)評價(jià)方法也直接依賴于這種權(quán)衡。
Anmol Rajpurohit的答案:
這里有幾個(gè)原因,它可能是一個(gè)更好的主意,有更少的預(yù)測變量,而不是有很多:
如果你處理許多預(yù)測變量,那么在其中一些變量之間存在隱藏關(guān)系的可能性很高,從而導(dǎo)致冗余。 除非在數(shù)據(jù)分析的早期階段識別和處理此冗余(通過僅選擇非冗余預(yù)測變量),否則可能會(huì)對后續(xù)步驟造成巨大阻力。
也有可能不是所有的預(yù)測變量都對因變量具有相當(dāng)大的影響。 您應(yīng)該確保選擇工作的預(yù)測變量集不具有任何不相關(guān)的變量 - 即使您知道數(shù)據(jù)模型將通過給予它們更低的重要性來處理它們。
注意:冗余和不相關(guān)是兩個(gè)不同的概念 - 由于存在其他相關(guān)特征,相關(guān)特征可以是冗余的。
即使有大量的預(yù)測變量在其中任何一個(gè)之間沒有關(guān)系,仍然優(yōu)選使用較少的預(yù)測變量。 具有大量預(yù)測器(也稱為復(fù)雜模型)的數(shù)據(jù)模型經(jīng)常遭受過擬合的問題,在這種情況下,數(shù)據(jù)模型在訓(xùn)練數(shù)據(jù)上執(zhí)行良好,但對測試數(shù)據(jù)執(zhí)行得不好。
假設(shè)您有一個(gè)項(xiàng)目,其中有大量的預(yù)測變量,而且所有變量都是相關(guān)的(即對因變量有可測量的影響)。 所以,你顯然想要與所有這些工作,以便有一個(gè)非常高的成功率的數(shù)據(jù)模型。 雖然這種方法聽起來非常誘人,但實(shí)際考慮(如可用數(shù)據(jù)量,存儲(chǔ)和計(jì)算資源,完成時(shí)間等)幾乎不可能。
因此,即使您有大量相關(guān)的預(yù)測變量,使用較少的預(yù)測變量(通過特征選擇或通過特征提取開發(fā))是一個(gè)好主意。 這基本上類似于帕累托原理,其中指出,對于許多事件,大約80%的效果來自20%的原因。
關(guān)注這20%最重要的預(yù)測變量將有助于在合理的時(shí)間內(nèi)建立具有相當(dāng)成功率的數(shù)據(jù)模型,而不需要非實(shí)際數(shù)據(jù)量或其他資源。
培訓(xùn)錯(cuò)誤和測試錯(cuò)誤vs模型復(fù)雜性(來源:發(fā)布在Quora由Sergul Aydore )
具有較少預(yù)測變量的模型更容易理解和解釋。 由于數(shù)據(jù)科學(xué)步驟將由人類執(zhí)行,并且結(jié)果將由人類呈現(xiàn)(并且希望被使用),因此考慮人類大腦的綜合能力是重要的。 這基本上是一種折衷 - 你允許你的數(shù)據(jù)模型的成功率的一些潛在的好處,同時(shí)使你的數(shù)據(jù)模型更容易理解和優(yōu)化。
這個(gè)因素是特別重要的,如果在你的項(xiàng)目結(jié)束時(shí),你需要向一個(gè)人,誰不僅有興趣不僅高成功率,而且在理解“發(fā)生”下發(fā)生的結(jié)果。
Prasad Pore 答案:
二進(jìn)制分類涉及基于諸如性別,年齡,位置等獨(dú)立變量將數(shù)據(jù)分為兩組,例如客戶是否購買特定產(chǎn)品(是/否)。
由于目標(biāo)變量不連續(xù),二進(jìn)制分類模型預(yù)測目標(biāo)變量的概率為Yes / No。 為了評估這樣的模型,使用稱為混淆矩陣的度量,也稱為分類或相關(guān)矩陣。 在混淆矩陣的幫助下,我們可以計(jì)算重要的性能度量有:
真正速率(TPR)或命中率或召回或靈敏度= TP /(TP + FN)
假陽性率(FPR)或假警報(bào)率= 1 - 特異性= 1 - (TN /(TN + FP))
精度=(TP + TN)/(TP + TN + FP + FN)
錯(cuò)誤率= 1-精度或(FP + FN)/(TP + TN + FP + FN)
精度= TP /(TP + FP)
F測量:2 /((1 /精確)+(1 /召回))
ROC(接收機(jī)工作特性)= FPR與TPR的關(guān)系曲線
AUC(曲線下面積)
Kappa統(tǒng)計(jì)
您可以在這里找到有關(guān)這些度量的更多詳細(xì)信息: 測量分類模型精度的最佳指標(biāo) 。
所有這些措施都應(yīng)該與領(lǐng)域技能相平衡,例如,雖然更高的TPR表示對方不患癌的概率較大,但它對診斷癌癥沒有幫助。
在相同的癌癥診斷數(shù)據(jù)的例子中,如果僅2%或更少的患者具有癌癥,則這將出現(xiàn)類不平衡的情況,因?yàn)榘┌Y患者的百分比與其他人群相比非常小。 有兩個(gè)主要的方法來處理這個(gè)問題:
1. 成本函數(shù)的使用:在這種方法中,與成本矩陣(類似于混淆矩陣,但更關(guān)心假陽性和假陰性)的幫助來評估與錯(cuò)誤分類數(shù)據(jù)相關(guān)聯(lián)的成本。 主要目的是減少錯(cuò)誤分類的成本。 假陰性的成本總是大于假陽性的成本。 例如錯(cuò)誤地預(yù)測癌癥患者是無癌癥的,比錯(cuò)誤地預(yù)測無癌癥患者患有癌癥更危險(xiǎn)。
總成本= FN的成本* FN的計(jì)數(shù)+ FP的成本* FP的計(jì)數(shù)
2. 使用不同的采樣方法 :在此方法中,可以使用過采樣,欠采樣或混合采樣。 在過抽樣中,少數(shù)種類觀察被復(fù)制以平衡數(shù)據(jù)。 復(fù)制觀察導(dǎo)致過度擬合,導(dǎo)致訓(xùn)練中的良好準(zhǔn)確性,但不可見數(shù)據(jù)的準(zhǔn)確性較低。在欠采樣中,大多數(shù)類觀察被移除導(dǎo)致信息的丟失。 它有助于減少處理時(shí)間和存儲(chǔ),但僅在具有大數(shù)據(jù)集時(shí)有用。
如果目標(biāo)變量中有多個(gè)類,則形成尺寸等于類數(shù)量的混淆矩陣,并且可以為每個(gè)類計(jì)算所有性能度量。 這被稱為多類混淆矩陣。 例如,在響應(yīng)變量中存在3個(gè)類X,Y,Z,因此對于每個(gè)類的回憶將計(jì)算如下:
Recall_X = TP_X /(TP_X + FN_X)
Recall_Y = TP_Y /(TP_Y + FN_Y)
Recall_Z = TP_Z /(TP_Z + FN_Z)
Thuy Pham的答案:
從不同的角度(數(shù)據(jù)準(zhǔn)備或模型構(gòu)建),有幾種方法使模型對離群值更加魯棒。
離群值通常根據(jù)分布來定義。 因此,可以在預(yù)處理步驟(在任何學(xué)習(xí)步驟之前),通過使用標(biāo)準(zhǔn)偏差(對于正常)或四分位范圍(對于不正常/未知)作為閾值水平,來去除異常值。
此外,如果數(shù)據(jù)具有明顯的長尾,則數(shù)據(jù)變換 (例如,對數(shù)變換)可能會(huì)有幫助。 當(dāng)與收集儀器的靈敏度相關(guān)的異常值可能不能精確記錄小值時(shí), Winsorization可能是有用的。 這種類型的變換(以Charles P.Winsor(1895-1951)命名)具有與限幅信號相同的效果(即用極限值替代極值數(shù)據(jù)值)。 減少異常值影響的另一個(gè)選擇是使用平均絕對差異而非均方差。
對于模型構(gòu)建,一些模型抵抗異常值(例如基于樹的方法 )或非參數(shù)測試。 類似于中值效應(yīng),樹模型在每個(gè)分裂中將每個(gè)節(jié)點(diǎn)劃分為兩個(gè)。 因此,在每個(gè)分裂處,桶中的所有數(shù)據(jù)點(diǎn)可以被等同地對待,而不管它們可能具有的極值。 這項(xiàng)研究[Pham 2016]提出了一個(gè)檢測模型,結(jié)合數(shù)據(jù)的四分位數(shù)信息來預(yù)測數(shù)據(jù)的異常值。
參考文獻(xiàn):
[Pham 2016] TT Pham,C. Thamrin,PD Robinson和PHW Leong。 強(qiáng)制振蕩測量中的呼吸偽影去除:機(jī)器學(xué)習(xí)方法。 IEEE Transactions on Biomedical Engineering,2016。
via KDnuggets,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。