0
本文作者: sharpzero | 2017-03-23 17:07 |
雷鋒網(wǎng)按:隨著數(shù)據(jù)科學成為炙手可熱的領域,相關的應聘崗位也多了起來。面試者們在準備應聘的過程中,往往會有一個疑問:面試官們會問些什么?我又應該如何回答? Gregory Piatetsky在KDnuggets上分享了17個緊跟熱點的數(shù)據(jù)科學相關職位可能會接觸的問題及答案。從AI未能正確預測2016年美國總統(tǒng)選舉結果和第51屆超級碗大逆轉的經(jīng)驗教訓,如何區(qū)分偏差和方差,預測變量數(shù)目越少越好,甚至到如何增強模型抵抗異常的魯棒性都一應俱全,本文為第一部分,雷鋒網(wǎng)做了相關編譯。
去年,21個必知的數(shù)據(jù)科學相關職位面試問題和答案成為了年度瀏覽次數(shù)最多的帖子 ,頁面瀏覽量超過了25萬。 2017年,KDnuggets編輯為您帶來超過17個新的和重要的數(shù)據(jù)科學相關職位面試問題和答案。本篇回答了下面六個問題:
運用數(shù)據(jù)科學知識未能正確預測2016美國總統(tǒng)選舉(第51屆超級碗大逆轉)結果的教訓
新的(不可見的)測試數(shù)據(jù)與訓練數(shù)據(jù)分布的顯著差異所導致的問題?
偏差和方差的定義以及它們與建模數(shù)據(jù)的關系是什么?
為什么更少個數(shù)的預測變量較佳?
二進制分類器性能評估采用何種錯誤指標衡量? 類不平衡的對策?超過2組的對策?
增加模型抗異常魯棒性的方法?
Gregory Piatetsky的答案:
2016年11月8日大選之前,大多數(shù)選民認為希拉里·克林頓在大眾選舉和選舉團選舉分別占有大約3%的優(yōu)勢和70%到95%的獲勝可能。 內特·希爾沃的FiveThirtyEight這樣的大數(shù)據(jù)公司預測特朗普獲勝的概率最高,約為30%,而紐約時報旗下的大數(shù)據(jù)公司的Upshot和普林斯頓選舉聯(lián)盟預測特朗普獲勝的概率只有約15%,而像新聞博客網(wǎng)站赫芬頓郵報這樣的民意調查媒體預測特朗普只有2%的勝率。 不過,特朗普贏了。 那么,數(shù)據(jù)科學家應該從中汲取哪些教訓呢?
統(tǒng)計有效的預測需要滿足兩個條件:
1)足夠多的歷史數(shù)據(jù)
2)假設歷史事件與我們需要預測結果的當前事件足夠相似。
事件可以分為確定的(2 + 2總等于4)、強可預測(例如行星和衛(wèi)星的軌道,擲硬幣時頭像一面落地的平均次數(shù))、弱可預測(如選舉和體育賽事)、隨機(如公平的彩票)。
如果擲硬幣1億次,估計頭像朝上的次數(shù)(平均)為5000萬,標準差= 10,000(公式0.5 * SQRT(N)),可預測99.7%的頭像朝上的次數(shù)將在平均值的3個標準偏差內。
但使用民意調查預測1億人的投票要困難得多。調查者需要有代表性的樣本,估計個體實際投票的可能性,做出許多合理和不合理的假設,避免有意或無意的偏見。
因為古老的選舉團制度、各州(除緬因州和內布拉斯加州外)勝者全得、民調的需要以及預測結果各州獨立導致總統(tǒng)選舉結果的預測更為棘手。
下圖顯示,2016年美國總統(tǒng)選舉民調結果在多個州與實際大相徑庭,其中大多數(shù)低估了特朗普獲得的選票,尤其在密歇根州,威斯康星州和賓夕法尼亞州這三個關鍵州,以上三州的選票都投給了特朗普。
資料來源: @ NateSilver538 推特,2016年11月9日。
有幾個統(tǒng)計學家譬如Salil Mehta @salilstatistics認為民調不切實際,538的David Wasserman實際上在2016年9月的一篇《特朗普為何丟掉了大眾選舉卻贏得了總統(tǒng)選舉》闡述了上述觀點,但大多數(shù)民調者錯得離譜。
因此,數(shù)據(jù)科學家從中汲取的一條有價值的教訓便是要質疑自己做出的假設 ,并且在對弱可預測事件進行預測時保持懷疑,尤其是針對基于人類行為的預測時更是如此。
其它重要的教訓是:
檢查數(shù)據(jù)質量 - 這次選舉中民調沒有覆蓋所有選民
小心偏見:許多民調者可能是克林頓希拉里的支持者,不想質疑對其有利的結果。 例如,赫芬頓郵報預測克林頓希拉里有95%的獲勝機會。
對2016年民調失敗的其它分析可參考:
《特朗普獲勝并非宣告大數(shù)據(jù)的死亡——它一直有缺陷》(連線)
《數(shù)據(jù)在預測選舉失敗中扮演了怎樣的角色》(紐約時報)
《民調的重大挫敗提供的六個數(shù)據(jù)科學可以汲取的教訓》(Datanami)
《特朗普的選舉:民調失敗帶給IT領域的數(shù)據(jù)技術方面的教訓》(InformaitonWeek)
《為什么我要在美國有線電視新聞網(wǎng)直播吃蟲子》(普林斯頓選舉聯(lián)盟的Sam Wang)
( 注意:該答案基于KDnuggets上的一篇舊帖子《選舉預測失敗于數(shù)據(jù)科學家的啟示》)
還有另一個從統(tǒng)計學角度來看的小概率事件:2017年2月5日的第51屆超級碗比賽中發(fā)生了劇情般的反轉:半場結束后,亞特蘭大獵鷹隊21比3領先,第三節(jié)后比分擴大到了28比9。ESPN估計亞特蘭大獵鷹當時勝券在握。
(參考:Salil Mehta tweet Salil Mehta tweet,2017年2月6日 )
從來沒有一支隊伍在這樣的巨大比分優(yōu)勢下將冠軍拱手相送。 然而,每場超級碗比賽都充滿變數(shù),這次可稱得上是驚天逆轉。 集超凡的技能(畢竟愛國者隊決賽前也是奪冠熱門)和運氣(憑借 Julian Edelman好運的接球爭取到了加時賽)于一身,愛國者隊最終贏得比賽。
這次超級碗比賽也給了數(shù)據(jù)科學家另外一個有意義的教訓。對弱可預測事件進行預測時,大多的自信是不可取的。在預測此類事件時需要了解風險因素,并盡量避免使用概率,或者如果必須使用數(shù)字,則需要具有寬泛的置信范圍。
而如果呈現(xiàn)一邊倒的預測,但它只是微弱的可預測事件,不妨堅持自己的觀點——有時你甚至能擊敗賠率。
Gregory Piatetsky和Thuy Pham回答:
核心問題在于預測是錯誤的。
如果新測試數(shù)據(jù)在預測模型的關鍵參數(shù)與訓練數(shù)據(jù)中非常不同,則說明預測模型不再有效??赡馨l(fā)生這一情況的主要原因在于樣本選擇偏差,種群漂移或非平穩(wěn)環(huán)境。
這里的數(shù)據(jù)是靜態(tài)的,但是訓練實例是通過一種有偏差的方法獲得的,例如數(shù)據(jù)到訓練和測試的非均勻選擇或非隨機分割。
如果你有一個大的靜態(tài)數(shù)據(jù)集,那么你應該隨機分成訓練/測試數(shù)據(jù),測試數(shù)據(jù)的分布應該類似于訓練數(shù)據(jù)。
這里的數(shù)據(jù)不是靜態(tài)的,一部分人口用作訓練數(shù)據(jù),另一個部分用于測試。
(圖via iwann )。
有時,訓練數(shù)據(jù)和測試數(shù)據(jù)是通過不同的過程得到的 - 例如對一個群體測試的藥物被給予可能具有顯著差異的新群體。因此,基于訓練數(shù)據(jù)的分類器性能較差。
一個提出的解決方案是應用統(tǒng)計測試來確定分類器使用的目標類和關鍵變量的概率是否顯著不同,如果是,則使用新數(shù)據(jù)重新訓練模型。
無論是由于時間或空間變化,培訓環(huán)境與測試不同。
這與情況b類似,但適用于數(shù)據(jù)不是靜態(tài)的情況——我們有一個數(shù)據(jù)流,我們定期對其進行抽樣以開發(fā)未來行為的預測模型。 這發(fā)生在對抗分類問題中,例如垃圾郵件過濾和網(wǎng)絡入侵檢測,其中垃圾郵件發(fā)送者和黑客經(jīng)常改變他們的行為。 另一個典型的案例是客戶分析,其中客戶行為隨時間改變。 電話公司開發(fā)用于預測客戶流失的模型或者信用卡公司開發(fā)預測交易欺詐的模型。 訓練數(shù)據(jù)是歷史數(shù)據(jù),而(新的)測試數(shù)據(jù)是當前數(shù)據(jù)。
這種模型需要定期重新訓練,并確定何時可以比較舊數(shù)據(jù)(訓練集)和新數(shù)據(jù)中預測模型中關鍵變量的分布,如果有足夠顯著的差異,則該模型需要再培訓。
有關更詳細和技術的討論,請參見下面的參考文獻。
參考文獻:
[1] Marco Saerens,Patrice Latinne,Christine Decaestecker:Adjusting the Outputs of a Classifier to New a Priori Probabilities:A Simple Procedure。 Neural Computation 14(1):21-41(2002)
[2]非固定環(huán)境中的機器學習:協(xié)變量適應的介紹,杉山杉山,Motoaki Kawanabe,MIT出版社,2012年,ISBN 0262017091,9780262017091
[3] Quora:《如果測試數(shù)據(jù)的分布明顯不同于訓練數(shù)據(jù)的分布,原因何在?》
[4] 《數(shù)據(jù)集轉移的分類:方法和問題》 ,弗朗西斯科·赫雷拉,2011年。
[5] 《當訓練和測試集不同:表征學習傳遞》,Amos Storkey,2013。
Matthew Mayo答案:
偏差是模型的預測與正確性的差距,而方差是這些預測在模型迭代之間變化的程度。
例如 ,以一個總統(tǒng)選舉調查作為例子,我們可以通過偏差和方差的雙重透鏡解釋調查中的錯誤:從電話簿中選擇調查參與者會導致偏差;小樣本量會導致方差。
最小化總模型誤差依賴于偏差和方差誤差的平衡。 理想情況下,模型是低方差的無偏差數(shù)據(jù)的集合的結果。 然而不幸的是,模型變得越復雜,它的趨勢是偏差越小,但方差越大; 因此,最優(yōu)模型需要考慮這兩個屬性之間的平衡。
交叉驗證的統(tǒng)計評估方法在證明這種平衡的重要性,而找到這個平衡點也同樣重要。 使用的數(shù)據(jù)折疊數(shù)量 - k倍交叉驗證中的k值是一個重要的決定;值越低,誤差估計中的偏差越大,方差越小。
偏差和方差造成總誤差 , 圖像源
相反,當k被設置為等于實例數(shù)時,誤差估計在偏差方面非常低,但具有高方差的可能性。
最重要的是,在建立模型時,偏差和方差是一個重要權衡的兩個方面,即使是最常規(guī)的統(tǒng)計評價方法也直接依賴于這種權衡。
Anmol Rajpurohit的答案:
這里有幾個原因,它可能是一個更好的主意,有更少的預測變量,而不是有很多:
如果你處理許多預測變量,那么在其中一些變量之間存在隱藏關系的可能性很高,從而導致冗余。 除非在數(shù)據(jù)分析的早期階段識別和處理此冗余(通過僅選擇非冗余預測變量),否則可能會對后續(xù)步驟造成巨大阻力。
也有可能不是所有的預測變量都對因變量具有相當大的影響。 您應該確保選擇工作的預測變量集不具有任何不相關的變量 - 即使您知道數(shù)據(jù)模型將通過給予它們更低的重要性來處理它們。
注意:冗余和不相關是兩個不同的概念 - 由于存在其他相關特征,相關特征可以是冗余的。
即使有大量的預測變量在其中任何一個之間沒有關系,仍然優(yōu)選使用較少的預測變量。 具有大量預測器(也稱為復雜模型)的數(shù)據(jù)模型經(jīng)常遭受過擬合的問題,在這種情況下,數(shù)據(jù)模型在訓練數(shù)據(jù)上執(zhí)行良好,但對測試數(shù)據(jù)執(zhí)行得不好。
假設您有一個項目,其中有大量的預測變量,而且所有變量都是相關的(即對因變量有可測量的影響)。 所以,你顯然想要與所有這些工作,以便有一個非常高的成功率的數(shù)據(jù)模型。 雖然這種方法聽起來非常誘人,但實際考慮(如可用數(shù)據(jù)量,存儲和計算資源,完成時間等)幾乎不可能。
因此,即使您有大量相關的預測變量,使用較少的預測變量(通過特征選擇或通過特征提取開發(fā))是一個好主意。 這基本上類似于帕累托原理,其中指出,對于許多事件,大約80%的效果來自20%的原因。
關注這20%最重要的預測變量將有助于在合理的時間內建立具有相當成功率的數(shù)據(jù)模型,而不需要非實際數(shù)據(jù)量或其他資源。
培訓錯誤和測試錯誤vs模型復雜性(來源:發(fā)布在Quora由Sergul Aydore )
具有較少預測變量的模型更容易理解和解釋。 由于數(shù)據(jù)科學步驟將由人類執(zhí)行,并且結果將由人類呈現(xiàn)(并且希望被使用),因此考慮人類大腦的綜合能力是重要的。 這基本上是一種折衷 - 你允許你的數(shù)據(jù)模型的成功率的一些潛在的好處,同時使你的數(shù)據(jù)模型更容易理解和優(yōu)化。
這個因素是特別重要的,如果在你的項目結束時,你需要向一個人,誰不僅有興趣不僅高成功率,而且在理解“發(fā)生”下發(fā)生的結果。
Prasad Pore 答案:
二進制分類涉及基于諸如性別,年齡,位置等獨立變量將數(shù)據(jù)分為兩組,例如客戶是否購買特定產品(是/否)。
由于目標變量不連續(xù),二進制分類模型預測目標變量的概率為Yes / No。 為了評估這樣的模型,使用稱為混淆矩陣的度量,也稱為分類或相關矩陣。 在混淆矩陣的幫助下,我們可以計算重要的性能度量有:
真正速率(TPR)或命中率或召回或靈敏度= TP /(TP + FN)
假陽性率(FPR)或假警報率= 1 - 特異性= 1 - (TN /(TN + FP))
精度=(TP + TN)/(TP + TN + FP + FN)
錯誤率= 1-精度或(FP + FN)/(TP + TN + FP + FN)
精度= TP /(TP + FP)
F測量:2 /((1 /精確)+(1 /召回))
ROC(接收機工作特性)= FPR與TPR的關系曲線
AUC(曲線下面積)
Kappa統(tǒng)計
您可以在這里找到有關這些度量的更多詳細信息: 測量分類模型精度的最佳指標 。
所有這些措施都應該與領域技能相平衡,例如,雖然更高的TPR表示對方不患癌的概率較大,但它對診斷癌癥沒有幫助。
在相同的癌癥診斷數(shù)據(jù)的例子中,如果僅2%或更少的患者具有癌癥,則這將出現(xiàn)類不平衡的情況,因為癌癥患者的百分比與其他人群相比非常小。 有兩個主要的方法來處理這個問題:
1. 成本函數(shù)的使用:在這種方法中,與成本矩陣(類似于混淆矩陣,但更關心假陽性和假陰性)的幫助來評估與錯誤分類數(shù)據(jù)相關聯(lián)的成本。 主要目的是減少錯誤分類的成本。 假陰性的成本總是大于假陽性的成本。 例如錯誤地預測癌癥患者是無癌癥的,比錯誤地預測無癌癥患者患有癌癥更危險。
總成本= FN的成本* FN的計數(shù)+ FP的成本* FP的計數(shù)
2. 使用不同的采樣方法 :在此方法中,可以使用過采樣,欠采樣或混合采樣。 在過抽樣中,少數(shù)種類觀察被復制以平衡數(shù)據(jù)。 復制觀察導致過度擬合,導致訓練中的良好準確性,但不可見數(shù)據(jù)的準確性較低。在欠采樣中,大多數(shù)類觀察被移除導致信息的丟失。 它有助于減少處理時間和存儲,但僅在具有大數(shù)據(jù)集時有用。
如果目標變量中有多個類,則形成尺寸等于類數(shù)量的混淆矩陣,并且可以為每個類計算所有性能度量。 這被稱為多類混淆矩陣。 例如,在響應變量中存在3個類X,Y,Z,因此對于每個類的回憶將計算如下:
Recall_X = TP_X /(TP_X + FN_X)
Recall_Y = TP_Y /(TP_Y + FN_Y)
Recall_Z = TP_Z /(TP_Z + FN_Z)
Thuy Pham的答案:
從不同的角度(數(shù)據(jù)準備或模型構建),有幾種方法使模型對離群值更加魯棒。
離群值通常根據(jù)分布來定義。 因此,可以在預處理步驟(在任何學習步驟之前),通過使用標準偏差(對于正常)或四分位范圍(對于不正常/未知)作為閾值水平,來去除異常值。
此外,如果數(shù)據(jù)具有明顯的長尾,則數(shù)據(jù)變換 (例如,對數(shù)變換)可能會有幫助。 當與收集儀器的靈敏度相關的異常值可能不能精確記錄小值時, Winsorization可能是有用的。 這種類型的變換(以Charles P.Winsor(1895-1951)命名)具有與限幅信號相同的效果(即用極限值替代極值數(shù)據(jù)值)。 減少異常值影響的另一個選擇是使用平均絕對差異而非均方差。
對于模型構建,一些模型抵抗異常值(例如基于樹的方法 )或非參數(shù)測試。 類似于中值效應,樹模型在每個分裂中將每個節(jié)點劃分為兩個。 因此,在每個分裂處,桶中的所有數(shù)據(jù)點可以被等同地對待,而不管它們可能具有的極值。 這項研究[Pham 2016]提出了一個檢測模型,結合數(shù)據(jù)的四分位數(shù)信息來預測數(shù)據(jù)的異常值。
參考文獻:
[Pham 2016] TT Pham,C. Thamrin,PD Robinson和PHW Leong。 強制振蕩測量中的呼吸偽影去除:機器學習方法。 IEEE Transactions on Biomedical Engineering,2016。
via KDnuggets,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。