數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

本文作者： sharpzero

2017-03-23 17:07

導(dǎo)語(yǔ)：隨著數(shù)據(jù)科學(xué)成為炙手可熱的領(lǐng)域，相關(guān)的應(yīng)聘崗位也多了起來(lái)。面試者們?cè)跍?zhǔn)備應(yīng)聘的過(guò)程中，往往會(huì)有一個(gè)疑問(wèn)：面試官們會(huì)問(wèn)些什么？我又應(yīng)該如何回答？

雷鋒網(wǎng)按：隨著數(shù)據(jù)科學(xué)成為炙手可熱的領(lǐng)域，相關(guān)的應(yīng)聘崗位也多了起來(lái)。面試者們?cè)跍?zhǔn)備應(yīng)聘的過(guò)程中，往往會(huì)有一個(gè)疑問(wèn)：面試官們會(huì)問(wèn)些什么？我又應(yīng)該如何回答？ Gregory Piatetsky在KDnuggets上分享了17個(gè)緊跟熱點(diǎn)的數(shù)據(jù)科學(xué)相關(guān)職位可能會(huì)接觸的問(wèn)題及答案。從AI未能正確預(yù)測(cè)2016年美國(guó)總統(tǒng)選舉結(jié)果和第51屆超級(jí)碗大逆轉(zhuǎn)的經(jīng)驗(yàn)教訓(xùn)，如何區(qū)分偏差和方差，預(yù)測(cè)變量數(shù)目越少越好，甚至到如何增強(qiáng)模型抵抗異常的魯棒性都一應(yīng)俱全，本文為第一部分，雷鋒網(wǎng)做了相關(guān)編譯。

去年，21個(gè)必知的數(shù)據(jù)科學(xué)相關(guān)職位面試問(wèn)題和答案成為了年度瀏覽次數(shù)最多的帖子，頁(yè)面瀏覽量超過(guò)了25萬(wàn)。 2017年，KDnuggets編輯為您帶來(lái)超過(guò)17個(gè)新的和重要的數(shù)據(jù)科學(xué)相關(guān)職位面試問(wèn)題和答案。本篇回答了下面六個(gè)問(wèn)題：

運(yùn)用數(shù)據(jù)科學(xué)知識(shí)未能正確預(yù)測(cè)2016美國(guó)總統(tǒng)選舉（第51屆超級(jí)碗大逆轉(zhuǎn)）結(jié)果的教訓(xùn)
新的（不可見(jiàn)的）測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布的顯著差異所導(dǎo)致的問(wèn)題？
偏差和方差的定義以及它們與建模數(shù)據(jù)的關(guān)系是什么？
為什么更少個(gè)數(shù)的預(yù)測(cè)變量較佳？
二進(jìn)制分類器性能評(píng)估采用何種錯(cuò)誤指標(biāo)衡量？類不平衡的對(duì)策？超過(guò)2組的對(duì)策？
增加模型抗異常魯棒性的方法？

1.AI未能正確預(yù)測(cè)2016美國(guó)總統(tǒng)選舉（第51屆超級(jí)碗大逆轉(zhuǎn)）結(jié)果，請(qǐng)您運(yùn)用數(shù)據(jù)科學(xué)知識(shí)總結(jié)相關(guān)的經(jīng)驗(yàn)教訓(xùn)。

Gregory Piatetsky的答案：

2016年11月8日大選之前，大多數(shù)選民認(rèn)為希拉里·克林頓在大眾選舉和選舉團(tuán)選舉分別占有大約3％的優(yōu)勢(shì)和70%到95％的獲勝可能。內(nèi)特·希爾沃的FiveThirtyEight這樣的大數(shù)據(jù)公司預(yù)測(cè)特朗普獲勝的概率最高，約為30％，而紐約時(shí)報(bào)旗下的大數(shù)據(jù)公司的Upshot和普林斯頓選舉聯(lián)盟預(yù)測(cè)特朗普獲勝的概率只有約15％，而像新聞博客網(wǎng)站赫芬頓郵報(bào)這樣的民意調(diào)查媒體預(yù)測(cè)特朗普只有2％的勝率。不過(guò)，特朗普贏了。那么，數(shù)據(jù)科學(xué)家應(yīng)該從中汲取哪些教訓(xùn)呢？

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

統(tǒng)計(jì)有效的預(yù)測(cè)需要滿足兩個(gè)條件：

1）足夠多的歷史數(shù)據(jù)
2）假設(shè)歷史事件與我們需要預(yù)測(cè)結(jié)果的當(dāng)前事件足夠相似。

事件可以分為確定的（2 + 2總等于4）、強(qiáng)可預(yù)測(cè)（例如行星和衛(wèi)星的軌道，擲硬幣時(shí)頭像一面落地的平均次數(shù)）、弱可預(yù)測(cè)（如選舉和體育賽事）、隨機(jī)（如公平的彩票）。

如果擲硬幣1億次，估計(jì)頭像朝上的次數(shù)（平均）為5000萬(wàn)，標(biāo)準(zhǔn)差= 10,000（公式0.5 * SQRT（N）），可預(yù)測(cè)99.7％的頭像朝上的次數(shù)將在平均值的3個(gè)標(biāo)準(zhǔn)偏差內(nèi)。

但使用民意調(diào)查預(yù)測(cè)1億人的投票要困難得多。調(diào)查者需要有代表性的樣本，估計(jì)個(gè)體實(shí)際投票的可能性，做出許多合理和不合理的假設(shè)，避免有意或無(wú)意的偏見(jiàn)。

因?yàn)楣爬系倪x舉團(tuán)制度、各州（除緬因州和內(nèi)布拉斯加州外）勝者全得、民調(diào)的需要以及預(yù)測(cè)結(jié)果各州獨(dú)立導(dǎo)致總統(tǒng)選舉結(jié)果的預(yù)測(cè)更為棘手。

下圖顯示，2016年美國(guó)總統(tǒng)選舉民調(diào)結(jié)果在多個(gè)州與實(shí)際大相徑庭，其中大多數(shù)低估了特朗普獲得的選票，尤其在密歇根州，威斯康星州和賓夕法尼亞州這三個(gè)關(guān)鍵州，以上三州的選票都投給了特朗普。

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

資料來(lái)源： @ NateSilver538 推特，2016年11月9日。

有幾個(gè)統(tǒng)計(jì)學(xué)家譬如Salil Mehta @salilstatistics認(rèn)為民調(diào)不切實(shí)際，538的David Wasserman實(shí)際上在2016年9月的一篇《特朗普為何丟掉了大眾選舉卻贏得了總統(tǒng)選舉》闡述了上述觀點(diǎn)，但大多數(shù)民調(diào)者錯(cuò)得離譜。

因此，數(shù)據(jù)科學(xué)家從中汲取的一條有價(jià)值的教訓(xùn)便是要質(zhì)疑自己做出的假設(shè) ，并且在對(duì)弱可預(yù)測(cè)事件進(jìn)行預(yù)測(cè)時(shí)保持懷疑，尤其是針對(duì)基于人類行為的預(yù)測(cè)時(shí)更是如此。

其它重要的教訓(xùn)是：

檢查數(shù)據(jù)質(zhì)量 - 這次選舉中民調(diào)沒(méi)有覆蓋所有選民
小心偏見(jiàn)：許多民調(diào)者可能是克林頓希拉里的支持者，不想質(zhì)疑對(duì)其有利的結(jié)果。例如，赫芬頓郵報(bào)預(yù)測(cè)克林頓希拉里有95％的獲勝機(jī)會(huì)。

對(duì)2016年民調(diào)失敗的其它分析可參考：

《特朗普獲勝并非宣告大數(shù)據(jù)的死亡——它一直有缺陷》（連線）
《數(shù)據(jù)在預(yù)測(cè)選舉失敗中扮演了怎樣的角色》（紐約時(shí)報(bào)）
《民調(diào)的重大挫敗提供的六個(gè)數(shù)據(jù)科學(xué)可以汲取的教訓(xùn)》（Datanami）
《特朗普的選舉：民調(diào)失敗帶給IT領(lǐng)域的數(shù)據(jù)技術(shù)方面的教訓(xùn)》（InformaitonWeek）
《為什么我要在美國(guó)有線電視新聞網(wǎng)直播吃蟲(chóng)子》（普林斯頓選舉聯(lián)盟的Sam Wang）

（注意：該答案基于KDnuggets上的一篇舊帖子《選舉預(yù)測(cè)失敗于數(shù)據(jù)科學(xué)家的啟示》）

還有另一個(gè)從統(tǒng)計(jì)學(xué)角度來(lái)看的小概率事件：2017年2月5日的第51屆超級(jí)碗比賽中發(fā)生了劇情般的反轉(zhuǎn)：半場(chǎng)結(jié)束后，亞特蘭大獵鷹隊(duì)21比3領(lǐng)先，第三節(jié)后比分?jǐn)U大到了28比9。ESPN估計(jì)亞特蘭大獵鷹當(dāng)時(shí)勝券在握。

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

（參考：Salil Mehta tweet Salil Mehta tweet，2017年2月6日）

從來(lái)沒(méi)有一支隊(duì)伍在這樣的巨大比分優(yōu)勢(shì)下將冠軍拱手相送。然而，每場(chǎng)超級(jí)碗比賽都充滿變數(shù)，這次可稱得上是驚天逆轉(zhuǎn)。集超凡的技能（畢竟愛(ài)國(guó)者隊(duì)決賽前也是奪冠熱門(mén)）和運(yùn)氣（憑借 Julian Edelman好運(yùn)的接球爭(zhēng)取到了加時(shí)賽）于一身，愛(ài)國(guó)者隊(duì)最終贏得比賽。

這次超級(jí)碗比賽也給了數(shù)據(jù)科學(xué)家另外一個(gè)有意義的教訓(xùn)。對(duì)弱可預(yù)測(cè)事件進(jìn)行預(yù)測(cè)時(shí)，大多的自信是不可取的。在預(yù)測(cè)此類事件時(shí)需要了解風(fēng)險(xiǎn)因素，并盡量避免使用概率，或者如果必須使用數(shù)字，則需要具有寬泛的置信范圍。

而如果呈現(xiàn)一邊倒的預(yù)測(cè)，但它只是微弱的可預(yù)測(cè)事件，不妨堅(jiān)持自己的觀點(diǎn)——有時(shí)你甚至能擊敗賠率。

2.如果新的（不可見(jiàn)的）測(cè)試數(shù)據(jù)的分布與訓(xùn)練數(shù)據(jù)的分布明顯不同，會(huì)出現(xiàn)什么問(wèn)題？

Gregory Piatetsky和Thuy Pham回答：

核心問(wèn)題在于預(yù)測(cè)是錯(cuò)誤的。

如果新測(cè)試數(shù)據(jù)在預(yù)測(cè)模型的關(guān)鍵參數(shù)與訓(xùn)練數(shù)據(jù)中非常不同，則說(shuō)明預(yù)測(cè)模型不再有效。可能發(fā)生這一情況的主要原因在于樣本選擇偏差，種群漂移或非平穩(wěn)環(huán)境。

a）樣本選擇偏差

這里的數(shù)據(jù)是靜態(tài)的，但是訓(xùn)練實(shí)例是通過(guò)一種有偏差的方法獲得的，例如數(shù)據(jù)到訓(xùn)練和測(cè)試的非均勻選擇或非隨機(jī)分割。

如果你有一個(gè)大的靜態(tài)數(shù)據(jù)集，那么你應(yīng)該隨機(jī)分成訓(xùn)練/測(cè)試數(shù)據(jù)，測(cè)試數(shù)據(jù)的分布應(yīng)該類似于訓(xùn)練數(shù)據(jù)。

b）協(xié)變量

這里的數(shù)據(jù)不是靜態(tài)的，一部分人口用作訓(xùn)練數(shù)據(jù)，另一個(gè)部分用于測(cè)試。

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

（圖via iwann )。

有時(shí)，訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)是通過(guò)不同的過(guò)程得到的 - 例如對(duì)一個(gè)群體測(cè)試的藥物被給予可能具有顯著差異的新群體。因此，基于訓(xùn)練數(shù)據(jù)的分類器性能較差。

一個(gè)提出的解決方案是應(yīng)用統(tǒng)計(jì)測(cè)試來(lái)確定分類器使用的目標(biāo)類和關(guān)鍵變量的概率是否顯著不同，如果是，則使用新數(shù)據(jù)重新訓(xùn)練模型。

c）非固定環(huán)境

無(wú)論是由于時(shí)間或空間變化，培訓(xùn)環(huán)境與測(cè)試不同。

這與情況b類似，但適用于數(shù)據(jù)不是靜態(tài)的情況——我們有一個(gè)數(shù)據(jù)流，我們定期對(duì)其進(jìn)行抽樣以開(kāi)發(fā)未來(lái)行為的預(yù)測(cè)模型。這發(fā)生在對(duì)抗分類問(wèn)題中，例如垃圾郵件過(guò)濾和網(wǎng)絡(luò)入侵檢測(cè)，其中垃圾郵件發(fā)送者和黑客經(jīng)常改變他們的行為。另一個(gè)典型的案例是客戶分析，其中客戶行為隨時(shí)間改變。電話公司開(kāi)發(fā)用于預(yù)測(cè)客戶流失的模型或者信用卡公司開(kāi)發(fā)預(yù)測(cè)交易欺詐的模型。訓(xùn)練數(shù)據(jù)是歷史數(shù)據(jù)，而（新的）測(cè)試數(shù)據(jù)是當(dāng)前數(shù)據(jù)。

這種模型需要定期重新訓(xùn)練，并確定何時(shí)可以比較舊數(shù)據(jù)（訓(xùn)練集）和新數(shù)據(jù)中預(yù)測(cè)模型中關(guān)鍵變量的分布，如果有足夠顯著的差異，則該模型需要再培訓(xùn)。

有關(guān)更詳細(xì)和技術(shù)的討論，請(qǐng)參見(jiàn)下面的參考文獻(xiàn)。

參考文獻(xiàn)：

[1] Marco Saerens，Patrice Latinne，Christine Decaestecker：Adjusting the Outputs of a Classifier to New a Priori Probabilities：A Simple Procedure。 Neural Computation 14（1）：21-41（2002）

[2]非固定環(huán)境中的機(jī)器學(xué)習(xí)：協(xié)變量適應(yīng)的介紹，杉山杉山，Motoaki Kawanabe，MIT出版社，2012年，ISBN 0262017091，9780262017091

[3] Quora：《如果測(cè)試數(shù)據(jù)的分布明顯不同于訓(xùn)練數(shù)據(jù)的分布，原因何在？》

[4] 《數(shù)據(jù)集轉(zhuǎn)移的分類：方法和問(wèn)題》，弗朗西斯科·赫雷拉，2011年。

[5] 《當(dāng)訓(xùn)練和測(cè)試集不同：表征學(xué)習(xí)傳遞》，Amos Storkey，2013。

3.偏差和方差是什么，它們與建模數(shù)據(jù)的關(guān)系是什么？

Matthew Mayo答案：

偏差是模型的預(yù)測(cè)與正確性的差距，而方差是這些預(yù)測(cè)在模型迭代之間變化的程度。

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

偏差與方差

例如，以一個(gè)總統(tǒng)選舉調(diào)查作為例子，我們可以通過(guò)偏差和方差的雙重透鏡解釋調(diào)查中的錯(cuò)誤：從電話簿中選擇調(diào)查參與者會(huì)導(dǎo)致偏差；小樣本量會(huì)導(dǎo)致方差。

最小化總模型誤差依賴于偏差和方差誤差的平衡。理想情況下，模型是低方差的無(wú)偏差數(shù)據(jù)的集合的結(jié)果。然而不幸的是，模型變得越復(fù)雜，它的趨勢(shì)是偏差越小，但方差越大; 因此，最優(yōu)模型需要考慮這兩個(gè)屬性之間的平衡。

交叉驗(yàn)證的統(tǒng)計(jì)評(píng)估方法在證明這種平衡的重要性，而找到這個(gè)平衡點(diǎn)也同樣重要。使用的數(shù)據(jù)折疊數(shù)量 - k倍交叉驗(yàn)證中的k值是一個(gè)重要的決定；值越低，誤差估計(jì)中的偏差越大，方差越小。

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

偏差和方差造成總誤差，圖像源

相反，當(dāng)k被設(shè)置為等于實(shí)例數(shù)時(shí)，誤差估計(jì)在偏差方面非常低，但具有高方差的可能性。

最重要的是，在建立模型時(shí)，偏差和方差是一個(gè)重要權(quán)衡的兩個(gè)方面，即使是最常規(guī)的統(tǒng)計(jì)評(píng)價(jià)方法也直接依賴于這種權(quán)衡。

4.為什么預(yù)測(cè)變量越少越好？

Anmol Rajpurohit的答案：

這里有幾個(gè)原因，它可能是一個(gè)更好的主意，有更少的預(yù)測(cè)變量，而不是有很多：

冗余/不相關(guān)：

如果你處理許多預(yù)測(cè)變量，那么在其中一些變量之間存在隱藏關(guān)系的可能性很高，從而導(dǎo)致冗余。除非在數(shù)據(jù)分析的早期階段識(shí)別和處理此冗余（通過(guò)僅選擇非冗余預(yù)測(cè)變量），否則可能會(huì)對(duì)后續(xù)步驟造成巨大阻力。

也有可能不是所有的預(yù)測(cè)變量都對(duì)因變量具有相當(dāng)大的影響。您應(yīng)該確保選擇工作的預(yù)測(cè)變量集不具有任何不相關(guān)的變量 - 即使您知道數(shù)據(jù)模型將通過(guò)給予它們更低的重要性來(lái)處理它們。

注意：冗余和不相關(guān)是兩個(gè)不同的概念 - 由于存在其他相關(guān)特征，相關(guān)特征可以是冗余的。

過(guò)擬合：

即使有大量的預(yù)測(cè)變量在其中任何一個(gè)之間沒(méi)有關(guān)系，仍然優(yōu)選使用較少的預(yù)測(cè)變量。具有大量預(yù)測(cè)器（也稱為復(fù)雜模型）的數(shù)據(jù)模型經(jīng)常遭受過(guò)擬合的問(wèn)題，在這種情況下，數(shù)據(jù)模型在訓(xùn)練數(shù)據(jù)上執(zhí)行良好，但對(duì)測(cè)試數(shù)據(jù)執(zhí)行得不好。

生產(chǎn)力：

假設(shè)您有一個(gè)項(xiàng)目，其中有大量的預(yù)測(cè)變量，而且所有變量都是相關(guān)的（即對(duì)因變量有可測(cè)量的影響）。所以，你顯然想要與所有這些工作，以便有一個(gè)非常高的成功率的數(shù)據(jù)模型。雖然這種方法聽(tīng)起來(lái)非常誘人，但實(shí)際考慮（如可用數(shù)據(jù)量，存儲(chǔ)和計(jì)算資源，完成時(shí)間等）幾乎不可能。

因此，即使您有大量相關(guān)的預(yù)測(cè)變量，使用較少的預(yù)測(cè)變量（通過(guò)特征選擇或通過(guò)特征提取開(kāi)發(fā)）是一個(gè)好主意。這基本上類似于帕累托原理，其中指出，對(duì)于許多事件，大約80％的效果來(lái)自20％的原因。

關(guān)注這20％最重要的預(yù)測(cè)變量將有助于在合理的時(shí)間內(nèi)建立具有相當(dāng)成功率的數(shù)據(jù)模型，而不需要非實(shí)際數(shù)據(jù)量或其他資源。

培訓(xùn)錯(cuò)誤和測(cè)試錯(cuò)誤vs模型復(fù)雜性（來(lái)源：發(fā)布在Quora由Sergul Aydore ）

可理解性：

具有較少預(yù)測(cè)變量的模型更容易理解和解釋。由于數(shù)據(jù)科學(xué)步驟將由人類執(zhí)行，并且結(jié)果將由人類呈現(xiàn)（并且希望被使用），因此考慮人類大腦的綜合能力是重要的。這基本上是一種折衷 - 你允許你的數(shù)據(jù)模型的成功率的一些潛在的好處，同時(shí)使你的數(shù)據(jù)模型更容易理解和優(yōu)化。

這個(gè)因素是特別重要的，如果在你的項(xiàng)目結(jié)束時(shí)，你需要向一個(gè)人，誰(shuí)不僅有興趣不僅高成功率，而且在理解“發(fā)生”下發(fā)生的結(jié)果。

5.您將使用什么錯(cuò)誤度量來(lái)評(píng)估二進(jìn)制分類器的性能？如果類不平衡怎么辦？如果超過(guò)兩組呢？

Prasad Pore 答案：

二進(jìn)制分類涉及基于諸如性別，年齡，位置等獨(dú)立變量將數(shù)據(jù)分為兩組，例如客戶是否購(gòu)買(mǎi)特定產(chǎn)品（是/否）。

由于目標(biāo)變量不連續(xù)，二進(jìn)制分類模型預(yù)測(cè)目標(biāo)變量的概率為Yes / No。為了評(píng)估這樣的模型，使用稱為混淆矩陣的度量，也稱為分類或相關(guān)矩陣。在混淆矩陣的幫助下，我們可以計(jì)算重要的性能度量有：

真正速率（TPR）或命中率或召回或靈敏度= TP /（TP + FN）
假陽(yáng)性率（FPR）或假警報(bào)率= 1 - 特異性= 1 - （TN /（TN + FP））
精度=（TP + TN）/（TP + TN + FP + FN）
錯(cuò)誤率= 1-精度或（FP + FN）/（TP + TN + FP + FN）
精度= TP /（TP + FP）
F測(cè)量：2 /（（1 /精確）+（1 /召回））
ROC（接收機(jī)工作特性）= FPR與TPR的關(guān)系曲線
AUC（曲線下面積）
Kappa統(tǒng)計(jì)

您可以在這里找到有關(guān)這些度量的更多詳細(xì)信息：測(cè)量分類模型精度的最佳指標(biāo) 。

所有這些措施都應(yīng)該與領(lǐng)域技能相平衡，例如，雖然更高的TPR表示對(duì)方不患癌的概率較大，但它對(duì)診斷癌癥沒(méi)有幫助。

在相同的癌癥診斷數(shù)據(jù)的例子中，如果僅2％或更少的患者具有癌癥，則這將出現(xiàn)類不平衡的情況，因?yàn)榘┌Y患者的百分比與其他人群相比非常小。有兩個(gè)主要的方法來(lái)處理這個(gè)問(wèn)題：

1. 成本函數(shù)的使用：在這種方法中，與成本矩陣（類似于混淆矩陣，但更關(guān)心假陽(yáng)性和假陰性）的幫助來(lái)評(píng)估與錯(cuò)誤分類數(shù)據(jù)相關(guān)聯(lián)的成本。主要目的是減少錯(cuò)誤分類的成本。假陰性的成本總是大于假陽(yáng)性的成本。例如錯(cuò)誤地預(yù)測(cè)癌癥患者是無(wú)癌癥的，比錯(cuò)誤地預(yù)測(cè)無(wú)癌癥患者患有癌癥更危險(xiǎn)。

總成本= FN的成本* FN的計(jì)數(shù)+ FP的成本* FP的計(jì)數(shù)

2. 使用不同的采樣方法：在此方法中，可以使用過(guò)采樣，欠采樣或混合采樣。在過(guò)抽樣中，少數(shù)種類觀察被復(fù)制以平衡數(shù)據(jù)。復(fù)制觀察導(dǎo)致過(guò)度擬合，導(dǎo)致訓(xùn)練中的良好準(zhǔn)確性，但不可見(jiàn)數(shù)據(jù)的準(zhǔn)確性較低。在欠采樣中，大多數(shù)類觀察被移除導(dǎo)致信息的丟失。它有助于減少處理時(shí)間和存儲(chǔ)，但僅在具有大數(shù)據(jù)集時(shí)有用。

如果目標(biāo)變量中有多個(gè)類，則形成尺寸等于類數(shù)量的混淆矩陣，并且可以為每個(gè)類計(jì)算所有性能度量。這被稱為多類混淆矩陣。例如，在響應(yīng)變量中存在3個(gè)類X，Y，Z，因此對(duì)于每個(gè)類的回憶將計(jì)算如下：

Recall_X = TP_X /（TP_X + FN_X）
Recall_Y = TP_Y /（TP_Y + FN_Y）
Recall_Z = TP_Z /（TP_Z + FN_Z）

6.如何使模型更加魯棒？

Thuy Pham的答案：

從不同的角度（數(shù)據(jù)準(zhǔn)備或模型構(gòu)建），有幾種方法使模型對(duì)離群值更加魯棒。

離群值通常根據(jù)分布來(lái)定義。因此，可以在預(yù)處理步驟（在任何學(xué)習(xí)步驟之前），通過(guò)使用標(biāo)準(zhǔn)偏差（對(duì)于正常）或四分位范圍（對(duì)于不正常/未知）作為閾值水平，來(lái)去除異常值。

異常值

此外，如果數(shù)據(jù)具有明顯的長(zhǎng)尾，則數(shù)據(jù)變換（例如，對(duì)數(shù)變換）可能會(huì)有幫助。當(dāng)與收集儀器的靈敏度相關(guān)的異常值可能不能精確記錄小值時(shí)， Winsorization可能是有用的。這種類型的變換（以Charles P.Winsor（1895-1951）命名）具有與限幅信號(hào)相同的效果（即用極限值替代極值數(shù)據(jù)值）。減少異常值影響的另一個(gè)選擇是使用平均絕對(duì)差異而非均方差。

對(duì)于模型構(gòu)建，一些模型抵抗異常值（例如基于樹(shù)的方法）或非參數(shù)測(cè)試。類似于中值效應(yīng)，樹(shù)模型在每個(gè)分裂中將每個(gè)節(jié)點(diǎn)劃分為兩個(gè)。因此，在每個(gè)分裂處，桶中的所有數(shù)據(jù)點(diǎn)可以被等同地對(duì)待，而不管它們可能具有的極值。這項(xiàng)研究[Pham 2016]提出了一個(gè)檢測(cè)模型，結(jié)合數(shù)據(jù)的四分位數(shù)信息來(lái)預(yù)測(cè)數(shù)據(jù)的異常值。

參考文獻(xiàn)：

[Pham 2016] TT Pham，C. Thamrin，PD Robinson和PHW Leong。強(qiáng)制振蕩測(cè)量中的呼吸偽影去除：機(jī)器學(xué)習(xí)方法。 IEEE Transactions on Biomedical Engineering，2016。

Quora也有對(duì)此問(wèn)題的相關(guān)討論。

via KDnuggets，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

sharpzero

知情人士

發(fā)私信

當(dāng)月熱門(mén)文章

數(shù)據(jù)科學(xué)崗位必備面經(jīng)：17個(gè)熱點(diǎn)問(wèn)題如何回答？（一）

1.AI未能正確預(yù)測(cè)2016美國(guó)總統(tǒng)選舉（第51屆超級(jí)碗大逆轉(zhuǎn)）結(jié)果，請(qǐng)您運(yùn)用數(shù)據(jù)科學(xué)知識(shí)總結(jié)相關(guān)的經(jīng)驗(yàn)教訓(xùn)。

2.如果新的（不可見(jiàn)的）測(cè)試數(shù)據(jù)的分布與訓(xùn)練數(shù)據(jù)的分布明顯不同，會(huì)出現(xiàn)什么問(wèn)題？

a）樣本選擇偏差

b）協(xié)變量

c）非固定環(huán)境

3.偏差和方差是什么，它們與建模數(shù)據(jù)的關(guān)系是什么？

4.為什么預(yù)測(cè)變量越少越好？

冗余/不相關(guān)：

過(guò)擬合 ：

生產(chǎn)力：

可理解性：

5.您將使用什么錯(cuò)誤度量來(lái)評(píng)估二進(jìn)制分類器的性能？ 如果類不平衡怎么辦？ 如果超過(guò)兩組呢？

6.如何使模型更加魯棒？

1.AI未能正確預(yù)測(cè)2016美國(guó)總統(tǒng)選舉（第51屆超級(jí)碗大逆轉(zhuǎn)）結(jié)果，請(qǐng)您運(yùn)用數(shù)據(jù)科學(xué)知識(shí)總結(jié)相關(guān)的經(jīng)驗(yàn)教訓(xùn)。

2.如果新的（不可見(jiàn)的）測(cè)試數(shù)據(jù)的分布與訓(xùn)練數(shù)據(jù)的分布明顯不同，會(huì)出現(xiàn)什么問(wèn)題？

3.偏差和方差是什么，它們與建模數(shù)據(jù)的關(guān)系是什么？

4.為什么預(yù)測(cè)變量越少越好？

過(guò)擬合：

5.您將使用什么錯(cuò)誤度量來(lái)評(píng)估二進(jìn)制分類器的性能？如果類不平衡怎么辦？如果超過(guò)兩組呢？

6.如何使模型更加魯棒？