丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

本文作者: AI研習社-譯站 2020-09-04 11:55
導語:當觀察值只是一組數(shù)字并且是一維時,很容易識別它,但是當你有數(shù)千個觀察值或多維值時,你需要更聰明的方法來檢測這些值。這就是本文將要介紹的內(nèi)容。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

字幕組雙語原文:數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

英語原文:5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code)

翻譯:雷鋒字幕組(yhfwww


什么是異常/異常值?

 數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

在統(tǒng)計學中,離群值是不屬于某個總體的數(shù)據(jù)點,它是一種與其他值相差甚遠的異常觀察,是一種與其他結(jié)構(gòu)良好的數(shù)據(jù)不同的觀察值。

例如,您可以清楚地看到列表中的異常值:[20,24,22,19,29,184300,30,18]。當觀察值只是一組數(shù)字并且是一維時,很容易識別它,但是當你有數(shù)千個觀察值或多維值時,你需要更聰明的方法來檢測這些值。這就是本文將要介紹的內(nèi)容。

為什么我們關心異常?

離群點的檢測是數(shù)據(jù)挖掘的核心問題之一。數(shù)據(jù)的不斷擴展和持續(xù)增長以及物聯(lián)網(wǎng)設備的普及,使我們重新思考我們處理異常的方式,以及通過觀察這些異常情況可以構(gòu)建的用例。

我們現(xiàn)在有智能手表和腕帶,可以每隔幾分鐘檢測我們的心跳。檢測心跳數(shù)據(jù)中的異常有助于預測心臟病。交通模式的異常有助于預測事故。它還可以用來識別網(wǎng)絡基礎設施和服務器之間的通信瓶頸。因此,建立在檢測異常之上的用例和解決方案是無限的。

我們需要檢測異常的另一個原因是,在為機器學習模型準備數(shù)據(jù)集時,檢測所有異常值非常重要,要么去掉它們,要么分析它們,以了解為什么會有異常。

現(xiàn)在,讓我們從最簡單的方法開始探索5種常見的異常檢測方法。

方法1?-?標準差:

在統(tǒng)計學中,如果一個數(shù)據(jù)分布近似正態(tài)分布,那么大約68%的數(shù)據(jù)值在平均值的一個標準差內(nèi),約95%在兩個標準差內(nèi),約99.7%在三個標準差內(nèi)。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

因此,如果有任何數(shù)據(jù)點超過標準偏差的3倍,那么這些點很可能是異?;虍惓V怠?nbsp; 

讓我們看看代碼。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

此代碼的輸出是一個值大于80小于-40的值的列表。請注意,我傳遞的數(shù)據(jù)集是一維數(shù)據(jù)集?,F(xiàn)在,讓我們探索多維數(shù)據(jù)集的更高級方法。

方法2?-?箱體圖

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法


箱體圖是通過分位數(shù)對數(shù)值數(shù)據(jù)的圖形化描述。這是一種非常簡單但有效的方法來可視化異常值。把上下胡須(whisker)看作是數(shù)據(jù)分布的邊界。任何顯示在胡須上方或下方的數(shù)據(jù)點都可以被視為異常值或異常值。下面是繪制箱體圖的代碼:

import seaborn as sns    

import matplotlib.pyplot as plt   

sns.boxplot(data=random_data)

上面的代碼顯示下面的圖。如您所見,它認為高于75或低于-35的所有數(shù)據(jù)都是異常值。結(jié)果與上述方法1非常接近。

箱體圖剖析:

四分位間距(IQR)的概念用于構(gòu)建箱線圖。IQR是統(tǒng)計學中的一個概念,通過將數(shù)據(jù)集分成四分位數(shù)來衡量統(tǒng)計離散度和數(shù)據(jù)可變性。

簡單地說,根據(jù)數(shù)據(jù)的值以及它們與整個數(shù)據(jù)集的比較,任何數(shù)據(jù)集或任何一組觀測值被劃分為四個定義的區(qū)間。四分位數(shù)將數(shù)據(jù)分為三個點和四個區(qū)間。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

四分位間距(IQR)很重要,因為它用于定義異常值。它是第三個四分位數(shù)和第一個四分位數(shù)之間的差值(IQR=Q3-Q1)。這種情況下的異常值定義為低于(Q1?1.5x IQR)或boxplot下須或以上(Q3+1.5x IQR)或boxplot上須的觀測值。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

方法3-DBScan聚類:

DBScan是一種將數(shù)據(jù)分組的聚類算法。它也可以作為一種基于密度的異常檢測方法,無論是單維數(shù)據(jù)還是多維數(shù)據(jù)。其他的聚類算法,如k-means 和hierarchal聚類也可以用來檢測異常值。在本例中,我將向您展示一個使用DBScan的示例,但是在開始之前,讓我們先介紹一些重要的概念。DBScan有三個重要概念:

  • 核心點:為了理解核心點的概念,我們需要關注一些用于定義DBScan作業(yè)的超參數(shù)。第一個超參數(shù)(HP)是min_samples。這只是組成集群所需的最小核心點數(shù)量。第二重要的超參數(shù)HP是eps。eps是兩個樣本被視為在同一個聚類之間的最大距離。

  • 邊界點與核心點在同一個集群中,但距離集群中心遠得多。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

Source:https://stackoverflow.com/questions/34394641/dbscan-clustering-what-happens-when-border-point-of-one-cluster-is-considered

  • 其他的一切都被稱為噪聲點,那些是不屬于任何簇的數(shù)據(jù)點。它們可以是異常的或非異常的,需要進一步的研究?,F(xiàn)在,讓我們看看代碼。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

以上代碼的輸出是94。這是噪聲點的總數(shù)。SKLearn將噪波點標記為(-1)。這種方法的缺點是維數(shù)越高,精度就越低。你還需要做一些假設,比如估計eps的確切值,這可能很有挑戰(zhàn)性。

方法4-孤立森林:

孤立森林是一種無監(jiān)督學習算法,屬于集成決策樹家族。這種方法不同于以往的所有方法。之前所有的方法都是試圖找到數(shù)據(jù)的正常區(qū)域,然后識別出這個定義區(qū)域之外的任何異常值或異常值。

這種方法的效果不同。它顯式地隔離異常值,而不是通過為每個數(shù)據(jù)點分配分數(shù)來分析和構(gòu)造正常點和區(qū)域。它利用了一個事實,即異常是少數(shù)數(shù)據(jù)點,并且它們的屬性值與正常實例的屬性值大不相同。該算法適用于高維數(shù)據(jù)集,是一種非常有效的異常檢測方法。由于本文關注的是實現(xiàn),而不是技術(shù)訣竅,因此我將不再進一步討論算法的工作原理。此文將詳細介紹它的工作原理。
現(xiàn)在,讓我們探索一下代碼:

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

此代碼將輸出數(shù)組中每個數(shù)據(jù)點的預測。如果結(jié)果為-1,則表示此特定數(shù)據(jù)點為異常值。如果結(jié)果為1,則表示數(shù)據(jù)點不是異常值。

方法5-隨機森林:

隨機森林(RCF)算法是亞馬遜用于檢測異常的無監(jiān)督算法。它也通過關聯(lián)異常分數(shù)來工作。低分值表示數(shù)據(jù)點被視為“正常”。高值表示數(shù)據(jù)中存在異常?!暗汀焙汀案摺钡亩x取決于應用,但通常的做法是,分數(shù)超過平均分的三個標準差被視為異常。詳細的算法可以在此文中找到。

這個算法的優(yōu)點在于它可以處理非常高維的數(shù)據(jù)。它還可以處理實時流數(shù)據(jù)(內(nèi)置于AWS Kinesis分析)以及離線數(shù)據(jù)。

我將在下面的視頻中更詳細地解釋這個概念:

這篇論文中給出了一些與孤立森林比較的性能指標。本文的結(jié)果表明,RCF比孤立森林更準確、更快速。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

完整的示例代碼可以在這里找到:

awslabs/amazon-sagemaker-examplesExample notebooks that show how to apply machine learning and deep learning in Amazon SageMaker …github.com  

結(jié)論:

我們生活在一個數(shù)據(jù)以秒為單位變大的世界。如果使用不當,數(shù)據(jù)的價值會隨著時間的推移而減少。在流中在線或離線在數(shù)據(jù)集中發(fā)現(xiàn)異常對于識別業(yè)務中的問題或構(gòu)建一個在問題發(fā)生之前就潛在地發(fā)現(xiàn)問題的主動解決方案,或者甚至在為ML準備數(shù)據(jù)集的探索性數(shù)據(jù)分析(EDA)階段,都是至關重要的。我希望您能發(fā)現(xiàn)本文有用,請告訴我您的想法在下面的評論部分思考。


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關于人工智能技術(shù)領域的行業(yè)變革與技術(shù)創(chuàng)新的見解。

團隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)?、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內(nèi)外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)科學家必備的5種離群點/異常檢測方法

分享:
相關文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說