丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社
發(fā)送

0

機器學習算法實踐 K均值聚類的實用技巧

本文作者: AI研習社 2017-02-17 11:56
導語:如何使用聚類分析對數(shù)據(jù)自動分段。

機器學習算法實踐 K均值聚類的實用技巧

編者按:本文作者為美國數(shù)據(jù)分析專家 Bilal Mahmood,他是用戶數(shù)據(jù)分析平臺 Bolt 的創(chuàng)始人之一。在本文中,他詳細介紹了一種稱為 K-Means Clustering(k均值聚類)的算法,其中包括如何衡量算法效果,以及如何確定你需要生成的數(shù)據(jù)段集數(shù)量。雷鋒網(wǎng)編譯整理,更多AI開發(fā)技術(shù)文章,關(guān)注AI研習社(微信號:okweiwu)。

Bilal Mahmood:我們最常做的分析之一,便是在數(shù)據(jù)中提取模式。 比方說,某公司的客戶可被劃分入哪些細分市場? 我們?nèi)绾卧谟脩艟W(wǎng)絡(luò)中找到特定群體的聚類?

通過機器學習的方式,我們可以得到這些問題的答案。 即使當我們不知道需要查找哪些特定數(shù)據(jù)段,亦或我們的數(shù)據(jù)格式是非結(jié)構(gòu)化數(shù)據(jù),我們都可以有這么一種技術(shù)手段,在算法上,分析出數(shù)據(jù)中合理的數(shù)據(jù)模式,合適的數(shù)據(jù)段和分類結(jié)果。

在本文中,我們將會詳細介紹一種算法,K-Means Clustering(K均值聚類),包括如何衡量其效果,以及如何確定我們要生成的數(shù)據(jù)段集數(shù)量。

監(jiān)督VS無監(jiān)督學習

  機器學習算法實踐 K均值聚類的實用技巧

在數(shù)據(jù)分類領(lǐng)域里,有兩種有效的機器學習方式。

通過監(jiān)督學習,如果你搞清楚哪些輸入能映射到哪些離散數(shù)據(jù)段,便可以對結(jié)果的分類做預(yù)測。 但在許多情況下,實際上不會有這些預(yù)定義好的標簽,而只有非結(jié)構(gòu)化數(shù)據(jù)——根本沒有定義好的數(shù)據(jù)段。這時,您可能就需要借助無監(jiān)督學習,從未標記的數(shù)據(jù)中推理出目標數(shù)據(jù)段。

為了更清楚一些,我們以分類T恤尺寸為例

如果我們拿到如圖1A所示數(shù)據(jù)集,我們將有一組寬度(X1)和長度(X2)的輸入,以及他們對應(yīng)的T恤衫尺寸(S(藍色)L(綠色)) 。 在這種情況下,我們就可以通過監(jiān)督學習的技術(shù),如邏輯回歸,來繪制一個明確的決策邊界,并分離出各類T恤。

但如果我們得到一個如圖1B所示的數(shù)據(jù)集,我們得到一組寬度(X1)和長度(X2)的輸入,但沒有對應(yīng)的T恤衫尺寸標簽。 在這種情況下,我們就需要使用K均值聚類等無監(jiān)督式學習技術(shù),來找到相似的T恤衫,并將它們聚集到?。ㄋ{色圓圈)和大(綠色圓圈)的各個類中。

在現(xiàn)實世界的許多應(yīng)用中,你將面臨如圖2A所示的情況,因此搞明白如何從非結(jié)構(gòu)化的數(shù)據(jù)中提取出結(jié)構(gòu),會有很大的用處。

K均值聚類 機器學習算法實踐 K均值聚類的實用技巧

K均值聚類給無監(jiān)督機器學習提供了一個非常直觀的應(yīng)用,在非結(jié)構(gòu)化的數(shù)據(jù)中歸納出結(jié)構(gòu),

K均值聚類,正如其名,會將您的數(shù)據(jù)中相似的觀察結(jié)果,分配到同組簇中。 它包括4個簡單重復(fù)的步驟,迭代地評估對每個觀察值有最近(平均)距離的簇。 因此,如果一組觀察結(jié)果彼此接近,它們可能屬于一組簇。

讓我們逐步細細了解該算法。 第一步,隨機初始化一組聚類中心(上面圖2A中的X),或者說,是各組簇的中心。在開始之前,你可以將這些聚類中心設(shè)置在任何地方,但我們建議,在你對其初始化的時候,用與你設(shè)定的觀察值相匹配的隨機點。您將依次利用這些類中心,來對你的觀察值進行分組,將那些與類中心平均距離最近的觀察值(圖2B中的藍色和綠色圓圈)確定一個聚類歸屬。

該步驟會將數(shù)據(jù)初始化成幾組簇,將你的數(shù)據(jù)中與類中心最接近的觀察值聚集到一起。 但是這些第一次分配后的數(shù)據(jù)簇,可能不是十分合適的。 所以下一步,你會將你的聚類好的數(shù)據(jù)簇移動到一個更接近,更合適的位置。即在每個當前已有的各個簇中 找到它們的平均觀察值,然后你的聚類中心移動到該位置來(圖2C)。 然后,以新的聚類中心為基準,找到的平均距離最近的觀察值,并將其分配到新的簇(圖2D)

您可以重復(fù)進行此過程:簇分配-查找平均距離-移動聚類中心,直到達到收斂。 一旦你找到了一組簇,而且其中所有的觀察值都能找到最接近的聚類中心,那就不需要再繼續(xù)評估最近的平均距離和移動了。 那些分組在一起的觀察值將被聚類,這樣的話它們可以在輸入中共享相似性(如由它們對同一聚類中心所表現(xiàn)出的接近度),你也為你的數(shù)據(jù)找到了一組合適的聚類方式。

你使用了多少組簇?

機器學習算法實踐 K均值聚類的實用技巧

K均值聚類是一種有效的方法,可以為你的數(shù)據(jù)找到一個良好的聚類方式。 但仍然有一個問題,一開始你如何決定要使用多少組簇?

當你不清楚非結(jié)構(gòu)化數(shù)據(jù)集的標簽或者分類時,需要無監(jiān)督學習的方式(如K均值聚類)來輔助。 因此,數(shù)據(jù)本身不會告訴你,簇的正確數(shù)量(或標簽)是多少。

那么,你該如何衡量自己數(shù)據(jù)用多少組簇呢? 最簡單的方法是利用測量簇的誤差,具體如下:

機器學習算法實踐 K均值聚類的實用技巧

此函數(shù)通過比較觀察值(X)與其指定的聚類中心(μ)之間的距離來評估簇的誤差。 如果每個對應(yīng)的聚類中心均呈現(xiàn)最低距離,或者最低總體誤差最低,那么這些聚類中心就是與數(shù)據(jù)最符合的聚類結(jié)果。

回到我們T恤衫尺寸的示例,我們?nèi)绾问褂迷撜`差函數(shù)來確定正確的簇的數(shù)目? 一種方法是“肘部法則”,如上圖3所示。 通過繪制數(shù)據(jù)相對于你初始化的簇的數(shù)量的誤差,你可以發(fā)現(xiàn)誤差變化率最尖銳的點。 圖3中似乎是在兩個簇的地方,表明我們應(yīng)該可能去劃分為小和大兩種。

雷鋒網(wǎng)提醒,該方法需要注意:通常在你的誤差曲線中沒有明顯的拐點。 因此,不可能總是使用肘部法則來確定合適數(shù)量的簇。

在這種情況下,建議依靠你的直覺或者待解決的問題的上下文。 例如,在T恤尺寸案例中,你可能很清楚你想將T恤分為5種尺寸 - 超小型,小型,中型,大型和超大型。但這并不是數(shù)據(jù)給你提示清楚的,但基于你的直覺,你可以初始化為五個簇數(shù)量,并得到合適的聚類。

總而言之,對于到一個聚類問題,K均值聚類提供了一種可迭代的并且有效的算法來發(fā)掘數(shù)據(jù)中的結(jié)構(gòu)。

雷鋒網(wǎng)注:這篇博文是基于吳恩達在 Coursera 機器學習課程中教授的概念。

via kdnuggets

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機器學習算法實踐 K均值聚類的實用技巧

分享:

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說