丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給三川
發(fā)送

0

無(wú)監(jiān)督聚類(lèi)問(wèn)題中,如何決定簇的最優(yōu)數(shù)量?

本文作者: 三川 2017-05-15 18:20
導(dǎo)語(yǔ):聚類(lèi)問(wèn)題有一大經(jīng)典難題:沒(méi)有 ground truth ,我們?cè)趺床拍苤罃?shù)據(jù)簇的最優(yōu)數(shù)目?

雷鋒網(wǎng)按:聚類(lèi)問(wèn)題有一大經(jīng)典難題:沒(méi)有數(shù)據(jù)集的真實(shí)分類(lèi)情況,我們?cè)趺床拍苤罃?shù)據(jù)簇的最優(yōu)數(shù)目?

本文會(huì)談?wù)劷鉀Q該問(wèn)題的兩種流行方法:elbow method(肘子法)和 silhouette method。

在監(jiān)督學(xué)習(xí)里,某特定數(shù)據(jù)集的類(lèi)(class)的數(shù)量,在一開(kāi)始就是知道的——每個(gè)數(shù)據(jù)實(shí)例,都被標(biāo)記歸屬于某個(gè)類(lèi)。最壞的情況下,我們還可以盤(pán)查類(lèi)屬性( class attribute),計(jì)算其中包含的獨(dú)特元素。

無(wú)監(jiān)督聚類(lèi)問(wèn)題中,如何決定簇的最優(yōu)數(shù)量?

但在無(wú)監(jiān)督學(xué)習(xí)里,類(lèi)屬性或者明確的類(lèi)成員劃分是不存在的。想想也是,無(wú)監(jiān)督學(xué)習(xí)的一個(gè)主要形式,就是數(shù)據(jù)聚類(lèi)。它的目標(biāo)是通過(guò)最小化不同類(lèi)之間的實(shí)例相似度、最大化同個(gè)類(lèi)中的實(shí)例相似度,來(lái)進(jìn)行大致的類(lèi)成員劃分。

眾所周知,聚類(lèi)問(wèn)題有一個(gè)很大的技術(shù)難題——不管是以什么形式,開(kāi)發(fā)者需要在一開(kāi)始,就給出無(wú)標(biāo)記數(shù)據(jù)集中的類(lèi)的數(shù)目。足夠幸運(yùn)的話,你或許事先就知道數(shù)據(jù)的 ground truth——類(lèi)的真實(shí)數(shù)目。但情況并不會(huì)總是如此。譬如說(shuō),或許數(shù)據(jù)中不存在定義明確的類(lèi)(簇)。而無(wú)監(jiān)督學(xué)習(xí)本來(lái)的意義,便是探索數(shù)據(jù),找出使簇、類(lèi)得數(shù)目達(dá)到最優(yōu)的結(jié)構(gòu)。

這就回到了文章開(kāi)頭的問(wèn)題:不知道  ground truth 的情況下,怎么才能知道數(shù)據(jù)簇的最優(yōu)數(shù)目是多少?這方面,倒是已經(jīng)林林總總有相當(dāng)多的處理方法。本文會(huì)討論其中應(yīng)用極廣泛的兩種方法。第一種,是 Elbow Method。

Elbow Method

elbow method 是上手首選,由于能通過(guò)可視化便利地解釋、驗(yàn)證,它的用處很大。它用關(guān)于簇?cái)?shù)目的函數(shù)來(lái)解釋方差(k-means 里的 k)。它會(huì)繪制出能被 k 解釋的方差的比例。第一批的 N 個(gè)簇應(yīng)當(dāng)會(huì)為解釋方差添加大量信息。但是,有些 k 最終值會(huì)導(dǎo)致少得多的信息增量。這時(shí),數(shù)據(jù)圖會(huì)有明顯的角度。該角度就是簇的最優(yōu)數(shù)量。

雷鋒網(wǎng)提醒,有一點(diǎn)應(yīng)該是不言而喻、無(wú)須解釋的:為了按照不同的簇?cái)?shù)量繪制方差,需要對(duì)不同數(shù)目的簇進(jìn)行測(cè)試。在繪制、比較結(jié)果之后,必須要有該聚類(lèi)方法的成功、完整地迭代。

無(wú)監(jiān)督聚類(lèi)問(wèn)題中,如何決定簇的最優(yōu)數(shù)量?

Silhouette Method

Silhouette method 會(huì)衡量對(duì)象和所屬簇之間的相似度——即內(nèi)聚性(cohesion)。當(dāng)把它與其他簇做比較,就稱(chēng)為分離性(separation)。該對(duì)比通過(guò) silhouette 值來(lái)實(shí)現(xiàn),后者在 [-1, 1] 范圍內(nèi)。Silhouette 值接近 1,說(shuō)明對(duì)象與所屬簇之間有密切聯(lián)系;反之則接近 -1。若某模型中的一個(gè)數(shù)據(jù)簇,生成的基本是比較高的 silhouette 值,說(shuō)明該模型是合適、可接受的。

無(wú)監(jiān)督聚類(lèi)問(wèn)題中,如何決定簇的最優(yōu)數(shù)量?

via kdnuggets;雷鋒網(wǎng)編譯


深度學(xué)習(xí)之神經(jīng)網(wǎng)絡(luò)特訓(xùn)班

20年清華大學(xué)神經(jīng)網(wǎng)絡(luò)授課導(dǎo)師鄧志東教授,帶你系統(tǒng)學(xué)習(xí)人工智能之神經(jīng)網(wǎng)絡(luò)理論及應(yīng)用!

課程鏈接:http://www.mooc.ai/course/65

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長(zhǎng)


相關(guān)文章:

機(jī)器學(xué)習(xí)算法實(shí)踐 K均值聚類(lèi)的實(shí)用技巧

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

無(wú)監(jiān)督聚類(lèi)問(wèn)題中,如何決定簇的最優(yōu)數(shù)量?

分享:
相關(guān)文章

用愛(ài)救世界
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)