丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

本文作者: AI研習(xí)社 2017-05-16 15:28
導(dǎo)語(yǔ):你覺得哪支 NBA 球隊(duì)的實(shí)力最強(qiáng)?

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

雷鋒網(wǎng)按:本文作者黎榮恒,原文載于作者個(gè)人博客,雷鋒網(wǎng)已獲授權(quán)。

分類作為一種監(jiān)督學(xué)習(xí)方法,要求必須事先明確知道各個(gè)類別的信息,并且斷言所有待分類項(xiàng)都有一個(gè)類別與之對(duì)應(yīng)。但是很多時(shí)候上述條件得不到滿足,尤其是在處理海量數(shù)據(jù)的時(shí)候,如果通過(guò)預(yù)處理使得數(shù)據(jù)滿足分類算法的要求,則代價(jià)非常大,這時(shí)候可以考慮使用聚類算法。

聚類屬于無(wú)監(jiān)督學(xué)習(xí),相比于分類,聚類不依賴預(yù)定義的類和類標(biāo)號(hào)的訓(xùn)練實(shí)例。本文首先介紹聚類的基礎(chǔ)——距離與相異度,然后介紹一種常見的聚類算法——k-means算法,并利用k-means算法分析NBA近四年球隊(duì)實(shí)力。因?yàn)楸救吮容^喜歡觀看NBA比賽,所以用這個(gè)當(dāng)做例子了,通過(guò)這個(gè)例子大家可以用到各種實(shí)際的生活和生產(chǎn)環(huán)境中。

在正式討論聚類前,我們要先弄清楚一個(gè)問(wèn)題:如何定量計(jì)算兩個(gè)可比較元素間的相異度。

用通俗的話說(shuō),相異度就是兩個(gè)東西差別有多大,例如人類與章魚的相異度明顯大于人類與黑猩猩的相異度,這是能我們直觀感受到的。但是,計(jì)算機(jī)沒有這種直觀感受能力,我們必須對(duì)相異度在數(shù)學(xué)上進(jìn)行定量定義。設(shè)

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

其中X,Y是兩個(gè)元素項(xiàng),各自具有n個(gè)可度量特征屬性,那么X和Y的相異度定義為:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

其中R為實(shí)數(shù)域。也就是說(shuō)相異度是兩個(gè)元素對(duì)實(shí)數(shù)域的一個(gè)映射,所映射的實(shí)數(shù)定量表示兩個(gè)元素的相異度。下面介紹不同類型變量相異度計(jì)算方法:

  1.標(biāo)量

標(biāo)量也就是無(wú)方向意義的數(shù)字,也叫標(biāo)度變量?,F(xiàn)在先考慮元素的所有特征屬性都是標(biāo)量的情況。例如,計(jì)算X={2,1,102}和Y={1,3,2}的相異度。一種很自然的想法是用兩者的歐幾里得距離來(lái)作為相異度,歐幾里得距離的定義如下:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

其意義就是兩個(gè)元素在歐氏空間中的集合距離,因?yàn)槠渲庇^易懂且可解釋性強(qiáng),被廣泛用于標(biāo)識(shí)兩個(gè)標(biāo)量元素的相異度。將上面兩個(gè)示例數(shù)據(jù)代入公式,可得兩者的歐氏距離為:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

除歐氏距離外,常用作度量標(biāo)量相異度的還有曼哈頓距離和閔可夫斯基距離,兩者定義如下:
曼哈頓距離:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

閔可夫斯基距離:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

歐氏距離和曼哈頓距離可以看做是閔可夫斯基距離在p=2和p=1下的特例。另外這三種距離都可以加權(quán),這個(gè)很容易理解,不再贅述。

下面要說(shuō)一下標(biāo)量的規(guī)格化問(wèn)題。上面這樣計(jì)算相異度的方式有一點(diǎn)問(wèn)題,就是取值范圍大的屬性對(duì)距離的影響高于取值范圍小的屬性。例如上述例子中第三個(gè)屬性的取值跨度遠(yuǎn)大于前兩個(gè),這樣不利于真實(shí)反映真實(shí)的相異度,為了解決這個(gè)問(wèn)題,一般要對(duì)屬性值進(jìn)行規(guī)格化。所謂規(guī)格化就是將各個(gè)屬性值按比例映射到相同的取值區(qū)間,這樣是為了平衡各個(gè)屬性對(duì)距離的影響。通常將各個(gè)屬性均映射到[0,1]區(qū)間,映射公式為:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

其中max(ai)和min(ai)表示所有元素項(xiàng)中第i個(gè)屬性的最大值和最小值。例如,將示例中的元素規(guī)格化到[0,1]區(qū)間后,就變成了X’={1,0,1},Y’={0,1,0},重新計(jì)算歐氏距離約為1.732。

  2.二次變量

所謂二元變量是只能取0和1兩種值變量,有點(diǎn)類似布爾值,通常用來(lái)標(biāo)識(shí)是或不是這種二值屬性。對(duì)于二元變量,上一節(jié)提到的距離不能很好標(biāo)識(shí)其相異度,我們需要一種更適合的標(biāo)識(shí)。一種常用的方法是用元素相同序位同值屬性的比例來(lái)標(biāo)識(shí)其相異度。

設(shè)有X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1},可以看到,兩個(gè)元素第2、3、5、7和8個(gè)屬性取值相同,而第1、4和6個(gè)取值不同,那么相異度可以標(biāo)識(shí)為3/8=0.375。一般的,對(duì)于二元變量,相異度可用“取值不同的同位屬性數(shù)/單個(gè)元素的屬性位數(shù)”標(biāo)識(shí)。

上面所說(shuō)的相異度應(yīng)該叫做對(duì)稱二元相異度?,F(xiàn)實(shí)中還有一種情況,就是我們只關(guān)心兩者都取1的情況,而認(rèn)為兩者都取0的屬性并不意味著兩者更相似。例如在根據(jù)病情對(duì)病人聚類時(shí),如果兩個(gè)人都患有肺癌,我們認(rèn)為兩個(gè)人增強(qiáng)了相似度,但如果兩個(gè)人都沒患肺癌,并不覺得這加強(qiáng)了兩人的相似性,在這種情況下,改用“取值不同的同位屬性數(shù)/(單個(gè)元素的屬性位數(shù)-同取0的位數(shù))”來(lái)標(biāo)識(shí)相異度,這叫做非對(duì)稱二元相異度。如果用1減去非對(duì)稱二元相異度,則得到非對(duì)稱二元相似度,也叫Jaccard系數(shù),是一個(gè)非常重要的概念。

  3.分類變量

分類變量是二元變量的推廣,類似于程序中的枚舉變量,但各個(gè)值沒有數(shù)字或序數(shù)意義,如顏色、民族等等,對(duì)于分類變量,用“取值不同的同位屬性數(shù)/單個(gè)元素的全部屬性數(shù)”來(lái)標(biāo)識(shí)其相異度。

  4.序數(shù)變量

序數(shù)變量是具有序數(shù)意義的分類變量,通常可以按照一定順序意義排列,如冠軍、亞軍和季軍。對(duì)于序數(shù)變量,一般為每個(gè)值分配一個(gè)數(shù),叫做這個(gè)值的秩,然后以秩代替原值當(dāng)做標(biāo)量屬性計(jì)算相異度。

  5.向量

對(duì)于向量,由于它不僅有大小而且有方向,所以閔可夫斯基距離不是度量其相異度的好辦法,一種流行的做法是用兩個(gè)向量的余弦度量,其度量公式為:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

其中||X||表示X的歐幾里得范數(shù)。要注意,余弦度量度量的不是兩者的相異度,而是相似度!

討論完相異度,我們可以正式定義聚類問(wèn)題,所謂聚類問(wèn)題,就是給定一個(gè)元素集合D,其中每個(gè)元素具有n個(gè)可觀察屬性,使用某種算法將D劃分成k個(gè)子集,要求每個(gè)子集內(nèi)部的元素之間相異度盡可能低,而不同子集的元素相異度盡可能高。其中每個(gè)子集叫做一個(gè)簇。與分類不同,分類是示例式學(xué)習(xí),要求分類前明確各個(gè)類別,并斷言每個(gè)元素映射到一個(gè)類別,而聚類是觀察式學(xué)習(xí),在聚類前可以不知道類別甚至不給定類別數(shù)量,是無(wú)監(jiān)督學(xué)習(xí)的一種。目前聚類廣泛應(yīng)用于統(tǒng)計(jì)學(xué)、生物學(xué)、數(shù)據(jù)庫(kù)技術(shù)和市場(chǎng)營(yíng)銷等領(lǐng)域,相應(yīng)的算法也非常的多。本文僅介紹一種最簡(jiǎn)單的聚類算法——k均值(k-means)算法。

  舉個(gè)栗子:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

我們先弄清楚 k-means 的計(jì)算過(guò)程:

1. 從集合 D 中隨機(jī)選取 k 個(gè)元素,作為 k 個(gè)簇的各自的中心;

2. 分別計(jì)算剩下的元素到 k 個(gè)簇中心的相異度,將這些元素分別劃歸到相異度最低的簇;

3. 根據(jù)聚類結(jié)果,重新計(jì)算 k 個(gè)簇各自的中心,計(jì)算方法是取簇中所有的元素各自維度的算術(shù)平均數(shù);

4. 將 D 中全部元素按照新的中心重新聚類;

5. 重復(fù)第 4 步,直到聚類結(jié)果不再變化;

6. 將結(jié)果輸出。

下面列表是 NBA 近四年的常規(guī)賽和季后賽戰(zhàn)績(jī)(因?yàn)?6/17季后賽還沒打完,所以該數(shù)據(jù)暫不收錄):

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

下面對(duì)數(shù)據(jù)進(jìn)行 [0,1] 規(guī)范化,下面是規(guī)范化后的數(shù)據(jù):

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

接著用 k-means 算法進(jìn)行聚類,設(shè)k = 5,即將30支球隊(duì)分成5個(gè)集團(tuán)?,F(xiàn)抽取勇士、快船、掘金、國(guó)王、76人的值作為五個(gè)簇的種子,即初始化五個(gè)簇的中心為:A{0.18,0.00,0.00,0.00,0.81,0.00,0.06},B{0.08,0.16,0.27,0.24,0.62,0.56,0.88},C{0.42,0.55,0.55,0.40,1.00,1.00,1.00},D{0.55,0.57,0.55,0.52,1.00,1.00,1.00},E{0.69,0.73,0.86,0.58,1.00,1.00,1.00},下面分別計(jì)算所有球隊(duì)分別對(duì)五個(gè)中心點(diǎn)的相異度,這里以歐幾里得距離作為相異度,以下為我求得的結(jié)果:

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

從聚類得到結(jié)果可以看出,近四年實(shí)力最強(qiáng)的球隊(duì)為騎士和勇士隊(duì),或者很多球迷會(huì)有其他的意見,但至少?gòu)臄?shù)據(jù)層面來(lái)講,騎士和勇士隊(duì)是近四年實(shí)力最強(qiáng)的球隊(duì),為第一集團(tuán);接下來(lái)的球隊(duì)基本上為每年必進(jìn)季后賽的球隊(duì),包括馬刺、雷霆、快船、公牛等球隊(duì),為第二集團(tuán);第三集團(tuán)則凱爾特人、黃蜂、小牛等著偶爾進(jìn)入季后賽的球隊(duì);接下來(lái)就是基本無(wú)緣季后賽和每年基本墊底的第四集團(tuán)和第五集團(tuán)了。

本文只是講述關(guān)于聚類小案例的應(yīng)用,其實(shí)聚類有著非常廣泛的應(yīng)用,包括圖像分割,生物種群分類,其實(shí)早期移動(dòng)公司也是根據(jù)聚類推出適合不同人群使用的電話卡(動(dòng)感地帶、全球通、神州行等)。

本例源碼地址:

http://download.csdn.net/detail/u013043346/9833529 

參考文章:

http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 

TensorFlow & 神經(jīng)網(wǎng)絡(luò)算法高級(jí)應(yīng)用班” 要開課啦!

從初級(jí)到高級(jí),理論 + 實(shí)戰(zhàn),一站式深度了解 TensorFlow!

本課程面向深度學(xué)習(xí)開發(fā)者,講授如何利用 TensorFlow 解決圖像識(shí)別、文本分析等具體問(wèn)題。課程跨度為 10 周,將從 TensorFlow 的原理與基礎(chǔ)實(shí)戰(zhàn)技巧開始,一步步教授學(xué)員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型,并最終掌握一整套基于 TensorFlow 做深度學(xué)習(xí)開發(fā)的專業(yè)技能。

兩名授課老師佟達(dá)、白發(fā)川身為 ThoughtWorks 的資深技術(shù)專家,具有豐富的大數(shù)據(jù)平臺(tái)搭建、深度學(xué)習(xí)系統(tǒng)開發(fā)項(xiàng)目經(jīng)驗(yàn)。

時(shí)間:每周二、四晚 20:00-21:00

開課時(shí)長(zhǎng):總學(xué)時(shí) 20 小時(shí),分 10 周完成,每周 2 次,每次 1 小時(shí)

線上授課地址:http://www.mooc.ai/

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))相關(guān)閱讀:

機(jī)器學(xué)習(xí)算法實(shí)踐 K均值聚類的實(shí)用技巧

史上最簡(jiǎn)潔易懂教程 用Excel理解梯度下降

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

用 Python 分析過(guò)去四年的比賽數(shù)據(jù),實(shí)力最強(qiáng)的 NBA 球隊(duì)原來(lái)是它

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請(qǐng)?jiān)L問(wèn):yanxishe.com
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)