1
本文作者: 北冥乘海生 | 2016-10-23 15:40 |
雷鋒網(wǎng)按:本文原載于KDnuggets,譯者為白雪(某大型國(guó)企10年+IT從業(yè)者,初稿譯者)和龍星鏢局(互聯(lián)網(wǎng)從業(yè)者,終稿譯者)。
在KDnuggets上,《檢測(cè)偽數(shù)據(jù)科學(xué)家的20個(gè)問(wèn)題》是1月份閱讀量最高的文章,由于作者只是提問(wèn)而沒(méi)有給出答案,這篇文章也讓廚子和火車(chē)司機(jī)們混入數(shù)據(jù)科學(xué)家隊(duì)伍的難度大增。
現(xiàn)在好了!KDnuggets的編輯們湊在一塊解答了這些問(wèn)題。另外,我還增加了一個(gè)經(jīng)常被忽略的問(wèn)題。問(wèn)題正好是21個(gè),您一天掌握一個(gè),正好三周時(shí)間,又可以找到混入數(shù)據(jù)科學(xué)家隊(duì)伍的捷徑了!
請(qǐng)大家特別注意文中用藍(lán)色字體標(biāo)出的關(guān)鍵詞,即便你對(duì)于內(nèi)容完全無(wú)法理解,只要在日常交流中經(jīng)常使用這些術(shù)語(yǔ),做到耗子啃尿盆兒——一肚子騷詞兒,也能算半個(gè)數(shù)據(jù)科學(xué)家了。
第二部分內(nèi)容包括防止過(guò)擬合(overfitting),實(shí)驗(yàn)設(shè)計(jì)(experimental design),高/寬數(shù)據(jù)(tall and wide data),理解媒體給出統(tǒng)計(jì)數(shù)據(jù)的有效性等等。由KDnuggets的Gregory Piatetsky編輯。這是第二部分問(wèn)題及答案,先從附加日的問(wèn)題開(kāi)始。
附加日:什么是過(guò)擬合?怎么防止過(guò)擬合?【Gregory Piatetsky解答】
答:過(guò)擬合是發(fā)現(xiàn)偶然欺騙性的、不能被后續(xù)研究實(shí)驗(yàn)復(fù)現(xiàn)的結(jié)果。
我們?cè)谛侣剤?bào)道上經(jīng)常看到,有些工作推翻了以前的研究結(jié)論,像雞蛋不再對(duì)健康不利,或者飽和脂肪(saturated fat)與心臟疾病無(wú)關(guān)。我們認(rèn)為這些問(wèn)題是由于許多研究人員(尤其是社會(huì)科學(xué)或醫(yī)學(xué)領(lǐng)域的)經(jīng)常犯數(shù)據(jù)挖掘(data mining)的大忌—過(guò)擬合導(dǎo)致的。研究者在沒(méi)有合適的統(tǒng)計(jì)控制下進(jìn)行了太多的假設(shè)檢驗(yàn),直到他們偶然發(fā)現(xiàn)了一些有趣的東西并報(bào)告出來(lái)。不足為奇的是,這次偶然的效應(yīng)下次被發(fā)現(xiàn)的可能性會(huì)很小,或根本觀測(cè)不到。
這些研究實(shí)驗(yàn)的缺陷被John P. A. Loannidis認(rèn)識(shí)到,并寫(xiě)在了他具有里程碑意義的論文“為什么大多數(shù)發(fā)表的研究結(jié)果都是錯(cuò)的”(PLoS Medicine, 2005)中。Loannidis經(jīng)常發(fā)現(xiàn),要么是實(shí)驗(yàn)結(jié)果很夸張,要么是研究發(fā)現(xiàn)沒(méi)法復(fù)現(xiàn)。在他的論文中,他給出的統(tǒng)計(jì)證據(jù)確實(shí)證實(shí)大多數(shù)聲稱(chēng)的研究發(fā)現(xiàn)是錯(cuò)的。
Loannidis發(fā)現(xiàn)要使一項(xiàng)研究發(fā)現(xiàn)是可靠的,它必須具備以下條件:
大樣本量(sample size)和顯著的效果(effects)
更大數(shù)量的、更少選擇的檢驗(yàn)關(guān)系
更靈活的設(shè)計(jì),定義,輸出和分析方式
限于資金和其他因素(包括該科學(xué)領(lǐng)域的普及性)的最小偏差
遺憾的是,這些規(guī)則往往沒(méi)有被遵守,這就產(chǎn)生了很多無(wú)法復(fù)現(xiàn)的結(jié)果。例如:從1981年至1993年,指標(biāo)S&P500被發(fā)現(xiàn)與孟加拉國(guó)的黃油產(chǎn)量密切相關(guān)。
使用諸如Google correlate或Spurious correlations這樣的工具,我們自己也可以發(fā)現(xiàn)更多有趣甚至是完全虛假的的結(jié)果。
有幾個(gè)方法可以用來(lái)防止“過(guò)擬合”:
盡力找出最簡(jiǎn)單的可能假設(shè)(hypothesis)。
正則化(為復(fù)雜性增加懲罰項(xiàng))
隨機(jī)測(cè)試(Randomization Testing, 隨機(jī)化類(lèi)標(biāo)記,并測(cè)試你的方法-如果出現(xiàn)了一樣強(qiáng)有力的結(jié)果,那么一定是什么地方出錯(cuò)了)
嵌套交叉驗(yàn)證(Nested cross-validation, 在里層做特征選擇,然后在外層運(yùn)行整個(gè)交叉驗(yàn)證方法)
調(diào)節(jié)偽發(fā)現(xiàn)率(False Discovery Rate)
使用可重用保持法(reusable holdout method)—2015年提出的突破性方法
好的數(shù)據(jù)科學(xué)是站在科學(xué)認(rèn)知世界的前沿,避免過(guò)擬合數(shù)據(jù)、讓公眾和媒體認(rèn)識(shí)到壞的數(shù)據(jù)分析的危害性是數(shù)據(jù)科學(xué)家們的責(zé)任。
第十二天:舉例說(shuō)明怎樣設(shè)計(jì)實(shí)驗(yàn)來(lái)回答有關(guān)用戶(hù)行為(user behavior)的問(wèn)題【Bhavya Geethika解答】
答:步驟1,制定要研究的問(wèn)題:頁(yè)面加載時(shí)間對(duì)用戶(hù)滿意度評(píng)級(jí)的影響是什么?
步驟2,識(shí)別變量:我們要識(shí)別出原因和結(jié)果,自變量是頁(yè)面加載時(shí)間,因變量是用戶(hù)滿意度評(píng)級(jí)。
步驟3,構(gòu)造假設(shè):對(duì)一個(gè)網(wǎng)頁(yè)來(lái)說(shuō),較低的頁(yè)面加載時(shí)間會(huì)對(duì)用戶(hù)滿意度有更多影響。這里我們要分析的因素就是頁(yè)面加載時(shí)間。
圖12 你的實(shí)驗(yàn)設(shè)計(jì)有一個(gè)缺陷
步驟4,確定實(shí)驗(yàn)的設(shè)計(jì):考慮實(shí)驗(yàn)的復(fù)雜性,即一次改變一個(gè)因素或者在同一時(shí)間改變多個(gè)因素,這樣我們用的是因子設(shè)計(jì)(factorial design, 又稱(chēng)2?設(shè)計(jì))。設(shè)計(jì)的選擇要基于目標(biāo)的類(lèi)型(比較、篩選、響應(yīng)面)[原文:Comparative, Screening, Response surface]和因素(factors)的個(gè)數(shù)。
我們還要確定采用何種實(shí)驗(yàn)形式,可以是參與者組內(nèi)、參與者組間或者混合方式。例如:有兩個(gè)版本的網(wǎng)頁(yè),一個(gè)在左邊有購(gòu)買(mǎi)按鈕(點(diǎn)擊購(gòu)買(mǎi))另一個(gè)網(wǎng)頁(yè)這個(gè)按鈕在右邊。
參與者組內(nèi)設(shè)計(jì)(Within-participants design) – 用戶(hù)組的用戶(hù)都可以看到兩個(gè)版本的網(wǎng)頁(yè)。
參與者組間設(shè)計(jì)(Between-participants design) – 一個(gè)用戶(hù)組看到A版本,另一組的用戶(hù)看到B版本的。
步驟5,制定實(shí)驗(yàn)任務(wù)和程序:
實(shí)驗(yàn)中涉及的步驟的詳細(xì)描述,用來(lái)衡量用戶(hù)行為的工具, 目標(biāo)和成功度量這些都要定義。收集有關(guān)用戶(hù)參與的定性數(shù)據(jù),以便進(jìn)行統(tǒng)計(jì)分析。
步驟6,確定操作和測(cè)量:操作(manipulation): 控制一個(gè)層級(jí)的因素,處理另一個(gè)。我們還要定義行為的衡量標(biāo)準(zhǔn)。
延遲(Latency)-從提示到行為發(fā)生的時(shí)間(從展示出商品到用戶(hù)點(diǎn)擊購(gòu)買(mǎi)按鈕用了多長(zhǎng)時(shí)間)。
頻次(Frequency)-一個(gè)行為發(fā)生的次數(shù)(在某個(gè)時(shí)間內(nèi)點(diǎn)擊特定頁(yè)面的次數(shù))。
持續(xù)時(shí)長(zhǎng)(Duration)-特定行為持續(xù)時(shí)間(添加所有商品所用的時(shí)間)。
強(qiáng)度(Intensity)-行為發(fā)生的強(qiáng)烈程度(用戶(hù)多快購(gòu)買(mǎi)一個(gè)商品)。
步驟7,分析結(jié)果:
識(shí)別用戶(hù)行為數(shù)據(jù),根據(jù)觀測(cè)到的結(jié)果,支持或反對(duì)該假設(shè)。例如:不同頁(yè)面加載時(shí)間下用戶(hù)滿意度評(píng)級(jí)的分布是怎樣的。
第十三天:“高/寬”數(shù)據(jù)(tall/wide data)的差別是什么?【 Gregory Piatetsky解答】
答:在大多數(shù)數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)的應(yīng)用中,記錄(行)比特征(列)多很多-這種數(shù)據(jù)有時(shí)被稱(chēng)做“高”數(shù)據(jù)。
在像基因組學(xué)或者生物信息學(xué)的一些應(yīng)用中,你可能只有很少的記錄(病人),例如100,但又可能會(huì)對(duì)每個(gè)病人做20,000個(gè)觀察。這時(shí),通常用在“高”數(shù)據(jù)上的標(biāo)準(zhǔn)方法會(huì)導(dǎo)致過(guò)度擬合數(shù)據(jù),所以需要引入特殊的方法。
圖13. 針對(duì)高數(shù)據(jù)和寬數(shù)據(jù)的不同方法
問(wèn)題不僅僅是變形(reshape)數(shù)據(jù)(這里有R包 useful R packages),而是通過(guò)減少特征數(shù)來(lái)尋找最相關(guān)的特征,以避免假陽(yáng)性(false positives)。特征約減(feature reduction)的方法像Lasso在"Statistical Learning with Sparsity: The Lasso and Generalizations"一書(shū)中有介紹, 請(qǐng)?jiān)诠娞?hào)后臺(tái)發(fā)送信息“data2”獲取。
第十四天:怎樣確定一篇文章里(報(bào)紙或其他媒體上)的統(tǒng)計(jì)數(shù)據(jù)是錯(cuò)的或者只是為了支持作者的觀點(diǎn),而不是關(guān)于某主題正確全面的真實(shí)信息?
答:Zack Lipton提出了一個(gè)簡(jiǎn)單的原則:如果這些統(tǒng)計(jì)數(shù)據(jù)發(fā)表在報(bào)紙上,那么它就是錯(cuò)的。這里有一個(gè)來(lái)自Anmol Rajpurohit的更嚴(yán)謹(jǐn)?shù)慕獯稹?/span>
每個(gè)媒體都有目標(biāo)受眾,對(duì)受眾的選擇在很大程度上決定了發(fā)布哪些文章、文章怎樣措辭、重點(diǎn)突出文章的哪部分、怎樣去講這個(gè)事件等。
要判定發(fā)表在一篇文章上統(tǒng)計(jì)數(shù)據(jù)的有效性,第一步先要看發(fā)表它的機(jī)構(gòu)和它的目標(biāo)受眾。你會(huì)發(fā)現(xiàn)即使是同樣一個(gè)包含統(tǒng)計(jì)數(shù)據(jù)的新聞事件,??怂剐侣?Fox news)、華爾街新聞(wsj)和ACM/IEEE發(fā)布的會(huì)不那么一樣。因此,數(shù)據(jù)科學(xué)家能聰明地知道從哪里獲取資訊(以及要相信它幾分)。
圖14a:出現(xiàn)在“??怂剐侣劇鄙弦粋€(gè)十分具有誤導(dǎo)性的柱狀圖
圖14b:如何客觀地呈現(xiàn)相同的數(shù)據(jù)
作者通常通過(guò)下面的方法試圖隱藏他們研究的不足:巧妙的敘事技巧和忽略重要的細(xì)節(jié)直接跳到誘人的錯(cuò)誤結(jié)論。因此,可以使用“拇指規(guī)則”(thumb’s rule)識(shí)別文章是否包含誤導(dǎo)人的統(tǒng)計(jì)數(shù)據(jù),檢查文章是否包含了研究方法上的細(xì)節(jié)以及研究方法是否存在有感知限制的選擇。注意查找像“樣本容量(sample size)”,“誤差范圍(margin of error)”等詞。盡管對(duì)“樣本容量”,“誤差范圍”多少合適沒(méi)有完美的答案,這些屬性在閱讀最終結(jié)論時(shí)要牢記于心。
另一個(gè)常見(jiàn)的錯(cuò)誤報(bào)道案例是這樣的,缺乏數(shù)據(jù)素養(yǎng)(data-education)的記者從已發(fā)表的研究報(bào)告的一兩段中得到一個(gè)見(jiàn)解,并且為了得到他們的觀點(diǎn)而忽略報(bào)告的其他部分。因此,以下一些方法能夠避免你被這樣的文章愚弄:首先,一篇可靠的文章不會(huì)含有任何無(wú)事實(shí)根據(jù)的觀點(diǎn)。所有觀點(diǎn)都必須能夠?qū)?yīng)研究結(jié)果的支持。否則,則必須明確將其區(qū)分為“意見(jiàn)”,而不是一個(gè)觀點(diǎn)。其次,即便一篇文章引用了著名的研究論文,也并不代表它正確地運(yùn)用了論文中的觀點(diǎn)。這能通過(guò)全面閱讀這些研究論文來(lái)判斷其與手頭文章的相關(guān)性。最后,雖然結(jié)論看起來(lái)是一篇文章最有趣的部分,但直接跳過(guò)研究方法(research methodology)的細(xì)節(jié)(例如明顯錯(cuò)誤,偏差等)[原文:spot errors, bias, etc.]往往是災(zāi)難性的。
理想情況下,我希望所有這些文章發(fā)表研究數(shù)據(jù)的時(shí)候也同時(shí)公布研究方法。這樣,文章才能做到真正可信,因?yàn)槊總€(gè)人都可以分析這些數(shù)據(jù),應(yīng)用研究方法得出結(jié)論。
第十五天:解釋Edward Tufte's的“圖表垃圾”(chart junk)的概念【Gregory Piatetsky解答】
圖表垃圾指的是圖表或圖片中所有可視元素對(duì)表達(dá)信息是不必要的,或者干擾觀察者獲取信息。圖表垃圾這個(gè)名詞是由Edward Tufte在他1983年的書(shū)《定量信息的視覺(jué)展示》里提出的。
圖15 Tufte寫(xiě)到:“一個(gè)無(wú)意的內(nèi)克爾錯(cuò)覺(jué),像后面兩個(gè)平面翻轉(zhuǎn)到了前面來(lái)。有的角錐體遮住了其他的;一個(gè)變量(角錐體堆疊的深度)沒(méi)有注明標(biāo)識(shí)或比例”。
上圖一個(gè)來(lái)自exceluser的更現(xiàn)代的例子,由于工人和吊車(chē)的干擾,圖中的柱狀圖很難理解
這些修飾的存在迫使讀者花更大力氣而非必要地來(lái)發(fā)現(xiàn)數(shù)據(jù)的意義。
第十六天:怎樣篩查異常點(diǎn)(outliers)以及發(fā)現(xiàn)異常點(diǎn)后該如何處理?【Bhavya Geethika解答】
答:一些篩查異常點(diǎn)的方法有Z分?jǐn)?shù)(z-score)、改進(jìn)的Z分?jǐn)?shù)(modified z-score)、箱線圖(box plots)、格拉布斯測(cè)試(Grubb’s test)、Tietjen-Moore測(cè)試指數(shù)平滑(Tietjen-Moore test exponential smoothing)、Kimber測(cè)試指數(shù)分布(Kimber test for exponential distribution)和移動(dòng)窗口濾波算法(moving window filter algorithm)。下面是兩種穩(wěn)健(robust)方法的細(xì)節(jié):
四分位距法(Inter Quartile Range)
異常值是給定數(shù)據(jù)集中一個(gè)小于第一四分位數(shù)(Q1)或者大于第三四分位數(shù)(Q3)1.5倍四分位距以上的數(shù)據(jù)點(diǎn)。
High = (Q3) + 1.5 IQR
Low = (Q1) - 1.5 IQR
Tukey法(Tukey Methond)
它使用四分位距來(lái)過(guò)濾太大或太小的數(shù)。它實(shí)際上與上面的方法一樣,除了它使用了“圍欄(fences)”的概念。有兩個(gè)一高一低的圍欄:
Low outliers = Q1 - 1.5(Q3 - Q1) = Q1 - 1.5(IQR)
High outliers = Q3 + 1.5(Q3 - Q1) = Q3 + 1.5(IQR)
在圍欄之外的都是異常點(diǎn)。
當(dāng)發(fā)現(xiàn)了異常值,不能在沒(méi)有進(jìn)行定性評(píng)估下就將它們移除,因?yàn)檫@樣做是數(shù)據(jù)不再純凈。重要的是要理解分析問(wèn)題的上下文或者說(shuō)重要的是“為什么的問(wèn)題-為什么異常值不同于其他數(shù)據(jù)點(diǎn)?”
這個(gè)原因很關(guān)鍵。如果是異常點(diǎn)導(dǎo)致了錯(cuò)誤的發(fā)生,就可以把它扔掉。但如果異常點(diǎn)表示了一種新的趨勢(shì)、模式或者揭示了數(shù)據(jù)中有價(jià)值的結(jié)論,那么它就應(yīng)該被保留。
第十七天:怎樣運(yùn)用極值理論(extreme value theory)、蒙特卡洛模擬(Monte Carlo simulations)或其他數(shù)理統(tǒng)計(jì)方法來(lái)正確的估計(jì)一個(gè)小概率事件(rare event)的發(fā)生幾率?!綧atthew Mayo解答】
答:極值理論關(guān)注的是小概率事件或極值,這點(diǎn)和經(jīng)典統(tǒng)計(jì)方法不太一樣,后者更關(guān)注平均。極值理論認(rèn)為有3種分布可以建模從一些分布中隨機(jī)觀察到的極值點(diǎn):Gumble, Frechet, 和 Weibull分布,也被叫做極值分布(Extreme Value Distributions, EVD)I型、II型和III型。
極值理論認(rèn)為,如果從一個(gè)給定分布中產(chǎn)生N個(gè)數(shù)據(jù)集,然后創(chuàng)建一個(gè)只包含了這N個(gè)數(shù)據(jù)集的最大值的新數(shù)據(jù)集,那么這個(gè)新數(shù)據(jù)集只能被一種EVD分布精確描述:Gumble, Frechet, 或者 Weibull分布。廣義極值分布(GEV)則是一個(gè)可以組合這3種極值理論分布還有極值分布模型的模型。
首先要理解用來(lái)建模數(shù)據(jù)的模型,然后才能使用模型來(lái)建模數(shù)據(jù),最后才是評(píng)估。一旦找到最合適的模型,就能對(duì)模型進(jìn)行分析,包括計(jì)算可能性。
第十八天:什么是推薦引擎(recommendation engine)?它是怎么工作的?【Gregory Piatetsky解答】
我們現(xiàn)在都對(duì)推薦很熟悉,比如netflix的“你可能喜歡的其他電影”,亞馬遜的“購(gòu)買(mǎi)了X的用戶(hù)還買(mǎi)了Y”。這些系統(tǒng)就叫做推薦引擎,或者更通俗地叫做推薦系統(tǒng)(recommender systems)。
兩種典型的進(jìn)行推薦的方法是:協(xié)同過(guò)濾(Collaborative filtering)和基于內(nèi)容的推薦(Content-based filtering)。
協(xié)同過(guò)濾基于用戶(hù)過(guò)去的行為(如買(mǎi)過(guò)的商品、看過(guò)的電影、評(píng)過(guò)的電影等)和用戶(hù)以及其他用戶(hù)的決定建模,然后模型被用于預(yù)測(cè)用戶(hù)可能會(huì)感興趣的物品(或者給物品的評(píng)分)。
基于內(nèi)容的推薦方法基于一個(gè)物品特征來(lái)推薦更多具有類(lèi)似特性的物品(items)。這些方法經(jīng)常包含在混合推薦系統(tǒng)(Hybrid Recommender Systems)中。
這里有兩種方法應(yīng)用到兩個(gè)流行音樂(lè)推薦系統(tǒng)中的比較:Last.fm和Pandora Radio(例子來(lái)自維基百科的推薦系統(tǒng)條目Recommender System)
Last.fm建立了一個(gè)歌曲推薦站。他們觀察一個(gè)用戶(hù)經(jīng)常聽(tīng)的樂(lè)隊(duì)或單曲,并與其他用戶(hù)的聽(tīng)歌行為進(jìn)行比較,然后Last.fm會(huì)給一個(gè)用戶(hù)播放那些不在其曲庫(kù)里,但和其興趣相似的其他用戶(hù)常聽(tīng)的歌曲。由于這種方法利用了用戶(hù)行為,它是一個(gè)協(xié)同過(guò)濾技術(shù)的例子。
Pandora是一個(gè)可以播放具有相似屬性音樂(lè)的站,它主要基于一首歌或藝術(shù)家的屬性(一個(gè)由Music Genome Project提供的400個(gè)屬性的子集)來(lái)推薦。用戶(hù)的反饋用來(lái)修正曲庫(kù)的結(jié)果,當(dāng)用戶(hù)不喜歡一首歌曲時(shí)就減弱對(duì)應(yīng)的屬性(attributes),而當(dāng)用戶(hù)喜歡一首歌曲時(shí)就增強(qiáng)對(duì)應(yīng)的屬性。這是一個(gè)基于內(nèi)容過(guò)濾的例子。
第十九天:說(shuō)明假陽(yáng)性(false positive)和假陰性(false negative)分別是什么?為什么區(qū)分它們的差異性很重要?【 Gregory Piatetsky解答】
答:在二分類(lèi)(或者醫(yī)學(xué)檢驗(yàn))中,假陽(yáng)性是指當(dāng)一個(gè)算法或測(cè)試顯示出現(xiàn)某種狀況,但實(shí)際上并未出現(xiàn)。假陰性是指當(dāng)一個(gè)算法或測(cè)試顯示未出現(xiàn)某種狀,但實(shí)際上卻出現(xiàn)了。
在統(tǒng)計(jì)假設(shè)檢驗(yàn)中,假陽(yáng)性也叫做一類(lèi)錯(cuò)誤,假陰性也叫做二類(lèi)錯(cuò)誤。
很明顯區(qū)分和區(qū)別對(duì)待假陽(yáng)性和假陰性非常重要,因?yàn)檫@兩類(lèi)錯(cuò)誤的代價(jià)可能會(huì)有巨大差異。
舉例來(lái)講,如果對(duì)一項(xiàng)重大疾病的檢測(cè)是假陽(yáng)性(檢測(cè)結(jié)果是有病,但其實(shí)病人是健康的),那么就需額外的檢測(cè)來(lái)做出正確的診斷。另一方面,如果一項(xiàng)檢測(cè)是假陰性(檢測(cè)結(jié)果是健康的,但其實(shí)病人有疾病),那么必要的治療將會(huì)終止,可能會(huì)導(dǎo)致病人病情惡化而死亡。
第二十天:你使用什么工具來(lái)做可視化(visualization)?你覺(jué)得Tableau怎么樣?R呢?SAS呢?怎樣在一張圖或視頻里有效地展示5維數(shù)據(jù)?【Gregory Piatetsky解答】
答:數(shù)據(jù)可視化有很多很好的工具,如R, Python, Tableau 和 Excel等都是數(shù)據(jù)科學(xué)家經(jīng)常使用的。
有很多方法可以在一個(gè)圖表里展示多于2維的信息。第三維度可以用能旋轉(zhuǎn)的三維散點(diǎn)來(lái)展示。還可以應(yīng)用顏色、陰影、形狀、尺寸。動(dòng)畫(huà)可以有效地展示時(shí)間維度(隨著時(shí)間改變)。下面是個(gè)好例子。
圖20a:5維Iris數(shù)據(jù)集的散點(diǎn)圖
分別對(duì)應(yīng) 尺寸: 花萼長(zhǎng)度; 顏色: 花萼寬度; 形狀: 類(lèi)別標(biāo)記; 橫軸: 花瓣長(zhǎng)度; 縱軸: 花瓣寬度
對(duì)多于5維的,一種方法是平行坐標(biāo)法 (Parallel Coordinates),由Alfred Inselberg首創(chuàng)。
圖20b: Iris數(shù)據(jù)集的平行坐標(biāo)展示
當(dāng)然,當(dāng)有很多維度的時(shí)候,最好還是先減少維度或特征的數(shù)量。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。