丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

本文作者: AI研習(xí)社-譯站 2018-12-12 10:20
導(dǎo)語(yǔ):決策樹(shù)是一類(lèi)非常強(qiáng)大的機(jī)器學(xué)習(xí)模型,在高度可解釋的同時(shí)又在許多任務(wù)中有非常良好的表現(xiàn)。

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

A Guide to Decision Trees for Machine Learning and Data Science

作者 | George Seif

翻譯 | 姚秀清

校對(duì) | 醬番梨        整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/a-guide-to-decision-trees-for-machine-learning-and-data-science-fe2607241956


決策樹(shù)是一類(lèi)非常強(qiáng)大的機(jī)器學(xué)習(xí)模型,在高度可解釋的同時(shí)又在許多任務(wù)中有非常良好的表現(xiàn)。 決策樹(shù)在ML模型的特殊之處在于它清晰的信息表示結(jié)構(gòu)。 決策樹(shù)通過(guò)訓(xùn)練學(xué)到的“知識(shí)”直接形成層次結(jié)構(gòu)。 知識(shí)結(jié)構(gòu)以這樣的方式保存和顯示,即使非專(zhuān)家也可以容易地理解。

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)


  生活中的決策樹(shù)

你以前可能用過(guò)決策樹(shù)來(lái)決定你的生活。 例如,決定本周末你應(yīng)該做什么活動(dòng)。 這可能取決于你是否愿意和朋友一起出去或獨(dú)自度過(guò)周末; 在這兩種情況下,你的決定還取決于天氣。 如果天氣晴朗,你可以和朋友一起踢足球。 如果結(jié)束下雨了,你會(huì)去看電影。 如果你的朋友根本不露面,那么無(wú)論天氣如何,你會(huì)選擇玩電子游戲!

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

這是決策樹(shù)應(yīng)用在現(xiàn)實(shí)生活中的例子。 我們已經(jīng)構(gòu)建了一顆樹(shù)來(lái)模擬一組順序的,層次化的決策,最終導(dǎo)致一些結(jié)果。 請(qǐng)注意,為了保持樹(shù)的小巧,我們還選擇了相當(dāng)“高級(jí)”的決策。 例如,如果我們?yōu)樘鞖庠O(shè)置了許多可能的選項(xiàng),例如25度晴天,25度下雨,26度晴天,26度下雨,27度晴天...... 等等,我們的樹(shù)會(huì)很大! 確切的溫度確實(shí)有點(diǎn)相關(guān),我們只想知道是否可以外出。

機(jī)器學(xué)習(xí)中決策樹(shù)的概念是相同的。 我們想要構(gòu)建一個(gè)具有一組層次的決策樹(shù),并給出最終結(jié)果,比如說(shuō)分類(lèi)或回歸預(yù)測(cè)。 將選擇決策使得樹(shù)盡可能小,同時(shí)旨在實(shí)現(xiàn)高的分類(lèi)和回歸準(zhǔn)確性。


  機(jī)器學(xué)習(xí)中的決策樹(shù)

通過(guò)兩個(gè)步驟來(lái)創(chuàng)建決策樹(shù)模型:歸納和剪枝。 歸納是我們實(shí)際構(gòu)建樹(shù)的方法,即根據(jù)我們的數(shù)據(jù)設(shè)置所有分層決策邊界。 由于訓(xùn)練決策樹(shù)的性質(zhì),它們可能容易出現(xiàn)嚴(yán)重的過(guò)擬合。 修剪是從決策樹(shù)中刪除不必要的結(jié)構(gòu),有效地降低了對(duì)抗過(guò)擬合的復(fù)雜性,并使其更容易解釋。


引言

從高層次來(lái)看,創(chuàng)建決策樹(shù)需要經(jīng)過(guò)4個(gè)主要步驟:

  1. 從訓(xùn)練數(shù)據(jù)集開(kāi)始,該數(shù)據(jù)集應(yīng)具有一些特征變量,分類(lèi)或回歸輸出。

  2. 確定數(shù)據(jù)集中“最佳特征”以分割數(shù)據(jù); 更多關(guān)于我們?nèi)绾味x“最佳功能”的方法

  3. 將數(shù)據(jù)拆分為包含最佳特征的可能值子集。 這種分割基本上定義了樹(shù)上的節(jié)點(diǎn),即每個(gè)節(jié)點(diǎn)是基于我們數(shù)據(jù)中某個(gè)特征的分割點(diǎn)。

  4. 通過(guò)使用從步驟3創(chuàng)建的數(shù)據(jù)子集遞歸地生成新的樹(shù)節(jié)點(diǎn)。我們保持分割直到達(dá)到一個(gè)點(diǎn),在該點(diǎn)我們通過(guò)一些方法,優(yōu)化了最大精度,同時(shí)最小化了分裂/節(jié)點(diǎn)的數(shù)量。

第1步很簡(jiǎn)單,只需要收集你的數(shù)據(jù)集!

對(duì)于步驟2,通常使用貪婪算法來(lái)選擇要使用的特征和特定的分割方法,來(lái)最小化成本函數(shù)。 如果我們思考它一秒鐘,那么在構(gòu)建決策樹(shù)時(shí)的拆分相當(dāng)于劃分特征空間。 我們將迭代地嘗試不同的分割點(diǎn),然后在最后選擇成本最低的分割點(diǎn)。 當(dāng)然,我們可以做一些聰明的事情,比如只在我們的數(shù)據(jù)集范圍內(nèi)進(jìn)行拆分。 這將使我們免于浪費(fèi)計(jì)算來(lái)測(cè)試那些質(zhì)量比較差的分裂點(diǎn)。

對(duì)于回歸樹(shù),我們可以使用簡(jiǎn)單的平方差作為我們的成本函數(shù):

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

Y是我們的基本事實(shí),Y-hat是我們預(yù)測(cè)的值; 我們對(duì)數(shù)據(jù)集中的所有樣本求和以獲得總誤差。 對(duì)于分類(lèi),我們使用基尼指數(shù):

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

其中pk是特定預(yù)測(cè)節(jié)點(diǎn)中分類(lèi)k的訓(xùn)練實(shí)例的比例。 理想情況下,節(jié)點(diǎn)的錯(cuò)誤值應(yīng)為零,這意味著每個(gè)拆分在100%的時(shí)間內(nèi)輸出單個(gè)分類(lèi)。 這正是我們想要的,因?yàn)槲覀冎?,一旦我們到達(dá)那個(gè)特定的決策節(jié)點(diǎn),無(wú)論我們是在決策邊界的一邊還是另一邊,我們的輸出究竟是什么。

在我們的數(shù)據(jù)集中具有單個(gè)分類(lèi)的概念被稱(chēng)為信息增益。 看看下面的例子。

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

如果我們選擇一個(gè)分區(qū),其中每個(gè)輸出根據(jù)輸入數(shù)據(jù)混合了類(lèi)別,那么我們實(shí)際上根本沒(méi)有獲得任何信息; 我們不知道特定節(jié)點(diǎn)即特征是否對(duì)我們分類(lèi)數(shù)據(jù)有任何影響! 另一方面,如果我們的分割對(duì)每個(gè)輸出類(lèi)別的百分比都很高,那么我們已經(jīng)獲得了在特定特征變量上以特殊方式分割的信息來(lái)給我們一個(gè)特定的輸出!

現(xiàn)在我們可以繼續(xù)分割, 分割和分割 ,直到我們的樹(shù)有數(shù)千個(gè)分支......但這不是一個(gè)好主意! 我們的決策樹(shù)將是巨大的,緩慢的,并且會(huì)過(guò)度擬合我們的訓(xùn)練數(shù)據(jù)集。 因此,我們將設(shè)置一些預(yù)定義的停止標(biāo)準(zhǔn)來(lái)停止樹(shù)的構(gòu)造。

最常見(jiàn)的停止方法是對(duì)分配給每個(gè)葉節(jié)點(diǎn)的訓(xùn)練示例的數(shù)量使用最小計(jì)數(shù)。 如果計(jì)數(shù)小于某個(gè)最小值,則不接受拆分,并將該節(jié)點(diǎn)作為最終葉節(jié)點(diǎn)。 如果我們所有的葉子節(jié)點(diǎn)都成為最終節(jié)點(diǎn),則停止訓(xùn)練。 較小的最小計(jì)數(shù)將為你提供更精細(xì)的分割和更多信息,但也容易過(guò)擬合你的訓(xùn)練數(shù)據(jù)。 太小的分鐘計(jì)數(shù),你可能會(huì)停止提前。 因此,最小值通?;跀?shù)據(jù)集設(shè)置,具體取決于每個(gè)類(lèi)中預(yù)計(jì)有多少個(gè)示例。


剪枝

由于訓(xùn)練決策樹(shù)的性質(zhì),它們可能容易出現(xiàn)嚴(yán)重的過(guò)擬合。 為每個(gè)節(jié)點(diǎn)設(shè)置最小實(shí)例數(shù)的正確值可能具有挑戰(zhàn)性。 大多數(shù)情況下,我們可能只是使最小值非常小,這將導(dǎo)致存在許多分裂和非常大的復(fù)雜樹(shù)。 關(guān)鍵是這些分裂中的大多數(shù)將最終變得多余,并且不會(huì)提高模型的準(zhǔn)確性。

剪枝是一種去除這種分裂冗余的技術(shù),即修剪樹(shù)中不必要的分裂。 從高級(jí)別開(kāi)始, 剪枝將樹(shù)的一部分從嚴(yán)格決策邊界壓縮為更平滑和更通用的樹(shù),從而有效地降低樹(shù)的復(fù)雜性。 決策樹(shù)的復(fù)雜性定義為樹(shù)中的分裂數(shù)。

一種簡(jiǎn)單而高效的修剪方法是遍歷樹(shù)中的每個(gè)節(jié)點(diǎn),并評(píng)估將其移除到成本函數(shù)上的效果。 如果它變化不大,那就修剪掉!


  Scikit Learn實(shí)例

很容易在Scikit Learn中使用內(nèi)置的分類(lèi)和回歸決策樹(shù)的類(lèi)! 首先加載數(shù)據(jù)集并初始化我們的決策樹(shù)以進(jìn)行分類(lèi)。

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

Scikit Learn還允許我們使用graphviz庫(kù)可視化我們的樹(shù)。 它提供了一些選項(xiàng),有助于可視化決策節(jié)點(diǎn)和分割模型來(lái)簡(jiǎn)化學(xué)習(xí),這對(duì)理解它的工作方式非常有用! 下面我們將根據(jù)功能名稱(chēng)為節(jié)點(diǎn)著色,并顯示每個(gè)節(jié)點(diǎn)的類(lèi)和功能信息。

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

你可以在Scikit Learn中為決策樹(shù)模型設(shè)置幾個(gè)參數(shù)。 以下是一些有趣的嘗試以獲得更好的結(jié)果:

  • max_depth:我們將停止拆分節(jié)點(diǎn)的樹(shù)的最大深度。 這類(lèi)似于控制深度神經(jīng)網(wǎng)絡(luò)中的最大層數(shù)。 較低的值會(huì)使你的模型更快但不準(zhǔn)確; 更高的值可以給你準(zhǔn)確性,但風(fēng)險(xiǎn)是過(guò)擬合,并且可能會(huì)很慢。

  • min_samples_split:拆分節(jié)點(diǎn)所需的最小樣本數(shù)。 我們討論了決策樹(shù)的這一方面,以及如何將其設(shè)置為更高的值將有助于減輕過(guò)擬合。

  • max_features:查找最佳分割點(diǎn)時(shí)要考慮的特征數(shù)。 更高則意味著可能更好的結(jié)果,不過(guò)訓(xùn)練則需要更長(zhǎng)的時(shí)間。

  • min_impurity_split:樹(shù)木擴(kuò)張?jiān)缙谕V沟拈撝怠?如果節(jié)點(diǎn)的不純度高于閾值,則節(jié)點(diǎn)將分裂。 這可用于權(quán)衡對(duì)抗過(guò)擬合(高值,小樹(shù))與高精度(低值,大樹(shù))。

  • presort:是否預(yù)先分配數(shù)據(jù)以加快擬合數(shù)據(jù)中最佳分割的發(fā)現(xiàn)。 如果我們事先對(duì)每個(gè)特征的數(shù)據(jù)進(jìn)行排序,我們的訓(xùn)練算法將更容易找到分離的合適值。


  實(shí)際應(yīng)用決策樹(shù)的技巧

以下是一些決策樹(shù)的優(yōu)缺點(diǎn),它們可以幫助你確定它是否適合你的問(wèn)題,以及一些如何有效應(yīng)用它們的提示:

優(yōu)點(diǎn):

  • 易于理解和解釋。 在每個(gè)節(jié)點(diǎn),我們都能夠確切地看到我們的模型做出了什么決定。 在實(shí)踐中,我們將能夠完全理解我們的準(zhǔn)確度和誤差來(lái)自何處,模型可以很好地處理哪種類(lèi)型的數(shù)據(jù),以及輸出如何受到特征值的影響。 Scikit learn的可視化工具是可視化和理解決策樹(shù)的絕佳選擇。

  • 需要很少的數(shù)據(jù)準(zhǔn)備。 許多ML模型可能需要大量數(shù)據(jù)預(yù)處理,例如標(biāo)準(zhǔn)化,并且可能需要復(fù)雜的正則化方法。 另一方面,在調(diào)整了一些參數(shù)后,決策樹(shù)可以很好地開(kāi)箱即用。

  • 使用樹(shù)進(jìn)行推理的成本只有用于訓(xùn)練樹(shù)的數(shù)據(jù)點(diǎn)的數(shù)量的對(duì)數(shù)。 這是一個(gè)巨大的優(yōu)勢(shì),因?yàn)樗馕吨鴵碛懈鄶?shù)據(jù)不一定會(huì)對(duì)我們的推理速度產(chǎn)生巨大影響。

缺點(diǎn):

  • 由于訓(xùn)練的性質(zhì),過(guò)擬合在決策樹(shù)中很常見(jiàn)。 通常建議執(zhí)行某種類(lèi)型的降維,例如PCA,使得樹(shù)不必在如此多的特征上被拆分

  • 出于與過(guò)擬合的情況類(lèi)似,決策樹(shù)也容易變得偏向于在數(shù)據(jù)集中占多數(shù)的類(lèi)別。 不過(guò)進(jìn)行某種類(lèi)的平衡(例如類(lèi)權(quán)重,采樣或?qū)iT(mén)的損失函數(shù))總是一個(gè)好主意。


  推薦閱讀

如果您想了解更多關(guān)于使用Scikit Learn進(jìn)行機(jī)器學(xué)習(xí)的知識(shí),建議你使用Hands-On Machine Learning with Scikit-Learn and TensorFlow這本書(shū)進(jìn)行動(dòng)手學(xué)習(xí),尤其是動(dòng)手編碼和練習(xí)!


  準(zhǔn)備學(xué)習(xí)?

Twitter上關(guān)注我,我發(fā)布所有關(guān)于最新和最好的AI,技術(shù)和科學(xué)的內(nèi)容!


想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

長(zhǎng)按鏈接點(diǎn)擊打開(kāi)或點(diǎn)擊底部【一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)】:

https://ai.yanxishe.com/page/TextTranslation/1323


AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

從語(yǔ)言學(xué)角度看詞嵌入模型

深度網(wǎng)絡(luò)揭秘之深度網(wǎng)絡(luò)背后的數(shù)學(xué)

如何將深度學(xué)習(xí)應(yīng)用于無(wú)人機(jī)圖像的目標(biāo)檢測(cè)

Python高級(jí)技巧:用一行代碼減少一半內(nèi)存占用


等你來(lái)譯:

社會(huì)擴(kuò)展性:加密貨幣中的最重要概念?

25個(gè)能放到數(shù)據(jù)湖中的語(yǔ)音研究數(shù)據(jù)集

讓你的電腦擁有“視力”,用卷積神經(jīng)網(wǎng)絡(luò)就可以!

讓神經(jīng)網(wǎng)絡(luò)說(shuō)“我不知道”——用Pyro/PyTorch實(shí)現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

一文帶你讀懂機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的決策樹(shù)

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)