丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給MrBear
發(fā)送

0

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

本文作者: MrBear 編輯:汪思穎 2018-04-16 09:59
導(dǎo)語:僅僅通過精確率就能真正判斷一個(gè)分類模型的性能優(yōu)劣嗎?當(dāng)然不是這樣

雷鋒網(wǎng) AI 研習(xí)社按:為你的分類器選擇正確的評(píng)價(jià)指標(biāo)十分關(guān)鍵。如果選不好,你可能會(huì)陷入這樣的困境:你認(rèn)為自己的模型性能良好,但實(shí)際上并非如此。

近日,towardsdatascience 上的一篇文章就深入介紹了分類器的評(píng)價(jià)指標(biāo),以及應(yīng)該在什么場(chǎng)景下使用,雷鋒網(wǎng) AI 研習(xí)社將內(nèi)容編譯整理如下:

在本文中,你將了解到為什么評(píng)價(jià)分類器比較困難;為什么在大多數(shù)情況下,一個(gè)看起來分類準(zhǔn)確率很高的分類器性能卻沒有那么理想;什么是正確的分類器評(píng)價(jià)指標(biāo);你應(yīng)該在何時(shí)使用這些評(píng)價(jià)指標(biāo);如何創(chuàng)造一個(gè)你期望的高準(zhǔn)確率的分類器。

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

目錄

  • 評(píng)價(jià)指標(biāo)為什么如此重要?

  • 混淆矩陣

  • 準(zhǔn)確度和召回率

  • F-Score

  • 精確率和召回率的折衷

  • 精確率和召回率的曲線

  • ROC、AUC 曲線和 ROC、AUC 值

  • 總結(jié)

評(píng)價(jià)指標(biāo)為什么如此重要?

通常來說,評(píng)價(jià)一個(gè)分類器要比評(píng)價(jià)一個(gè)回歸算法困難得多。著名的 MNIST 數(shù)據(jù)集是一個(gè)很好的例子,它包含多張從 0 到 9 的手寫數(shù)字圖片。如果我們想要構(gòu)建一個(gè)分類器來判斷數(shù)值是否為 6,構(gòu)建一個(gè)算法將所有的輸入分類為非 6,然后你將在 MNIST 數(shù)據(jù)集中獲得 90% 的準(zhǔn)確率,因?yàn)閿?shù)據(jù)集中只有大約 10% 的圖像是 6。這是機(jī)器學(xué)習(xí)中一個(gè)主要的問題,也是你需要多用幾個(gè)評(píng)價(jià)指標(biāo)測(cè)試你的分類器的原因。

混淆矩陣

首先,你可以了解一下混淆矩陣,它也被稱為誤差矩陣。它是一個(gè)描述監(jiān)督學(xué)習(xí)模型在測(cè)試數(shù)據(jù)上的性能的表格,其中真實(shí)的值是未知的。矩陣的每一行表示預(yù)測(cè)出的類中的實(shí)例,而每一列則表示實(shí)際類別中的實(shí)例(反之亦然)。它被稱之為「混淆矩陣」的原因是,利用它你很容易看出系統(tǒng)在哪些地方將兩個(gè)類別相混淆了。

你可以在下圖中看到在 MNIST 數(shù)據(jù)集上使用 sklearn 中的「confusion_matrix()」函數(shù)得到的輸出:

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)


每一行表示一個(gè)實(shí)際的類別,每一列表示一個(gè)預(yù)測(cè)的類別。

第一行是實(shí)際上「非 6」(負(fù)類)的圖像個(gè)數(shù)。其中,53459 張圖片被正確分類為「非 6」(被稱為「真正類」)。其余的 623 張圖片則被錯(cuò)誤地分類為「6」(假正類)。

第二行表示真正為「6」的圖像。其中,473 張圖片被錯(cuò)誤地分類為「非 6」(假負(fù)類),5445 張圖片被正確分類為「6」(真正類)。

請(qǐng)注意,完美的分類器會(huì) 100% 地正確,這意味著它只有真正類和真負(fù)類。

精確率和召回率

一個(gè)混淆矩陣可以給你很多關(guān)于你的(分類)模型做的有多好的信息,但是有一種方法可以讓你得到更多的信息,比如計(jì)算分類的精確率(precision)。說白了,它就是預(yù)測(cè)為正的樣本的準(zhǔn)確率(accuracy),并且它經(jīng)常是和召回率(recall,即正確檢測(cè)到的正實(shí)例在所有正實(shí)例中的比例)一起看的。

sklearn 提供了計(jì)算精確率和召回率的內(nèi)置函數(shù):

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

現(xiàn)在,我們有了一個(gè)更好的評(píng)價(jià)分類器的指標(biāo)。我們的模型將圖片預(yù)測(cè)為「6」的情況有 89% 是正確的。召回率告訴我們它將 92% 的真正為「6」的實(shí)例預(yù)測(cè)為「6」。

當(dāng)然,還有更好的評(píng)價(jià)方法。

F-值

你可以把精確率和召回率融合到一個(gè)單獨(dú)的評(píng)價(jià)指標(biāo)中,它被稱為「F-值」(也被稱為「F1-值」)。如果你想要比較兩個(gè)分類器,F(xiàn)-值會(huì)很有用。它是利用精確率和召回率的調(diào)和平均數(shù)計(jì)算的,并且它將給低的數(shù)值更大的權(quán)重。這樣一來,只有精確率和召回率都很高的時(shí)候,分類器才會(huì)得到高 F-1 值。通過 sklearn 很容易就能計(jì)算 F 值。

從下圖中,你可以看到我們的模型得到了 0.9 的 F-1 值:

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

不過 F-值并不是萬能的「圣杯」,精確率和召回率接近的分類器會(huì)有更好的 F-1 分?jǐn)?shù)。這是一個(gè)問題,因?yàn)橛袝r(shí)你希望精確率高,而有時(shí)又希望召回率高。事實(shí)上,精確率越高會(huì)導(dǎo)致召回率越低,反之亦然。這被稱為精確率和召回率的折衷,我們將在下一個(gè)章節(jié)討論。

精確率和召回率的折衷

為了更好地解釋,我將舉一些例子,來說明何時(shí)希望得到高精確率,何時(shí)希望得到高召回率。

高精確率:

如果你訓(xùn)練了一個(gè)用于檢測(cè)視頻是否適合孩子看的分類器,你可能希望它有高的精確率。這意味著,這個(gè)你希望得到的分類器可能會(huì)拒絕掉很多適合孩子的視頻,但是不會(huì)給你包含成人內(nèi)容的視頻,因此它會(huì)更加保險(xiǎn)。(換句話說,精確率很高)

高召回率:

如果你想訓(xùn)練一個(gè)分類器來檢測(cè)試圖闖入大樓的人,這就需要高召回率了??赡芊诸惼髦挥?25% 的精確率(因此會(huì)導(dǎo)致一些錯(cuò)誤的警報(bào)),只要這個(gè)分類器有 99% 的召回率并且?guī)缀趺看斡腥嗽噲D闖入時(shí)都會(huì)向你報(bào)警,但看來是一個(gè)不錯(cuò)的分類器。

為了更好地理解這種折衷,我們來看看隨機(jī)梯度下降(SGD)的分類器如何在 MNIST 數(shù)據(jù)集上做出分類決策。對(duì)于每一個(gè)需要分類的圖像,它根據(jù)一個(gè)決策函數(shù)計(jì)算出分?jǐn)?shù),并將圖像分類為一個(gè)數(shù)值(當(dāng)分?jǐn)?shù)大于閾值)或另一個(gè)數(shù)值(當(dāng)分?jǐn)?shù)小于閾值)。

下圖顯示了分?jǐn)?shù)從低(左側(cè))到高(右側(cè))排列的手寫數(shù)字。假設(shè)你有一個(gè)分類器,它被用于檢測(cè)出「5」,并且閾值位于圖片的中間(在中央的箭頭所指的地方)。接著,你會(huì)在這個(gè)閾值右邊看到 4 個(gè)真正類(真正為「5」的實(shí)例)和 1 個(gè)假正類(實(shí)際上是一個(gè)「6」)。這一閾值會(huì)有 80% 的精確率(五分之四),但是它僅僅只能從圖片中所有的 6 個(gè)真正的「5」中找出 4 個(gè)來,因此召回率為 67%(六分之四)。如果你現(xiàn)在將閾值移到右側(cè)的那個(gè)箭頭處,這將導(dǎo)致更高的精確率,但召回率更低,反之亦然(如果你將閾值移動(dòng)到左側(cè)的箭頭處)。

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

精確率/召回率曲線

精確率和召回率之間的折衷可以用精確率-召回率曲線觀察到,它能夠讓你看到哪個(gè)閾值最佳。

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

另一種方法是將精確率和召回率以一條曲線畫出來:

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

在上圖中,可以清晰地看到,當(dāng)精確率大約為 95% 時(shí),精準(zhǔn)率升高,召回率迅速下降。根據(jù)上面的兩張圖,你可以選擇一個(gè)為你當(dāng)前的機(jī)器學(xué)習(xí)任務(wù)提供最佳精確率/召回率折衷的閾值。如果你想得到 85% 的精確率,可以查看第一張圖,閾值大約為 50000。

ROC、AUC 曲線和 ROC、AUC 值

ROC 曲線是另一種用于評(píng)價(jià)和比較二分類器的工具。它和精確率/召回率曲線有著很多的相似之處,當(dāng)然它們也有所不同。它將真正類率(true positive rate,即recall)和假正類率(被錯(cuò)誤分類的負(fù)實(shí)例的比例)對(duì)應(yīng)著繪制在一張圖中,而非使用精確率和召回率。


機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

當(dāng)然,在這里也有所折衷。分類器產(chǎn)生越多的假正類,真正類率就會(huì)越高。中間的紅線是一個(gè)完全隨機(jī)的分類器,分類器的曲線應(yīng)該盡可能地遠(yuǎn)離它。

通過測(cè)量 ROC 曲線下方的面積( AUC),ROC 曲線為比較兩個(gè)分類器的性能提供了一種方法。這個(gè)面積被稱作 ROC AUC值,100% 正確的分類器的 ROC AUC 值為 1。

一個(gè)完全隨機(jī)的分類器 ROC AUC 為 0.5。下圖中是 MNIST 模型的輸出:

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

總結(jié)

通過以上介紹,大家將學(xué)習(xí)到如果評(píng)價(jià)分類器,以及用哪些工具去評(píng)價(jià)。此外,還能學(xué)到如何對(duì)精確率和召回率進(jìn)行折衷,以及如何通過 ROC AUC 曲線比較不同分類器的性能。

我們還了解到,精確率高的分類器并不像聽起來那么令人滿意:因?yàn)楦呔_率意味著低召回率。

下次當(dāng)你聽到有人說一個(gè)分類器有 99% 的精確率或準(zhǔn)確率時(shí),你就知道你應(yīng)該問問他這篇帖子中討論的其它指標(biāo)如何。

資源鏈接

https://en.wikipedia.org/wiki/Confusion_matrix

https://github.com/Donges-Niklas/Classification-Basics/blob/master/Classification_Basics.ipynb

https://www.amazon.de/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=sr_1_1?ie=UTF8&qid=1522746048&sr=8-1&keywords=hands+on+machine+learning

via towardsdatascience

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機(jī)器學(xué)習(xí)小白看過來,帶你全面了解分類器評(píng)價(jià)指標(biāo)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說