丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給skura
發(fā)送

0

google AI 最新博文:模型的不確定性是否可信?

本文作者: skura 2020-01-17 20:18
導(dǎo)語(yǔ):在數(shù)據(jù)集轉(zhuǎn)移的情況下,不確定性的質(zhì)量會(huì)下降,但是一些有希望的研究方法可以緩解這種情況

在實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)模型遇到的數(shù)據(jù)并不總是具有相同的分布。在這種情況下,模型的精度會(huì)如何變化?近日,Google AI 發(fā)布了一篇博文,討論了這個(gè)問(wèn)題,他們認(rèn)為,在數(shù)據(jù)集轉(zhuǎn)移的情況下,不確定性的質(zhì)量會(huì)下降,但是一些有希望的研究方法可以緩解這種情況。原文大意如下:

在理想情況下,機(jī)器學(xué)習(xí)方法(如深度學(xué)習(xí))被用來(lái)對(duì)與訓(xùn)練數(shù)據(jù)分布相同的數(shù)據(jù)進(jìn)行預(yù)測(cè)。但實(shí)際情況可能大不相同:相機(jī)鏡頭變得模糊,傳感器退化等問(wèn)題,都可能導(dǎo)致訓(xùn)練模型與應(yīng)用模型數(shù)據(jù)分布之間的差異,從而導(dǎo)致所謂的協(xié)變量偏移。例如,最近有人觀察到,接受過(guò)胸部 x 光檢查肺炎訓(xùn)練的深度學(xué)習(xí)模型,在根據(jù)以前沒(méi)遇到過(guò)的醫(yī)院數(shù)據(jù)進(jìn)行評(píng)估時(shí),其精確度水平將大不相同,部分原因是圖像采集和處理方面的細(xì)微差異。

在 NeurIPS 2019 上,我們的論文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift」對(duì)最先進(jìn)的深度學(xué)習(xí)模型的不確定性進(jìn)行了基準(zhǔn)測(cè)試,因?yàn)樗鼈儽┞队诓粩嘧兓臄?shù)據(jù)分布和分布外的數(shù)據(jù)。在這項(xiàng)工作中,我們考慮各種輸入模式,包括圖像、文本和在線(xiàn)廣告數(shù)據(jù),將這些深度學(xué)習(xí)模型用于不斷變化的測(cè)試數(shù)據(jù)中,同時(shí)仔細(xì)分析其預(yù)測(cè)概率的行為。我們還比較了各種不同的方法來(lái)提高模型的不確定性,看看哪些策略表現(xiàn)最好。

什么是分布外數(shù)據(jù)?

深度學(xué)習(xí)模型為每個(gè)預(yù)測(cè)提供一個(gè)概率,這個(gè)概率表示模型的可信度或不確定性。因此,當(dāng)數(shù)據(jù)不在原始訓(xùn)練數(shù)據(jù)集的范圍內(nèi)時(shí),它們可以表達(dá)它們不知道的內(nèi)容,避免預(yù)測(cè)。在協(xié)變量移位的情況下,不確定性理想情況下會(huì)隨著精度的任何降低而成比例增加。一個(gè)更極端的情況是,數(shù)據(jù)不在分布范圍內(nèi)(OOD)。例如,你可以設(shè)想一下,當(dāng)一個(gè)貓狗圖像分類(lèi)器遇到飛機(jī)圖像時(shí)會(huì)發(fā)生什么。這個(gè)模型是自信地預(yù)測(cè)錯(cuò)誤,還是根據(jù)概率進(jìn)行分類(lèi)?在此前的文章中,我們最近討論了我們開(kāi)發(fā)的識(shí)別此類(lèi) OOD 示例的方法。在這項(xiàng)工作中,我們分析了分布外模型的預(yù)測(cè)不確定性,并轉(zhuǎn)移了實(shí)例,以查看模型預(yù)測(cè)概率是否反映了它們對(duì)此類(lèi)數(shù)據(jù)的預(yù)測(cè)能力。

量化不確定度的質(zhì)量

一個(gè)模型比另一個(gè)模型更能反映其不確定性意味著什么?雖然這可能是一個(gè)細(xì)致入微的問(wèn)題,通常是由下游任務(wù)定義的,但有一些方法可以定量評(píng)估概率預(yù)測(cè)的總體質(zhì)量。例如,氣象界仔細(xì)考慮了這一問(wèn)題,并制定了一套適當(dāng)?shù)脑u(píng)分規(guī)則,天氣預(yù)報(bào)的概率比較函數(shù)應(yīng)滿(mǎn)足這些規(guī)則,以便能夠很好地進(jìn)行校準(zhǔn),同時(shí)也有利于提高準(zhǔn)確度。我們應(yīng)用了一些適當(dāng)?shù)脑u(píng)分規(guī)則,如 Brier 評(píng)分和負(fù)對(duì)數(shù)似然(NLL),以及更直觀的啟發(fā)式方法,如預(yù)期校準(zhǔn)誤差(ECE),來(lái)了解不同的 ML 模型如何處理數(shù)據(jù)集移位情況下的不確定性。

實(shí)驗(yàn)

我們分析了數(shù)據(jù)集移位對(duì)各種數(shù)據(jù)模式(包括圖像、文本、在線(xiàn)廣告數(shù)據(jù)和基因組學(xué)數(shù)據(jù)等)不確定性的影響。舉個(gè)例子,我們演示了數(shù)據(jù)集移位對(duì) ImageNet 數(shù)據(jù)集的影響。ImageNet 將 100 多萬(wàn)張圖像分為 1000 個(gè)不同的類(lèi)別。一些人現(xiàn)在認(rèn)為這一挑戰(zhàn)已經(jīng)基本解決,并且已經(jīng)開(kāi)發(fā)出更難的變體,例如損壞的 Imagenet(或 Imagenet-C),其中數(shù)據(jù)有 16 種不同的損壞,每種損壞的強(qiáng)度分為 5 種。

google AI 最新博文:模型的不確定性是否可信?

我們探討了在數(shù)據(jù)分布變化時(shí),模型不確定性如何變化

我們使用這些損壞的圖像作為移位數(shù)據(jù)的例子,并檢查深度學(xué)習(xí)模型在處理?yè)p壞強(qiáng)度增加的移位數(shù)據(jù)時(shí)的預(yù)測(cè)概率。下面我們展示了每一級(jí)損壞(包括未損壞的測(cè)試數(shù)據(jù))的準(zhǔn)確度和 ECE 的方框圖,其中每個(gè)方框圖綜合了 ImageNet-C 中所有損壞類(lèi)型,每個(gè)顏色代表不同類(lèi)型的模型。

google AI 最新博文:模型的不確定性是否可信?

增加 ImageNet-C 上數(shù)據(jù)集偏移強(qiáng)度的精度(上)和預(yù)期校準(zhǔn)誤差(下)。我們觀察到,精度的降低并不是由模型不確定度的增加反映的,這表明精度和 ECE 都在變差。

隨著損壞強(qiáng)度的增加,每個(gè)模型的各個(gè)損壞方法的精度偏差如預(yù)期的那樣增加,并且總精度降低。理想情況下,這將反映在模型的不確定性增加,并且保持預(yù)期校準(zhǔn)誤差(ECE)不變。然而,從 ECE 的較低曲線(xiàn)圖來(lái)看,情況并非如此,而且校準(zhǔn)通常也會(huì)受到影響。我們觀察到 Brier 分?jǐn)?shù)和 NLL 的類(lèi)似惡化趨勢(shì),這表明模型并沒(méi)有隨著數(shù)據(jù)損壞的增加而變得越來(lái)越具有不確定性,而是自信地進(jìn)行錯(cuò)誤的判斷。

改進(jìn)校準(zhǔn)的一種常用方法是溫度標(biāo)度法,它是 Platt 標(biāo)度法的一種變體,它涉及到在訓(xùn)練后使用在有效數(shù)據(jù)集上的性能來(lái)平滑預(yù)測(cè)。我們觀察到,雖然這改進(jìn)了標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)的校準(zhǔn),但它常常損壞數(shù)據(jù)的情況更糟!因此,應(yīng)用這一技術(shù)的實(shí)踐者應(yīng)該警惕分布的變化。

幸運(yùn)的是,有一種方法在不確定性方面的退化比其他方法要優(yōu)雅得多。Deep-ensembles(圖中綠色部分)是一種簡(jiǎn)單的策略,它對(duì)一系列模型的預(yù)測(cè)進(jìn)行平均化,顯著提高了對(duì)移位的魯棒性,并優(yōu)于所有其他測(cè)試方法。

總結(jié)和建議的最佳做法

在本文中,我們探索了在跨圖像、文本、在線(xiàn)廣告數(shù)據(jù)和基因組學(xué)的數(shù)據(jù)集轉(zhuǎn)移下,最新模型的行為。在這些不同類(lèi)型的數(shù)據(jù)中,我們的發(fā)現(xiàn)基本一致。在數(shù)據(jù)集轉(zhuǎn)移的情況下,不確定性的質(zhì)量會(huì)下降,但是一些有希望的研究方法可以緩解這種情況。我們希望深度學(xué)習(xí)的用戶(hù)從我們的研究中獲得以下信息:

  1. 數(shù)據(jù)集轉(zhuǎn)移下的不確定性是訓(xùn)練模型時(shí)需要考慮的一個(gè)現(xiàn)實(shí)問(wèn)題。

  2. 在分布內(nèi)的測(cè)試集上提高校準(zhǔn)和精度,通常不能轉(zhuǎn)化為對(duì)移位數(shù)據(jù)的改進(jìn)校準(zhǔn)。

  3. 在我們考慮的所有方法中,Deep-ensembles 對(duì)數(shù)據(jù)集轉(zhuǎn)移來(lái)說(shuō)最具有穩(wěn)健性,相對(duì)較小的集合大小(如 5)就足夠了。其有效性為改進(jìn)其他方法提供了有趣的途徑。

提高深度學(xué)習(xí)模型的預(yù)測(cè)不確定性仍然是 ML 研究的一個(gè)活躍領(lǐng)域,我們已經(jīng)發(fā)布了該基準(zhǔn)的所有代碼和模型預(yù)測(cè),希望對(duì)社區(qū)推動(dòng)和評(píng)估未來(lái)這一重要課題的工作有幫助。

代碼和模型網(wǎng)址:https://github.com/google-research/google-research/tree/master/uq_benchmark_2019 

via:https://ai.googleblog.com/2020/01/can-you-trust-your-models-uncertainty.html

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

google AI 最新博文:模型的不確定性是否可信?

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)