0
本文作者: skura | 2020-01-17 20:18 |
在實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)模型遇到的數(shù)據(jù)并不總是具有相同的分布。在這種情況下,模型的精度會如何變化?近日,Google AI 發(fā)布了一篇博文,討論了這個問題,他們認(rèn)為,在數(shù)據(jù)集轉(zhuǎn)移的情況下,不確定性的質(zhì)量會下降,但是一些有希望的研究方法可以緩解這種情況。原文大意如下:
在理想情況下,機(jī)器學(xué)習(xí)方法(如深度學(xué)習(xí))被用來對與訓(xùn)練數(shù)據(jù)分布相同的數(shù)據(jù)進(jìn)行預(yù)測。但實(shí)際情況可能大不相同:相機(jī)鏡頭變得模糊,傳感器退化等問題,都可能導(dǎo)致訓(xùn)練模型與應(yīng)用模型數(shù)據(jù)分布之間的差異,從而導(dǎo)致所謂的協(xié)變量偏移。例如,最近有人觀察到,接受過胸部 x 光檢查肺炎訓(xùn)練的深度學(xué)習(xí)模型,在根據(jù)以前沒遇到過的醫(yī)院數(shù)據(jù)進(jìn)行評估時,其精確度水平將大不相同,部分原因是圖像采集和處理方面的細(xì)微差異。
在 NeurIPS 2019 上,我們的論文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift」對最先進(jìn)的深度學(xué)習(xí)模型的不確定性進(jìn)行了基準(zhǔn)測試,因?yàn)樗鼈儽┞队诓粩嘧兓臄?shù)據(jù)分布和分布外的數(shù)據(jù)。在這項(xiàng)工作中,我們考慮各種輸入模式,包括圖像、文本和在線廣告數(shù)據(jù),將這些深度學(xué)習(xí)模型用于不斷變化的測試數(shù)據(jù)中,同時仔細(xì)分析其預(yù)測概率的行為。我們還比較了各種不同的方法來提高模型的不確定性,看看哪些策略表現(xiàn)最好。
什么是分布外數(shù)據(jù)?
深度學(xué)習(xí)模型為每個預(yù)測提供一個概率,這個概率表示模型的可信度或不確定性。因此,當(dāng)數(shù)據(jù)不在原始訓(xùn)練數(shù)據(jù)集的范圍內(nèi)時,它們可以表達(dá)它們不知道的內(nèi)容,避免預(yù)測。在協(xié)變量移位的情況下,不確定性理想情況下會隨著精度的任何降低而成比例增加。一個更極端的情況是,數(shù)據(jù)不在分布范圍內(nèi)(OOD)。例如,你可以設(shè)想一下,當(dāng)一個貓狗圖像分類器遇到飛機(jī)圖像時會發(fā)生什么。這個模型是自信地預(yù)測錯誤,還是根據(jù)概率進(jìn)行分類?在此前的文章中,我們最近討論了我們開發(fā)的識別此類 OOD 示例的方法。在這項(xiàng)工作中,我們分析了分布外模型的預(yù)測不確定性,并轉(zhuǎn)移了實(shí)例,以查看模型預(yù)測概率是否反映了它們對此類數(shù)據(jù)的預(yù)測能力。
量化不確定度的質(zhì)量
一個模型比另一個模型更能反映其不確定性意味著什么?雖然這可能是一個細(xì)致入微的問題,通常是由下游任務(wù)定義的,但有一些方法可以定量評估概率預(yù)測的總體質(zhì)量。例如,氣象界仔細(xì)考慮了這一問題,并制定了一套適當(dāng)?shù)脑u分規(guī)則,天氣預(yù)報(bào)的概率比較函數(shù)應(yīng)滿足這些規(guī)則,以便能夠很好地進(jìn)行校準(zhǔn),同時也有利于提高準(zhǔn)確度。我們應(yīng)用了一些適當(dāng)?shù)脑u分規(guī)則,如 Brier 評分和負(fù)對數(shù)似然(NLL),以及更直觀的啟發(fā)式方法,如預(yù)期校準(zhǔn)誤差(ECE),來了解不同的 ML 模型如何處理數(shù)據(jù)集移位情況下的不確定性。
實(shí)驗(yàn)
我們分析了數(shù)據(jù)集移位對各種數(shù)據(jù)模式(包括圖像、文本、在線廣告數(shù)據(jù)和基因組學(xué)數(shù)據(jù)等)不確定性的影響。舉個例子,我們演示了數(shù)據(jù)集移位對 ImageNet 數(shù)據(jù)集的影響。ImageNet 將 100 多萬張圖像分為 1000 個不同的類別。一些人現(xiàn)在認(rèn)為這一挑戰(zhàn)已經(jīng)基本解決,并且已經(jīng)開發(fā)出更難的變體,例如損壞的 Imagenet(或 Imagenet-C),其中數(shù)據(jù)有 16 種不同的損壞,每種損壞的強(qiáng)度分為 5 種。
我們探討了在數(shù)據(jù)分布變化時,模型不確定性如何變化
我們使用這些損壞的圖像作為移位數(shù)據(jù)的例子,并檢查深度學(xué)習(xí)模型在處理損壞強(qiáng)度增加的移位數(shù)據(jù)時的預(yù)測概率。下面我們展示了每一級損壞(包括未損壞的測試數(shù)據(jù))的準(zhǔn)確度和 ECE 的方框圖,其中每個方框圖綜合了 ImageNet-C 中所有損壞類型,每個顏色代表不同類型的模型。
增加 ImageNet-C 上數(shù)據(jù)集偏移強(qiáng)度的精度(上)和預(yù)期校準(zhǔn)誤差(下)。我們觀察到,精度的降低并不是由模型不確定度的增加反映的,這表明精度和 ECE 都在變差。
隨著損壞強(qiáng)度的增加,每個模型的各個損壞方法的精度偏差如預(yù)期的那樣增加,并且總精度降低。理想情況下,這將反映在模型的不確定性增加,并且保持預(yù)期校準(zhǔn)誤差(ECE)不變。然而,從 ECE 的較低曲線圖來看,情況并非如此,而且校準(zhǔn)通常也會受到影響。我們觀察到 Brier 分?jǐn)?shù)和 NLL 的類似惡化趨勢,這表明模型并沒有隨著數(shù)據(jù)損壞的增加而變得越來越具有不確定性,而是自信地進(jìn)行錯誤的判斷。
改進(jìn)校準(zhǔn)的一種常用方法是溫度標(biāo)度法,它是 Platt 標(biāo)度法的一種變體,它涉及到在訓(xùn)練后使用在有效數(shù)據(jù)集上的性能來平滑預(yù)測。我們觀察到,雖然這改進(jìn)了標(biāo)準(zhǔn)測試數(shù)據(jù)的校準(zhǔn),但它常常損壞數(shù)據(jù)的情況更糟!因此,應(yīng)用這一技術(shù)的實(shí)踐者應(yīng)該警惕分布的變化。
幸運(yùn)的是,有一種方法在不確定性方面的退化比其他方法要優(yōu)雅得多。Deep-ensembles(圖中綠色部分)是一種簡單的策略,它對一系列模型的預(yù)測進(jìn)行平均化,顯著提高了對移位的魯棒性,并優(yōu)于所有其他測試方法。
總結(jié)和建議的最佳做法
在本文中,我們探索了在跨圖像、文本、在線廣告數(shù)據(jù)和基因組學(xué)的數(shù)據(jù)集轉(zhuǎn)移下,最新模型的行為。在這些不同類型的數(shù)據(jù)中,我們的發(fā)現(xiàn)基本一致。在數(shù)據(jù)集轉(zhuǎn)移的情況下,不確定性的質(zhì)量會下降,但是一些有希望的研究方法可以緩解這種情況。我們希望深度學(xué)習(xí)的用戶從我們的研究中獲得以下信息:
數(shù)據(jù)集轉(zhuǎn)移下的不確定性是訓(xùn)練模型時需要考慮的一個現(xiàn)實(shí)問題。
在分布內(nèi)的測試集上提高校準(zhǔn)和精度,通常不能轉(zhuǎn)化為對移位數(shù)據(jù)的改進(jìn)校準(zhǔn)。
在我們考慮的所有方法中,Deep-ensembles 對數(shù)據(jù)集轉(zhuǎn)移來說最具有穩(wěn)健性,相對較小的集合大?。ㄈ?5)就足夠了。其有效性為改進(jìn)其他方法提供了有趣的途徑。
提高深度學(xué)習(xí)模型的預(yù)測不確定性仍然是 ML 研究的一個活躍領(lǐng)域,我們已經(jīng)發(fā)布了該基準(zhǔn)的所有代碼和模型預(yù)測,希望對社區(qū)推動和評估未來這一重要課題的工作有幫助。
代碼和模型網(wǎng)址:https://github.com/google-research/google-research/tree/master/uq_benchmark_2019
via:https://ai.googleblog.com/2020/01/can-you-trust-your-models-uncertainty.html
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。