丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給WBLUE
發(fā)送

0

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

本文作者: WBLUE 編輯:幸麗娟 2019-06-03 11:00
導語:對抗測試、魯棒學習和形式化驗證。

雷鋒網(wǎng) AI 科技評論按:計算機編程發(fā)展至今,bug 和軟件就一直如影隨形。多年來,軟件開發(fā)人員已經(jīng)創(chuàng)建了一套在部署之前進行測試和調(diào)試的最佳方法,但這些方法并不適用于如今的深度學習系統(tǒng)。現(xiàn)在,機器學習的主流方法是基于訓練數(shù)據(jù)集來訓練系統(tǒng),然后在另一組數(shù)據(jù)集上對其進行測試。雖然這樣能夠顯示模型的平均性能,但即使在最壞的情況下,保證穩(wěn)健或可被接受的高性能也是至關(guān)重要的。對此,DeepMind 發(fā)布文章介紹了能夠嚴格識別和消除學習預(yù)測模型中的 bug 的三種方法:對抗測試(adversarial testing)、魯棒學習(robust learning)和形式化驗證(formal verification)。雷鋒網(wǎng) AI 科技評論編譯如下。

機器學習系統(tǒng)默認設(shè)置的魯棒性較差。一旦引入細微誤差,那么即使在特定領(lǐng)域中表現(xiàn)優(yōu)于人類的系統(tǒng),可能連簡單問題都解決不了。例如,考慮圖像擾動的問題:如果在輸入圖像中加入少量經(jīng)仔細計算的噪聲,那么一個比人類更擅長做圖像分類任務(wù)的神經(jīng)網(wǎng)絡(luò)就很容易將樹懶誤分類為賽車。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

覆蓋在典型圖像上的對抗輸入可能導致分類器將樹懶錯誤地分類為賽車。兩個圖像在每個像素中最多相差 0.0078。第一張圖像被歸類為三趾樹懶,置信度> 99%。第二張概率>99% 的圖像被歸類為賽車。

這不是一個全新的問題。計算機程序一直都存在 bug。幾十年來,軟件工程師從單元測試到形式化驗證上裝了很多技術(shù)工具包。這些方法在傳統(tǒng)軟件上運行良好,但是由于這些模型的規(guī)模問題和結(jié)構(gòu)不完整(可能包含數(shù)億個參數(shù)),因此采用這些方法來嚴格測試神經(jīng)網(wǎng)絡(luò)等機器學習模型是非常具有挑戰(zhàn)性的。這就需要開發(fā)用于確保機器學習系統(tǒng)部署更可靠的新方法。

從程序員的角度來看,bug 就是所有不符合系統(tǒng)規(guī)范(即預(yù)期功能)的行為。作為「智能化」任務(wù)的一部分,我們需要對評估一致性的技術(shù)進行研究,即機器學習系統(tǒng)不僅要與訓練集和測試集一致,還要與描述系統(tǒng)期望屬性的規(guī)范列表一致。這些屬性可能包括對輸入中微小擾動的魯棒性,避免災(zāi)難性故障的安全限制,或產(chǎn)生符合物理定律的預(yù)測。

我們共同致力于嚴格開發(fā)和部署與所需規(guī)格可靠一致的機器學習系統(tǒng),在本文中,我們將討論機器學習領(lǐng)域面臨的三個重要技術(shù)挑戰(zhàn)。

1、有效地測試與規(guī)范的一致性。我們探索有效的方法來測試機器學習系統(tǒng)是否與設(shè)計者和系統(tǒng)用戶所期望的屬性(例如不變性或魯棒性)一致。這是用于顯示模型可能與期望行為不一致的情況的一種方法,即在評估期間系統(tǒng)地搜索最壞情況的結(jié)果。

2、訓練與規(guī)范一致的機器學習模型。即使有大量的訓練數(shù)據(jù),標準的機器學習算法訓練出的預(yù)測模型也可以得出與具有魯棒性和公平性的期望規(guī)范不一致的預(yù)測結(jié)果,這就要求我們重新考慮訓練算法,要求這些算法不僅能夠很好地擬合訓練數(shù)據(jù),還要能夠符合預(yù)期規(guī)范。

3、形式化驗證機器學習模型與規(guī)范的一致性。這需要這樣一種算法,即對于所有有可能的輸入,該算法都能證明模型的預(yù)測結(jié)果與規(guī)范之間是一致且可被證明的。雖然形式化驗證領(lǐng)域幾十年來一直在研究這種算法,盡管進展不錯,但該方法并不能輕易地擴展到當今的深度學習系統(tǒng)。

測試與規(guī)格的一致性

對抗樣本的魯棒性是深度學習中研究相對較好的一項工作。從這項工作中引申出的一個主要任務(wù)是評估強對抗樣本的重要性,以及設(shè)計可以做有效分析的透明模型。在和業(yè)界其他研究者合作時,我們發(fā)現(xiàn)許多模型在面對弱對抗樣本時看起來很穩(wěn)健,然而,在面臨更強的對抗因子時,模型顯示出的對抗精確度基本為 0%(Athalye et al,2018,Uesato et al,2018,Carlini and Wagner,2017)。

雖然在監(jiān)督學習下,大多數(shù)工作都關(guān)注一些罕見錯誤(其中以圖片分類任務(wù)居多),但是將這些方法擴展到其他場景中也是一件需要關(guān)注的事情。在最近關(guān)于發(fā)現(xiàn)重大錯誤的對抗方法的研究中,我們將這些方法應(yīng)用于測試強化學習的智能體,這些智能體主要被應(yīng)用在對安全性要求很高的場景中。開發(fā)自主系統(tǒng)的一個挑戰(zhàn)是,由于小錯誤可能會導致很嚴重的后果,因此我們?nèi)莶坏贸霈F(xiàn)一點失誤。

我們的目標是設(shè)計一個「攻擊者」,以便我們提前檢測到一些錯誤(例如,在受控環(huán)境中)。如果「攻擊者」可以有效地識別給定模型的最壞情況輸入,則能夠讓我們在部署模型之前捕捉到一些罕見失誤。與圖像分類器一樣,面對一個弱的「攻擊者」進行評估會在部署期間造成一種錯覺,即這是安全的。這類似于「紅隊研判法(red teaming)的軟件實踐」,不過對惡意攻擊者造成的失誤進行了延展,同時還包括了自然出現(xiàn)的失誤,例如泛化不足造成的失誤。

針對于強化學習智能體的對抗測試,我們開發(fā)了兩種互補的方法。首先,我們使用無導數(shù)優(yōu)化來直接最小化智能體的預(yù)期回報。在第二部分中,我們學習了一種對抗價值函數(shù),該函數(shù)根據(jù)經(jīng)驗預(yù)測哪些情況最有可能導致智能體失誤。然后,我們使用學習好的函數(shù)進行優(yōu)化,將評估重點放在最有問題的輸入上。這些方法只構(gòu)成了某個豐富且正在增長的潛在算法空間的一小部分,同時,對于嚴格評估智能體方面未來的發(fā)展,我們也感到非常激動。

相比于隨機測試,這兩種方法已經(jīng)實現(xiàn)了很大的改善。使用我們的方法,可以在幾分鐘內(nèi)檢測到原需要花費數(shù)天才能發(fā)現(xiàn)甚至根本無法發(fā)現(xiàn)的失誤(Uesato et al,2018b)。我們還發(fā)現(xiàn),對抗測試會定性地發(fā)現(xiàn)我們智能體的行為和在隨機測試集評估的預(yù)測結(jié)果之間存在的差異。特別是,使用對抗性環(huán)境構(gòu)造,我們發(fā)現(xiàn)智能體在執(zhí)行 3D 導航任務(wù)上的平均水平可與人類在同一任務(wù)上的表現(xiàn)相媲美,不過,它在十分簡單的迷宮上卻任務(wù)上,還不能夠完整地找到目標(Ruderman et al,2018)。此外,這項工作還強調(diào),我們需要設(shè)計的系統(tǒng)除了要能對抗「攻擊者」,還要能夠抵御自然失誤。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

使用隨機抽樣,我們幾乎從不觀察具有高失敗概率的地圖,但是對抗測試表明這樣的地圖確實存在。即使在移除了許多墻壁,變成比原始地圖更簡單的地圖后,這些地圖上的失敗概率依然很高。

訓練與規(guī)范一致的模型

對抗測試旨在找到違反規(guī)范的反例。因此,它往往會高估模型與這些規(guī)范的一致性。在數(shù)學上,規(guī)范是必須在神經(jīng)網(wǎng)絡(luò)的輸入和輸出之間保持的某種關(guān)系。這可以采用某些鍵輸入和輸出參數(shù)的上限和下限的形式。

受此觀察的啟發(fā),一些研究人員(Raghunathan et al,2018; Wong et al,2018; Mirman et al,2018; Wang et al,2018),包括我們在 DeepMind 的團隊(Dvijotham et al,2018; Gowal et al.,2018),研究了與對抗測試程序無關(guān)的算法(用于評估與規(guī)范的一致性)。這可以從幾何學上理解,我們可以通過約束一組給定輸入情況下的輸出空間來約束與規(guī)范相差最大的情況(例如,使用間隔邊界傳播; Ehlers 2017,Katz et al,2017,Mirman et al,2018)。如果此區(qū)間相對于網(wǎng)絡(luò)參數(shù)是可微分的并且可以快速計算,則可以在訓練期間使用它。然后可以通過網(wǎng)絡(luò)的每個層傳播原始邊界框。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

我們證明了「間隔邊界傳播」(interval bound propagation )是快速且有效的方法,并且與先前的信念相反,這種方法可以獲得更加強大的結(jié)果(Gowal et al,2018)。特別地,我們證明它可以降低在 MNIST 和 CIFAR-10 數(shù)據(jù)集上的用于圖像分類的現(xiàn)有技術(shù)的可證明的錯誤率(即,任何「攻擊者」可實現(xiàn)的最大錯誤率)。

該領(lǐng)域未來的下一步,將會是學習正確的幾何抽象以計算更嚴格的輸出空間過度概率。我們還希望訓練出能夠與更復(fù)雜的規(guī)范一致的網(wǎng)絡(luò),從而捕捉到理想的行為,例如上面提到的不變性和與物理定律的一致性。

形式化驗證

嚴格的測試和訓練非常有助于構(gòu)建強大的機器學習系統(tǒng)。但是,沒有多少測試可以形式化地確保系統(tǒng)的行為符合我們的要求。在大規(guī)模的模型中,由于輸入擾動有無窮多種,因此我們很難列舉出給定輸入集(例如,對圖像的無窮小擾動)所有可能的輸出。但是,與在訓練中的情況一樣,我們可以通過在輸出集上設(shè)置幾何區(qū)域來找到更有效的方法。形式化驗證是 DeepMind 正在進行的研究主題。

關(guān)于如何計算網(wǎng)絡(luò)輸出空間上的精確幾何區(qū)域,機器學習研究界已經(jīng)提出了幾個的有趣的 idea(Katz et al,2017Weng et al,2018; Singh et al,2018)。我們的方法(Dvijotham et al,2018),則基于優(yōu)化和二元性,包括將驗證問題表述為一個試圖找到被驗證的屬性中最大的違規(guī)行為的優(yōu)化問題。同時,該問題通過在優(yōu)化中使用二元性的思想而變得更易于計算。這就會帶來了額外的約束,其使用所謂的「切割平面」來細化經(jīng)「間隔邊界傳播」計算得來的邊界框。這種方法雖然合理但不完整:可能存在興趣屬性為真,但此算法計算的區(qū)域范圍不足以證明該屬性的情況。但是,一旦我們得到了區(qū)域范圍,這就形式化的保證了不會有違反屬性的行為。下圖以圖形方式說明了該方法。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

這種方法使我們能夠?qū)Ⅱ炞C算法的適用性擴展到更廣泛的網(wǎng)絡(luò)(激活函數(shù),體系結(jié)構(gòu))、一般規(guī)范和更復(fù)雜的深度學習模型(例如生成模型、神經(jīng)過程等)以及對抗魯棒性以外的規(guī)范(Qin,2018)。

總結(jié)

在高風險情況下部署機器學習帶來了獨特的挑戰(zhàn),并且需要開發(fā)相應(yīng)的能夠可靠地檢測故障模式的評估手技術(shù)。更具體而言就是,我們認為,相比于僅僅從訓練數(shù)據(jù)中隱含地生成規(guī)范的方法而言,學習與規(guī)范的一致性的方法能夠帶來更有效的改進。我們對于正在進行的對抗評估、魯棒性模型學習和形式化規(guī)范驗證的研究,都感到非常興奮。

為了確?,F(xiàn)實世界中的 AI 系統(tǒng)能夠做出「正確的事情」,我們還需要做更多的工作來創(chuàng)建自動化工具。我們對以下方向的進展特別感興趣:

1、學習對抗性評估和驗證:隨著 AI 系統(tǒng)的擴展和復(fù)雜程度不斷增加,設(shè)計能很好擬合 AI 模型的對抗性評估和驗證算法將變得越來越困難。如果我們可以利用 AI 的強大功能來促進評估和驗證,那么將大大加速這項研究的進展。

2、開發(fā)用于對抗性評估和驗證的工具并對外開放:為 AI 工程師和從業(yè)者提供易于使用的工具非常重要,這些工具可以在 AI 系統(tǒng)導致廣泛的負面影響之前,就讓研究者知道其可能的故障模式。這需要對對抗性評估和驗證算法實現(xiàn)某種程度上的標準化。

3、擴大對抗樣本的范圍:到目前為止,大多數(shù)關(guān)于對抗樣本的工作都集中在對小擾動(通常是圖像)的模型不變性上。這為開發(fā)對抗性評估、魯棒學習和驗證方法提供了極好的測試平臺。我們已經(jīng)開始探索與現(xiàn)實世界直接相關(guān)屬性的替代規(guī)范,并對未來在這方面的研究感到興奮。

4、學習規(guī)范:在 AI 系統(tǒng)中捕獲「正確」行為的規(guī)范通常難以進行精準陳述。當我們可以構(gòu)建能夠展示復(fù)雜行為并在非結(jié)構(gòu)化環(huán)境中行動的更加智能的智能體時,我們將能夠創(chuàng)建能夠使用部分人類規(guī)劃的系統(tǒng),但這些系統(tǒng)還需要從可評估的反饋中更加深入地學習規(guī)范。

DeepMind 通過負責任地進行機器學習系統(tǒng)開發(fā)和部署,致力于對社會產(chǎn)生積極的影響。為了確保開發(fā)人員的貢獻是有積極意義的,我們還需要應(yīng)對許多技術(shù)挑戰(zhàn)。我們致力于參與這項工作,并很高興能夠與更多人合作解決這些挑戰(zhàn)。

via:https://deepmind.com/blog/robust-and-verified-ai/ 雷鋒網(wǎng) AI 科技評論報道

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說