丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

谷歌大腦研究對抗性樣本得出意外結論:分類誤差為零的模型就不存在對抗性樣本了

本文作者: 楊曉凡 2018-01-17 15:21
導語:然而這是否是“不可能完成的任務”?

雷鋒網(wǎng) AI 科技評論按:谷歌大腦近期的一篇新論文對對抗性樣本做了多方面的理論性研究,不僅首次發(fā)現(xiàn)了簡單數(shù)據(jù)分布下對抗性樣本的分布特性,而且得出了「分類誤差為零的模型不存在對抗性樣本」這樣的大家此前不曾想象過的結論。我們把這篇論文《Adversarial Spheres》(對抗性球面)主要內容介紹如下。

谷歌大腦研究對抗性樣本得出意外結論:分類誤差為零的模型就不存在對抗性樣本了

背景

自從 Ian Goodfellow 等人發(fā)現(xiàn)并命名了「對抗性樣本」以來,學術界已經(jīng)有許多研究者投入了許多時間精力在這種現(xiàn)象的研究上。數(shù)字圖像可以被巧妙地修改,修改的幅度對人眼來說幾乎無法察覺,但修改后的圖像卻可以以很高的置信度騙過圖像識別模型,讓模型認為這是另一個類別的實體,這是「對抗性樣本」的直接來源。Ian Goodfellow 稍后也把這種現(xiàn)象正式描述為「從數(shù)據(jù)分布中隨機選擇圖像,大多數(shù)都可以被圖像模型正確分類,然而看上去非常相似的圖像卻可能會被分類錯誤」。通過對抗性方法創(chuàng)建的對抗性樣本具有優(yōu)秀的魯棒性(可以對多種不同模型起效),而且具有一定的視角、方向、大小不變性。盡管之前也有研究者提出理論假說和一些防御策略,大家對這種現(xiàn)象的原因仍然知之甚少。

對于對抗性樣本的原因目前有這么幾種假說:神經(jīng)網(wǎng)絡分類器在輸入空間的許多區(qū)域都過于線性;對抗性樣本并沒有落在正常的數(shù)據(jù)流形上;也有人提出網(wǎng)絡內部權重矩陣的單個很大的值有可能會讓網(wǎng)絡對輸入中的小擾動更脆弱。

除了嘗試解釋對抗性樣本的成因,也有研究者提出了各種防御方法來提高模型的魯棒性。有的研究嘗試替換網(wǎng)絡使用的非線性函數(shù)以提高對小擾動的魯棒性,有的研究嘗試把大模型蒸餾為小模型,有的研究中給網(wǎng)絡增加正則化,還有一些研究中嘗試用一個額外的統(tǒng)計模型先把對抗性樣本挑出來。不過,也有研究說明了以上這些方法都不一定奏效,對抗性訓練在某些狀況下倒是可以提高網(wǎng)絡的魯棒性。

從構建球面分布數(shù)據(jù)開始

考慮到這些能被騙過的模型在測試集上其實也是有很高的準確率的,對抗性樣本的這種現(xiàn)象就有點耐人尋味。在這篇論文中,作者們提出一種假說,認為網(wǎng)絡之所以會出現(xiàn)這種行為,是數(shù)據(jù)流形的高維度本質特性的自然結果。

為了能夠驗證這種假說,作者們構建了兩個同心的高維球面數(shù)據(jù)集,訓練網(wǎng)絡做這個二分類任務,以此開展研究。兩個球面分別為 r=1 和 R=1.3,數(shù)據(jù)維度最高為 5000,并且數(shù)據(jù)點就分布在球面上(雷鋒網(wǎng) AI 科技評論注:這也就是標題中的「spheres」的含義)。在這樣的設定中,數(shù)據(jù)流形有數(shù)學上的完善定義,而且模型學到的決策邊界也是可以有解析性的表示的;而以往的基于現(xiàn)有圖像數(shù)據(jù)集的研究中,數(shù)據(jù)流形是不可知的,決策邊界也無法表示,就很難進行研究。更重要的是,通過自己生成數(shù)據(jù)的過程,作者們可以自由地變化數(shù)據(jù)維度的數(shù)目大小,從而研究輸入維度數(shù)目對神經(jīng)網(wǎng)絡的泛化誤差存在性的影響。

谷歌大腦研究對抗性樣本得出意外結論:分類誤差為零的模型就不存在對抗性樣本了

用球面分布數(shù)據(jù)集對二分類模型的測試結果和圖像模型的測試結果相似:數(shù)據(jù)分布中隨機選擇的點多數(shù)都可以被正確分類,同時也和不能被正確分類的點非常接近。即便當測試錯誤率低于一千萬分之一的時候都會出現(xiàn)這種行為。

研究結論

作者們經(jīng)過研究得到了這樣的結論:「測試集上出現(xiàn)分類錯誤的點出現(xiàn)的概率」和「到最近的分類錯誤點之間的距離」,兩者之間的關系是與模型無關的。任何一個總會分類錯誤球面上的一小部分點的模型,就一定會在多數(shù)隨機采樣的數(shù)據(jù)點附近存在會被分類錯誤的點,不管模型分類錯誤的點在球面上的分布如何。在球面數(shù)據(jù)集上訓練的神經(jīng)網(wǎng)絡都會自然地逼近作者們找到的這個測試誤差和平均距離之間的理論最優(yōu)平衡曲線。這似乎表明,為了按線性減小到最近的分類錯誤點之間的平均距離,模型的分類錯誤率需要以指數(shù)減小。

這個結論給出了模型的泛化誤差和到最近的分類錯誤點距離之間的最優(yōu)取舍平衡關系。作者們也設計了三個不同的網(wǎng)絡,在 1k、5k、10k、100k、無限制這幾種訓練樣本數(shù)目下進行了驗證性測試,得到的結果正是沿著以上結論給出的曲線(黑線)的。

谷歌大腦研究對抗性樣本得出意外結論:分類誤差為零的模型就不存在對抗性樣本了

這個結論的重要意義體現(xiàn)在,它把「為什么模型很容易被對抗性樣本騙過」這個難以給出直接答案的問題變成了「為什么有少量的分類錯誤」這個更簡單的問題。目前還不知道對于圖像數(shù)據(jù)集的數(shù)據(jù)流形,這個結論是否還成立,后續(xù)研究會向著這個方向繼續(xù)探索。畢竟論文中研究的只是一個極為簡單的球面分布數(shù)據(jù)集,還不能很好體現(xiàn)出真實圖像數(shù)據(jù)集數(shù)據(jù)流形的復雜性。

這個結論引發(fā)的后續(xù)問題還包括在數(shù)據(jù)量有限的情況下有沒有可能完全解決對抗性樣本的問題。作者們的實驗中,用足夠多數(shù)據(jù)訓練的足夠大的網(wǎng)絡已經(jīng)展現(xiàn)出了低到測不出來的分類錯誤率,不過實驗同時也表明這個網(wǎng)絡的規(guī)模要顯著大很多才可以。作者們猜測也許一個足夠大的神經(jīng)網(wǎng)絡、經(jīng)過非常大的圖像數(shù)據(jù)集訓練之后有可能最終變得完美,在測試中取得低到測不出來的分類錯誤率,同時也就能很好抵抗對抗性樣本。

論文詳細內容請見:https://arxiv.org/abs/1801.02774 ,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

谷歌大腦研究對抗性樣本得出意外結論:分類誤差為零的模型就不存在對抗性樣本了

分享:
相關文章

讀論文為生

日常笑點滴,學術死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說