丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

本文作者: 奕欣 2017-04-26 14:39 專題:ICLR 2017
導(dǎo)語:最富爭議的最佳論文的第一作者張馳原,自己又是如何闡述論文的寫作思路的呢?

雷鋒網(wǎng) AI 科技評論按:ICLR 2017 上,爭議最大的 best paper 莫過于這篇名為《Understanding Deep Learning Requires Rethinking Generalization》(《理解深度學(xué)習(xí),需要重新思考泛化問題》)的論文。作者名單可謂群星薈萃,分別為 MIT 博士生張馳原,谷歌大腦團隊、深度學(xué)習(xí)三巨頭 Yoshua Bengio 的親兄弟 Samy Bengio、谷歌大腦團隊 Modiz Hardt、加州伯克利大學(xué)的 Benjamin Racht,以及谷歌 DeepMind 的 Oriol Vinyals。

雖然關(guān)于這篇論文的討論很多,但張馳原在發(fā)給雷鋒網(wǎng)的郵件中表示,他沒有計劃對論文進(jìn)行公開解讀或接受訪談。因此在 ICLR 的現(xiàn)場,張馳原的現(xiàn)場演講便成為了為數(shù)不多的了解論文思路的方式。雷鋒網(wǎng)對他的演講全文進(jìn)行聽譯及整理,未經(jīng)許可不得轉(zhuǎn)載。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

演講視頻:

以下為演講實錄:

謝謝。今天我想談?wù)劺斫夥夯谕ㄓ蒙疃葘W(xué)習(xí)上的表現(xiàn)。和我一同合作的研究者包括 Samy Bengio、Modiz Hardt、Benjamin Racht 和 Oriol Vinyals。

接下來,我們將談?wù)劮夯?。如果你想讓系統(tǒng)獲得一個好的訓(xùn)練表現(xiàn),那么通常會根據(jù)你手頭所擁有的數(shù)據(jù)量選擇合適的模型復(fù)雜度。

因此,一般而言你不會選擇一個太簡單的模型,因為可能容易導(dǎo)致欠擬合的問題,無法涵蓋有趣的模式;當(dāng)然,你也不愿選擇一個太復(fù)雜的模型(雷鋒網(wǎng)按:或者說過參數(shù)化的模型),因為這樣一來,非常容易導(dǎo)致泛化誤差,即過擬合問題。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

不過,過參數(shù)化的模型在一些領(lǐng)域的應(yīng)用其實非常流行,也很成功。舉個例子,當(dāng)我們看著這幅圖上的紫色小點時,包括我以及在座的各位來賓都很難猜出這是什么。但如果我給出所需要的背景圖示,那么你會很快知道這是「水蛇星座」(A Water Snake)。也就是說,當(dāng)我們試圖理解星象結(jié)構(gòu)和圖案時,我們會運用豐富的想象力和創(chuàng)造力腦補出星座的畫面。通過星星所形成的點的各種組合,我們能夠創(chuàng)造出一幅美麗的圖畫。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

當(dāng)然,過參數(shù)化在深度學(xué)習(xí)中運用得很多,大家也非常熟悉,比如在計算機視覺領(lǐng)域非常典型的 CNN、LeNet、Inception Network,還有 152 層的 Deep Residual Network 等網(wǎng)絡(luò)。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

我們接下來回到這張圖討論偏差-方差問題(bias-variance),你會看到,實際上深度學(xué)習(xí)在位于坐標(biāo)軸的右邊很遠(yuǎn)的地方。我認(rèn)為非常奇怪的地方在于,我們在測試過程中有著非常高的方差,但在實踐中,深度學(xué)習(xí)的性能與泛化表現(xiàn)卻非常好。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

更奇怪的地方是,如果你將參數(shù)數(shù)量(parameter count)與訓(xùn)練樣本的數(shù)量(number of Training Samples)之比(p/n)進(jìn)行比較,你會發(fā)現(xiàn),當(dāng)這個數(shù)字增加時,神經(jīng)網(wǎng)絡(luò)的錯誤實際上有時會下降。從圖表中我們看到,MLP 1*512 網(wǎng)絡(luò)大概是綠毛蟲的級別,p/n 為 24,如果達(dá)到 50% 的錯誤率,可能效果并不理想。如果采用了像 Alexnet 這樣更大的模型(像比卡丘一樣),p/n 接近 30,錯誤率就相對下降了。如果用更大的 Inception 甚至是 Wide Resnet(達(dá)到卡比獸和大巖蛇的規(guī)模),就能獲得非常高的準(zhǔn)確度。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

這個結(jié)果仿佛告訴我們,測量參數(shù)數(shù)量并不能有效地測量模型的復(fù)雜度,當(dāng)然,結(jié)構(gòu)也是我們需要考慮的內(nèi)容,但測量參數(shù)數(shù)量顯然并不明智。那么,我們?nèi)绾螠y量模型的有效復(fù)雜度?

為了實現(xiàn)這一點,我想介紹一下隨機化檢驗。首先我要說明的是,我們發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)非常容易擬合隨機標(biāo)簽。

那么隨機化檢驗是什么?即一系列設(shè)計用來測量擬合隨機噪聲情況的實驗,數(shù)據(jù)集并不總是涵蓋有意義的樣本,因此你可以用此來檢驗?zāi)P偷哪芰Α4颂幬覀儾捎秒S機標(biāo)簽來考量,首先我們采用 CIFAR 10 及 ImageNet 上已經(jīng)標(biāo)注好的數(shù)據(jù)集,隨后,我們通過擲骰子的方式對數(shù)據(jù)集隨機排序,并給它賦予一個新的標(biāo)簽名字。也就是說,每個圖像集都標(biāo)記為不同的名字,比如同為「花」內(nèi)容的數(shù)據(jù)集,可能會有不同的名字,如「鳥」和「狗」。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

隨后,我們通過谷歌搜到一些成功的模型和開源應(yīng)用,隨即我們將張量先后 flow 進(jìn)原始的數(shù)據(jù)集和隨機標(biāo)簽的數(shù)據(jù)集里,隨后對數(shù)據(jù)進(jìn)行比較。

從圖表中我們可以發(fā)現(xiàn),橫坐標(biāo)左邊是沒有標(biāo)簽噪聲的 CIFAR 10 數(shù)據(jù)集,右邊為全是隨機標(biāo)簽噪聲的數(shù)據(jù)集。我們可以發(fā)現(xiàn),不論標(biāo)簽是否加入了隨機噪聲,訓(xùn)練數(shù)據(jù)的準(zhǔn)確度都是 100%,但測試準(zhǔn)確度就會逐漸下降到 10%,這就形成了一個泛化鴻溝(generalization gap)。在其它條件不變的情況下(同樣的結(jié)構(gòu)、同樣的算法、同樣的 p/n),泛化誤差依然會隨之變大。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

那么這又回到了我們一開始所說的結(jié)論:深度神經(jīng)網(wǎng)絡(luò)非常容易擬合隨機標(biāo)簽。由此引申的一點是,不論你給出任意的訓(xùn)練數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)都會有效地記住整個數(shù)據(jù)集,不論我們需要它學(xué)些什么,或是摻入了怎樣的噪聲。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

我想提的另一點是,我們并不是想提出一個普適于任何情況的論點,我們并不是在說,任何神經(jīng)網(wǎng)絡(luò)都能夠完美擬合隨機噪聲。因為確實存在一些網(wǎng)絡(luò)在面對隨機標(biāo)簽時呈現(xiàn)無法擬合,或者說過擬合的情況。我們想說明的點是,確實有一些成功的模型,一方面能夠適應(yīng) CIFAR 或 ImageNet 等自然數(shù)據(jù)集,Inception 及 Alexnet 等網(wǎng)絡(luò)在 ImageNet 等很多數(shù)據(jù)集同樣呈現(xiàn)相似的結(jié)果。但它們無法呈現(xiàn)不同的泛化誤差,而這也是引起泛化討論的一個原因。

我們接下來要說的是正則化(regularizers)問題。我們都知道,正則化是為了限制假設(shè)空間,這里可以用一只胖胖的貓來類比大的假設(shè)空間,而被塞進(jìn)更小容器里的小貓就是正則化的模型。當(dāng)你向神經(jīng)網(wǎng)絡(luò)加入了正則化矩陣,實際上你也縮小了假設(shè)空間。因此,被縮小的假設(shè)空間也無法很好地擬合隨機標(biāo)簽。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

我們做出了一些嘗試,對神經(jīng)網(wǎng)絡(luò)采用了一些常用的正則化方法,包括以下三種:

  • 數(shù)據(jù)增強:涉及特定域的轉(zhuǎn)化

  • 權(quán)重衰減:非常流行的正則化方法

  • 隨機遮擋:因 LeCun 而發(fā)揚光大

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

我們采用對比的方式,一組用正則化擬合,一組不采用。得到兩個結(jié)果:

  • 一個是,訓(xùn)練數(shù)據(jù)在準(zhǔn)確度上并沒有變化;

  • 第二個是沒有正則化與正則化的測試準(zhǔn)確率并沒有太大差異。在 CIFAR-10 及 ImageNet 上的結(jié)果呈現(xiàn)相似的結(jié)果。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

如果我們采用隨機化檢驗的方式,并予以正則化,在不同的網(wǎng)絡(luò)下是否還能擬合隨機噪聲?答案是肯定的,在大部分的案例下,神經(jīng)網(wǎng)絡(luò)確實能夠擬合隨機噪聲。在這個實驗中,我們發(fā)現(xiàn) Alexnet 不能 converge,但就像我們之前說的一樣,我們并不是為了提出通用的論斷。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

而且不可否認(rèn)的是,如果你持續(xù)增加泛化的權(quán)重,終究會無法擬合隨機標(biāo)簽,就更不要說自然標(biāo)簽了。這樣一來,我們又陷入了欠擬合的狀態(tài)。對吧?

很遺憾的是,正則化在我們的通常理解中,是一種能夠限制模型或增強數(shù)據(jù)的方法。而如今,在重新思考正則化之后,它可能更像是「任何會損害訓(xùn)練過程的東西」。這可能會導(dǎo)致,比如,提前停止(early stopping)獲得所謂的全局最小值,或讓隨機梯度下降(SGD)產(chǎn)生不必要的梯度噪音(gradient noice)。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

而在采用 SGD 擬合隨機標(biāo)簽時,真實標(biāo)簽與隨機標(biāo)簽的平均 loss 一開始呈現(xiàn)非常大的差距,但到接近 1500 steps 時,兩者會趨向一致。而如果采用的是混合像素、隨機像素甚至是高斯像素的圖片,它們最終都會趨于損失最小化(0),并獲得全局最小值。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

因此,我們論文中提及的隱式泛化基本上并沒有改變圖像,實際上所用的模型也有著它強大的有效能力(effective capacity),而采用偏差-方差理解泛化能力看上去很難。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

對于深度學(xué)習(xí)而言,優(yōu)化問題并不難。優(yōu)化的難點與泛化的難點并不相同,因此學(xué)習(xí)泛化很可能需要從另一個角度思考,且并不容易,它們兩者并不能混為一談。

據(jù)此,我們團隊的結(jié)論是:

  • 提出了一個簡單的實驗框架,以理解深度學(xué)習(xí)模型的有效表達(dá)能力。

  • 成功的深度網(wǎng)絡(luò)能夠碾壓性地擬合訓(xùn)練集。

  • 要解釋過參數(shù)化深度模型的泛化問題,我們需要提出其他的方式,來衡量模型/算法/數(shù)據(jù)集的復(fù)雜度。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

以上便是張馳原團隊的演講全文,更多 ICLR 2017 的文章,敬請前往專題頁面了解。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?(附視頻)| ICLR 2017

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說