丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

本文作者: 奕欣 2017-04-26 14:39 專題:ICLR 2017
導(dǎo)語(yǔ):最富爭(zhēng)議的最佳論文的第一作者張馳原,自己又是如何闡述論文的寫(xiě)作思路的呢?

雷鋒網(wǎng) AI 科技評(píng)論按:ICLR 2017 上,爭(zhēng)議最大的 best paper 莫過(guò)于這篇名為《Understanding Deep Learning Requires Rethinking Generalization》(《理解深度學(xué)習(xí),需要重新思考泛化問(wèn)題》)的論文。作者名單可謂群星薈萃,分別為 MIT 博士生張馳原,谷歌大腦團(tuán)隊(duì)、深度學(xué)習(xí)三巨頭 Yoshua Bengio 的親兄弟 Samy Bengio、谷歌大腦團(tuán)隊(duì) Modiz Hardt、加州伯克利大學(xué)的 Benjamin Racht,以及谷歌 DeepMind 的 Oriol Vinyals。

雖然關(guān)于這篇論文的討論很多,但張馳原在發(fā)給雷鋒網(wǎng)的郵件中表示,他沒(méi)有計(jì)劃對(duì)論文進(jìn)行公開(kāi)解讀或接受訪談。因此在 ICLR 的現(xiàn)場(chǎng),張馳原的現(xiàn)場(chǎng)演講便成為了為數(shù)不多的了解論文思路的方式。雷鋒網(wǎng)對(duì)他的演講全文進(jìn)行聽(tīng)譯及整理,未經(jīng)許可不得轉(zhuǎn)載。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

演講視頻:

以下為演講實(shí)錄:

謝謝。今天我想談?wù)劺斫夥夯谕ㄓ蒙疃葘W(xué)習(xí)上的表現(xiàn)。和我一同合作的研究者包括 Samy Bengio、Modiz Hardt、Benjamin Racht 和 Oriol Vinyals。

接下來(lái),我們將談?wù)劮夯?。如果你想讓系統(tǒng)獲得一個(gè)好的訓(xùn)練表現(xiàn),那么通常會(huì)根據(jù)你手頭所擁有的數(shù)據(jù)量選擇合適的模型復(fù)雜度。

因此,一般而言你不會(huì)選擇一個(gè)太簡(jiǎn)單的模型,因?yàn)榭赡苋菀讓?dǎo)致欠擬合的問(wèn)題,無(wú)法涵蓋有趣的模式;當(dāng)然,你也不愿選擇一個(gè)太復(fù)雜的模型(雷鋒網(wǎng)按:或者說(shuō)過(guò)參數(shù)化的模型),因?yàn)檫@樣一來(lái),非常容易導(dǎo)致泛化誤差,即過(guò)擬合問(wèn)題。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

不過(guò),過(guò)參數(shù)化的模型在一些領(lǐng)域的應(yīng)用其實(shí)非常流行,也很成功。舉個(gè)例子,當(dāng)我們看著這幅圖上的紫色小點(diǎn)時(shí),包括我以及在座的各位來(lái)賓都很難猜出這是什么。但如果我給出所需要的背景圖示,那么你會(huì)很快知道這是「水蛇星座」(A Water Snake)。也就是說(shuō),當(dāng)我們?cè)噲D理解星象結(jié)構(gòu)和圖案時(shí),我們會(huì)運(yùn)用豐富的想象力和創(chuàng)造力腦補(bǔ)出星座的畫(huà)面。通過(guò)星星所形成的點(diǎn)的各種組合,我們能夠創(chuàng)造出一幅美麗的圖畫(huà)。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

當(dāng)然,過(guò)參數(shù)化在深度學(xué)習(xí)中運(yùn)用得很多,大家也非常熟悉,比如在計(jì)算機(jī)視覺(jué)領(lǐng)域非常典型的 CNN、LeNet、Inception Network,還有 152 層的 Deep Residual Network 等網(wǎng)絡(luò)。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

我們接下來(lái)回到這張圖討論偏差-方差問(wèn)題(bias-variance),你會(huì)看到,實(shí)際上深度學(xué)習(xí)在位于坐標(biāo)軸的右邊很遠(yuǎn)的地方。我認(rèn)為非常奇怪的地方在于,我們?cè)跍y(cè)試過(guò)程中有著非常高的方差,但在實(shí)踐中,深度學(xué)習(xí)的性能與泛化表現(xiàn)卻非常好。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

更奇怪的地方是,如果你將參數(shù)數(shù)量(parameter count)與訓(xùn)練樣本的數(shù)量(number of Training Samples)之比(p/n)進(jìn)行比較,你會(huì)發(fā)現(xiàn),當(dāng)這個(gè)數(shù)字增加時(shí),神經(jīng)網(wǎng)絡(luò)的錯(cuò)誤實(shí)際上有時(shí)會(huì)下降。從圖表中我們看到,MLP 1*512 網(wǎng)絡(luò)大概是綠毛蟲(chóng)的級(jí)別,p/n 為 24,如果達(dá)到 50% 的錯(cuò)誤率,可能效果并不理想。如果采用了像 Alexnet 這樣更大的模型(像比卡丘一樣),p/n 接近 30,錯(cuò)誤率就相對(duì)下降了。如果用更大的 Inception 甚至是 Wide Resnet(達(dá)到卡比獸和大巖蛇的規(guī)模),就能獲得非常高的準(zhǔn)確度。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

這個(gè)結(jié)果仿佛告訴我們,測(cè)量參數(shù)數(shù)量并不能有效地測(cè)量模型的復(fù)雜度,當(dāng)然,結(jié)構(gòu)也是我們需要考慮的內(nèi)容,但測(cè)量參數(shù)數(shù)量顯然并不明智。那么,我們?nèi)绾螠y(cè)量模型的有效復(fù)雜度?

為了實(shí)現(xiàn)這一點(diǎn),我想介紹一下隨機(jī)化檢驗(yàn)。首先我要說(shuō)明的是,我們發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)非常容易擬合隨機(jī)標(biāo)簽。

那么隨機(jī)化檢驗(yàn)是什么?即一系列設(shè)計(jì)用來(lái)測(cè)量擬合隨機(jī)噪聲情況的實(shí)驗(yàn),數(shù)據(jù)集并不總是涵蓋有意義的樣本,因此你可以用此來(lái)檢驗(yàn)?zāi)P偷哪芰?。此處我們采用隨機(jī)標(biāo)簽來(lái)考量,首先我們采用 CIFAR 10 及 ImageNet 上已經(jīng)標(biāo)注好的數(shù)據(jù)集,隨后,我們通過(guò)擲骰子的方式對(duì)數(shù)據(jù)集隨機(jī)排序,并給它賦予一個(gè)新的標(biāo)簽名字。也就是說(shuō),每個(gè)圖像集都標(biāo)記為不同的名字,比如同為「花」內(nèi)容的數(shù)據(jù)集,可能會(huì)有不同的名字,如「鳥(niǎo)」和「狗」。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

隨后,我們通過(guò)谷歌搜到一些成功的模型和開(kāi)源應(yīng)用,隨即我們將張量先后 flow 進(jìn)原始的數(shù)據(jù)集和隨機(jī)標(biāo)簽的數(shù)據(jù)集里,隨后對(duì)數(shù)據(jù)進(jìn)行比較。

從圖表中我們可以發(fā)現(xiàn),橫坐標(biāo)左邊是沒(méi)有標(biāo)簽噪聲的 CIFAR 10 數(shù)據(jù)集,右邊為全是隨機(jī)標(biāo)簽噪聲的數(shù)據(jù)集。我們可以發(fā)現(xiàn),不論標(biāo)簽是否加入了隨機(jī)噪聲,訓(xùn)練數(shù)據(jù)的準(zhǔn)確度都是 100%,但測(cè)試準(zhǔn)確度就會(huì)逐漸下降到 10%,這就形成了一個(gè)泛化鴻溝(generalization gap)。在其它條件不變的情況下(同樣的結(jié)構(gòu)、同樣的算法、同樣的 p/n),泛化誤差依然會(huì)隨之變大。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

那么這又回到了我們一開(kāi)始所說(shuō)的結(jié)論:深度神經(jīng)網(wǎng)絡(luò)非常容易擬合隨機(jī)標(biāo)簽。由此引申的一點(diǎn)是,不論你給出任意的訓(xùn)練數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)都會(huì)有效地記住整個(gè)數(shù)據(jù)集,不論我們需要它學(xué)些什么,或是摻入了怎樣的噪聲。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

我想提的另一點(diǎn)是,我們并不是想提出一個(gè)普適于任何情況的論點(diǎn),我們并不是在說(shuō),任何神經(jīng)網(wǎng)絡(luò)都能夠完美擬合隨機(jī)噪聲。因?yàn)榇_實(shí)存在一些網(wǎng)絡(luò)在面對(duì)隨機(jī)標(biāo)簽時(shí)呈現(xiàn)無(wú)法擬合,或者說(shuō)過(guò)擬合的情況。我們想說(shuō)明的點(diǎn)是,確實(shí)有一些成功的模型,一方面能夠適應(yīng) CIFAR 或 ImageNet 等自然數(shù)據(jù)集,Inception 及 Alexnet 等網(wǎng)絡(luò)在 ImageNet 等很多數(shù)據(jù)集同樣呈現(xiàn)相似的結(jié)果。但它們無(wú)法呈現(xiàn)不同的泛化誤差,而這也是引起泛化討論的一個(gè)原因。

我們接下來(lái)要說(shuō)的是正則化(regularizers)問(wèn)題。我們都知道,正則化是為了限制假設(shè)空間,這里可以用一只胖胖的貓來(lái)類比大的假設(shè)空間,而被塞進(jìn)更小容器里的小貓就是正則化的模型。當(dāng)你向神經(jīng)網(wǎng)絡(luò)加入了正則化矩陣,實(shí)際上你也縮小了假設(shè)空間。因此,被縮小的假設(shè)空間也無(wú)法很好地?cái)M合隨機(jī)標(biāo)簽。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

我們做出了一些嘗試,對(duì)神經(jīng)網(wǎng)絡(luò)采用了一些常用的正則化方法,包括以下三種:

  • 數(shù)據(jù)增強(qiáng):涉及特定域的轉(zhuǎn)化

  • 權(quán)重衰減:非常流行的正則化方法

  • 隨機(jī)遮擋:因 LeCun 而發(fā)揚(yáng)光大

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

我們采用對(duì)比的方式,一組用正則化擬合,一組不采用。得到兩個(gè)結(jié)果:

  • 一個(gè)是,訓(xùn)練數(shù)據(jù)在準(zhǔn)確度上并沒(méi)有變化;

  • 第二個(gè)是沒(méi)有正則化與正則化的測(cè)試準(zhǔn)確率并沒(méi)有太大差異。在 CIFAR-10 及 ImageNet 上的結(jié)果呈現(xiàn)相似的結(jié)果。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

如果我們采用隨機(jī)化檢驗(yàn)的方式,并予以正則化,在不同的網(wǎng)絡(luò)下是否還能擬合隨機(jī)噪聲?答案是肯定的,在大部分的案例下,神經(jīng)網(wǎng)絡(luò)確實(shí)能夠擬合隨機(jī)噪聲。在這個(gè)實(shí)驗(yàn)中,我們發(fā)現(xiàn) Alexnet 不能 converge,但就像我們之前說(shuō)的一樣,我們并不是為了提出通用的論斷。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

而且不可否認(rèn)的是,如果你持續(xù)增加泛化的權(quán)重,終究會(huì)無(wú)法擬合隨機(jī)標(biāo)簽,就更不要說(shuō)自然標(biāo)簽了。這樣一來(lái),我們又陷入了欠擬合的狀態(tài)。對(duì)吧?

很遺憾的是,正則化在我們的通常理解中,是一種能夠限制模型或增強(qiáng)數(shù)據(jù)的方法。而如今,在重新思考正則化之后,它可能更像是「任何會(huì)損害訓(xùn)練過(guò)程的東西」。這可能會(huì)導(dǎo)致,比如,提前停止(early stopping)獲得所謂的全局最小值,或讓隨機(jī)梯度下降(SGD)產(chǎn)生不必要的梯度噪音(gradient noice)。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

而在采用 SGD 擬合隨機(jī)標(biāo)簽時(shí),真實(shí)標(biāo)簽與隨機(jī)標(biāo)簽的平均 loss 一開(kāi)始呈現(xiàn)非常大的差距,但到接近 1500 steps 時(shí),兩者會(huì)趨向一致。而如果采用的是混合像素、隨機(jī)像素甚至是高斯像素的圖片,它們最終都會(huì)趨于損失最小化(0),并獲得全局最小值。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

因此,我們論文中提及的隱式泛化基本上并沒(méi)有改變圖像,實(shí)際上所用的模型也有著它強(qiáng)大的有效能力(effective capacity),而采用偏差-方差理解泛化能力看上去很難。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

對(duì)于深度學(xué)習(xí)而言,優(yōu)化問(wèn)題并不難。優(yōu)化的難點(diǎn)與泛化的難點(diǎn)并不相同,因此學(xué)習(xí)泛化很可能需要從另一個(gè)角度思考,且并不容易,它們兩者并不能混為一談。

據(jù)此,我們團(tuán)隊(duì)的結(jié)論是:

  • 提出了一個(gè)簡(jiǎn)單的實(shí)驗(yàn)框架,以理解深度學(xué)習(xí)模型的有效表達(dá)能力。

  • 成功的深度網(wǎng)絡(luò)能夠碾壓性地?cái)M合訓(xùn)練集。

  • 要解釋過(guò)參數(shù)化深度模型的泛化問(wèn)題,我們需要提出其他的方式,來(lái)衡量模型/算法/數(shù)據(jù)集的復(fù)雜度。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

以上便是張馳原團(tuán)隊(duì)的演講全文,更多 ICLR 2017 的文章,敬請(qǐng)前往專題頁(yè)面了解。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問(wèn)題?(附視頻)| ICLR 2017

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)