0
本文作者: 高云河 | 編輯:郭奕欣 | 2017-04-26 10:05 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評論按:4月24日-26日,ICLR 2017于法國土倫舉辦。雷鋒網(wǎng)AI科技評論編輯赴前線帶來該會(huì)議的一線報(bào)道。期間,雷鋒網(wǎng)也將圍繞會(huì)議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請期待。
神經(jīng)網(wǎng)絡(luò)是功能強(qiáng)大而又靈活的模型,在圖像,語音以及自然語言理解等學(xué)習(xí)任務(wù)上有良好的效果。盡管神經(jīng)網(wǎng)絡(luò)很成功,但設(shè)計(jì)一個(gè)好的神經(jīng)網(wǎng)絡(luò)仍然十分困難。為了能夠使設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)變得簡單,谷歌大腦團(tuán)隊(duì)發(fā)表了一篇名為《Neural architecture search with reinforcement learning》的文章,該文章使用循環(huán)網(wǎng)絡(luò)來生成神經(jīng)網(wǎng)絡(luò)中的模型描述,并用強(qiáng)化學(xué)習(xí)訓(xùn)練這個(gè)RNN,以最大限度的提高驗(yàn)證集中生成的架構(gòu)的準(zhǔn)確性。
該論文的作者之一Quoc V. Le是機(jī)器學(xué)習(xí)大牛吳恩達(dá)先生在斯坦福大學(xué)時(shí)期的博士生,而雷鋒網(wǎng)了解到,該論文將會(huì)在今天的 ICLR會(huì)議上作為第四個(gè)Contributed talk進(jìn)行討論。
以下為雷鋒網(wǎng)AI科技評論據(jù)論文內(nèi)容進(jìn)行的部分編譯。
過去幾年中,許多深度神經(jīng)網(wǎng)絡(luò)在語音識(shí)別,圖像識(shí)別,機(jī)器翻譯等富有挑戰(zhàn)性的任務(wù)中取得極大的成功。伴隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究人員的重點(diǎn)從特征設(shè)計(jì)轉(zhuǎn)移到了架構(gòu)設(shè)計(jì),比如從SIFT和HOG算法,轉(zhuǎn)移到了AlexNet,VGGNet,GoogleNet,以及ResNet等網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中。盡管這些方法似乎變得更簡單了,但設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)仍然需要大量的專業(yè)知識(shí)并耗費(fèi)大量時(shí)間。
谷歌大腦團(tuán)隊(duì)提出了神經(jīng)架構(gòu)搜索(Neural Architecture Search),使用基于梯度的方法以找到最優(yōu)的架構(gòu),過程如上圖。由于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以由特定的變長字符串指代,因此可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)(控制器)生成該字符串。使用真實(shí)數(shù)據(jù)訓(xùn)練由字符串指代的網(wǎng)絡(luò)(“子網(wǎng)絡(luò)”),并在驗(yàn)證集上得到一個(gè)準(zhǔn)確率。之后使用強(qiáng)化學(xué)習(xí)訓(xùn)練RNN,將準(zhǔn)確率作為reward信號(hào),即可以計(jì)算策略梯度,以便更新控制器。因此,在下一個(gè)迭代周期,控制器有更大的可能會(huì)生成一個(gè)能夠得到更高準(zhǔn)確率的架構(gòu)。換種說法,控制器能夠?qū)W習(xí)如何改善它的搜索。
該論文的結(jié)果展示了神經(jīng)架構(gòu)搜索能夠設(shè)計(jì)出很好的模型,在CIFAR-10數(shù)據(jù)集上的圖像識(shí)別,神經(jīng)架構(gòu)搜索能夠找到一個(gè)新穎的卷積網(wǎng)絡(luò)模型,該模型比目前人工設(shè)計(jì)的最好的模型更好,在測試集上得到了3.84的錯(cuò)誤率,同時(shí)速度是目前最好的人工模型的1.2倍。在Penn Treebank數(shù)據(jù)集的語言模型中,神經(jīng)架構(gòu)搜索設(shè)計(jì)出的模型比先前RNN和LSTM架構(gòu)更好,困惑度(perplexity)為62.4,比目前最好的人工方法提高了3.6.
使用控制器生成神經(jīng)網(wǎng)絡(luò)架構(gòu)的超參數(shù),為了靈活性,控制器選擇為循環(huán)神經(jīng)網(wǎng)絡(luò)。下圖為預(yù)測只具有卷積層的前饋神經(jīng)網(wǎng)絡(luò),控制器將生成的超參數(shù)看作一系列符號(hào)。
在實(shí)驗(yàn)中,如果網(wǎng)絡(luò)的層數(shù)超過一定值,則生成架構(gòu)會(huì)停止。該值遵循一定的策略,并隨著訓(xùn)練過程增加。一旦控制器RNN完成了架構(gòu)的生成,就開始構(gòu)建并訓(xùn)練具有該架構(gòu)的神經(jīng)網(wǎng)絡(luò)。在網(wǎng)絡(luò)收斂之后,記錄網(wǎng)絡(luò)在驗(yàn)證集中的準(zhǔn)確率,并對控制器RNN的參數(shù)進(jìn)行優(yōu)化,以使控制器所提出的架構(gòu)的預(yù)期驗(yàn)證準(zhǔn)確率最大化。
控制器預(yù)測的模型描述可以被看作設(shè)計(jì)子網(wǎng)絡(luò)的一系列action。在訓(xùn)練子網(wǎng)絡(luò)收斂之后,該子網(wǎng)絡(luò)會(huì)在保留數(shù)據(jù)集上得到一個(gè)準(zhǔn)確度R。使用準(zhǔn)確度R作為reward信號(hào),并使用強(qiáng)化學(xué)習(xí)訓(xùn)練控制器。
CIFAR-10數(shù)據(jù)集上的卷積架構(gòu)學(xué)習(xí)
搜索空間為卷積結(jié)構(gòu),使用了非線性層以及批歸一化(batch normalization)。對于每個(gè)卷積層,控制器需要在[1,3,5,7]中選擇濾波器的寬度和高度,在[24,36,48,64]中選擇濾波器數(shù)量。
RNN控制器為兩層LSTM,每層有35個(gè)隱藏單元。使用學(xué)習(xí)率為0.0006的ADAM優(yōu)化器訓(xùn)練??刂破鳈?quán)值在-0.08到0.08之間平均初始化。并且進(jìn)行分布式訓(xùn)練,使用了800個(gè)GPU同時(shí)訓(xùn)練800個(gè)網(wǎng)絡(luò)。當(dāng)RNN控制器確定了一個(gè)架構(gòu)之后,子網(wǎng)絡(luò)就被構(gòu)建,并訓(xùn)練50個(gè)周期。在控制器訓(xùn)練過程中,控制器每確定1600個(gè)網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)的深度就增加2,初始的網(wǎng)絡(luò)深度為6。
在控制器訓(xùn)練了12800個(gè)架構(gòu)之后,得到了最高的驗(yàn)證集準(zhǔn)確率,與其他方法的準(zhǔn)確率對比見下圖:
Penn Treebank數(shù)據(jù)集上循環(huán)網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)
訓(xùn)練過程與CIFAR-10實(shí)驗(yàn)基本相同,最終結(jié)果如下:
總結(jié):該論文提供了一種使用RNN構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的方法。通過使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為控制器,該方法可以靈活地在不同的結(jié)構(gòu)空間中搜索。該方法在一些具有挑戰(zhàn)性的數(shù)據(jù)集上有著很好的性能,也為自動(dòng)構(gòu)建高質(zhì)量神經(jīng)網(wǎng)絡(luò)架構(gòu)提供了一個(gè)新的研究方向。
ICLR委員會(huì)最終決定
評價(jià):該篇論文是提交給會(huì)議的論文中最好的幾篇之一。評委們都很欣賞該想法,并認(rèn)為實(shí)驗(yàn)設(shè)計(jì)得嚴(yán)密,有趣,引人注意。尤其令人感興趣的是實(shí)驗(yàn)結(jié)果表明生成模型的性能比目前廣泛使用的模型更好(例如LSTM)。
決定: 接受(作為Oral文章)
評委評論:
打分:9分:所有接受論文中的Top 15%,強(qiáng)烈推薦
評價(jià):該論文探索了自動(dòng)架構(gòu)搜索領(lǐng)域的一個(gè)重要部分。盡管從技術(shù)上看,目前計(jì)算能力仍然緊張,但是隨著未來技術(shù)的進(jìn)步,這種權(quán)衡會(huì)變得更好。
該論文覆蓋了標(biāo)準(zhǔn)的視覺和文字任務(wù),并在許多數(shù)據(jù)集上進(jìn)行了測試,展示了在標(biāo)準(zhǔn)RNN和CNN搜索空間之外仍然有改進(jìn)的余地。盡管我們希望這個(gè)方法能夠應(yīng)用到更多的數(shù)據(jù)集上,但是現(xiàn)在已經(jīng)能夠充分的展示出該方法不僅能與人工設(shè)計(jì)的架構(gòu)不相上下,甚至還能有所超越。這也意味著將一種方法應(yīng)用到一個(gè)特定的數(shù)據(jù)集上,已經(jīng)不需要在每個(gè)步驟上都手動(dòng)進(jìn)行設(shè)置了。
該論文是一篇課題有趣,實(shí)驗(yàn)結(jié)果良好的一篇文章。我強(qiáng)烈推薦接受。
評委評論:
打分:9分:所有接受論文中的Top 15%,強(qiáng)烈推薦
評價(jià):該論文提供了一種基于actor-critic架構(gòu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索。該方法將DNN看作一種可變長度序列,并使用強(qiáng)化學(xué)習(xí)來尋找目標(biāo)架構(gòu),作為一個(gè)actor。在強(qiáng)化學(xué)習(xí)的背景下,節(jié)點(diǎn)選擇是一個(gè)action,架構(gòu)的誤差作為reward。一個(gè)雙層自回歸LSTM作為控制器和critic。該方法在兩個(gè)較難的問題上進(jìn)行實(shí)驗(yàn),并與人工創(chuàng)建的多種架構(gòu)進(jìn)行對比。
這是一個(gè)非常激動(dòng)人心的文章。人工選擇架構(gòu)是很困難的,并且很難知道最優(yōu)的結(jié)果跟手工設(shè)計(jì)的網(wǎng)絡(luò)之間相距多遠(yuǎn)。該方法很新穎。作者很詳細(xì)的闡述了細(xì)節(jié),也指出了需要進(jìn)行的改進(jìn)的地方。測試的數(shù)據(jù)很好的展示了該方法的能力。能夠看到生成架構(gòu)和人工架構(gòu)之間的區(qū)別很有趣。文章寫得很清晰易懂。相關(guān)方法的覆蓋面和對比都很詳細(xì)。
如果能夠知道訓(xùn)練所需要的時(shí)間,以及不同時(shí)間/資源比例所訓(xùn)練處模型的質(zhì)量等數(shù)據(jù)就更好了??傊?,這是一個(gè)極好而有趣的文章。
一個(gè)很好的文章:
打分:9分:所有接受文章的Top 15%,強(qiáng)烈推薦
評價(jià):該文章提出了使用強(qiáng)化學(xué)習(xí)和循環(huán)神經(jīng)網(wǎng)絡(luò)來針對特定任務(wù)設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)的方法。這篇文章的想法很有前景,并且在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了這個(gè)方法很扎實(shí)。
文章的優(yōu)點(diǎn):
使用RNN來生成網(wǎng)絡(luò)的描述,使用RL訓(xùn)練RNN,這個(gè)想法很有趣且很有前景。
生成的模型與人工設(shè)計(jì)的很相似,這也表明了人類的專家指示和生成網(wǎng)絡(luò)架構(gòu)是兼容的。
文章的缺點(diǎn):
網(wǎng)絡(luò)的訓(xùn)練時(shí)間過長,即使使用了大量的計(jì)算資源。
實(shí)驗(yàn)并沒有提供生成架構(gòu)的泛化能力。如果能夠看到生成架構(gòu)在其他相似但不同的數(shù)據(jù)集上的表現(xiàn)就更好了。
總之,我相信這是一篇很好的文章。但是仍需要更多的實(shí)驗(yàn)來展示它相較于人工設(shè)計(jì)模型的潛在優(yōu)勢。
想要深入了解該方法的請閱讀原論文:ICLR 2017
谷歌大腦團(tuán)隊(duì)也在Tensorflow在GitHub的倉庫中開源了代碼:github
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章