0
本文作者: 奕欣 | 2017-05-18 18:01 | 專題:AutoML 祛魅 |
在 Google I/O 大會(huì)上,谷歌公布了最新的機(jī)器學(xué)習(xí)算法——AutoML,隨即,Quoc Le 與 Barret Aoph 大神在 Google Research Blog 上發(fā)布了一篇名為《采用機(jī)器學(xué)習(xí)探索神經(jīng)網(wǎng)絡(luò)架構(gòu)》的文章。雷鋒網(wǎng)進(jìn)行了編譯,并做了不改動(dòng)原意的編輯和修改。
「在谷歌團(tuán)隊(duì),我們成功地將深度學(xué)習(xí)模型應(yīng)用于非常多的領(lǐng)域,從圖像識(shí)別、語音識(shí)別到機(jī)器翻譯等等。自然,這些工作離不開一整支工程師與科學(xué)家團(tuán)隊(duì)的努力。人工設(shè)計(jì)機(jī)器學(xué)習(xí)模型的過程實(shí)際上絕非坦途,因?yàn)樗锌赡芙M合模型背后的搜索空間非常龐大——一個(gè)典型的十層神經(jīng)網(wǎng)絡(luò)可能有~1010 種可能的神經(jīng)網(wǎng)絡(luò)組合。問題也接踵而至,為了應(yīng)對(duì)這樣龐大的數(shù)量級(jí),神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)不僅耗時(shí),而且需要機(jī)器學(xué)習(xí)專家們累積大量的經(jīng)驗(yàn)?!?/p>
如圖是 GoogleNet 的架構(gòu)。神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)需要從最初的卷積架構(gòu)開始,進(jìn)行多年的細(xì)心調(diào)試
為了讓機(jī)器學(xué)習(xí)模型的設(shè)計(jì)變得更加簡(jiǎn)單,谷歌團(tuán)隊(duì)一直希望能讓這一過程自動(dòng)化。此前谷歌也有做不少嘗試,包括 evolutionary algorithms 與 reinforcement learning algorithms 等算法已經(jīng)呈現(xiàn)了比較好的結(jié)果。而 Quoc Le 與 Barret Zoph 在此文中所展現(xiàn)的,是谷歌大腦團(tuán)隊(duì)目前在強(qiáng)化學(xué)習(xí)上得到的一些嘗試與早期結(jié)果。
在團(tuán)隊(duì)一個(gè)名為「AutoML」的項(xiàng)目中(如圖所示),左邊有一個(gè)名為「控制器」(the controller)的 RNN,它設(shè)計(jì)出一個(gè)「child」的模型架構(gòu)(雷鋒網(wǎng)覺得可以稱之為「雛形/子架構(gòu)」),而后者能夠通過某些特定任務(wù)進(jìn)行訓(xùn)練與評(píng)估。隨后,反饋的結(jié)果(feedback)得以返回到控制器中,并在下一次循環(huán)中提升它的訓(xùn)練設(shè)定。這一過程重復(fù)上千次——生成新的架構(gòu)、測(cè)試、再把反饋輸送給控制器再次學(xué)習(xí)。最終,控制器會(huì)傾向于設(shè)計(jì)那些在數(shù)據(jù)集中能獲得更高準(zhǔn)確性的架構(gòu),而反之亦然。
谷歌團(tuán)隊(duì)將這一方法應(yīng)用于深度學(xué)習(xí)的兩大數(shù)據(jù)集中,專注圖像識(shí)別的 CIFAR-10 與語言建模的 Penn Treebank。在兩個(gè)數(shù)據(jù)集上,系統(tǒng)自行設(shè)計(jì)的模型性能表現(xiàn)與目前機(jī)器學(xué)習(xí)專家所設(shè)計(jì)的領(lǐng)先模型不相上下(有些模型甚至還是谷歌成員自己設(shè)計(jì)的?。?。
猜猜哪個(gè)是人類設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu),哪個(gè)是機(jī)器設(shè)計(jì)的?
讓機(jī)器自行選擇架構(gòu)(machine-chosen architecture),與人類在設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的時(shí)候有一些共通之處,比如都采用了合并輸入,并借鑒了此前的隱藏層。但其中也有一些亮點(diǎn),比如機(jī)器選擇的架構(gòu)包含乘法組合 ( multiplicative combination),如右圖最左邊(機(jī)器設(shè)計(jì))的藍(lán)色標(biāo)簽為「elem_mult」。對(duì)于循環(huán)神經(jīng)網(wǎng)絡(luò)而言,出現(xiàn)組合的情況并不多見,可能因?yàn)槿祟愌芯空卟]有發(fā)現(xiàn)明顯的優(yōu)勢(shì)。有意思的地方在于,此前人類設(shè)計(jì)者也提議過機(jī)器采用的乘法組合,認(rèn)為這種方法能夠有效緩解梯度消失/爆炸問題。這也就意味著,機(jī)器選擇的架構(gòu)能夠?qū)Πl(fā)現(xiàn)新的神經(jīng)架構(gòu)大有裨益。
此外,機(jī)器還能教會(huì)人類為何某些神經(jīng)網(wǎng)絡(luò)的運(yùn)行效果比較好。上圖右邊的架構(gòu)有非常多的渠道,梯度可以向后流動(dòng),這也解釋了為何 LSTM RNNs 的表現(xiàn)比標(biāo)準(zhǔn) RNN 的性能要好。
「從長(zhǎng)遠(yuǎn)看來,我們對(duì)于機(jī)器所設(shè)計(jì)的架構(gòu)進(jìn)行深入的分析和測(cè)試,這能夠幫助我們重新定義原本自身對(duì)架構(gòu)的看法。如果我們成功,這意味著將會(huì)啟發(fā)新的神經(jīng)網(wǎng)絡(luò)的誕生,也能讓一些非專家研究人員根據(jù)自己的需要?jiǎng)?chuàng)造神經(jīng)網(wǎng)絡(luò),讓機(jī)器學(xué)習(xí)造福每一個(gè)人?!?/p>
參考文獻(xiàn):
[1] Large-Scale Evolution of Image Classifiers, Esteban Real, Sherry Moore, Andrew Selle, Saurabh Saxena, Yutaka Leon Suematsu, Quoc Le, Alex Kurakin. International Conference on Machine Learning, 2017.
[2] Neural Architecture Search with Reinforcement Learning, Barret Zoph, Quoc V. Le. International Conference on Learning Representations, 2017.
via research.googleblog,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章