0
本文作者: AI研習(xí)社-譯站 | 2017-12-27 14:39 |
雷鋒網(wǎng):雷鋒字幕組出品系列短視頻《 2 分鐘論文 》,帶大家用碎片時(shí)間閱覽前沿技術(shù),了解 AI 領(lǐng)域的最新研究成果。
雷鋒網(wǎng)本期論文:結(jié)合分層表示的高級(jí)架構(gòu)搜索
Hierarchical Representations For Efficient Architecture Search
? 觀看論文解讀
說到學(xué)習(xí)算法,為什么我們不讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)其自身的架構(gòu)呢?
終于有人提出了。這個(gè)新算法正是關(guān)于架構(gòu)搜索的。
到目前為止,這并不是第一個(gè)可以解決這個(gè)問題的辦法。但它無疑是藝術(shù)層面上的一個(gè)顯著的進(jìn)步。它代表了作為有機(jī)體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以通過遺傳算法編程使其進(jìn)化。
兩分鐘論文節(jié)目之前有提到過,神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展十分迅速,在十年前就已經(jīng)解決了那些人們認(rèn)為完全不可能解決的問題。當(dāng)我們想利用它來解決一些問題的時(shí)候,我們需要選擇正確的神經(jīng)網(wǎng)絡(luò)。問題是,我們要如何去建立正確的神經(jīng)網(wǎng)絡(luò)架構(gòu)呢?
針對(duì)典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),我們至少要知道在這個(gè)網(wǎng)絡(luò)中層的種類和數(shù)量,和每一層中使用的神經(jīng)元的數(shù)量。更大一些的神經(jīng)網(wǎng)絡(luò)可以通過學(xué)習(xí)解決方案來處理更加復(fù)雜一些的問題。這樣一來,事情就變得很簡(jiǎn)單,只要給出盡可能大的神經(jīng)網(wǎng)絡(luò),我們就能解決問題,并且可以期望得到最好的結(jié)果。但是,如果你真的認(rèn)為答案僅是如此,那太果斷了。
建立更大的神經(jīng)網(wǎng)絡(luò)是要付出代價(jià)的。它們要花更長(zhǎng)的時(shí)間訓(xùn)練,更糟的是,如果我們有一個(gè)過于大的神經(jīng)網(wǎng)絡(luò),就會(huì)遇到過擬合的問題。過擬合現(xiàn)象是指學(xué)習(xí)算法從本質(zhì)上來說是在記憶訓(xùn)練數(shù)據(jù),而實(shí)際上并沒有進(jìn)行學(xué)習(xí)。其結(jié)果是,它的知識(shí)并不適用于它沒見到過的數(shù)據(jù)。
想象一下,一名學(xué)生有著非凡的才能。他能夠記下教科書里的所有內(nèi)容,如果考試內(nèi)容跟書本上一樣,這名學(xué)生能夠做的非常好,但是,即使考試內(nèi)容有最細(xì)微的偏差,這名學(xué)生也將會(huì)做的非常糟糕。人們喜歡稱之為死記硬背,但是這種方式跟任何一種學(xué)習(xí)方法都無法相比。一個(gè)較小的神經(jīng)網(wǎng)絡(luò)就像一名知識(shí)量較少的學(xué)生。他們更傾向于選擇一種方式來完成他們的家庭作業(yè),這種方式會(huì)完成得更好。這就是過擬合現(xiàn)象。它是眾多現(xiàn)代學(xué)習(xí)算法的弊端。
使用L1、L2正則化或者dropout方法在某種程度上可以防止過擬合現(xiàn)象。這些方法通常有所幫助,但是沒有一種方法是非常高效的。因此,雖然算法本身是學(xué)習(xí)算法,但是出于某種原因,我們必須人為設(shè)計(jì)其網(wǎng)絡(luò)結(jié)構(gòu),正如我們討論的一些結(jié)構(gòu),實(shí)際上他們明顯優(yōu)于其他的結(jié)構(gòu)。我們要完成長(zhǎng)期的反復(fù)測(cè)試以求解決結(jié)構(gòu)中的錯(cuò)誤,從而人為地找到最好的結(jié)構(gòu)。
在這個(gè)圖表中,水平的X軸表示進(jìn)化的步驟數(shù)目,垂直的Y軸表示隨著時(shí)間的推移進(jìn)化后架構(gòu)的性能。最后,在花了一天半時(shí)間完成了幾千個(gè)進(jìn)化步驟之后,此算法找到的最好的網(wǎng)絡(luò)架構(gòu)只是稍稍遜色于適合許多經(jīng)典數(shù)據(jù)集的現(xiàn)有的最好的神經(jīng)網(wǎng)絡(luò)。
請(qǐng)仔細(xì)閱讀本篇文章,并與最先進(jìn)的神經(jīng)網(wǎng)絡(luò)和其他的架構(gòu)搜索方法進(jìn)行比較。這篇文章里有很多容易讀懂的結(jié)果。需要注意的是,這是初步工作,在過程中仍需要使用數(shù)百顯卡。假如你知道神經(jīng)網(wǎng)絡(luò)是如何應(yīng)用于AlphaGo的,那么它的計(jì)算成本會(huì)在一年多的時(shí)間里減少10倍。
關(guān)注雷鋒網(wǎng)的學(xué)霸們請(qǐng)閱讀論文獲得更多細(xì)節(jié):https://arxiv.org/pdf/1711.00436.pdf
來源 / Two Minute Papers
翻譯 / 嚴(yán)謹(jǐn)文
校對(duì) / 凡江
整理 / 雷鋒字幕組
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。