0
本文作者: 大壯旅 | 2016-10-21 20:00 |
圖片來(lái)自wiki
昨天,雷鋒網(wǎng)編譯了《干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階大法!》,相信讀者一定對(duì)深度學(xué)習(xí)的歷史有了一個(gè)基本了解,其基本的模型架構(gòu)(CNN/RNN/LSTM)與深度學(xué)習(xí)如何應(yīng)用在圖片和語(yǔ)音識(shí)別上肯定也不在話(huà)下了。今天這一部分,我們將通過(guò)新一批論文,讓你對(duì)深度學(xué)習(xí)的方式與深度學(xué)習(xí)在不同領(lǐng)域的運(yùn)用有個(gè)清晰的了解。由于第二部分的論文開(kāi)始向細(xì)化方向延展,因此你可以根據(jù)自己的研究方向酌情進(jìn)行選擇。本文對(duì)每篇論文都增加了補(bǔ)充介紹,分上下兩篇,由老呂IO及奕欣編譯整理,未經(jīng)雷鋒網(wǎng)許可不得轉(zhuǎn)載。
1.深度學(xué)習(xí)模型
Hinton 與 Geoffrey 等技術(shù)專(zhuān)家合著的《Improving neural networks by preventing co-adaptation of feature detectors》也很有指導(dǎo)意義。論文提出,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí),如果訓(xùn)練樣本較少,為了防止模型過(guò)擬合,Dropout 可以作為一種 trikc 供選擇。
[1] https://arxiv.org/pdf/1207.0580.pdf
關(guān)于 Dropout,Srivastava 與 Nitish 等技術(shù)專(zhuān)家也合著過(guò)《Dropout: a simple way to prevent neural networks from overfitting》一文。論文提出,擁有大量參數(shù)的深度神經(jīng)網(wǎng)絡(luò)是性能極其強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng),但過(guò)度擬合問(wèn)題卻成了系統(tǒng)中難以解決的一個(gè)大問(wèn)題,而 Dropout 是處理這一問(wèn)題的技術(shù)捷徑。
[2] http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdf
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是個(gè)復(fù)雜異常的活,因?yàn)橛?xùn)練中每一層參數(shù)的更改都會(huì)牽一發(fā)而動(dòng)全身,而這一問(wèn)題就造成訓(xùn)練效率低下。Ioffe、 Sergey 和 Christian Szegedy在《Batch normalization: Accelerating deep network training by reducing internal covariate shift》一文中著重介紹了解決這一問(wèn)題的關(guān)鍵:內(nèi)部協(xié)變量的轉(zhuǎn)變。
[3] https://arxiv.org/pdf/1502.03167.pdf
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練非??简?yàn)計(jì)算能力,而要想縮短訓(xùn)練時(shí)間,就必須讓神經(jīng)元的活動(dòng)正?;?,而最新引入的“批規(guī)范化”技術(shù)則是解決這一問(wèn)題的突破口。完成技術(shù)突破的技術(shù)方式糾纏在多位專(zhuān)家合著的這份名為《Layer normalization》的論文中。
[4] https://arxiv.org/pdf/1607.06450.pdf?utm_source=sciontist.com&utm_medium=refer&utm_campaign=promote
《Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to+ 1 or?1》是今年2月份剛剛出爐的論文,論文的主要思想是通過(guò)二值化weights和activations,來(lái)提高NN的速度和減少其內(nèi)存占用。由于二值網(wǎng)絡(luò)只是將網(wǎng)絡(luò)的參數(shù)和激活值二值化,并沒(méi)有改變網(wǎng)絡(luò)的結(jié)構(gòu),因此我們要關(guān)注如何二值化,以及二值化后參數(shù)如何更新。
[5] https://pdfs.semanticscholar.org/f832/b16cb367802609d91d400085eb87d630212a.pdf
《Decoupled neural interfaces using synthetic gradients》是一篇來(lái)自Google DeepMind很有意思的神經(jīng)網(wǎng)絡(luò)論文,論文中用合成的梯度來(lái)分解backprop中的關(guān)聯(lián)關(guān)系,五星推薦。
[6] https://arxiv.org/pdf/1608.05343.pdf
2. 深度學(xué)習(xí)優(yōu)化
《On the importance of initialization and momentum in deep learning》一文介紹了初始化和Momentum技術(shù)在深度學(xué)習(xí)方面的重要性,更多的著眼在實(shí)驗(yàn)分析上。
[7] http://www.jmlr.org/proceedings/papers/v28/sutskever13.pdf
Adam是一種基于梯度的優(yōu)化方法,與SDG類(lèi)似。其具體信息可以參閱論文《Adam: A method for stochastic optimization》。
[8] https://arxiv.org/pdf/1412.6980.pdf
《Learning to learn by gradient descent by gradient descent》由 Andrychowicz 和 Marcin 等專(zhuān)家撰寫(xiě)而成,本文的思想是利用LSTM學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的更新策略,即利用梯度下降法學(xué)習(xí)一個(gè)優(yōu)化器,然后用這個(gè)優(yōu)化器去優(yōu)化其他網(wǎng)絡(luò)的參數(shù)。該文指導(dǎo)意義頗強(qiáng),五星推薦。
[9] https://arxiv.org/pdf/1606.04474.pdf
斯坦福大學(xué)的 Song Han 與 Huizi Mao 等專(zhuān)家撰寫(xiě)了一系列有關(guān)網(wǎng)絡(luò)壓縮的論文,《Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding》是其中一篇,論文題目已經(jīng)概括了文中的三個(gè)重點(diǎn),非常清晰明了。同時(shí)它也榮獲了 ICLR 2016 最佳論文,五星推薦。
[10] https://pdfs.semanticscholar.org/5b6c/9dda1d88095fa4aac1507348e498a1f2e863.pdf
《SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 1MB model size》由 Iandola 和 Forrest N 等專(zhuān)家撰寫(xiě),開(kāi)頭論文先提了在相同精確度下,體積更小的深度神經(jīng)網(wǎng)絡(luò)有著3點(diǎn)好處。隨后,提出了本文的創(chuàng)新 SqueezeNet 并給出了一個(gè)分類(lèi)精度接近 AlexNet1 的網(wǎng)絡(luò),模型縮小 510 倍,還歸納了縮小模型尺寸時(shí)的設(shè)計(jì)思路。
[11] https://arxiv.org/pdf/1602.07360.pdf
3. 無(wú)監(jiān)督學(xué)習(xí)/深層生成模型
《Building high-level features using large scale unsupervised learning》講述了 Google Brain 中特征學(xué)習(xí)的原理,通過(guò)使用未標(biāo)記的圖像學(xué)習(xí)人臉、貓臉特征,得到檢測(cè)器。文章使用大數(shù)據(jù)構(gòu)建了一個(gè)9層的局部連接稀疏自編碼網(wǎng)絡(luò),使用模型并行化和異步 SGD 在 1000 個(gè)機(jī)器(16000核)上訓(xùn)練了 3 天,實(shí)驗(yàn)結(jié)果顯示可以在未標(biāo)記圖像是否有人臉的情況下訓(xùn)練出一個(gè)人臉檢測(cè)器。
[12] https://arxiv.org/pdf/1112.6209.pdf&embed
Kingma、 Diederik P 和 Max Welling 三位專(zhuān)家共同撰寫(xiě)了《Auto-encoding variational bayes》,該論文提出一個(gè)融合 Variational Bayes 方法和神經(jīng)網(wǎng)絡(luò)的方法,這個(gè)方法可以用來(lái)構(gòu)造生成模型的自編碼器。
[13] https://arxiv.org/pdf/1312.6114.pdf
《Generative adversarial nets》是 Ian Goodfellow 大神的 2014 年的論文,中文應(yīng)該叫做對(duì)抗網(wǎng)絡(luò),在許多教程中作為非監(jiān)督深度學(xué)習(xí)的代表作給予推廣。本文解決了非監(jiān)督學(xué)習(xí)中的著名問(wèn)題:給定一批樣本,訓(xùn)練一個(gè)系統(tǒng),能夠生成類(lèi)似的新樣本。五星推薦。
[14] http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
《Unsupervised representation learning with deep convolutional generative adversarial networks》是在 GAN 的論文中提出的對(duì)抗模型的原型,本文給出了基于卷機(jī)網(wǎng)的實(shí)現(xiàn)。同時(shí)還描述了實(shí)現(xiàn)過(guò)程中的細(xì)節(jié),比如參數(shù)設(shè)置。也提到了解決 GAN 中訓(xùn)練不穩(wěn)定的措施,但是并非完全解決。文中還提到利用對(duì)抗生成網(wǎng)絡(luò)來(lái)做半監(jiān)督學(xué)習(xí)。在訓(xùn)練結(jié)束后,識(shí)別網(wǎng)絡(luò)可以用來(lái)提取圖片特征,輸入有標(biāo)簽的訓(xùn)練圖片,可以將卷基層的輸出特征作為 X ,標(biāo)簽作為 Y 做訓(xùn)練。
[15] https://arxiv.org/pdf/1511.06434.pdf
《DRAW: A recurrent neural network for image generation》來(lái)自谷歌,描述了如何用 Deep Recurrent Attentive Writer (DRAW)神經(jīng)網(wǎng)絡(luò)框架自動(dòng)生成圖像,五星推薦。
[16] http://jmlr.org/proceedings/papers/v37/gregor15.pdf
《Pixel recurrent neural networks》是谷歌 ICML 獲獎(jiǎng)?wù)撐?,它解釋了像素遞歸神經(jīng)網(wǎng)絡(luò)是如何幫圖片“極致”建模的。在這篇文章中,作者在深度遞歸網(wǎng)絡(luò)下建立了對(duì)自然圖片的通用建模并顯著提升了它的效率。此外,作者提出了一種新穎的二維 LSTM 層:ROW LSTM和 Diagonal BiLSTM,它能更容易擴(kuò)展到其他數(shù)據(jù)上。
[17] https://arxiv.org/pdf/1601.06759.pdf
《Conditional Image Generation with PixelCNN Decoders》來(lái)自谷歌DeepMind團(tuán)隊(duì)。他們研究一種基于PixelCNN(像素卷積神經(jīng)網(wǎng)絡(luò))架構(gòu)的模型,可以根據(jù)條件的變化生成新的圖像。如果該模型輸入ImageNet圖像庫(kù)的分類(lèi)標(biāo)簽照片,該模型能生成多變的真實(shí)場(chǎng)景的照片,比如動(dòng)物、風(fēng)景等。如果該模型輸入其他卷積神經(jīng)生成的未見(jiàn)過(guò)的人臉照片,該模型能生成同一個(gè)人的不同表情、姿勢(shì)的照片。
[18] https://arxiv.org/pdf/1606.05328.pdf
推薦閱讀:
干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階大法!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。