深度學習零基礎(chǔ)進階第三彈?｜干貨分享

本文作者：奕欣

2016-10-22 09:57

導語：新一批論文將讓你對深度學習的方式與深度學習在不同領(lǐng)域的運用有個清晰的了解。由于第二部分的論文開始向細化方向延展，因此你可以根據(jù)自己的研究方向酌情進行選擇。

雷鋒網(wǎng)曾編譯《干貨分享 | 深度學習零基礎(chǔ)進階大法！》，相信讀者一定對深度學習的歷史有了一個基本了解，其基本的模型架構(gòu)（CNN/RNN/LSTM）與深度學習如何應用在圖片和語音識別上肯定也不在話下了。今天這一部分，我們將通過新一批論文，讓你對深度學習的方式與深度學習在不同領(lǐng)域的運用有個清晰的了解。由于第二部分的論文開始向細化方向延展，因此你可以根據(jù)自己的研究方向酌情進行選擇。雷鋒網(wǎng)對每篇論文都增加了補充介紹，分上下兩篇，由老呂IO及奕欣編譯整理，未經(jīng)雷鋒網(wǎng)許可不得轉(zhuǎn)載。

4. 循環(huán)神經(jīng)網(wǎng)絡(luò)/序列到序列模式

《Generating sequences with recurrent neural networks》一文由 Graves 和 Alex 兩位專家合力撰寫，這篇論文解釋了用遞歸神經(jīng)網(wǎng)絡(luò)生成手寫體的原理。

[19] https://arxiv.org/pdf/1308.0850.pdf

《Learning phrase representations using RNN encoder-decoder for statistical machine translation》完成了將英文轉(zhuǎn)譯為法文的任務(wù)，使用了一個 encoder-decoder 模型，在 encoder 的 RNN 模型中是將序列轉(zhuǎn)化為一個向量。在 decoder 中是將向量轉(zhuǎn)化為輸出序列，使用 encoder-decoder 能夠加入詞語與詞語之間的順序信息。此外，還將序列表達為一個向量，利用向量能夠清楚的看出那些語義上相近的詞聚集在一起。

[20] https://arxiv.org/pdf/1406.1078.pdf

《Sequence to sequence learning with neural networks》是谷歌的 I. Sutskever 等人提出的一種序列到序列的學習方法, 最直接的應用就是機器翻譯。

[21] http://papers.nips.cc/paper/5346-information-based-learning-by-agents-in-unbounded-state-spaces.pdf

Attention 機制最早是在視覺圖像領(lǐng)域提出來的，隨后 Bahdanau 等人在論文《Neural Machine Translation by Jointly Learning to Align and Translate》中，使用類似 attention 的機制在機器翻譯任務(wù)上將翻譯和對齊同時進行，他們算是第一個提出將 attention 機制應用到 NLP 領(lǐng)域中的團隊。

[22] https://arxiv.org/pdf/1409.0473v7.pdf

《A Neural Conversational Model》是最早應用于序列到序列框架建立對話模型的論文，即便其中使用的模型結(jié)構(gòu)并不復雜，網(wǎng)絡(luò)層數(shù)數(shù)量也不多，但效果是卻很可觀。

[23] https://arxiv.org/pdf/1506.05869.pdf

5.神經(jīng)圖靈機

《Neural turing machines》一文介紹了神經(jīng)圖靈機，一種從生物可行內(nèi)存和數(shù)字計算機的啟發(fā)產(chǎn)生的神經(jīng)網(wǎng)絡(luò)架構(gòu)。如同傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，這個架構(gòu)也是可微的端對端的并且可以通過梯度下降進行訓練。我們的實驗展示了它有能力從樣本數(shù)據(jù)中學習簡單的算法并且能夠?qū)⑦@些算法推廣到更多的超越了訓練樣本本身的數(shù)據(jù)上。絕對的五星推薦。

[24] https://arxiv.org/pdf/1410.5401.pdf

神經(jīng)圖靈機是當前深度學習領(lǐng)域三大重要研究方向之一。論文《Reinforcement learning neural Turing machines》利用增強學習算法來對神經(jīng)網(wǎng)絡(luò)進行訓練，從而使神經(jīng)圖靈機的界面變得表現(xiàn)力十足。

[25] https://pdfs.semanticscholar.org/f10e/071292d593fef939e6ef4a59baf0bb3a6c2b.pdf

《Memory networks》由四位專家撰寫而成，實際上所謂的 Memory Network 是一個通用的框架而已，內(nèi)部的輸入映射、更新記憶映射、輸出映射、響應映射都是可以更換的。

[26] https://arxiv.org/pdf/1410.3916.pdf

《End-to-end memory networks》在算法層面解決了讓記憶網(wǎng)絡(luò)端對端進行訓練的問題，在應用方面則解決了問題回答和語言建模等問題。

[27] http://papers.nips.cc/paper/5846-end-to-end-memory-networks.pdf

《Pointer networks》中提出了一種新型的網(wǎng)絡(luò)架構(gòu)，用來學習從一個序列輸入到一個序列輸出的推導。跟以往的成果不同之處在于，輸入輸出的長度都是可變的，輸出的長度跟輸入有關(guān)。

[28] http://papers.nips.cc/paper/5866-pointer-networks.pdf

《Hybrid computing using a neural network with dynamic external memory》是谷歌 DeepMind 首發(fā)于《自然》雜志的論文，它介紹了一種記憶增強式的神經(jīng)網(wǎng)絡(luò)形式，其被稱為可微神經(jīng)計算機（differentiable neural computer），研究表明它可以學習使用記憶來回答有關(guān)復雜的結(jié)構(gòu)化數(shù)據(jù)的問題，其中包括人工生成的故事、家族樹、甚至倫敦地鐵的地圖。研究還表明它還能使用強化學習解決拼圖游戲問題。五星推薦。

[29] https://www.dropbox.com/s/0a40xi702grx3dq/2016-graves.pdf

6. 深度強化學習

終于！我們來到了深度強化學習的門下。說到這個名詞，怎么能不提第一篇提出深度強化學習的論文呢？Mnih 所寫的《Playing atari with deep reinforcement learning》將卷積神經(jīng)網(wǎng)絡(luò)和 Q Learning 結(jié)合，使用同一個網(wǎng)絡(luò)玩 Atari 2600（也就是打方塊）這類只需要短時記憶的 7 種游戲。結(jié)果顯示，這種算法無需人工提取特征，還能生成無限樣本以實現(xiàn)監(jiān)督訓練。

[30] http://arxiv.org/pdf/1312.5602.pdf

而至于深度強化學習的里程碑之作，同樣要屬同一作者的《Human-level control through deep reinforcement learning》，作者發(fā)明了一個名為DQN也就是深度Q網(wǎng)絡(luò)的東西，讓人工神經(jīng)網(wǎng)絡(luò)能直接從傳感器的輸入數(shù)據(jù)中獲得物體分類，成功實現(xiàn)端到端的強化學習算法從高維的傳感器輸入中直接學習到成功策略。

[31] http://www.davidqiu.com:8888/research/nature14236.pdf

而接下來這篇名為《Dueling network architectures for deep reinforcement learning》的文章則提出了一個新的網(wǎng)絡(luò)——競爭架構(gòu)網(wǎng)絡(luò)。它包括狀態(tài)價值函數(shù)和狀態(tài)依存動作優(yōu)勢函數(shù)。這一架構(gòu)在多種價值相似的動作面前能引發(fā)更好的政策評估。此文當選 ICML 2016最佳論文大獎。

[32] http://arxiv.org/pdf/1511.06581

《Asynchronous methods for deep reinforcement learning》由 DeepMind 出品，主要增強了 Atari 2600 的游戲效果，也被視為通過多個實例采集樣本進行異步更新的經(jīng)典案例。

[33] http://arxiv.org/pdf/1602.01783

比起傳統(tǒng)的規(guī)劃方法，《Continuous control with deep reinforcement learning》里提到的DQL方法能夠應用于連續(xù)動作領(lǐng)域，魯棒解決了 20 個仿真運動，采用的是基于ICML 2014的Deterministic policy gradient （DPG）的 actor-critic 算法，名為 DDPG。

[34] http://arxiv.org/pdf/1509.02971

《Continuous Deep Q-Learning with Model-based Acceleration》采用了 Advantage Function 完成增強學習工作，但主要集中于變量連續(xù)行動空間。而就像標題所言，為了加快機器經(jīng)驗獲取，研究還用卡爾曼濾波器加局部線性模型。實驗結(jié)果顯示，這種方法比前一篇論文提及的 DDPG 要好些。

[35] http://arxiv.org/pdf/1603.00748

Schulman的《Trust region policy optimization》可謂是計算機玩游戲的一大突破，這個名為 TRPO 的算法所呈現(xiàn)的結(jié)果絲毫不遜色于 DeepMind 的研究成果，展示了一種廣義的學習能力。除了叫機器人走路，我們還能讓它成為游戲高手。

[36] http://www.jmlr.org/proceedings/papers/v37/schulman15.pdf

接下來介紹的這篇論文就是鼎鼎大名的 AlphaGo 所運用的算法，《Mastering the game of Go with deep neural networks and tree search》里，谷歌運用了 13 層的策略網(wǎng)絡(luò)，讓計算機學會用蒙特卡羅搜索樹玩圍棋游戲。當然，五星推薦此篇，不服來辯。

[37] http://willamette.edu/~levenick/cs448/goNature.pdf

7. 無監(jiān)督特征學習

《Deep Learning of Representations for Unsupervised and Transfer Learning》可謂無監(jiān)督特征學習的開山之作。

[38] http://www.jmlr.org/proceedings/papers/v27/bengio12a/bengio12a.pdf

而接下來的這篇《Lifelong Machine Learning Systems: Beyond Learning Algorithms》主要提到的觀點是，如果一個具有Lifelong Machine Learning能力的機器學習系統(tǒng)，是否能夠使用解決此前問題的相關(guān)知識幫助它解決新遇到的問題，也就是舉一反三的能力。文章在 2013 年的AAAI 春季研討會上首次提出。

[39] http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.696.7800&rep=rep1&type=pdf

人工智能教父又來了，他這次和 Dean 合作帶來的是《Distilling the knowledge in a neural network》，也就是壓縮神經(jīng)網(wǎng)絡(luò)。不過核心創(chuàng)新貌似不多，所以給個四星吧。

[40] http://arxiv.org/pdf/1503.02531

《Policy distillation》，文章由谷歌大神Andrei Alexandru Rusu 所寫，同款文章還有 Parisotto 的《Actor-mimic: Deep multitask and transfer reinforcement learning》，都是在講 RL 域的問題。

[41] http://arxiv.org/pdf/1511.0629

[42] http://arxiv.org/pdf/1511.06342

這里還有另外一篇 Andrei 的文章，名為《Progressive neural networks》，提出了一項名為“漸進式神經(jīng)網(wǎng)絡(luò)”的算法，即在仿真環(huán)境中訓練機器學習，隨后就能把知識遷移到真實環(huán)境中。無疑，這將大大加速機器人的學習速度。

[43] https://arxiv.org/pdf/1606.04671

8. 一步之遙

以下五篇論文雖然并不是完全針對深度學習而推薦，但包含的一些基本思想還是具有借鑒意義的。

《Human-level concept learning through probabilistic program induction》五星推薦，文章主要介紹了貝葉斯學習程序（BPL）框架，“如何依靠簡單的例子來對新概念進行學習和加工，學習主體是人類?！?/p>

[44] http://clm.utexas.edu/compjclub/wp-content/uploads/2016/02/lake2015.pdf

而讀讀 Koch 的《Siamese Neural Networks for One-shot Image Recognition》和這篇《One-shot Learning with Memory-Augmented Neural Networks》著實很有必要。

[45] http://www.cs.utoronto.ca/~gkoch/files/msc-thesis.pdf

[46]http://arxiv.org/pdf/1605.06065

將重點放在大數(shù)據(jù)上的《Low-shot visual object recognition》則是走向圖像識別的必要一步。

[47]http://arxiv.org/pdf/1606.02819

以上便是第二階段值得一讀的論文，敬請期待后續(xù)更新。