1
本文作者: 奕欣 | 2016-10-22 09:57 |
雷鋒網(wǎng)曾編譯《干貨分享 | 深度學習零基礎進階大法!》,相信讀者一定對深度學習的歷史有了一個基本了解,其基本的模型架構(CNN/RNN/LSTM)與深度學習如何應用在圖片和語音識別上肯定也不在話下了。今天這一部分,我們將通過新一批論文,讓你對深度學習的方式與深度學習在不同領域的運用有個清晰的了解。由于第二部分的論文開始向細化方向延展,因此你可以根據(jù)自己的研究方向酌情進行選擇。雷鋒網(wǎng)對每篇論文都增加了補充介紹,分上下兩篇,由老呂IO及奕欣編譯整理,未經(jīng)雷鋒網(wǎng)許可不得轉載。
4. 循環(huán)神經(jīng)網(wǎng)絡/序列到序列模式
《Generating sequences with recurrent neural networks》一文由 Graves 和 Alex 兩位專家合力撰寫,這篇論文解釋了用遞歸神經(jīng)網(wǎng)絡生成手寫體的原理。
[19] https://arxiv.org/pdf/1308.0850.pdf
《Learning phrase representations using RNN encoder-decoder for statistical machine translation》完成了將英文轉譯為法文的任務,使用了一個 encoder-decoder 模型,在 encoder 的 RNN 模型中是將序列轉化為一個向量。在 decoder 中是將向量轉化為輸出序列,使用 encoder-decoder 能夠加入詞語與詞語之間的順序信息。此外,還將序列表達為一個向量,利用向量能夠清楚的看出那些語義上相近的詞聚集在一起。
[20] https://arxiv.org/pdf/1406.1078.pdf
《Sequence to sequence learning with neural networks》是谷歌的 I. Sutskever 等人提出的一種序列到序列的學習方法, 最直接的應用就是機器翻譯。
[21] http://papers.nips.cc/paper/5346-information-based-learning-by-agents-in-unbounded-state-spaces.pdf
Attention 機制最早是在視覺圖像領域提出來的,隨后 Bahdanau 等人在論文《Neural Machine Translation by Jointly Learning to Align and Translate》中,使用類似 attention 的機制在機器翻譯任務上將翻譯和對齊同時進行,他們算是第一個提出將 attention 機制應用到 NLP 領域中的團隊。
[22] https://arxiv.org/pdf/1409.0473v7.pdf
《A Neural Conversational Model》是最早應用于序列到序列框架建立對話模型的論文,即便其中使用的模型結構并不復雜,網(wǎng)絡層數(shù)數(shù)量也不多,但效果是卻很可觀。
[23] https://arxiv.org/pdf/1506.05869.pdf
5.神經(jīng)圖靈機
《Neural turing machines》一文介紹了神經(jīng)圖靈機,一種從生物可行內(nèi)存和數(shù)字計算機的啟發(fā)產(chǎn)生的神經(jīng)網(wǎng)絡架構。如同傳統(tǒng)的神經(jīng)網(wǎng)絡,這個架構也是可微的端對端的并且可以通過梯度下降進行訓練。我們的實驗展示了它有能力從樣本數(shù)據(jù)中學習簡單的算法并且能夠將這些算法推廣到更多的超越了訓練樣本本身的數(shù)據(jù)上。絕對的五星推薦。
[24] https://arxiv.org/pdf/1410.5401.pdf
神經(jīng)圖靈機是當前深度學習領域三大重要研究方向之一。論文《Reinforcement learning neural Turing machines》利用增強學習算法來對神經(jīng)網(wǎng)絡進行訓練,從而使神經(jīng)圖靈機的界面變得表現(xiàn)力十足。
[25] https://pdfs.semanticscholar.org/f10e/071292d593fef939e6ef4a59baf0bb3a6c2b.pdf
《Memory networks》由四位專家撰寫而成,實際上所謂的 Memory Network 是一個通用的框架而已,內(nèi)部的輸入映射、更新記憶映射、輸出映射、響應映射都是可以更換的。
[26] https://arxiv.org/pdf/1410.3916.pdf
《End-to-end memory networks》在算法層面解決了讓記憶網(wǎng)絡端對端進行訓練的問題,在應用方面則解決了問題回答和語言建模等問題。
[27] http://papers.nips.cc/paper/5846-end-to-end-memory-networks.pdf
《Pointer networks》中提出了一種新型的網(wǎng)絡架構,用來學習從一個序列輸入到一個序列輸出的推導。跟以往的成果不同之處在于,輸入輸出的長度都是可變的,輸出的長度跟輸入有關。
[28] http://papers.nips.cc/paper/5866-pointer-networks.pdf
《Hybrid computing using a neural network with dynamic external memory》是谷歌 DeepMind 首發(fā)于《自然》雜志的論文,它介紹了一種記憶增強式的神經(jīng)網(wǎng)絡形式,其被稱為可微神經(jīng)計算機(differentiable neural computer),研究表明它可以學習使用記憶來回答有關復雜的結構化數(shù)據(jù)的問題,其中包括人工生成的故事、家族樹、甚至倫敦地鐵的地圖。研究還表明它還能使用強化學習解決拼圖游戲問題。五星推薦。
[29] https://www.dropbox.com/s/0a40xi702grx3dq/2016-graves.pdf
6. 深度強化學習
終于!我們來到了深度強化學習的門下。說到這個名詞,怎么能不提第一篇提出深度強化學習的論文呢?Mnih 所寫的《Playing atari with deep reinforcement learning》將卷積神經(jīng)網(wǎng)絡和 Q Learning 結合,使用同一個網(wǎng)絡玩 Atari 2600(也就是打方塊)這類只需要短時記憶的 7 種游戲。結果顯示,這種算法無需人工提取特征,還能生成無限樣本以實現(xiàn)監(jiān)督訓練。
[30] http://arxiv.org/pdf/1312.5602.pdf
而至于深度強化學習的里程碑之作,同樣要屬同一作者的《Human-level control through deep reinforcement learning》,作者發(fā)明了一個名為DQN也就是深度Q網(wǎng)絡的東西,讓人工神經(jīng)網(wǎng)絡能直接從傳感器的輸入數(shù)據(jù)中獲得物體分類,成功實現(xiàn)端到端的強化學習算法從高維的傳感器輸入中直接學習到成功策略。
[31] http://www.davidqiu.com:8888/research/nature14236.pdf
而接下來這篇名為《Dueling network architectures for deep reinforcement learning》的文章則提出了一個新的網(wǎng)絡——競爭架構網(wǎng)絡。它包括狀態(tài)價值函數(shù)和狀態(tài)依存動作優(yōu)勢函數(shù)。這一架構在多種價值相似的動作面前能引發(fā)更好的政策評估。此文當選 ICML 2016最佳論文大獎。
[32] http://arxiv.org/pdf/1511.06581
《Asynchronous methods for deep reinforcement learning》由 DeepMind 出品,主要增強了 Atari 2600 的游戲效果,也被視為通過多個實例采集樣本進行異步更新的經(jīng)典案例。
[33] http://arxiv.org/pdf/1602.01783
比起傳統(tǒng)的規(guī)劃方法,《Continuous control with deep reinforcement learning》里提到的DQL方法能夠應用于連續(xù)動作領域,魯棒解決了 20 個仿真運動,采用的是基于ICML 2014的Deterministic policy gradient (DPG)的 actor-critic 算法,名為 DDPG。
[34] http://arxiv.org/pdf/1509.02971
《Continuous Deep Q-Learning with Model-based Acceleration》采用了 Advantage Function 完成增強學習工作,但主要集中于變量連續(xù)行動空間。而就像標題所言,為了加快機器經(jīng)驗獲取,研究還用卡爾曼濾波器加局部線性模型。實驗結果顯示,這種方法比前一篇論文提及的 DDPG 要好些。
[35] http://arxiv.org/pdf/1603.00748
Schulman的《Trust region policy optimization》可謂是計算機玩游戲的一大突破,這個名為 TRPO 的算法所呈現(xiàn)的結果絲毫不遜色于 DeepMind 的研究成果,展示了一種廣義的學習能力。除了叫機器人走路,我們還能讓它成為游戲高手。
[36] http://www.jmlr.org/proceedings/papers/v37/schulman15.pdf
接下來介紹的這篇論文就是鼎鼎大名的 AlphaGo 所運用的算法,《Mastering the game of Go with deep neural networks and tree search》里,谷歌運用了 13 層的策略網(wǎng)絡,讓計算機學會用蒙特卡羅搜索樹玩圍棋游戲。當然,五星推薦此篇,不服來辯。
[37] http://willamette.edu/~levenick/cs448/goNature.pdf
7. 無監(jiān)督特征學習
《Deep Learning of Representations for Unsupervised and Transfer Learning》可謂無監(jiān)督特征學習的開山之作。
[38] http://www.jmlr.org/proceedings/papers/v27/bengio12a/bengio12a.pdf
而接下來的這篇《Lifelong Machine Learning Systems: Beyond Learning Algorithms》主要提到的觀點是,如果一個具有Lifelong Machine Learning能力的機器學習系統(tǒng),是否能夠使用解決此前問題的相關知識幫助它解決新遇到的問題,也就是舉一反三的能力。文章在 2013 年的AAAI 春季研討會上首次提出。
[39] http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.696.7800&rep=rep1&type=pdf
人工智能教父又來了,他這次和 Dean 合作帶來的是《Distilling the knowledge in a neural network》,也就是壓縮神經(jīng)網(wǎng)絡。不過核心創(chuàng)新貌似不多,所以給個四星吧。
[40] http://arxiv.org/pdf/1503.02531
《Policy distillation》,文章由谷歌大神Andrei Alexandru Rusu 所寫,同款文章還有 Parisotto 的《Actor-mimic: Deep multitask and transfer reinforcement learning》,都是在講 RL 域的問題。
[41] http://arxiv.org/pdf/1511.0629
[42] http://arxiv.org/pdf/1511.06342
這里還有另外一篇 Andrei 的文章,名為《Progressive neural networks》,提出了一項名為“漸進式神經(jīng)網(wǎng)絡”的算法,即在仿真環(huán)境中訓練機器學習,隨后就能把知識遷移到真實環(huán)境中。無疑,這將大大加速機器人的學習速度。
[43] https://arxiv.org/pdf/1606.04671
8. 一步之遙
以下五篇論文雖然并不是完全針對深度學習而推薦,但包含的一些基本思想還是具有借鑒意義的。
《Human-level concept learning through probabilistic program induction》五星推薦,文章主要介紹了貝葉斯學習程序(BPL)框架,“如何依靠簡單的例子來對新概念進行學習和加工,學習主體是人類?!?/p>
[44] http://clm.utexas.edu/compjclub/wp-content/uploads/2016/02/lake2015.pdf
而讀讀 Koch 的《Siamese Neural Networks for One-shot Image Recognition》和這篇《One-shot Learning with Memory-Augmented Neural Networks》著實很有必要。
[45] http://www.cs.utoronto.ca/~gkoch/files/msc-thesis.pdf
[46]http://arxiv.org/pdf/1605.06065
將重點放在大數(shù)據(jù)上的《Low-shot visual object recognition》則是走向圖像識別的必要一步。
[47]http://arxiv.org/pdf/1606.02819
以上便是第二階段值得一讀的論文,敬請期待后續(xù)更新。
推薦閱讀:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。