丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

1

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第三彈?|干貨分享

本文作者: 奕欣 2016-10-22 09:57
導(dǎo)語:新一批論文將讓你對深度學(xué)習(xí)的方式與深度學(xué)習(xí)在不同領(lǐng)域的運(yùn)用有個清晰的了解。由于第二部分的論文開始向細(xì)化方向延展,因此你可以根據(jù)自己的研究方向酌情進(jìn)行選擇。

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第三彈?|干貨分享

雷鋒網(wǎng)曾編譯《干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階大法!》,相信讀者一定對深度學(xué)習(xí)的歷史有了一個基本了解,其基本的模型架構(gòu)(CNN/RNN/LSTM)與深度學(xué)習(xí)如何應(yīng)用在圖片和語音識別上肯定也不在話下了。今天這一部分,我們將通過新一批論文,讓你對深度學(xué)習(xí)的方式與深度學(xué)習(xí)在不同領(lǐng)域的運(yùn)用有個清晰的了解。由于第二部分的論文開始向細(xì)化方向延展,因此你可以根據(jù)自己的研究方向酌情進(jìn)行選擇。雷鋒網(wǎng)對每篇論文都增加了補(bǔ)充介紹,分上下兩篇,由老呂IO及奕欣編譯整理,未經(jīng)雷鋒網(wǎng)許可不得轉(zhuǎn)載。

4. 循環(huán)神經(jīng)網(wǎng)絡(luò)/序列到序列模式

《Generating sequences with recurrent neural networks》一文由 Graves 和 Alex 兩位專家合力撰寫,這篇論文解釋了用遞歸神經(jīng)網(wǎng)絡(luò)生成手寫體的原理。

[19] https://arxiv.org/pdf/1308.0850.pdf

《Learning phrase representations using RNN encoder-decoder for statistical machine translation》完成了將英文轉(zhuǎn)譯為法文的任務(wù),使用了一個 encoder-decoder 模型,在 encoder 的 RNN 模型中是將序列轉(zhuǎn)化為一個向量。在 decoder 中是將向量轉(zhuǎn)化為輸出序列,使用 encoder-decoder 能夠加入詞語與詞語之間的順序信息。此外,還將序列表達(dá)為一個向量,利用向量能夠清楚的看出那些語義上相近的詞聚集在一起。

[20] https://arxiv.org/pdf/1406.1078.pdf

《Sequence to sequence learning with neural networks》是谷歌的 I. Sutskever 等人提出的一種序列到序列的學(xué)習(xí)方法, 最直接的應(yīng)用就是機(jī)器翻譯。

[21] http://papers.nips.cc/paper/5346-information-based-learning-by-agents-in-unbounded-state-spaces.pdf

Attention 機(jī)制最早是在視覺圖像領(lǐng)域提出來的,隨后 Bahdanau 等人在論文《Neural Machine Translation by Jointly Learning to Align and Translate》中,使用類似 attention 的機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對齊同時進(jìn)行,他們算是第一個提出將 attention 機(jī)制應(yīng)用到 NLP 領(lǐng)域中的團(tuán)隊。

[22] https://arxiv.org/pdf/1409.0473v7.pdf

《A Neural Conversational Model》是最早應(yīng)用于序列到序列框架建立對話模型的論文,即便其中使用的模型結(jié)構(gòu)并不復(fù)雜,網(wǎng)絡(luò)層數(shù)數(shù)量也不多,但效果是卻很可觀。

[23] https://arxiv.org/pdf/1506.05869.pdf

5.神經(jīng)圖靈機(jī)

《Neural turing machines》一文介紹了神經(jīng)圖靈機(jī),一種從生物可行內(nèi)存和數(shù)字計算機(jī)的啟發(fā)產(chǎn)生的神經(jīng)網(wǎng)絡(luò)架構(gòu)。如同傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),這個架構(gòu)也是可微的端對端的并且可以通過梯度下降進(jìn)行訓(xùn)練。我們的實驗展示了它有能力從樣本數(shù)據(jù)中學(xué)習(xí)簡單的算法并且能夠?qū)⑦@些算法推廣到更多的超越了訓(xùn)練樣本本身的數(shù)據(jù)上。絕對的五星推薦。

[24] https://arxiv.org/pdf/1410.5401.pdf

神經(jīng)圖靈機(jī)是當(dāng)前深度學(xué)習(xí)領(lǐng)域三大重要研究方向之一。論文《Reinforcement learning neural Turing machines》利用增強(qiáng)學(xué)習(xí)算法來對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而使神經(jīng)圖靈機(jī)的界面變得表現(xiàn)力十足。

[25] https://pdfs.semanticscholar.org/f10e/071292d593fef939e6ef4a59baf0bb3a6c2b.pdf

《Memory networks》由四位專家撰寫而成,實際上所謂的 Memory Network 是一個通用的框架而已,內(nèi)部的輸入映射、更新記憶映射、輸出映射、響應(yīng)映射都是可以更換的。

[26] https://arxiv.org/pdf/1410.3916.pdf

《End-to-end memory networks》在算法層面解決了讓記憶網(wǎng)絡(luò)端對端進(jìn)行訓(xùn)練的問題,在應(yīng)用方面則解決了問題回答和語言建模等問題。

[27] http://papers.nips.cc/paper/5846-end-to-end-memory-networks.pdf

《Pointer networks》中提出了一種新型的網(wǎng)絡(luò)架構(gòu),用來學(xué)習(xí)從一個序列輸入到一個序列輸出的推導(dǎo)。跟以往的成果不同之處在于,輸入輸出的長度都是可變的,輸出的長度跟輸入有關(guān)。

[28] http://papers.nips.cc/paper/5866-pointer-networks.pdf

《Hybrid computing using a neural network with dynamic external memory》是谷歌 DeepMind 首發(fā)于《自然》雜志的論文,它介紹了一種記憶增強(qiáng)式的神經(jīng)網(wǎng)絡(luò)形式,其被稱為可微神經(jīng)計算機(jī)(differentiable neural computer),研究表明它可以學(xué)習(xí)使用記憶來回答有關(guān)復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)的問題,其中包括人工生成的故事、家族樹、甚至倫敦地鐵的地圖。研究還表明它還能使用強(qiáng)化學(xué)習(xí)解決拼圖游戲問題。五星推薦。

[29] https://www.dropbox.com/s/0a40xi702grx3dq/2016-graves.pdf

6. 深度強(qiáng)化學(xué)習(xí)

終于!我們來到了深度強(qiáng)化學(xué)習(xí)的門下。說到這個名詞,怎么能不提第一篇提出深度強(qiáng)化學(xué)習(xí)的論文呢?Mnih 所寫的《Playing atari with deep reinforcement learning》將卷積神經(jīng)網(wǎng)絡(luò)和 Q Learning 結(jié)合,使用同一個網(wǎng)絡(luò)玩 Atari 2600(也就是打方塊)這類只需要短時記憶的 7 種游戲。結(jié)果顯示,這種算法無需人工提取特征,還能生成無限樣本以實現(xiàn)監(jiān)督訓(xùn)練。

[30] http://arxiv.org/pdf/1312.5602.pdf

而至于深度強(qiáng)化學(xué)習(xí)的里程碑之作,同樣要屬同一作者的《Human-level control through deep reinforcement learning》,作者發(fā)明了一個名為DQN也就是深度Q網(wǎng)絡(luò)的東西,讓人工神經(jīng)網(wǎng)絡(luò)能直接從傳感器的輸入數(shù)據(jù)中獲得物體分類,成功實現(xiàn)端到端的強(qiáng)化學(xué)習(xí)算法從高維的傳感器輸入中直接學(xué)習(xí)到成功策略。

[31] http://www.davidqiu.com:8888/research/nature14236.pdf

而接下來這篇名為《Dueling network architectures for deep reinforcement learning》的文章則提出了一個新的網(wǎng)絡(luò)——競爭架構(gòu)網(wǎng)絡(luò)。它包括狀態(tài)價值函數(shù)和狀態(tài)依存動作優(yōu)勢函數(shù)。這一架構(gòu)在多種價值相似的動作面前能引發(fā)更好的政策評估。此文當(dāng)選 ICML 2016最佳論文大獎。

[32] http://arxiv.org/pdf/1511.06581

《Asynchronous methods for deep reinforcement learning》由 DeepMind 出品,主要增強(qiáng)了 Atari 2600 的游戲效果,也被視為通過多個實例采集樣本進(jìn)行異步更新的經(jīng)典案例。

[33] http://arxiv.org/pdf/1602.01783

比起傳統(tǒng)的規(guī)劃方法,《Continuous control with deep reinforcement learning》里提到的DQL方法能夠應(yīng)用于連續(xù)動作領(lǐng)域,魯棒解決了  20 個仿真運(yùn)動,采用的是基于ICML 2014的Deterministic policy gradient (DPG)的 actor-critic 算法,名為 DDPG。

[34] http://arxiv.org/pdf/1509.02971

《Continuous Deep Q-Learning with Model-based Acceleration》采用了 Advantage Function 完成增強(qiáng)學(xué)習(xí)工作,但主要集中于變量連續(xù)行動空間。而就像標(biāo)題所言,為了加快機(jī)器經(jīng)驗獲取,研究還用卡爾曼濾波器加局部線性模型。實驗結(jié)果顯示,這種方法比前一篇論文提及的 DDPG 要好些。

[35] http://arxiv.org/pdf/1603.00748

Schulman的《Trust region policy optimization》可謂是計算機(jī)玩游戲的一大突破,這個名為 TRPO 的算法所呈現(xiàn)的結(jié)果絲毫不遜色于 DeepMind 的研究成果,展示了一種廣義的學(xué)習(xí)能力。除了叫機(jī)器人走路,我們還能讓它成為游戲高手。

[36] http://www.jmlr.org/proceedings/papers/v37/schulman15.pdf

接下來介紹的這篇論文就是鼎鼎大名的 AlphaGo 所運(yùn)用的算法,《Mastering the game of Go with deep neural networks and tree search》里,谷歌運(yùn)用了 13 層的策略網(wǎng)絡(luò),讓計算機(jī)學(xué)會用蒙特卡羅搜索樹玩圍棋游戲。當(dāng)然,五星推薦此篇,不服來辯。

[37]  http://willamette.edu/~levenick/cs448/goNature.pdf

7. 無監(jiān)督特征學(xué)習(xí)

《Deep Learning of Representations for Unsupervised and Transfer Learning》可謂無監(jiān)督特征學(xué)習(xí)的開山之作。

[38] http://www.jmlr.org/proceedings/papers/v27/bengio12a/bengio12a.pdf

而接下來的這篇《Lifelong Machine Learning Systems: Beyond Learning Algorithms》主要提到的觀點是,如果一個具有Lifelong Machine Learning能力的機(jī)器學(xué)習(xí)系統(tǒng),是否能夠使用解決此前問題的相關(guān)知識幫助它解決新遇到的問題,也就是舉一反三的能力。文章在 2013 年的AAAI 春季研討會上首次提出。

[39] http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.696.7800&rep=rep1&type=pdf

人工智能教父又來了,他這次和 Dean 合作帶來的是《Distilling the knowledge in a neural network》,也就是壓縮神經(jīng)網(wǎng)絡(luò)。不過核心創(chuàng)新貌似不多,所以給個四星吧。

[40] http://arxiv.org/pdf/1503.02531

《Policy distillation》,文章由谷歌大神Andrei Alexandru Rusu 所寫,同款文章還有 Parisotto 的《Actor-mimic: Deep multitask and transfer reinforcement learning》,都是在講 RL 域的問題。

[41] http://arxiv.org/pdf/1511.0629

[42] http://arxiv.org/pdf/1511.06342

這里還有另外一篇 Andrei 的文章,名為《Progressive neural networks》,提出了一項名為“漸進(jìn)式神經(jīng)網(wǎng)絡(luò)”的算法,即在仿真環(huán)境中訓(xùn)練機(jī)器學(xué)習(xí),隨后就能把知識遷移到真實環(huán)境中。無疑,這將大大加速機(jī)器人的學(xué)習(xí)速度。

[43] https://arxiv.org/pdf/1606.04671

8. 一步之遙

以下五篇論文雖然并不是完全針對深度學(xué)習(xí)而推薦,但包含的一些基本思想還是具有借鑒意義的。

《Human-level concept learning through probabilistic program induction》五星推薦,文章主要介紹了貝葉斯學(xué)習(xí)程序(BPL)框架,“如何依靠簡單的例子來對新概念進(jìn)行學(xué)習(xí)和加工,學(xué)習(xí)主體是人類?!?/p>

[44] http://clm.utexas.edu/compjclub/wp-content/uploads/2016/02/lake2015.pdf

而讀讀 Koch 的《Siamese Neural Networks for One-shot Image Recognition》和這篇《One-shot Learning with Memory-Augmented Neural Networks》著實很有必要。

[45] http://www.cs.utoronto.ca/~gkoch/files/msc-thesis.pdf

[46]http://arxiv.org/pdf/1605.06065

將重點放在大數(shù)據(jù)上的《Low-shot visual object recognition》則是走向圖像識別的必要一步。 

[47]http://arxiv.org/pdf/1606.02819

以上便是第二階段值得一讀的論文,敬請期待后續(xù)更新。

推薦閱讀:

干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階大法!

干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第二彈

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第三彈?|干貨分享

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說