0
本文作者: 岑大師 | 2017-12-02 12:57 | 專題:NIPS 2017 |
雷鋒網(wǎng)按:作為人工智能領域的“領頭羊”,DeepMind的最新研究總是能引起大家的關注。那么在即將在加州長灘召開的機器學習領域頂級會議NIPS 2017上,DeepMind又會給我們帶來什么樣的先知卓見呢?雷鋒網(wǎng)為你整理了DeepMind在NIPS 2017上的論文,便于大家按自己感興趣的內(nèi)容按圖索驥。一起來看一下:
論文1:《Robust imitation of diverse behaviours》
作者:Ziyu Wang,Josh Merel,Greg Wayne,Nando de Freitas,Scott Reed,Nicolas Heess
摘要:我們提出了一個建立在最先進的生成模型上的神經(jīng)網(wǎng)絡架構,該架構能夠?qū)W習不同行為之間的關系,并模仿它所顯示的具體行為。訓練結束后,我們的系統(tǒng)可以編碼一個單一的觀察動作,并根據(jù)這個演示創(chuàng)建一個新的小動作。它也可以在不同類型的行為(如步行的不同風格)之間切換,盡管之前并沒有看到過這種切換。
(上面的小人切換步行風格像不像在跳舞?)
展示時間/地點:Pacific Ballroom #143,Poster環(huán)節(jié),6:30-22:30
論文2:《Sobolev training for neural networks》
作者:Wojtek Czarnecki,Simon Osindero,Max Jaderberg,Grzegorz?wirszcz,Razvan Pascanu
摘要:本文給出了一種將目標函數(shù)導數(shù)的知識納入深度神經(jīng)網(wǎng)絡訓練的簡單方法。我們證明最近的基于ReLU的體系結構非常適合這樣的任務,并評估它們在三個問題即低維回歸,政策蒸餾和合成梯度訓練上的有效性。我們觀察到訓練的效率尤其是在低數(shù)據(jù)情況下顯著提高,并且以接近最新的準確度訓練了第一個基于梯度的合成的ImageNet模型。
展示時間/地點:Pacific Ballroom #139,Poster環(huán)節(jié),6:30-22:30
論文3:《Filtering variational objectives》
作者:Chris J. Maddison,Dieterich Lawson,George Tucker,Nicolas Heess,Mohammad Norouzi,Andriy Mnih,Arnaud Doucet,Yee Whye Teh
摘要:我們考慮將變分的下界擴展到基于粒子濾波的邊界似然估計器(雷鋒網(wǎng)注:主要特指估算概率分布)定義的下界族群。這些過濾目標可以利用模型的順序結構在深生成模型中形成更緊密的界限和更好的模型學習目標。在我們的實驗中,我們發(fā)現(xiàn)用濾波目標進行訓練比使用變分下限訓練相同的模型體系結構有了實質(zhì)性的改進。
展示時間/地點:Pacific Ballroom #114,Poster環(huán)節(jié),6:30-22:30
論文4:《Visual interaction networks: Learning a physics simulator from video》
作者:Nicholas Watters,Andrea Tacchetti,Theophane Weber,Razvan Pascanu,Peter Battaglia,Daniel Zoran
摘要:在這項研究中我們提出了一種基于神經(jīng)網(wǎng)絡的模型”視覺交互網(wǎng)絡“(VIN),在沒有先驗知識的情況下學習物理動力學。 VIN能夠從幾幀視頻中推斷出多個物理對象的狀態(tài),然后用這些來預測對象位置。它還能夠推斷隱形物體的位置,并學習依賴于物體屬性(如質(zhì)量)的動力原理。
由VIN(右)預測的動力學與真實模擬(左)相比較
展示時間/地點:Pacific Ballroom #123,Poster環(huán)節(jié),6:30-22:30
論文5:《Neural discrete representation learning》
作者:A?ronvan den Oord,Oriol Vinyals,Koray Kavukcuoglu
摘要:在沒有監(jiān)督的情況下學習有用的陳述仍然是機器學習中的關鍵挑戰(zhàn)。這項研究中,我們提出了一個簡單而強大的生成模型,該模型被稱為矢量量化變分自動換能器(VQ-VAE)以學習這種離散表征。當這些表征與先前的自回歸配對時,該模型能夠生成高質(zhì)量的圖像,視頻和語音以及進行高質(zhì)量的揚聲器轉換。
展示時間/地點:Pacific Ballroom #116,Poster環(huán)節(jié),6:30-22:30
論文6:《Variational memory addressing in generative models》
作者:J?rgBornschein,Andriy Mnih,Daniel Zoran,Danilo Jimenez Rezende
摘要:基于注意力的記憶可用于增強神經(jīng)網(wǎng)絡,并被用于Few-shot learning、快速適應性、更普遍地支持非參數(shù)擴展等領域。不同于目前流行的可區(qū)分的軟注意機制,我們使用隨機的硬注意力來生成模型中的記憶內(nèi)容,這使得我們可以將變分推理應用于內(nèi)存尋址,使用目標信息獲得更精確的內(nèi)存查找,尤其是在內(nèi)存緩沖區(qū)大且內(nèi)存條目混雜的模型中。
展示時間/地點:Pacific Ballroom #117,Poster環(huán)節(jié),6:30-22:30
論文7:《REBAR: Low-variance, unbiased gradient estimates for discrete latent variable models》
作者:George Tucker, Andriy Mnih, Chris J Maddison, Dieterich Lawson, Jascha Sohl-Dickstein
摘要:由于具有高方差梯度估計量,對具有離散潛變量的模型進行學習具有挑戰(zhàn)性。 之前的方法要么產(chǎn)生高方差/無偏梯度,或低方差/有偏差的梯度。 REBAR使用控制變量和重新參數(shù)化技巧來獲得兩者中最好的結果:低方差/無偏差的梯度,使得收斂更快,效果更好。
展示時間/地點:Hall A,10:35-10:50,Oral講解;
Pacific Ballroom #178,Poster環(huán)節(jié),6:30-22:30
論文8:《Imagination-augmented agents for deep reinforcement learning》
作者:Sébastien Racanière, Théophane Weber, David P. Reichert, Lars Buesing, Arthur Guez, Danilo Rezende, Adria Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, Razvan Pascanu, Peter Battaglia, Demis Hassabis, David Silver, Daan Wierstra.
摘要:我們描述了一個基于想象力的規(guī)劃方法的新族類,并介紹了為智能體學習和構建計劃,從而最大化任務效率提供新方法的架構。 這些架構對于復雜和不完善的模型是有效的,穩(wěn)健的,并且可以采取靈活的策略來擴展他們的想象力。 我們介紹的智能體受益于一個“想象編碼器”,這是一個神經(jīng)網(wǎng)絡,它學習提取任何對未來決策有用的信息,但忽略那些不相關的信息。
圖為智能體進行飛船任務游戲。該游戲必須激活一定次數(shù)的推進器以穩(wěn)定飛行器。紅色表示執(zhí)行的軌跡,藍色和綠色表示想象的軌跡。
展示時間/地點:Hall A,15:05-15:20,Oral講解;
Pacific Ballroom #139,Poster環(huán)節(jié),6:30-22:30
論文9:《A simple neural network module for relational reasoning》
作者:Adam Santoro, David Raposo, David Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
摘要:我們演示了使用簡單的即插即用神經(jīng)網(wǎng)絡模塊來解決需要復雜關系推理的任務。 這個稱為“關系網(wǎng)絡”的模塊可以接收非結構化的輸入,比如圖像或故事,并隱含地推理其中包含的關系。
展示時間/地點:Hall A,15:25-15:30,Spotlight講解;
Pacific Ballroom #139,Poster環(huán)節(jié),6:30-22:30
論文10:《Simple and scalable predictive uncertainty estimation using deep ensembles》
作者:Balaji Lakshminarayanan, Alexander Pritzel, Charles Blundell
摘要:量化神經(jīng)網(wǎng)絡(NN)中的預測不確定性是一個具有挑戰(zhàn)性但尚未解決的問題。 大部分工作集中在貝葉斯解決方案上,但這些方案都是計算密集型的,需要對訓練管道進行重大修改。我們提出了一種貝葉斯神經(jīng)網(wǎng)絡的替代方案,該方案易于實現(xiàn)和并行,只需要很少的超參數(shù)調(diào)整,并產(chǎn)生高質(zhì)量的預測不確定性估計。 通過一系列關于分類和回歸基準的實驗,我們證明了我們的方法可產(chǎn)生良好校準的不確定性估計,其與近似貝葉斯神經(jīng)網(wǎng)絡一樣好或更好。
展示時間/地點:Hall A,15:45-15:50,Spotlight講解;
Pacific Ballroom #133,Poster環(huán)節(jié),6:30-22:30
論文11:《Natural value approximators: learning when to trust past estimates》
作者:Zhongwen Xu, Joseph Modayil, Hado van Hasselt, Andre Barreto, David Silver, Tom Schaul
摘要:基于隨輸入而平滑變化觀察的典型近似值,我們重新回顧了RL的價值逼近器的結構,但是當?shù)竭_獎勵值時真值會突然發(fā)生變化。 我們提出的方法使用插值與預測值估計,用于適應這種不對稱的不連續(xù)性。
展示時間/地點:Hall A,17:25-17:30,Spotlight講解;
Pacific Ballroom #6,Poster環(huán)節(jié),6:30-22:30
論文12: 《Successor features for transfer in reinforcement learning》
作者:Andre Barreto, Will Dabney, Remi Munos, Jonathan Hunt, Tom Schaul, David Silver, Hado van Hasselt
摘要:我們提出了一個強化學習的轉移框架。 我們的方法取決于兩個關鍵的觀點:1)“繼承者特征”,這是一種價值函數(shù)表示,將環(huán)境的動態(tài)與回報分離開來;2)“廣義的政策改進”,一種考慮了一整套策略的一般化的動態(tài)規(guī)劃策略改進步驟。 綜合起來,這兩個想法導致了一種無縫集成在強化學習框架內(nèi)的方法,并允許在任務之間不受任何限制地進行轉移。
展示時間/地點:Hall A,17:40-17:45,Spotlight講解;
Pacific Ballroom #9,Poster環(huán)節(jié),6:30-22:30
論文13:《Deep reinforcement learning from human preferences》
作者:Paul Christiano (Open AI), Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei (Open AI)
摘要:人工智能安全的一個核心問題是如何告訴一個算法我們希望它做什么。 OpenAI展示了一個全新的系統(tǒng),允許沒有技術經(jīng)驗的人員教AI如何執(zhí)行一個復雜的任務,如操縱模擬機器人手臂。
通過900個人的反饋教會了這個算法后空翻。
展示時間/地點:Pacific Ballroom #1,Poster環(huán)節(jié),6:30-22:30
論文14:《A multi-agent reinforcement learning model of common-pool resource appropriation》
作者:Julien Perolat, Joel Z Leibo, Vinicius Zambaldi, Charles Beattie, Karl Tuyls, Thore Graepel
摘要:本文考察了共同資源占用問題的復雜性。 如漁業(yè),放牧牧場或淡水的系統(tǒng),許多人或行為者可以獲得相同的資源。 社會科學的傳統(tǒng)模式往往表明,獲得資源的各方以自利的方式行事,最終導致不可持續(xù)的資源枯竭。 但我們在人類社會的實際經(jīng)驗知道可能會產(chǎn)生很多中可能的結果。 像漁業(yè)這樣的資源,有時候會被過度開發(fā),有時可以可持續(xù)地收獲。 在這項研究中,我們提出了可用于研究的新建模技術,旨在解釋我們在現(xiàn)實世界中觀察到的與傳統(tǒng)模型預測的差距。
展示時間/地點:Pacific Ballroom #86,Poster環(huán)節(jié),6:30-22:30
論文15:《DisTraL: Robust multitask reinforcement learning》
作者:Yee Whye Teh, Victor Bapst, Wojciech Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell, Nicholas Heess, Razvan Pascanu
摘要:我們開發(fā)了一個強化多任務學習的方法。 我們的假設是,任務是彼此相關的(例如處于相同的環(huán)境或具有相同的物理特性),好的動作序列傾向于在任務中重復出現(xiàn)。 我們的方法通過將特定于任務的策略同時提煉為一個通用的默認策略,并通過將所有特定于任務的策略規(guī)則化為違約策略來跨這些任務轉移這些常識。 我們的研究表明,這會導致更快、更強大的學習。
展示時間/地點:Pacific Ballroom #138,Poster環(huán)節(jié),6:30-22:30
論文16:《A unified game-theoretic approach to multiagent reinforcement learning》
作者:Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Perolat, David Silver, Thore Graepel
摘要:在這項研究中,我們首先觀察到獨立強化學習者產(chǎn)生可以共同關聯(lián)但在執(zhí)行過程中未能與其他主體進行良好的概括的策略。 我們通過提出一個稱為聯(lián)合策略關聯(lián)的新度量來量化這種影響,然后我們提出了一個由博弈論基礎所推動的算法,該算法概括了虛擬游戲,迭代最佳響應,獨立RL和雙重預言等幾種方法。 我們的研究表明,我們的算法可以在第一人稱協(xié)調(diào)游戲中顯著降低聯(lián)合策略的相關性,并在普通的撲克基準游戲中找到穩(wěn)健的反策略。
展示時間/地點:Pacific Ballroom #203,Poster環(huán)節(jié),6:30-22:30
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。