丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給岑大師
發(fā)送

0

DeepMind 16篇NIPS 2017論文,全部信息都在這里了 | NIPS 2017

本文作者: 岑大師 2017-12-02 12:57 專題:NIPS 2017
導(dǎo)語:2篇Oral,4篇Spotlight,10篇Poster,有你的菜嗎?

雷鋒網(wǎng)按:作為人工智能領(lǐng)域的“領(lǐng)頭羊”,DeepMind的最新研究總是能引起大家的關(guān)注。那么在即將在加州長灘召開的機(jī)器學(xué)習(xí)領(lǐng)域頂級會議NIPS 2017上,DeepMind又會給我們帶來什么樣的先知卓見呢?雷鋒網(wǎng)為你整理了DeepMind在NIPS 2017上的論文,便于大家按自己感興趣的內(nèi)容按圖索驥。一起來看一下:

第1天 12月4日 2Poster

論文1:《Robust imitation of diverse behaviours

作者:Ziyu Wang,Josh Merel,Greg Wayne,Nando de Freitas,Scott Reed,Nicolas Heess

摘要:我們提出了一個(gè)建立在最先進(jìn)的生成模型上的神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)能夠?qū)W習(xí)不同行為之間的關(guān)系,并模仿它所顯示的具體行為。訓(xùn)練結(jié)束后,我們的系統(tǒng)可以編碼一個(gè)單一的觀察動(dòng)作,并根據(jù)這個(gè)演示創(chuàng)建一個(gè)新的小動(dòng)作。它也可以在不同類型的行為(如步行的不同風(fēng)格)之間切換,盡管之前并沒有看到過這種切換。

DeepMind 16篇NIPS 2017論文,全部信息都在這里了  | NIPS 2017

(上面的小人切換步行風(fēng)格像不像在跳舞?)

展示時(shí)間/地點(diǎn):Pacific Ballroom #143,Poster環(huán)節(jié),6:30-22:30


論文2:《Sobolev training for neural networks

作者:Wojtek Czarnecki,Simon Osindero,Max Jaderberg,Grzegorz?wirszcz,Razvan Pascanu

摘要:本文給出了一種將目標(biāo)函數(shù)導(dǎo)數(shù)的知識納入深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的簡單方法。我們證明最近的基于ReLU的體系結(jié)構(gòu)非常適合這樣的任務(wù),并評估它們在三個(gè)問題即低維回歸,政策蒸餾和合成梯度訓(xùn)練上的有效性。我們觀察到訓(xùn)練的效率尤其是在低數(shù)據(jù)情況下顯著提高,并且以接近最新的準(zhǔn)確度訓(xùn)練了第一個(gè)基于梯度的合成的ImageNet模型。

展示時(shí)間/地點(diǎn):Pacific Ballroom #139,Poster環(huán)節(jié),6:30-22:30


第2天 12月5日 4Poster

論文3:《Filtering variational objectives

作者:Chris J. Maddison,Dieterich Lawson,George Tucker,Nicolas Heess,Mohammad Norouzi,Andriy Mnih,Arnaud Doucet,Yee Whye Teh

摘要:我們考慮將變分的下界擴(kuò)展到基于粒子濾波的邊界似然估計(jì)器(雷鋒網(wǎng)注:主要特指估算概率分布)定義的下界族群。這些過濾目標(biāo)可以利用模型的順序結(jié)構(gòu)在深生成模型中形成更緊密的界限和更好的模型學(xué)習(xí)目標(biāo)。在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)用濾波目標(biāo)進(jìn)行訓(xùn)練比使用變分下限訓(xùn)練相同的模型體系結(jié)構(gòu)有了實(shí)質(zhì)性的改進(jìn)。

展示時(shí)間/地點(diǎn):Pacific Ballroom #114,Poster環(huán)節(jié),6:30-22:30


論文4:《Visual interaction networks: Learning a physics simulator from video

作者:Nicholas Watters,Andrea Tacchetti,Theophane Weber,Razvan Pascanu,Peter Battaglia,Daniel Zoran

摘要:在這項(xiàng)研究中我們提出了一種基于神經(jīng)網(wǎng)絡(luò)的模型”視覺交互網(wǎng)絡(luò)“(VIN),在沒有先驗(yàn)知識的情況下學(xué)習(xí)物理動(dòng)力學(xué)。 VIN能夠從幾幀視頻中推斷出多個(gè)物理對象的狀態(tài),然后用這些來預(yù)測對象位置。它還能夠推斷隱形物體的位置,并學(xué)習(xí)依賴于物體屬性(如質(zhì)量)的動(dòng)力原理。

DeepMind 16篇NIPS 2017論文,全部信息都在這里了  | NIPS 2017

由VIN(右)預(yù)測的動(dòng)力學(xué)與真實(shí)模擬(左)相比較

展示時(shí)間/地點(diǎn):Pacific Ballroom #123,Poster環(huán)節(jié),6:30-22:30


論文5:《Neural discrete representation learning

作者:A?ronvan den Oord,Oriol Vinyals,Koray Kavukcuoglu

摘要:在沒有監(jiān)督的情況下學(xué)習(xí)有用的陳述仍然是機(jī)器學(xué)習(xí)中的關(guān)鍵挑戰(zhàn)。這項(xiàng)研究中,我們提出了一個(gè)簡單而強(qiáng)大的生成模型,該模型被稱為矢量量化變分自動(dòng)換能器(VQ-VAE)以學(xué)習(xí)這種離散表征。當(dāng)這些表征與先前的自回歸配對時(shí),該模型能夠生成高質(zhì)量的圖像,視頻和語音以及進(jìn)行高質(zhì)量的揚(yáng)聲器轉(zhuǎn)換。

展示時(shí)間/地點(diǎn):Pacific Ballroom #116,Poster環(huán)節(jié),6:30-22:30


論文6:《Variational memory addressing in generative models

作者:J?rgBornschein,Andriy Mnih,Daniel Zoran,Danilo Jimenez Rezende

摘要:基于注意力的記憶可用于增強(qiáng)神經(jīng)網(wǎng)絡(luò),并被用于Few-shot learning、快速適應(yīng)性、更普遍地支持非參數(shù)擴(kuò)展等領(lǐng)域。不同于目前流行的可區(qū)分的軟注意機(jī)制,我們使用隨機(jī)的硬注意力來生成模型中的記憶內(nèi)容,這使得我們可以將變分推理應(yīng)用于內(nèi)存尋址,使用目標(biāo)信息獲得更精確的內(nèi)存查找,尤其是在內(nèi)存緩沖區(qū)大且內(nèi)存條目混雜的模型中。

展示時(shí)間/地點(diǎn):Pacific Ballroom #117,Poster環(huán)節(jié),6:30-22:30


第3天 12月6日 2 Oral/4 Spotlight/4Poster

論文7:《REBAR: Low-variance, unbiased gradient estimates for discrete latent variable models

作者:George Tucker, Andriy Mnih, Chris J Maddison, Dieterich Lawson, Jascha Sohl-Dickstein

摘要:由于具有高方差梯度估計(jì)量,對具有離散潛變量的模型進(jìn)行學(xué)習(xí)具有挑戰(zhàn)性。 之前的方法要么產(chǎn)生高方差/無偏梯度,或低方差/有偏差的梯度。 REBAR使用控制變量和重新參數(shù)化技巧來獲得兩者中最好的結(jié)果:低方差/無偏差的梯度,使得收斂更快,效果更好。

展示時(shí)間/地點(diǎn):Hall A,10:35-10:50,Oral講解;

Pacific Ballroom #178,Poster環(huán)節(jié),6:30-22:30


論文8:《Imagination-augmented agents for deep reinforcement learning

作者:Sébastien Racanière, Théophane Weber, David P. Reichert, Lars Buesing, Arthur Guez, Danilo Rezende, Adria Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, Razvan Pascanu, Peter Battaglia, Demis Hassabis, David Silver, Daan Wierstra.

摘要:我們描述了一個(gè)基于想象力的規(guī)劃方法的新族類,并介紹了為智能體學(xué)習(xí)和構(gòu)建計(jì)劃,從而最大化任務(wù)效率提供新方法的架構(gòu)。 這些架構(gòu)對于復(fù)雜和不完善的模型是有效的,穩(wěn)健的,并且可以采取靈活的策略來擴(kuò)展他們的想象力。 我們介紹的智能體受益于一個(gè)“想象編碼器”,這是一個(gè)神經(jīng)網(wǎng)絡(luò),它學(xué)習(xí)提取任何對未來決策有用的信息,但忽略那些不相關(guān)的信息。

DeepMind 16篇NIPS 2017論文,全部信息都在這里了  | NIPS 2017

圖為智能體進(jìn)行飛船任務(wù)游戲。該游戲必須激活一定次數(shù)的推進(jìn)器以穩(wěn)定飛行器。紅色表示執(zhí)行的軌跡,藍(lán)色和綠色表示想象的軌跡。

展示時(shí)間/地點(diǎn):Hall A,15:05-15:20,Oral講解;

Pacific Ballroom #139,Poster環(huán)節(jié),6:30-22:30


論文9:《A simple neural network module for relational reasoning

作者:Adam Santoro, David Raposo, David Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap

摘要:我們演示了使用簡單的即插即用神經(jīng)網(wǎng)絡(luò)模塊來解決需要復(fù)雜關(guān)系推理的任務(wù)。 這個(gè)稱為“關(guān)系網(wǎng)絡(luò)”的模塊可以接收非結(jié)構(gòu)化的輸入,比如圖像或故事,并隱含地推理其中包含的關(guān)系。

展示時(shí)間/地點(diǎn):Hall A,15:25-15:30,Spotlight講解;

Pacific Ballroom #139,Poster環(huán)節(jié),6:30-22:30


論文10:《Simple and scalable predictive uncertainty estimation using deep ensembles

作者:Balaji Lakshminarayanan, Alexander Pritzel, Charles Blundell

摘要:量化神經(jīng)網(wǎng)絡(luò)(NN)中的預(yù)測不確定性是一個(gè)具有挑戰(zhàn)性但尚未解決的問題。 大部分工作集中在貝葉斯解決方案上,但這些方案都是計(jì)算密集型的,需要對訓(xùn)練管道進(jìn)行重大修改。我們提出了一種貝葉斯神經(jīng)網(wǎng)絡(luò)的替代方案,該方案易于實(shí)現(xiàn)和并行,只需要很少的超參數(shù)調(diào)整,并產(chǎn)生高質(zhì)量的預(yù)測不確定性估計(jì)。 通過一系列關(guān)于分類和回歸基準(zhǔn)的實(shí)驗(yàn),我們證明了我們的方法可產(chǎn)生良好校準(zhǔn)的不確定性估計(jì),其與近似貝葉斯神經(jīng)網(wǎng)絡(luò)一樣好或更好。

展示時(shí)間/地點(diǎn):Hall A,15:45-15:50,Spotlight講解;

Pacific Ballroom #133,Poster環(huán)節(jié),6:30-22:30


論文11:《Natural value approximators: learning when to trust past estimates

作者:Zhongwen Xu, Joseph Modayil, Hado van Hasselt, Andre Barreto, David Silver, Tom Schaul

摘要:基于隨輸入而平滑變化觀察的典型近似值,我們重新回顧了RL的價(jià)值逼近器的結(jié)構(gòu),但是當(dāng)?shù)竭_(dá)獎(jiǎng)勵(lì)值時(shí)真值會突然發(fā)生變化。 我們提出的方法使用插值與預(yù)測值估計(jì),用于適應(yīng)這種不對稱的不連續(xù)性。

展示時(shí)間/地點(diǎn):Hall A,17:25-17:30,Spotlight講解;

Pacific Ballroom #6,Poster環(huán)節(jié),6:30-22:30


論文12: 《Successor features for transfer in reinforcement learning

作者:Andre Barreto, Will Dabney, Remi Munos, Jonathan Hunt, Tom Schaul, David Silver, Hado van Hasselt

摘要:我們提出了一個(gè)強(qiáng)化學(xué)習(xí)的轉(zhuǎn)移框架。 我們的方法取決于兩個(gè)關(guān)鍵的觀點(diǎn):1)“繼承者特征”,這是一種價(jià)值函數(shù)表示,將環(huán)境的動(dòng)態(tài)與回報(bào)分離開來;2)“廣義的政策改進(jìn)”,一種考慮了一整套策略的一般化的動(dòng)態(tài)規(guī)劃策略改進(jìn)步驟。 綜合起來,這兩個(gè)想法導(dǎo)致了一種無縫集成在強(qiáng)化學(xué)習(xí)框架內(nèi)的方法,并允許在任務(wù)之間不受任何限制地進(jìn)行轉(zhuǎn)移。

展示時(shí)間/地點(diǎn):Hall A,17:40-17:45,Spotlight講解;

Pacific Ballroom #9,Poster環(huán)節(jié),6:30-22:30


論文13:《Deep reinforcement learning from human preferences

作者:Paul Christiano (Open AI), Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei (Open AI)

摘要:人工智能安全的一個(gè)核心問題是如何告訴一個(gè)算法我們希望它做什么。 OpenAI展示了一個(gè)全新的系統(tǒng),允許沒有技術(shù)經(jīng)驗(yàn)的人員教AI如何執(zhí)行一個(gè)復(fù)雜的任務(wù),如操縱模擬機(jī)器人手臂。

DeepMind 16篇NIPS 2017論文,全部信息都在這里了  | NIPS 2017

通過900個(gè)人的反饋教會了這個(gè)算法后空翻。

展示時(shí)間/地點(diǎn):Pacific Ballroom #1,Poster環(huán)節(jié),6:30-22:30


論文14:《A multi-agent reinforcement learning model of common-pool resource appropriation

作者:Julien Perolat, Joel Z Leibo, Vinicius Zambaldi, Charles Beattie, Karl Tuyls, Thore Graepel

摘要:本文考察了共同資源占用問題的復(fù)雜性。 如漁業(yè),放牧牧場或淡水的系統(tǒng),許多人或行為者可以獲得相同的資源。 社會科學(xué)的傳統(tǒng)模式往往表明,獲得資源的各方以自利的方式行事,最終導(dǎo)致不可持續(xù)的資源枯竭。 但我們在人類社會的實(shí)際經(jīng)驗(yàn)知道可能會產(chǎn)生很多中可能的結(jié)果。 像漁業(yè)這樣的資源,有時(shí)候會被過度開發(fā),有時(shí)可以可持續(xù)地收獲。 在這項(xiàng)研究中,我們提出了可用于研究的新建模技術(shù),旨在解釋我們在現(xiàn)實(shí)世界中觀察到的與傳統(tǒng)模型預(yù)測的差距。

展示時(shí)間/地點(diǎn):Pacific Ballroom #86,Poster環(huán)節(jié),6:30-22:30


論文15:《DisTraL: Robust multitask reinforcement learning

作者:Yee Whye Teh, Victor Bapst, Wojciech Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell, Nicholas Heess, Razvan Pascanu

摘要:我們開發(fā)了一個(gè)強(qiáng)化多任務(wù)學(xué)習(xí)的方法。 我們的假設(shè)是,任務(wù)是彼此相關(guān)的(例如處于相同的環(huán)境或具有相同的物理特性),好的動(dòng)作序列傾向于在任務(wù)中重復(fù)出現(xiàn)。 我們的方法通過將特定于任務(wù)的策略同時(shí)提煉為一個(gè)通用的默認(rèn)策略,并通過將所有特定于任務(wù)的策略規(guī)則化為違約策略來跨這些任務(wù)轉(zhuǎn)移這些常識。 我們的研究表明,這會導(dǎo)致更快、更強(qiáng)大的學(xué)習(xí)。

展示時(shí)間/地點(diǎn):Pacific Ballroom #138,Poster環(huán)節(jié),6:30-22:30


論文16:《A unified game-theoretic approach to multiagent reinforcement learning

作者:Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Perolat, David Silver, Thore Graepel

摘要:在這項(xiàng)研究中,我們首先觀察到獨(dú)立強(qiáng)化學(xué)習(xí)者產(chǎn)生可以共同關(guān)聯(lián)但在執(zhí)行過程中未能與其他主體進(jìn)行良好的概括的策略。 我們通過提出一個(gè)稱為聯(lián)合策略關(guān)聯(lián)的新度量來量化這種影響,然后我們提出了一個(gè)由博弈論基礎(chǔ)所推動(dòng)的算法,該算法概括了虛擬游戲,迭代最佳響應(yīng),獨(dú)立RL和雙重預(yù)言等幾種方法。 我們的研究表明,我們的算法可以在第一人稱協(xié)調(diào)游戲中顯著降低聯(lián)合策略的相關(guān)性,并在普通的撲克基準(zhǔn)游戲中找到穩(wěn)健的反策略。

展示時(shí)間/地點(diǎn):Pacific Ballroom #203,Poster環(huán)節(jié),6:30-22:30

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

DeepMind 16篇NIPS 2017論文,全部信息都在這里了  | NIPS 2017

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說