丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給skura
發(fā)送

0

一文盡覽 ICLR 2019 Facebook & Google 入選論文

本文作者: skura 2019-05-18 23:55 專題:ICLR 2019
導(dǎo)語:今年的圖靈獎得主 Yann LeCun 是其中兩篇論文的共同作者

雷鋒網(wǎng) AI 科技評論按,近日,ICLR 2019 論文入選結(jié)果公布,各大公司和研究院紛紛在博客上公布了今年入選的論文。

其中,F(xiàn)acebook 戰(zhàn)果滿滿,一共有 23 篇論文入選。值得注意的是,2018 年圖靈獎得主 Yann LeCun 是其中兩篇入選論文的共同作者之一。Facebook 人工智能研究院研究員、圍棋項目負(fù)責(zé)人田淵棟博士也參與了其中兩篇論文的寫作。

而一直備受關(guān)注的 Google 在今年也有 57 篇論文入選了 ICLR 2019,其中,oral 論文有三篇。

雷鋒網(wǎng) AI 科技評論整理了今年 ICLR 2019中,F(xiàn)acebook 和 Google 入選論文的全名單。在查看全名單之前,讓我們先來看看 Yann LeCun、田淵棟參與的 4 篇論文和 Google 的3 篇 oral 論文吧~

Facebook Yann LeCun、田淵棟參與的入選論文:

  • Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic

標(biāo)題:基于不確定性正則化的密集交通駕駛模型預(yù)測策略學(xué)習(xí)

作者:Mikael Henaff, Alfredo Canziani, Yann LeCun

摘要:學(xué)習(xí)僅使用觀察數(shù)據(jù)的策略是具有挑戰(zhàn)性的事情,因為它在執(zhí)行時產(chǎn)生的狀態(tài)分布可能與訓(xùn)練期間觀察到的分布不同。在這項工作中,我們計劃訓(xùn)練一個策略,同時明確懲罰這兩個分布之間在固定時間范圍內(nèi)的不匹配。我們通過使用一個已學(xué)習(xí)的環(huán)境動力學(xué)模型來實現(xiàn)這一點,該模型展開了多個時間步驟,并訓(xùn)練了一個策略網(wǎng)絡(luò),以最大限度地降低在這個展開的軌跡上的可區(qū)分成本。這一成本包含兩種形式:代表策略尋求優(yōu)化目標(biāo)的策略成本,以及代表其與受訓(xùn)狀態(tài)的差異的不確定性成本。我們建議使用有關(guān)其自身預(yù)測的動力學(xué)模型的不確定性,利用深度網(wǎng)絡(luò)不確定性估計的最新思想來測量第二種成本。我們使用交通攝像頭記錄的駕駛行為的大規(guī)模觀測數(shù)據(jù)集評估我們的方法,結(jié)果表明我們能夠從純粹的觀測數(shù)據(jù)中學(xué)習(xí)有效的駕駛策略,而無需與環(huán)境交互。

  • The role of over-parametrization in generalization of neural networks

標(biāo)題:超參數(shù)化在神經(jīng)網(wǎng)絡(luò)泛化中的作用

作者:Behnam Neyshabur, Zhiyuan Li, Srinadh Bhojanapalli, Yann LeCun, Nathan Srebro

摘要:盡管現(xiàn)有的工作是確保神經(jīng)網(wǎng)絡(luò)在尺度敏感的復(fù)雜性度量方面的泛化,如規(guī)范、邊緣和銳度,但這些復(fù)雜性度量并不能解釋為什么神經(jīng)網(wǎng)絡(luò)在過參數(shù)化的情況下泛化得更好。在這項工作中,我們提出了一種新的基于單位容量的復(fù)雜度度量方法,從而使兩層 ReLU 網(wǎng)絡(luò)具有更嚴(yán)格的泛化邊界。我們與誤差行為相關(guān)的的容量邊界與不斷增加的網(wǎng)絡(luò)規(guī)模相關(guān)(在實驗報告的范圍內(nèi)),并且可以部分解釋過度參數(shù)化在泛化方面的改進(jìn)。我們進(jìn)一步提出了一個匹配的 Rademacher 復(fù)雜度下限,相比以前的神經(jīng)網(wǎng)絡(luò)容量下限,它是有所改善的。

  • Mind-aware Multi-agent Management Reinforcement Learning

標(biāo)題:多智能體管理強(qiáng)化學(xué)習(xí)

作者:Tianmin Shu, Yuandong Tian

摘要:先前,大多數(shù)關(guān)于多代理強(qiáng)化學(xué)習(xí)(MARL)的工作都是通過直接學(xué)習(xí)每個代理的策略來實現(xiàn)最佳協(xié)作,從而最大限度地提高公共獎勵。在本文中,我們的目標(biāo)是從另一個角度來解決這個問題。特別是,我們考慮的場景是,有一些自我意識的人(工人代理),他們有自己的想法(偏好、意圖、技能等),并且不能聽命去執(zhí)行他們不想做的任務(wù)。為了實現(xiàn)這些代理之間的最佳協(xié)調(diào),我們訓(xùn)練一個超級代理(經(jīng)理),通過根據(jù)當(dāng)前和過去的觀察推斷他們的想法來管理他們,然后發(fā)起契約,將合適的任務(wù)分配給工人,并承諾給他們相應(yīng)的獎金,以便讓他們同意一起工作。管理者的目標(biāo)是最大限度地提高整體生產(chǎn)力,同時最大限度地減少向臨時團(tuán)隊支付的費用。為了對管理者進(jìn)行訓(xùn)練,我們提出了由智能體建模和策略學(xué)習(xí)組成的多智能體管理強(qiáng)化學(xué)習(xí)。我們已經(jīng)在兩個環(huán)境中評估了我們的方法:資源收集和制作,以通過各種任務(wù)設(shè)置和工人代理的多種設(shè)計來模擬多代理管理問題。實驗結(jié)果驗證了我們的方法在在線模擬工人——代理人的思維以及實現(xiàn)具有良好通用性和快速適應(yīng)性的最佳臨時團(tuán)隊中的有效性。

  • Algorithmic Framework for Model-based Deep Reinforcement Learning with TheoreticalGuarantees

標(biāo)題:基于模型的深層強(qiáng)化學(xué)習(xí)理論保證算法框架

作者:Yuping Luo, Huazhe Xu, Yuanzhi Li, Yuandong Tian, Trevor Darrell, Tengyu Ma  

摘要:基于模型的強(qiáng)化學(xué)習(xí)(RL)被認(rèn)為是減少阻礙無模型 RL 的樣本復(fù)雜性的一種有前途的方法。然而,對這些方法的思想的理論理解卻相當(dāng)有限。本文介紹了一種新的算法框架,用于設(shè)計和分析具有理論保證的基于模型的 RL 算法。我們設(shè)計了一個元算法,在理論上保證局部改進(jìn)到期望反饋的局部最大值,該元算法根據(jù)估計的動力學(xué)模型和樣本軌跡迭代地建立期望反饋的下界,然后在策略和模型上共同最大化下界。該框架將面對不確定性行為的優(yōu)先探索擴(kuò)展到非線性動力學(xué)模型,不需要顯式地量化不確定性。通過對我們的框架進(jìn)行簡化,我們給出了一種基于模型的隨機(jī)下界優(yōu)化(SLBO) RL 算法的變體。實驗證明,當(dāng)一系列連續(xù)控制基準(zhǔn)任務(wù)中允許至少一百萬個樣本時,SLBO 達(dá)到了世界領(lǐng)先水平的性能。

Google 的 3 篇 oral 入選論文:

  • ENABLING FACTORIZED PIANO MUSIC MODELINGAND GENERATION WITH THE MAESTRO DATASET

標(biāo)題:使用 Maestro 數(shù)據(jù)集實現(xiàn)鋼琴音樂分解的建模和生成

作者:Curtis Hawthorne,Andriy Stasyuk,Adam Roberts,Ian Simon,Cheng-Zhi Anna Huang,Sander Dieleman, Erich Elsen,Jesse Engel & Douglas Eck

摘要:眾所周知,用神經(jīng)網(wǎng)絡(luò)直接生成音樂音頻是非常困難的,因為它有時需要在許多不同的時間尺度上連貫地建模。幸運的是,大多數(shù)音樂也是高度結(jié)構(gòu)化的,可以表示為樂器上演奏的離散音符事件。在本文中,我們證明了通過使用 Notes 作為中間表示,可以訓(xùn)練一組能夠在六個數(shù)量級(0.1 ms~_10 s)的時間尺度上轉(zhuǎn)錄、構(gòu)建和合成具有連貫音樂結(jié)構(gòu)的音頻波形,我們稱之為 Wave2Midi2Wave。我們發(fā)布了新的 MAESTRO (為同步音軌和組織編輯的 MIDI 和音頻)數(shù)據(jù)集,實現(xiàn)了這一大進(jìn)步。該數(shù)據(jù)集由超過 172 小時的虛擬鋼琴表演組成,在音符標(biāo)簽和音頻波形之間進(jìn)行了精確校準(zhǔn)(誤差不超過 3 ms)。網(wǎng)絡(luò)和數(shù)據(jù)集一起為創(chuàng)造新的音樂表達(dá)和可解釋的神經(jīng)模型提供了一種有前景的方法。

  • GENERATING HIGH FIDELITY IMAGESWITH SUBSCALE PIXEL NETWORKSAND MULTIDIMENSIONAL UPSCALING

標(biāo)題:利用子尺度像素網(wǎng)絡(luò)和多維上尺度生成高保真圖像  

作者:Jacob Menick,Nal Kalchbrenner

摘要:無條件生成高保真圖像是測試圖像解碼器性能的一個長期的基準(zhǔn)。用于測試圖像解碼器的性能。自回歸圖像模型能夠無條件地生成小圖像,但將這些方法推廣到更容易評估逼真度的大圖像,仍然是一個開放性問題。其中的主要挑戰(zhàn)是對大量的上下文進(jìn)行編碼的能力,并且,學(xué)習(xí)保持全局語義一致性和細(xì)節(jié)精確性的分布也很困難。為了解決前一個挑戰(zhàn),我們提出了一種條件解碼器——子尺度像素網(wǎng)絡(luò)(SPN),它生成的圖像是一系列大小相等的子圖像。該方法可以捕獲圖像的空間相關(guān)性,并要求對內(nèi)存進(jìn)行細(xì)分。為了解決后一個挑戰(zhàn),我們建議使用多維上向縮放,通過使用不同的 SPNs,擴(kuò)大圖像的大小和深度。我們評估了無條件生成尺寸為 256 的 CelebAHQ 和尺寸為 32 到 256 的 ImageNet 的 SPN。我們在多個設(shè)置中實現(xiàn)了最先進(jìn)的可能的結(jié)果,在以前未探索的設(shè)置中建立了新的基準(zhǔn)結(jié)果,并且能夠在兩個數(shù)據(jù)集的基礎(chǔ)上生成非常高保真的大規(guī)模樣本。

META-LEARNING UPDATE RULES FOR UNSUPER[1]VISED REPRESENTATION LEARNING

標(biāo)題:無監(jiān)督表示學(xué)習(xí)的元學(xué)習(xí)更新規(guī)則

作者:Luke Metz,Niru Maheswaranathan,Brian Cheung,Jascha Sohl-Dickstein

摘要:無監(jiān)督學(xué)習(xí)的一個主要目標(biāo)是發(fā)現(xiàn)對后續(xù)任務(wù)有用的數(shù)據(jù)表示,從而不需要在訓(xùn)練期間訪問受監(jiān)督的標(biāo)簽。通常,這涉及到最小化替代目標(biāo),例如生成模型的負(fù)對數(shù)概率,以期對后續(xù)任務(wù)有用的表示將會產(chǎn)生影響。在這項工作中,我們建議通過元學(xué)習(xí)(meta-learning)直接把以后需要的任務(wù)當(dāng)做目標(biāo)。這是一個無監(jiān)督的學(xué)習(xí)規(guī)則,它會導(dǎo)致對這些任務(wù)有用的表示。具體來說,我們以半監(jiān)督分類性能為目標(biāo),元學(xué)習(xí)了一個算法,一個無監(jiān)督的權(quán)重更新規(guī)則——它生成了對這項任務(wù)有用的表示。此外,我們將無監(jiān)督更新規(guī)則約束為生物動機(jī)的神經(jīng)元局部函數(shù),使其能夠推廣到不同的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)、數(shù)據(jù)集和數(shù)據(jù)模式。我們展示了元學(xué)習(xí)更新規(guī)則產(chǎn)生有用的功能,它有時優(yōu)于現(xiàn)有的無監(jiān)督學(xué)習(xí)技術(shù)。進(jìn)一步證明了元學(xué)習(xí)無監(jiān)督更新規(guī)則推廣到具有不同寬度、深度和非線性的訓(xùn)練網(wǎng)絡(luò)。它還推廣到隨機(jī)置換輸入維度的數(shù)據(jù)的訓(xùn)練,甚至將圖像數(shù)據(jù)集類推到文本任務(wù)。

Facebook & Google ICLR 2019 入選論文全名單

Facebook 今年入選的全部論文如下:

  1. A Universal Music Translation Network

  2. A Variational Inequality Perspective on GANs

  3. Adaptive Input Representations for Neural Language Modeling

  4. Algorithmic Framework for Model-based Deep Reinforcement Learning with Theoretical Guarantees

  5. Code2seq: Generating Sequences from Structured Representations of Code

  6. Efficient Lifelong Learning with A-GEM

  7. Environment Probing Interaction Policies

  8. Equi-normalization of Neural Networks

  9. Fluctuation-Dissipation Relations for Stochastic Gradient Descent

  10. Generative Question Answering: Learning to Answer the Whole Question

  11. Hierarchical Proprioceptive Controllers for Locomotion in Mazes

  12. Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future

  13. Learning Exploration Policies for Navigation

  14. Learning When to Communicate at Scale in Multi-agent Cooperative and Competitive Tasks

  15. M3RL: Mind-aware Multi-agent Management Reinforcement Learning

  16. Multiple-Attribute Text Rewriting

  17. No Training Required: Exploring Random Encoders for Sentence Classification

  18. Pay Less Attention with Lightweight and Dynamic Convolutions

  19. Quasi-Hyperbolic Momentum and Adam for Deep Learning

  20. Selfless Sequential Learning

  21. Spreading Vectors for Similarity Search

  22. Unsupervised Hyper-Alignment for Multilingual Word Embeddings

  23. Value Propagation Networks

Google 今年入選的全部論文如下:

  • oral:

  1. Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling

  2. Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset

  3. Meta-Learning Update Rules for Unsupervised Representation Learning

  • posters:

  1. A Data-Driven and Distributed Approach to Sparse Signal Representation and Recovery

  2. Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes

  3. Diversity-Sensitive Conditional Generative Adversarial Networks

  4. Diversity and Depth in Per-Example Routing Models

  5. Eidetic 3D LSTM: A Model for Video Prediction and Beyond

  6. GANSynth: Adversarial Neural Audio Synthesis

  7. K for the Price of 1: Parameter-efficient Multi-task and Transfer Learning

  8. Learning to Describe Scenes with Programs

  9. Learning to Infer and Execute 3D Shape Programs

  10. The Singular Values of Convolutional Layers

  11. Unsupervised Discovery of Parts, Structure, and Dynamics

  12. Adversarial Reprogramming of Neural Networks

  13. Discriminator Rejection Sampling

  14. On Self Modulation for Generative Adversarial Networks

  15. Towards GAN Benchmarks Which Require Generalization

  16. Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer

  17. A new dog learns old tricks: RL finds classic optimization algorithms

  18. Contingency-Aware Exploration in Reinforcement Learning

  19. Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning

  20. Diversity is All You Need: Learning Skills without a Reward Function

  21. Episodic Curiosity through Reachability

  22. Learning to Navigate the Web

  23. Meta-Learning Probabilistic Inference for Prediction

  24. Multi-step Retriever-Reader Interaction for Scalable Open-domain Question Answering

  25. Near-Optimal Representation Learning for Hierarchical Reinforcement Learning

  26. Neural Logic Machines

  27. Neural Program Repair by Jointly Learning to Localize and Repair

  28. Optimal Completion Distillation for Sequence Learning

  29. Recall Traces: Backtracking Models for Efficient Reinforcement Learning

  30. Sample Efficient Adaptive Text-to-Speech

  31. Synthetic Datasets for Neural Program Synthesis

  32. The Laplacian in RL: Learning Representations with Efficient Approximations

  33. A Mean Field Theory of Batch Normalization

  34. Efficient Training on Very Large Corpora via Gramian Estimation

  35. Predicting the Generalization Gap in Deep Networks with Margin Distributions

  36. InfoBot: Transfer and Exploration via the Information Bottleneck

  37. AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks

  38. Complement Objective Training

  39. DOM-Q-NET: Grounded RL on Structured Language

  40. From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following

  41. Harmonic Unpaired Image-to-image Translation

  42. Hierarchical Generative Modeling for Controllable Speech Synthesis

  43. Learning Finite State Representations of Recurrent Policy Networks

  44. Learning to Screen for Fast Softmax Inference on Large Vocabulary Neural Networks

  45. Music Transformer: Generating Music with Long-Term Structure

  46. Universal Transformers

  47. What do you learn from context? Probing for sentence structure in contextualized word representations

  48. Doubly Reparameterized Gradient Estimators for Monte Carlo Objectives

  49. How Important Is a Neuron?

  50. Integer Networks for Data Compression with Latent-Variable Models

  51. Modeling Uncertainty with Hedged Instance Embeddings

  52. Preventing Posterior Collapse with delta-VAEs

  53. Spectral Inference Networks: Unifying Deep and Spectral Learning

  54. Stochastic Prediction of Multi-Agent Interactions from Partial Observations

Via:https://ai.facebook.com/blog/facebook-research-at-iclr-2019/

        https://ai.googleblog.com/2019/05/google-at-iclr-2019.html

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

一文盡覽 ICLR 2019 Facebook & Google 入選論文

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說