一文盡覽 ICLR 2019 Facebook & Google 入選論文

本文作者： skura

2019-05-18 23:55

專題：ICLR 2019

導(dǎo)語：今年的圖靈獎得主 Yann LeCun 是其中兩篇論文的共同作者

雷鋒網(wǎng) AI 科技評論按，近日，ICLR 2019 論文入選結(jié)果公布，各大公司和研究院紛紛在博客上公布了今年入選的論文。

其中，F(xiàn)acebook 戰(zhàn)果滿滿，一共有 23 篇論文入選。值得注意的是，2018 年圖靈獎得主 Yann LeCun 是其中兩篇入選論文的共同作者之一。Facebook 人工智能研究院研究員、圍棋項目負責人田淵棟博士也參與了其中兩篇論文的寫作。

而一直備受關(guān)注的 Google 在今年也有 57 篇論文入選了 ICLR 2019，其中，oral 論文有三篇。

雷鋒網(wǎng) AI 科技評論整理了今年 ICLR 2019中，F(xiàn)acebook 和 Google 入選論文的全名單。在查看全名單之前，讓我們先來看看 Yann LeCun、田淵棟參與的 4 篇論文和 Google 的3 篇 oral 論文吧~

Facebook Yann LeCun、田淵棟參與的入選論文：

Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic

標題：基于不確定性正則化的密集交通駕駛模型預(yù)測策略學習

作者：Mikael Henaff, Alfredo Canziani, Yann LeCun

摘要：學習僅使用觀察數(shù)據(jù)的策略是具有挑戰(zhàn)性的事情，因為它在執(zhí)行時產(chǎn)生的狀態(tài)分布可能與訓(xùn)練期間觀察到的分布不同。在這項工作中，我們計劃訓(xùn)練一個策略，同時明確懲罰這兩個分布之間在固定時間范圍內(nèi)的不匹配。我們通過使用一個已學習的環(huán)境動力學模型來實現(xiàn)這一點，該模型展開了多個時間步驟，并訓(xùn)練了一個策略網(wǎng)絡(luò)，以最大限度地降低在這個展開的軌跡上的可區(qū)分成本。這一成本包含兩種形式：代表策略尋求優(yōu)化目標的策略成本，以及代表其與受訓(xùn)狀態(tài)的差異的不確定性成本。我們建議使用有關(guān)其自身預(yù)測的動力學模型的不確定性，利用深度網(wǎng)絡(luò)不確定性估計的最新思想來測量第二種成本。我們使用交通攝像頭記錄的駕駛行為的大規(guī)模觀測數(shù)據(jù)集評估我們的方法，結(jié)果表明我們能夠從純粹的觀測數(shù)據(jù)中學習有效的駕駛策略，而無需與環(huán)境交互。

The role of over-parametrization in generalization of neural networks

標題：超參數(shù)化在神經(jīng)網(wǎng)絡(luò)泛化中的作用

作者：Behnam Neyshabur, Zhiyuan Li, Srinadh Bhojanapalli, Yann LeCun, Nathan Srebro

摘要：盡管現(xiàn)有的工作是確保神經(jīng)網(wǎng)絡(luò)在尺度敏感的復(fù)雜性度量方面的泛化，如規(guī)范、邊緣和銳度，但這些復(fù)雜性度量并不能解釋為什么神經(jīng)網(wǎng)絡(luò)在過參數(shù)化的情況下泛化得更好。在這項工作中，我們提出了一種新的基于單位容量的復(fù)雜度度量方法，從而使兩層 ReLU 網(wǎng)絡(luò)具有更嚴格的泛化邊界。我們與誤差行為相關(guān)的的容量邊界與不斷增加的網(wǎng)絡(luò)規(guī)模相關(guān)（在實驗報告的范圍內(nèi)），并且可以部分解釋過度參數(shù)化在泛化方面的改進。我們進一步提出了一個匹配的 Rademacher 復(fù)雜度下限，相比以前的神經(jīng)網(wǎng)絡(luò)容量下限，它是有所改善的。

Mind-aware Multi-agent Management Reinforcement Learning

標題：多智能體管理強化學習

作者：Tianmin Shu, Yuandong Tian

摘要：先前，大多數(shù)關(guān)于多代理強化學習（MARL）的工作都是通過直接學習每個代理的策略來實現(xiàn)最佳協(xié)作，從而最大限度地提高公共獎勵。在本文中，我們的目標是從另一個角度來解決這個問題。特別是，我們考慮的場景是，有一些自我意識的人（工人代理），他們有自己的想法（偏好、意圖、技能等），并且不能聽命去執(zhí)行他們不想做的任務(wù)。為了實現(xiàn)這些代理之間的最佳協(xié)調(diào)，我們訓(xùn)練一個超級代理（經(jīng)理），通過根據(jù)當前和過去的觀察推斷他們的想法來管理他們，然后發(fā)起契約，將合適的任務(wù)分配給工人，并承諾給他們相應(yīng)的獎金，以便讓他們同意一起工作。管理者的目標是最大限度地提高整體生產(chǎn)力，同時最大限度地減少向臨時團隊支付的費用。為了對管理者進行訓(xùn)練，我們提出了由智能體建模和策略學習組成的多智能體管理強化學習。我們已經(jīng)在兩個環(huán)境中評估了我們的方法：資源收集和制作，以通過各種任務(wù)設(shè)置和工人代理的多種設(shè)計來模擬多代理管理問題。實驗結(jié)果驗證了我們的方法在在線模擬工人——代理人的思維以及實現(xiàn)具有良好通用性和快速適應(yīng)性的最佳臨時團隊中的有效性。

Algorithmic Framework for Model-based Deep Reinforcement Learning with TheoreticalGuarantees

標題：基于模型的深層強化學習理論保證算法框架

作者：Yuping Luo, Huazhe Xu, Yuanzhi Li, Yuandong Tian, Trevor Darrell, Tengyu Ma

摘要：基于模型的強化學習（RL）被認為是減少阻礙無模型 RL 的樣本復(fù)雜性的一種有前途的方法。然而，對這些方法的思想的理論理解卻相當有限。本文介紹了一種新的算法框架，用于設(shè)計和分析具有理論保證的基于模型的 RL 算法。我們設(shè)計了一個元算法，在理論上保證局部改進到期望反饋的局部最大值，該元算法根據(jù)估計的動力學模型和樣本軌跡迭代地建立期望反饋的下界，然后在策略和模型上共同最大化下界。該框架將面對不確定性行為的優(yōu)先探索擴展到非線性動力學模型，不需要顯式地量化不確定性。通過對我們的框架進行簡化，我們給出了一種基于模型的隨機下界優(yōu)化（SLBO） RL 算法的變體。實驗證明，當一系列連續(xù)控制基準任務(wù)中允許至少一百萬個樣本時，SLBO 達到了世界領(lǐng)先水平的性能。

Google 的 3 篇 oral 入選論文：

ENABLING FACTORIZED PIANO MUSIC MODELINGAND GENERATION WITH THE MAESTRO DATASET

標題：使用 Maestro 數(shù)據(jù)集實現(xiàn)鋼琴音樂分解的建模和生成

作者：Curtis Hawthorne，Andriy Stasyuk，Adam Roberts，Ian Simon，Cheng-Zhi Anna Huang，Sander Dieleman， Erich Elsen，Jesse Engel & Douglas Eck

摘要：眾所周知，用神經(jīng)網(wǎng)絡(luò)直接生成音樂音頻是非常困難的，因為它有時需要在許多不同的時間尺度上連貫地建模。幸運的是，大多數(shù)音樂也是高度結(jié)構(gòu)化的，可以表示為樂器上演奏的離散音符事件。在本文中，我們證明了通過使用 Notes 作為中間表示，可以訓(xùn)練一組能夠在六個數(shù)量級（0.1 ms～_10 s）的時間尺度上轉(zhuǎn)錄、構(gòu)建和合成具有連貫音樂結(jié)構(gòu)的音頻波形，我們稱之為 Wave2Midi2Wave。我們發(fā)布了新的 MAESTRO （為同步音軌和組織編輯的 MIDI 和音頻）數(shù)據(jù)集，實現(xiàn)了這一大進步。該數(shù)據(jù)集由超過 172 小時的虛擬鋼琴表演組成，在音符標簽和音頻波形之間進行了精確校準（誤差不超過 3 ms）。網(wǎng)絡(luò)和數(shù)據(jù)集一起為創(chuàng)造新的音樂表達和可解釋的神經(jīng)模型提供了一種有前景的方法。

GENERATING HIGH FIDELITY IMAGESWITH SUBSCALE PIXEL NETWORKSAND MULTIDIMENSIONAL UPSCALING

標題：利用子尺度像素網(wǎng)絡(luò)和多維上尺度生成高保真圖像

作者：Jacob Menick，Nal Kalchbrenner

摘要：無條件生成高保真圖像是測試圖像解碼器性能的一個長期的基準。用于測試圖像解碼器的性能。自回歸圖像模型能夠無條件地生成小圖像，但將這些方法推廣到更容易評估逼真度的大圖像，仍然是一個開放性問題。其中的主要挑戰(zhàn)是對大量的上下文進行編碼的能力，并且，學習保持全局語義一致性和細節(jié)精確性的分布也很困難。為了解決前一個挑戰(zhàn)，我們提出了一種條件解碼器——子尺度像素網(wǎng)絡(luò)（SPN），它生成的圖像是一系列大小相等的子圖像。該方法可以捕獲圖像的空間相關(guān)性，并要求對內(nèi)存進行細分。為了解決后一個挑戰(zhàn)，我們建議使用多維上向縮放，通過使用不同的 SPNs，擴大圖像的大小和深度。我們評估了無條件生成尺寸為 256 的 CelebAHQ 和尺寸為 32 到 256 的 ImageNet 的 SPN。我們在多個設(shè)置中實現(xiàn)了最先進的可能的結(jié)果，在以前未探索的設(shè)置中建立了新的基準結(jié)果，并且能夠在兩個數(shù)據(jù)集的基礎(chǔ)上生成非常高保真的大規(guī)模樣本。

META-LEARNING UPDATE RULES FOR UNSUPER[1]VISED REPRESENTATION LEARNING

標題：無監(jiān)督表示學習的元學習更新規(guī)則

作者：Luke Metz，Niru Maheswaranathan，Brian Cheung，Jascha Sohl-Dickstein

摘要：無監(jiān)督學習的一個主要目標是發(fā)現(xiàn)對后續(xù)任務(wù)有用的數(shù)據(jù)表示，從而不需要在訓(xùn)練期間訪問受監(jiān)督的標簽。通常，這涉及到最小化替代目標，例如生成模型的負對數(shù)概率，以期對后續(xù)任務(wù)有用的表示將會產(chǎn)生影響。在這項工作中，我們建議通過元學習（meta-learning）直接把以后需要的任務(wù)當做目標。這是一個無監(jiān)督的學習規(guī)則，它會導(dǎo)致對這些任務(wù)有用的表示。具體來說，我們以半監(jiān)督分類性能為目標，元學習了一個算法，一個無監(jiān)督的權(quán)重更新規(guī)則——它生成了對這項任務(wù)有用的表示。此外，我們將無監(jiān)督更新規(guī)則約束為生物動機的神經(jīng)元局部函數(shù)，使其能夠推廣到不同的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)、數(shù)據(jù)集和數(shù)據(jù)模式。我們展示了元學習更新規(guī)則產(chǎn)生有用的功能，它有時優(yōu)于現(xiàn)有的無監(jiān)督學習技術(shù)。進一步證明了元學習無監(jiān)督更新規(guī)則推廣到具有不同寬度、深度和非線性的訓(xùn)練網(wǎng)絡(luò)。它還推廣到隨機置換輸入維度的數(shù)據(jù)的訓(xùn)練，甚至將圖像數(shù)據(jù)集類推到文本任務(wù)。

Facebook & Google ICLR 2019 入選論文全名單

Facebook 今年入選的全部論文如下：

A Universal Music Translation Network
A Variational Inequality Perspective on GANs
Adaptive Input Representations for Neural Language Modeling
Algorithmic Framework for Model-based Deep Reinforcement Learning with Theoretical Guarantees
Code2seq: Generating Sequences from Structured Representations of Code
Efficient Lifelong Learning with A-GEM
Environment Probing Interaction Policies
Equi-normalization of Neural Networks
Fluctuation-Dissipation Relations for Stochastic Gradient Descent
Generative Question Answering: Learning to Answer the Whole Question
Hierarchical Proprioceptive Controllers for Locomotion in Mazes
Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future
Learning Exploration Policies for Navigation
Learning When to Communicate at Scale in Multi-agent Cooperative and Competitive Tasks
M3RL: Mind-aware Multi-agent Management Reinforcement Learning
Multiple-Attribute Text Rewriting
No Training Required: Exploring Random Encoders for Sentence Classification
Pay Less Attention with Lightweight and Dynamic Convolutions
Quasi-Hyperbolic Momentum and Adam for Deep Learning
Selfless Sequential Learning
Spreading Vectors for Similarity Search
Unsupervised Hyper-Alignment for Multilingual Word Embeddings
Value Propagation Networks

Google 今年入選的全部論文如下：

oral：

Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling
Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset
Meta-Learning Update Rules for Unsupervised Representation Learning

posters：

A Data-Driven and Distributed Approach to Sparse Signal Representation and Recovery
Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes
Diversity-Sensitive Conditional Generative Adversarial Networks
Diversity and Depth in Per-Example Routing Models
Eidetic 3D LSTM: A Model for Video Prediction and Beyond
GANSynth: Adversarial Neural Audio Synthesis
K for the Price of 1: Parameter-efficient Multi-task and Transfer Learning
Learning to Describe Scenes with Programs
Learning to Infer and Execute 3D Shape Programs
The Singular Values of Convolutional Layers
Unsupervised Discovery of Parts, Structure, and Dynamics
Adversarial Reprogramming of Neural Networks
Discriminator Rejection Sampling
On Self Modulation for Generative Adversarial Networks
Towards GAN Benchmarks Which Require Generalization
Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer
A new dog learns old tricks: RL finds classic optimization algorithms
Contingency-Aware Exploration in Reinforcement Learning
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
Diversity is All You Need: Learning Skills without a Reward Function
Episodic Curiosity through Reachability
Learning to Navigate the Web
Meta-Learning Probabilistic Inference for Prediction
Multi-step Retriever-Reader Interaction for Scalable Open-domain Question Answering
Near-Optimal Representation Learning for Hierarchical Reinforcement Learning
Neural Logic Machines
Neural Program Repair by Jointly Learning to Localize and Repair
Optimal Completion Distillation for Sequence Learning
Recall Traces: Backtracking Models for Efficient Reinforcement Learning
Sample Efficient Adaptive Text-to-Speech
Synthetic Datasets for Neural Program Synthesis
The Laplacian in RL: Learning Representations with Efficient Approximations
A Mean Field Theory of Batch Normalization
Efficient Training on Very Large Corpora via Gramian Estimation
Predicting the Generalization Gap in Deep Networks with Margin Distributions
InfoBot: Transfer and Exploration via the Information Bottleneck
AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks
Complement Objective Training
DOM-Q-NET: Grounded RL on Structured Language
From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following
Harmonic Unpaired Image-to-image Translation
Hierarchical Generative Modeling for Controllable Speech Synthesis
Learning Finite State Representations of Recurrent Policy Networks
Learning to Screen for Fast Softmax Inference on Large Vocabulary Neural Networks
Music Transformer: Generating Music with Long-Term Structure
Universal Transformers
What do you learn from context? Probing for sentence structure in contextualized word representations
Doubly Reparameterized Gradient Estimators for Monte Carlo Objectives
How Important Is a Neuron?
Integer Networks for Data Compression with Latent-Variable Models
Modeling Uncertainty with Hedged Instance Embeddings
Preventing Posterior Collapse with delta-VAEs
Spectral Inference Networks: Unifying Deep and Spectral Learning
Stochastic Prediction of Multi-Agent Interactions from Partial Observations