騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

本文作者：黃善清

2018-10-16 15:02

專題：NeurIPS 2018

導(dǎo)語：本文對騰訊 AI Lab 今年入選 NIPS 的論文進行了解讀。

雷鋒網(wǎng) AI 科技評論按：被譽為神經(jīng)計算和機器學(xué)習(xí)領(lǐng)域兩大頂級會議之一的NIPS于近日揭曉收錄論文名單，此次為第32屆會議，將于 12 月 3 日至 8 日在加拿大蒙特利爾舉辦。

騰訊 AI Lab 第三次參加 NIPS，共有 20 篇論文入選，其中 2 篇被選為亮點論文（Spotlight），涵蓋遷移學(xué)習(xí)、模仿學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等多個研究主題，而去年他們?nèi)脒x論文8篇，含1篇口頭報告（Oral）。

此外，在今年的多個頂級學(xué)術(shù)會議中，騰訊AI Lab也入選多篇論文，位居國內(nèi)企業(yè)前列，包括計算機視覺領(lǐng)域頂會CVPR（21篇）和ECCV（19篇）、機器學(xué)習(xí)領(lǐng)域頂會ICML（16篇）、NLP領(lǐng)域頂會EMNLP（16篇），以及語音領(lǐng)域頂會Interspeech（8篇）等。

本文對騰訊 AI Lab 今年入選 NIPS 的論文進行了解讀，雷鋒網(wǎng) AI 科技評論獲得「騰訊 AI 實驗室」公眾號許可，進行轉(zhuǎn)載。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

1.一種自適應(yīng)于不同環(huán)境、不同任務(wù)的強化學(xué)習(xí)方法

Synthesize Policies for Transfer and Adaptation across Environments and Tasks

這項研究由騰訊 AI Lab 和南加州大學(xué)合作主導(dǎo)完成，是本屆 NIPS 的 Spotlight 論文之一，研究了同時在不同環(huán)境（Env）和不同任務(wù)（Task）之間遷移的問題，目的是利用稀疏的（Env, Task）組合就能學(xué)到在所有可能組合中遷移的能力。文中提出了一種新穎的部件神經(jīng)網(wǎng)絡(luò)，它描述了如何從環(huán)境和任務(wù)來組成強化學(xué)習(xí)策略的元規(guī)則。值得注意的是，這里的主要挑戰(zhàn)之一是環(huán)境和任務(wù)的特征描述必須與元規(guī)則一起學(xué)習(xí)。為此，研究者又進一步提出了新的訓(xùn)練方法來解鎖這兩種學(xué)習(xí)任務(wù)，使得最終的特征描述不僅成為環(huán)境和任務(wù)的獨特簽名，更成為組建策略的有效模塊。研究者在GRIDWORLD和AI2-THOR上進行了大量實驗，結(jié)果表明新提出的模型可以有效地在 400 個（Env, Task）組合之間成功遷移，而模型的訓(xùn)練只需要這些組合的大概40%。

2. SPIDER：一種基于隨機路徑積分的差分估計子的鄰近最優(yōu)的非凸優(yōu)化方法SPIDER

Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

這項研究由北京大學(xué)與騰訊 AI Lab 合作完成，探索了一種用于快速隨機求解非凸優(yōu)化問題的方法，同時也是本屆 NIPS 的 Spotlight 論文之一。論文中提出了一種名為“隨機路徑積分的差分估計子（SPIDER）”的新技術(shù)，能以更低的計算復(fù)雜度追蹤許多我們感興趣的量。研究者還進一步將 SPIDER 與歸一化的梯度下降方法結(jié)合到了一起，提出了用于求解非凸隨機優(yōu)化問題（僅需使用隨機梯度）的兩個算法：SPIDER-SFO和SPIDER-SSO。這兩個算法具有很快的收斂速度。特別值得一提的是，SPIDER-SFO 和 SPIDER-SSO 能夠以的隨機梯度復(fù)雜度分別解出一個滿足 ε 誤差的一階穩(wěn)定點和滿足誤差的二階穩(wěn)定點。除此之外，對于有限和并滿足梯度利普希茨連續(xù)的函數(shù)族，SPIDER-SFO 在獲取一階穩(wěn)定點時幾乎達到了算法下界。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

SPIDER-SFO

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

SPIDER-SSO

3. 基于分批歷史數(shù)據(jù)的指數(shù)加權(quán)模仿學(xué)習(xí)方法

Exponentially Weighted Imitation Learning for Batched Historical Data

這項研究由騰訊 AI Lab 獨立完成，主要研究了僅使用成批量的歷史數(shù)據(jù)的深度策略學(xué)習(xí)。這篇文章中我們主要考慮的是只使用歷史數(shù)據(jù)的深度策略學(xué)習(xí)。這個問題的主要挑戰(zhàn)在于，與大部分強化學(xué)習(xí)問題不同，我們不再有一個環(huán)境的模擬器來進行學(xué)習(xí)。為了解決這個問題，研究者提出一個單調(diào)優(yōu)勢加權(quán)的模仿學(xué)習(xí)算法來從歷史數(shù)據(jù)中學(xué)習(xí)，并且可以應(yīng)用到復(fù)雜非線性函數(shù)近似以及混合動作空間的問題中。這個方法并不依賴用來生成數(shù)據(jù)的行為策略的知識，所以可以被用來從一個未知的策略生成的數(shù)據(jù)中進行學(xué)習(xí)。在一些條件下，該算法（盡管非常簡單）可以證明策略提升的下界，并且在實驗中的效果超過了其它方法，并有望為復(fù)雜游戲 AI 提供更好的模仿學(xué)習(xí)。論文中也提供了詳盡的數(shù)值實驗來展示所提出的算法的有效性。

4. 基于適應(yīng)性采樣的快速圖表示學(xué)習(xí)

Adaptive Sampling Towards Fast Graph Representation Learning

論文地址：https://arxiv.org/abs/1809.05343

這項研究由騰訊 AI Lab 獨立完成，提出了一種適用于大規(guī)模社交網(wǎng)絡(luò)的節(jié)點分類方法。社交網(wǎng)絡(luò)可表示成圖（graph）的形式，而圖卷積網(wǎng)絡(luò)已經(jīng)成為了圖節(jié)點表示學(xué)習(xí)的一種重要工具。在大規(guī)模圖上使用圖卷積網(wǎng)絡(luò)會產(chǎn)生巨大的時間和空間開銷，這主要是由無限制的鄰居擴張引起的。在這篇論文中，研究者設(shè)計了一種適應(yīng)性的逐層采樣方法，可加速圖卷積網(wǎng)絡(luò)的訓(xùn)練。通過自上而下地構(gòu)建神經(jīng)網(wǎng)絡(luò)的每一層，基于頂層的節(jié)點采樣出下層的節(jié)點，可使得采樣出的鄰居節(jié)點被不同的父節(jié)點所共享并且便于限制每層的節(jié)點個數(shù)來避免過擴張。更重要的是，新提出的采樣方法能顯式地減少采樣方差，因此能強化該方法的訓(xùn)練。研究者還進一步提出了一種新穎且經(jīng)濟的跳（skip）連接方法，可用于加強相隔比較遠的節(jié)點之間的信息傳播。研究者在幾個公開的數(shù)據(jù)集上進行了大量實驗，結(jié)果表明我們方法是有效的而且能很快收斂。

5. 具有非對稱損益重尾特性的金融收益序列低維簡約分位數(shù)回歸

Parsimonious Quantile Regression of Financial Asset Tail Dynamics via Sequential Learning

這項研究由騰訊 AI Lab 主導(dǎo)，與香港城市大學(xué)、香港中文大學(xué)合作完成。文中提出了一種低維簡約分位數(shù)回歸框架來學(xué)習(xí)金融資產(chǎn)收益的動態(tài)尾部行為。該方法由數(shù)據(jù)驅(qū)動, 即能廣泛的表征金融時間序列的在損益兩端的重尾不對稱性，又能很好地抓住條件分位數(shù)函數(shù)的時變特性。該方法將序列神經(jīng)網(wǎng)絡(luò)模型 LSTM 的優(yōu)勢與一種新構(gòu)建的用來表示資產(chǎn)價格條件收益的參數(shù)化分位數(shù)函數(shù)結(jié)合到了一起。研究者在長達68年（1950-2018）的歷史數(shù)據(jù)中, 對股票，債券，外匯三大類14種資產(chǎn)的研究表明，該方法的重要特點是能半?yún)?shù)的提取可能存在于數(shù)據(jù)中的條件分位函數(shù)的非線性演化過程。該機制對于抓住那些能驅(qū)動高階矩時變演化而又獨立于波動率的因子非常關(guān)鍵。對比表明新提出的模型的外樣本預(yù)測表現(xiàn)優(yōu)于 GARCH 模型族。與此同時該方法既不會導(dǎo)致分位數(shù)交叉，也沒有參數(shù)化概率密度函數(shù)方法的不適定性問題。應(yīng)用方面，該方法可用于對金融二級市場（包括股票、外匯、債券、大宗商品等）的波動率預(yù)測和尾部風險預(yù)測，能在金融機構(gòu)的風險管理中發(fā)揮重要價值。

6.非局部神經(jīng)網(wǎng)絡(luò)、非局部擴散與非局部建模

Nonlocal Neural Networks, Nonlocal Diffusion and Nonlocal Modeling

論文地址：https://arxiv.org/abs/1806.00681

這項研究由騰訊 AI Lab主導(dǎo)，與美國哥倫比亞大學(xué)合作完成。在這篇論文中，研究者對經(jīng)過良好訓(xùn)練的網(wǎng)絡(luò)的權(quán)重矩陣進行了譜分析，從而探索理解了非局部網(wǎng)絡(luò)的擴散和抑制效應(yīng)的本質(zhì)，并基于此提出了一種新的非局部模塊的構(gòu)建方法。這種新模塊不僅能學(xué)習(xí)非局部的交互，而且還有穩(wěn)定的動態(tài)特性，因此支持更深度的非局部結(jié)構(gòu)——從而可以堆疊更多非局部模塊以充分利用其優(yōu)勢。此外，研究者還從通用型非局部建模的角度對這種構(gòu)建方法進行了分析，將新提出的非局部網(wǎng)絡(luò)與非局部擴散過程與非局部馬爾可夫跳變過程等其它非局部模型聯(lián)系到了一起。非局部運算與卷積和循環(huán)模塊不同，可以通過直接計算特征空間中每對位置之間的交互來實現(xiàn)長程依賴。這項研究對圖像或視頻分類、文本摘要和金融市場分析等諸多實際機器學(xué)習(xí)問題有重要的指導(dǎo)意義。

7.弱監(jiān)督下對視頻進行稠密事件標注

Weakly Supervised Dense Event Captioning in Videos

這項研究由騰訊 AI Lab 與清華大學(xué)、麻省理工學(xué)院（MIT）和微軟亞洲研究院（MSRA）

合作完成。提出了一種使用弱監(jiān)督方式標注視頻中的稠密事件的方法，從而能夠緩解模型訓(xùn)練對成本高昂的人工標注數(shù)據(jù)的需求。這種方法不再需要每個事件的發(fā)生時間區(qū)間來進行模型訓(xùn)練，而是基于一一對應(yīng)假設(shè)，即每個時間區(qū)間只有一個語言描述，而每個語言描述只對應(yīng)于一個時間區(qū)間。一一對應(yīng)假設(shè)在當前公開任務(wù)和真實場景中都成立?；诖?，研究者將原問題分解為了一對對偶問題：事件描述和語句定位，并提出了一個用于訓(xùn)練模型的循環(huán)系統(tǒng)。研究者進行了大量實驗，結(jié)果表明該方法能同時解決視頻中的稠密事件標注和語句定位這兩個任務(wù)。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

新提出的模型結(jié)構(gòu)及其訓(xùn)練連接如上圖所示。該模型由一個語句定位器和一個描述生成器組成。在訓(xùn)練過程中，模型可使用視頻及其所有的事件描述。首先語句定位器會使用視頻和其中一個事件描述來獲得一個時間片段預(yù)測，然后描述生成器會使用這個時間片段來生成一個描述語句。

8. 基于可配置熵約束的半監(jiān)督學(xué)習(xí)

Semi-Supervised Learning with Declaratively Specified Entropy Constraints

論文地址：https://arxiv.org/abs/1804.09238

這項研究由卡耐基梅隆大學(xué)（CMU）與騰訊 AI Lab 合作完成，提出了一種新的聲明式列舉規(guī)則的半監(jiān)督學(xué)習(xí)的方法，可用于定制化半監(jiān)督學(xué)習(xí)。這種方法可以組合多個半監(jiān)督學(xué)習(xí)策略，同時可以結(jié)合多個協(xié)議（agreement）約束和熵正則化（entropic regularization）約束。此外，這種方法還可以用于模擬其它常見的模型，比如聯(lián)合訓(xùn)練和針對全新域的啟發(fā)式方法。除了表征單個的半監(jiān)督學(xué)習(xí)啟發(fā)式方法，研究者還表明可以使用貝葉斯優(yōu)化將多種啟發(fā)式方法組合到一起。在多個數(shù)據(jù)集上的實驗結(jié)果表明這種方法能穩(wěn)定地優(yōu)于其它方法，并在一個較困難的關(guān)系抽取任務(wù)上得到了當前最佳的結(jié)果。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

聲明式地描述半監(jiān)督學(xué)習(xí)規(guī)則

9. 基于廣義低秩近似的深度非盲反卷積

Deep Non-Blind Deconvolution via Generalized Low-Rank Approximation

這項研究由騰訊 AI Lab、中科院信工所、南京理工大學(xué)和美國加州大學(xué)默塞德分校等合作完成。本文提出了一種基于偽逆模糊核低秩特征的深度非盲反卷積方法，可以處理不同模糊核造成的模糊圖片，尤其是對具有飽和像素的模糊圖片有更好的效果。研究者首先對大量模糊核進行廣義低秩分解，利用分解得到的左右特征值向量對網(wǎng)絡(luò)參數(shù)進行初始化，從而使網(wǎng)絡(luò)更好的模擬偽逆模糊核。另外，基于廣義低秩近似的分解矩陣可以有效區(qū)分不同偽逆模糊核的變化特征，因此可以幫助網(wǎng)絡(luò)更好的進行圖像恢復(fù)。研究者在大量具有飽和像素的模糊圖片上進行了實驗，結(jié)果證明該方法可以得到較好的圖像反卷積效果。據(jù)介紹，該方法可以應(yīng)用于相機、車載記錄儀、監(jiān)控等設(shè)備在已知運動軌跡情況下的圖像復(fù)原。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

新提出的去卷積網(wǎng)絡(luò)的架構(gòu)，其中通過廣義低秩近（GLRA）使用大量模糊核（blur kernel）的可分離過濾器來初始化第 1 層和第 3 層的參數(shù)，并使用為每個模糊核估計的 M 來固定第 2 個卷積核中的參數(shù)。另外還堆疊了額外的 3 個卷積層來去除偽影。

10. 超越二次指派模型：圖匹配形式化的一個推廣

Generalizing Graph Matching beyond Quadratic Assignment Model

這項研究由騰訊 AI Lab、上海交通大學(xué)、美國亞利桑那州立大學(xué)等合作完成。圖匹配在過去幾十年間一直受到持續(xù)觀注，該問題往往可以被形式化成一個二階指派問題。研究者在本文中展示：通過引入一系列在本文中被稱為可分離的函數(shù)，并調(diào)整近似控制參數(shù)，可以在連續(xù)域中對離散的圖匹配問題進行漸進的近似。研究者對該近似模型的全局最優(yōu)解性質(zhì)進行了研究，并進一步設(shè)計了凸/凹性質(zhì)保持下的擴展算法，而該類似策略在傳統(tǒng)Lawler二次指派模型上亦被廣泛采用。從理論上，研究者進一步論證了所提出的框架在為圖匹配新算法與技術(shù)設(shè)計帶來的巨大潛力。最后，通過兩個具體的可分離函數(shù)形式，研究者設(shè)計了相關(guān)求解算法，并在公開數(shù)據(jù)集上進行了驗證。

11. 基于蒸餾 Wasserstein 學(xué)習(xí)的單詞嵌入與主題建模

Distilled Wasserstein Learning for Word Embedding and Topic Modeling

論文地址：https://arxiv.org/abs/1809.04705

這項研究由InfiniaML, Inc.和美國杜克大學(xué)主導(dǎo)，與騰訊AI Lab合作完成。本文提出了一種具有蒸餾機制的Wasserstein學(xué)習(xí)方法，實現(xiàn)了單詞嵌入與文本主題的聯(lián)合學(xué)習(xí)。該方法的依據(jù)在于不同主題單詞分布的Wasserstein距離往往是建立在單詞嵌入的歐式距離的基礎(chǔ)之上的。因此，該方法采用了一個統(tǒng)一的框架用以學(xué)習(xí)主題模型對應(yīng)的單詞分布，單詞分布之間的最優(yōu)傳輸，以及相應(yīng)的單詞嵌入模型。在學(xué)習(xí)主題模型時，研究者利用模型蒸餾的方法平滑距離矩陣，用以更新主題模型和計算主題之間的最優(yōu)傳輸。這種蒸餾機制為下一步單詞嵌入的更新提供了具有魯棒性的指導(dǎo)，改進了學(xué)習(xí)過程的收斂性。針對采用疾病和手術(shù)ICD編碼的病人入院記錄，研究者的方法在構(gòu)建疾病相關(guān)性網(wǎng)絡(luò)，死亡率預(yù)測，和治療方案推薦等應(yīng)用上取得了比現(xiàn)有方法更好的結(jié)果。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

用于單詞嵌入和主題建模的聯(lián)合學(xué)習(xí)的蒸餾 Wasserstein 學(xué)習(xí)（DWL）方法

12.基于往復(fù)式學(xué)習(xí)的深度顯著性跟蹤

Deep Attentive Tracking via Reciprocative Learning

論文地址：https://arxiv.org/abs/1810.03851

這項研究由騰訊 AI Lab、北京郵電大學(xué)、澳洲阿德萊德大學(xué)和美國加州大學(xué)默塞德分校合作完成。由感知神經(jīng)科學(xué)衍生出來的視覺關(guān)注度促使人類對日常信息中最敏感的部分進行仔細關(guān)注。近年來，大量的研究工作致力于在計算機視覺系統(tǒng)中挖掘顯著性的信息。在視覺跟蹤這個任務(wù)中，跟蹤不斷變化的目標物體是非常具有挑戰(zhàn)性的。顯著性響應(yīng)圖能夠使得跟蹤器關(guān)注于目標物體在時間域中穩(wěn)定的特征，從而能夠減輕視覺跟蹤的困難。在現(xiàn)有的基于檢測的跟蹤框架中，分類器并沒有進行顯著性的設(shè)計，使得其主要利用額外的模塊來生成特征權(quán)重。本文中，研究者提出一種往復(fù)式學(xué)習(xí)的算法在訓(xùn)練分類器的過程中挖掘顯著性，該算法通過前向和后向兩部分操作來生成顯著性響應(yīng)圖。在訓(xùn)練過程中，響應(yīng)圖作為正則項結(jié)合傳統(tǒng)的分類損失函數(shù)進行網(wǎng)絡(luò)的訓(xùn)練。以此方式訓(xùn)練的分類器能夠關(guān)注于目標物體中克服外表變化的特征。在大規(guī)模數(shù)據(jù)集上大量的實驗表明，研究者提出的基于顯著性的跟蹤方法在目前主流的跟蹤算法中性能優(yōu)異。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

上圖展示了新提出的往復(fù)式學(xué)習(xí)算法總覽。該算法會首先在前向過程中計算給定訓(xùn)練樣本的分類分數(shù)，然后在后向過程中通過取該分類分數(shù)相對該樣本的偏導(dǎo)數(shù)來得到顯著性響應(yīng)圖。之后再將這個響應(yīng)圖作為正則化項與分類損失結(jié)合起來用于訓(xùn)練分類器。測試階段不會生成響應(yīng)圖，而是由分類器直接預(yù)測目標位置。

13. 基于學(xué)習(xí)的多任務(wù)學(xué)習(xí)框架L2MT

Learning to Multitask

論文地址：https://arxiv.org/abs/1805.07541

這項研究由香港科技大學(xué)與騰訊 AI Lab 合作完成，提出了學(xué)會多任務(wù)學(xué)習(xí)（L2MT）的框架，能夠自動發(fā)掘?qū)τ谝粋€多任務(wù)問題最優(yōu)的多任務(wù)學(xué)習(xí)模型。為了實現(xiàn)這個目標，L2MT 充分利用了歷史的多任務(wù)學(xué)習(xí)經(jīng)驗。每個多任務(wù)學(xué)習(xí)經(jīng)驗是一個三元組，包括一個由多個任務(wù)組成的多任務(wù)問題、一個多任務(wù)學(xué)習(xí)模型以及該模型在該多任務(wù)問題上的相對測試錯誤率。以歷史的多任務(wù)學(xué)習(xí)經(jīng)驗作為訓(xùn)練集，L2MT 首先使用層式圖神經(jīng)網(wǎng)絡(luò) （layerwise graph neural network）學(xué)習(xí)每個多任務(wù)問題里所有任務(wù)的特征表示。其次，L2MT 會學(xué)習(xí)一個估計函數(shù)來預(yù)測相對測試錯誤率，該估計函數(shù)基于多任務(wù)問題的特征表示以及多任務(wù)學(xué)習(xí)模型。如此一來，給定一個新的多任務(wù)問題，通過最小化該估計函數(shù)（等價于最小化相對測試錯誤率）可以確定一個合適的多任務(wù)模型。在標準數(shù)據(jù)集上的實驗證明了 L2MT 的有效性。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

上圖展示了 L2MT 的框架，該框架包含 2 個階段。訓(xùn)練階段是學(xué)習(xí)一個估計函數(shù) f(·,·) ，以基于訓(xùn)練數(shù)據(jù)集和特定的多任務(wù)模型來近似相對測試誤差；測試階段則是通過最小化該相對測試誤差（接近隨 Ω 變化的 γ1f(E? , Ω)）來學(xué)習(xí)任務(wù)協(xié)方差矩陣。

14.可判別式深度神經(jīng)網(wǎng)絡(luò)通道剪枝

Discrimination-aware Channel Pruning for Deep Neural Networks

這項研究由騰訊 AI Lab、華南理工大學(xué)和阿德萊德大學(xué)合作完成，對通道剪枝方法進行了改進。通道剪枝是深度模型壓縮的一個主要方法。現(xiàn)有的剪枝方法要么通過對通道強加稀疏約束從頭訓(xùn)練，要么極小化預(yù)訓(xùn)練特征和壓縮后特征之間的重構(gòu)誤差。這兩個策略都存在不足：前者計算量大并且難以收斂，后者只關(guān)注重構(gòu)誤差而忽略了通道的判別能力。為了克服這些不足，研究者設(shè)計了一種簡單而有效的方法——可判別式通道剪枝——來選擇那些真正具有判別能力的通道。為此，研究者引入了額外的損失來增加神經(jīng)網(wǎng)絡(luò)中間層的判別能力。之后再從每一層中選擇判別能力最強的通道，同時還會考慮這個新的額外損失和重構(gòu)誤差。最后，研究者還提出了一個貪心算法，可用于迭代地進行通道選擇和參數(shù)優(yōu)化。研究者進行了大量實驗，結(jié)果表明該方法是有效的。例如，在 ILSVRC-12 數(shù)據(jù)集上，在對 ResNet-50 壓縮 30% 的通道量后還取得了比原方法高 0.39% 的識別準確度。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

可判別式通道剪枝（DCP）示意圖

15. M-Walk: 圖游走的蒙特卡洛樹狀搜索學(xué)習(xí)方法

M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

論文地址：https://arxiv.org/abs/1802.04394

這項研究由微軟研究院與騰訊 AI Lab 合作完成，提出了一種可用于知識圖譜推理的蒙特卡洛樹狀搜索學(xué)習(xí)方法 M-Walk。在知識庫完成等應(yīng)用中，給定一個輸入查詢和一個源節(jié)點，學(xué)習(xí)在圖中到達目標節(jié)點是一個很重要的研究問題。這個問題可通過一個已知的狀態(tài)轉(zhuǎn)移模型而形式化為一個強化學(xué)習(xí)問題。為了克服獎勵稀疏的難題，研究者開發(fā)出了一種能在圖中游走的智能體 M-Walk——由一個深度循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和蒙特卡洛樹搜索（MCTS）構(gòu)成。RNN 會對狀態(tài)（即游走過的路徑的歷史）進行編碼，并將其分別映射成一個策略、一個狀態(tài)值和狀態(tài)-動作 Q 值。為了能使用稀疏獎勵有效地訓(xùn)練該智能體，研究者將 MCTS 與這個神經(jīng)網(wǎng)絡(luò)策略結(jié)合到了一起，可以生成能產(chǎn)生更多積極獎勵的軌跡。通過 Q 學(xué)習(xí)方法（其會通過參數(shù)共享來修改 RNN 策略），神經(jīng)網(wǎng)絡(luò)能使用這些軌跡以一種離策略的方式得到改進。研究者提出的強化學(xué)習(xí)算法可以反復(fù)應(yīng)用這一策略改進步驟，從而學(xué)習(xí)得到整個模型。在測試時間，MCTS 仍然會與神經(jīng)策略結(jié)合起來預(yù)測目標節(jié)點。研究者在多個圖游走基準上進行了實驗，結(jié)果表明 M-Walk 能夠?qū)W會比其它基于強化學(xué)習(xí)的方法（主要基于策略梯度）更好的策略。M-Walk 的表現(xiàn)也優(yōu)于傳統(tǒng)的知識庫完成基準。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

M-Walk 的神經(jīng)架構(gòu)

16.基于優(yōu)化嵌入的耦合變分貝葉斯方法

Coupled Variational Bayes via Optimization Embedding

這項研究由喬治亞理工學(xué)院、伊利諾伊大學(xué)厄巴納-香檳分校、騰訊 AI Lab 和微軟研究院合作完成，文中構(gòu)建了一種名為優(yōu)化嵌入（optimization embedding）的分布類，能輔助實現(xiàn)優(yōu)良的近似能力和計算效率，進而讓變分推理在學(xué)習(xí)圖模型方面的表現(xiàn)更好（尤其是在大規(guī)模數(shù)據(jù)集上）。優(yōu)化嵌入這個靈活的函數(shù)類能將變分分布和圖模型中的原始參數(shù)耦合到一起，能夠通過反向傳播使用變分分布來實現(xiàn)端到端的圖模型學(xué)習(xí)。研究者還在理論上將其與梯度流（gradient flow）聯(lián)系到了一起，并在極限意義上表明了這種隱式分布族極其靈活。在實踐中，這種技術(shù)能大幅縮小搜索空間，從而顯著加速學(xué)習(xí)過程，即文中提出的耦合變分貝葉斯（CVB）。實驗表明，新提出的方法在多種圖模型（具有連續(xù)或離散的隱變量）上都優(yōu)于之前最佳的方法。研究者相信優(yōu)化嵌入是一種重要的通用型技術(shù)，未來也有望在生成對抗模型和對抗訓(xùn)練等其它模型中得到應(yīng)用。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

耦合變分貝葉斯算法

17. 常數(shù)迭代復(fù)雜度的隨機經(jīng)驗誤差最小化方法

Stochastic Primal-Dual Method for Empirical Risk Minimization with O(1) Per-Iteration Complexity

這項研究由香港中文大學(xué)、騰訊 AI Lab、加州大學(xué)戴維斯分校與羅切斯特大學(xué)合作完成，提出了一種可用于快速求解基于廣義線性模型的經(jīng)驗誤差最小化問題的方法。該方法的特點是每輪迭代只需要 O(1) 的常數(shù)計算量，與問題的維度以及數(shù)據(jù)的大小無關(guān)。研究者還發(fā)展了該方法的一種方差減小的變種，在強凸條件下可以證明它具有線性收斂性。研究者使用 logistic 損失函數(shù)進行了求解分類問題的數(shù)值實驗，結(jié)果表明新方法在高維問題上的收斂速度優(yōu)于 SGD、SVRG、SAGA 等經(jīng)典算法。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

每次迭代成本為 O(1) 的隨機原始-對偶方法（SPD1）

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight

使用了方差縮減的 SPD1

18. 方差縮減的隨機期望最大化算法

Stochastic Expectation Maximization with Variance Reduction

論文地址：https://ml.cs.tsinghua.edu.cn/~jianfei/semvr-nips2018.pdf

這項研究由清華大學(xué)主導(dǎo)完成，騰訊 AI Lab 和牛津大學(xué)也有參與。論文提出了一個受方差縮減的隨機梯度下降算法啟發(fā)的基于方差縮減的隨機 EM（sEM-vr）算法。研究表明 sEM-vr 具備和批 EM 相同的指數(shù)收斂速率，且sEM-vr 只需要常數(shù)步長，從而能降低調(diào)參的負擔。研究者在高斯混合模型和 PLSA 上比較了 sEM-vr 和批處理 EM、隨機 EM 及其它算法，結(jié)果表明 sEM-vr 比其它算法收斂明顯更快。該方法在對訓(xùn)練精度要求較高時能顯著提升隨機 EM 算法的收斂速度。

19. 通信有效分布式優(yōu)化的稀疏梯度方法

Gradient Sparsification for Communication-Efficient Distributed Optimization

論文地址：https://arxiv.org/abs/1710.09854

這項研究由賓夕法尼亞大學(xué)、騰訊 AI Lab、芝加哥大學(xué)與羅切斯特大學(xué)合作完成，提出了一種可用于提高大規(guī)模分布式機器學(xué)習(xí)模型訓(xùn)練的通信速度的方法?，F(xiàn)代大規(guī)模機器學(xué)習(xí)一般使用分布式環(huán)境下的隨機優(yōu)化算法，傳播梯度的通信成本是其中一大重要瓶頸。為了降低通信成本，研究者提出了一種基于凸優(yōu)化的方法來減小編碼長度，并使用了一些簡單快速的近似算法來有效求解最優(yōu)的稀疏化方法，該方法能提供基于稀疏程度的理論保證。另外，研究者也在 L2 正則化 logistic 回歸、支持向量機和卷積神經(jīng)網(wǎng)絡(luò)等凸模型和非凸模型上驗證對新提出的算法進行了驗證。

20. 去中心化的壓縮算法

Decentralization Meets Quantization

論文地址：https://arxiv.org/abs/1803.06443

這項研究由羅徹斯特大學(xué)、蘇黎世聯(lián)邦理工學(xué)院與騰訊 AI Lab 合作完成，提出了兩種適用于去中心化網(wǎng)絡(luò)的壓縮方法（外推壓縮和差異壓縮）。對于大規(guī)模并行計算，去中心化的網(wǎng)絡(luò)設(shè)計和傳輸信息的壓縮對于解決網(wǎng)絡(luò)延時十分有效。然而，與中心化的并行計算不同，理論分析表明，直接將去中心化網(wǎng)絡(luò)與壓縮算法結(jié)合將會造成訓(xùn)練結(jié)果不收斂。研究者為解決該問題而提出的兩種壓縮方法能達到與中心化壓縮算法相同的運算效率。研究者也實驗了這兩種算法，結(jié)果表明它們大幅優(yōu)于只用去中心化網(wǎng)絡(luò)或只用壓縮的算法。

騰訊 AI Lab 20 篇論文入選 NIPS2018，含 2 篇 Spotlight