0
本文作者: 奕欣 | 2017-09-20 14:44 | 專題:NIPS 2017 |
雷鋒網(wǎng) AI 科技評論按:本文轉(zhuǎn)載自騰訊 AI Lab,已獲授權(quán)。
被譽為神經(jīng)計算和機器學習領(lǐng)域兩大頂級會議之一的 NIPS(另一個為 ICML)近日揭曉收錄論文名單,騰訊 AI Lab 共有八篇論文入選,位居國內(nèi)企業(yè)前列,其中一篇被選做口頭報告(Oral),該類論文僅占總錄取數(shù)的 1.2%(40/3248),我們將在下文解析。
插播一下,騰訊 AI Lab 今年還在其他幾大頂級會議上斬獲頗豐,包括機器學習領(lǐng)域另一頂會 ICML(四篇入選)、計算機視覺領(lǐng)域頂會 CVPR(六篇入選)、自然語言處理領(lǐng)域頂會 ACL(三篇入選)等。(加鏈接)
本屆 NIPS 共收到 3240 篇論文投稿,創(chuàng)歷年新高,其中 678 篇被選為大會論文,錄用比例 20.9%。其中有 40 篇口頭報告(Oral)和 112 篇亮點報告(Spotlight)。會議門票也在開售不到一小時內(nèi)售罄,參會人數(shù)預(yù)計將超過去年的 5000 人,火爆程度可見一斑。
NIPS 的內(nèi)容涵蓋認知科學、心理學、計算機視覺、統(tǒng)計語言學和信息論等領(lǐng)域,可由此窺見機器學習最為前沿和備受關(guān)注的研究領(lǐng)域。而在思考未來方向時,我們認為研究者們可追本溯源,沉下心來關(guān)注一些本質(zhì)問題。
比如機器學習研究方向之一,是探索如何在特定知識表達體系下有效利用不同資源,這里的資源包括計算資源(時間復(fù)雜性)和數(shù)據(jù)資源(樣本復(fù)雜性)。這個方向上的主流思路是使用基于深度網(wǎng)絡(luò)的模型,但近幾年的研究更較偏 heuristic 和 empirical,而未來則更可能會是在深度模型的知識表達體系下進行探索。深度模型帶來的最大挑戰(zhàn)是非凸性,這從本質(zhì)上有別于傳統(tǒng)的計算與統(tǒng)計理論,也值得研究者們產(chǎn)生一些全新的思考。
深度學習是目前毋庸置疑的大趨勢,近幾年來此類研究空前火熱,如果我們回到初心,將部分不真實的內(nèi)容逐步澄清,能促進研究走上良性發(fā)展之路。
*論文按標題英文首字母排序
Oral 論文 1. 去中心化算法能否比中心化算法效果更佳-一個關(guān)于去中心化的隨機梯度方法研究
Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent
本論文與蘇黎世聯(lián)邦理工學院、加州大學戴維斯分校和 IBM 合作完成。并行優(yōu)化和計算效率是從大數(shù)據(jù)發(fā)掘智能的核心競爭力。為了提高效率,大多數(shù)的并行優(yōu)化算法和平臺集中在研究中心化的算法,比如 Tensorflow、CNTK 及 MXNET。中心化的算法的主要瓶頸是上百個計算結(jié)點與(多個)中心節(jié)點之間的通訊代價和擁堵,嚴重的受制于網(wǎng)絡(luò)的帶寬和延遲。而這篇文章里則考慮去中心化的思路以減少通訊的代價。
盡管在去中心化的方法在控制領(lǐng)域已經(jīng)有所應(yīng)用和研究,但是考慮的是在特殊的去中心的拓撲結(jié)構(gòu)的情況下,如何交換融合信息。而且已有的研究都沒有表明如果二者都能用的情況下去中心的算法相對對于中心化的算法會有任何優(yōu)勢。這篇文章的主要貢獻在于研究了一個去中心化的隨機梯度方法,并且第一次從理論上證明了去中心化的算法可以比對應(yīng)的中心化算法更加高效。同時本文通過大量的在深度學習上的實驗和比較驗證了作者理論。
這個發(fā)現(xiàn)將會打開未來大家對并行算法的思路,給并行系統(tǒng)帶來更多的靈活性和自由度。我們相信將會對未來的機器學習平臺和算法開發(fā)產(chǎn)生較大影響。
* 本文入選 NIPS 2017 口頭報告(Oral),論文占比為 40/3248。
2. 線性動態(tài)系統(tǒng)上的高效優(yōu)化及其在聚類和稀疏編碼問題上的應(yīng)用
Efficient Optimization for Linear Dynamical Systems with Applications to Clustering and Sparse Coding
本論文與清華大學和澳大利亞國立大學合作完成,其中的線性動態(tài)系統(tǒng)模型(LDS)是用于時空數(shù)據(jù)建模的一種重要的工具。盡管已有的理論方法非常豐富,但利用 LDS 進行時空數(shù)據(jù)的分析并不簡單,這主要是因為 LDS 的參數(shù)并不是在歐氏空間,故傳統(tǒng)的機器學習方法不能直接采用。
在這篇論文中,作者提出了一種高效的投影梯度下降法去極小化一個泛化的損失函數(shù),并利用該方法同時解決了 LDS 空間上的聚類和稀疏編碼問題。為此,作者首先給出 LDS 參數(shù)的一種新型的典范表示,然后巧妙地將目標函數(shù)梯度投影到 LDS 空間來實現(xiàn)梯度回傳。與以往的方法相比,這篇文章中的方法不需要對 LDS 模型和優(yōu)化過程加入任何的近似。充分的實驗結(jié)果證明了這篇文章中的方法在收斂性和最終分類精度上優(yōu)于目前最好同類方法。
3. 通過斯坦因引理估計高維非高斯多指數(shù)模型
Estimating High-dimensional Non-Gaussian Multiple Index Models via Stein's Lemma
本論文與普林斯頓大學和喬治亞理工大學合作完成,作者探討了在高維非高斯設(shè)置中估計半?yún)?shù)多指數(shù)模型的參數(shù)化組分的方法。文中的估計器使用了基于二階斯坦因引理的分數(shù)函數(shù),而且不需要文獻中做出的高斯或橢圓對稱性假設(shè)。內(nèi)部機構(gòu)的研究表明:即使分數(shù)函數(shù)或響應(yīng)變量是重尾(heavy-tailed)分布的,文中的估計器也能實現(xiàn)接近最優(yōu)的統(tǒng)計收斂率。最后,作者利用了一個數(shù)據(jù)驅(qū)動的截斷參數(shù),并基于該參數(shù)確定了所需的集中度(concentration)結(jié)果。作者通過模擬實驗對該理論進行了驗證,對這篇文章中的理論結(jié)果進行了補充。
4. 基于幾何梯度下降方法的復(fù)合凸函數(shù)最小化
Geometric Descent Method for Convex Composite Minimization
本論文與香港中文大學和加利福尼亞大學戴維斯分校合作完成,主要擴展了 Bubeck, Lee 和 Singh 近期提出的處理非光滑復(fù)合強凸函數(shù)優(yōu)化問題的幾何梯度下降方法。文中提出「幾何鄰近梯度下降法」算法——能夠以線性速率收斂,因此能相比其他一階優(yōu)化方法達到最優(yōu)的收斂速率。最后,在帶有彈性網(wǎng)絡(luò)正則化的線性回歸和邏輯回歸上的數(shù)值實驗結(jié)果表明,新提出的幾何鄰近梯度下降法優(yōu)于 Nesterov's 加速的鄰近梯度下降法,尤其面對病態(tài)問題時優(yōu)勢更大。
5. 基于混合秩矩陣近似的協(xié)同過濾
Mixture-Rank Matrix Approximation for Collaborative Filtering
本論文與復(fù)旦大學和 IBM 中國合作完成,關(guān)于低秩矩陣近似方法(LRMA)現(xiàn)今在協(xié)同過濾問題上取得了優(yōu)異的精確度。在現(xiàn)有的低秩矩陣近似方法中,用戶或物品特征矩陣的秩通常是固定的,即所有的用戶或物品都用同樣的秩來近似刻畫。但本文研究表明,秩不相同的子矩陣能同時存在于同一個用戶-物品評分矩陣中,這樣用固定秩的矩陣近似方法無法完美地刻畫評分矩陣的內(nèi)部結(jié)構(gòu),因此會導(dǎo)致較差的推薦精確度。
這篇論文中提出了一種混合秩矩陣近似方法(MRMA),用不同低秩矩陣近似的混合模型來刻畫用戶-物品評分矩陣。同時,這篇文章還提出了一種利用迭代條件模式的領(lǐng)先算法用于處理 MRMA 中的非凸優(yōu)化問題。最后,在 MovieLens 系統(tǒng)和 Netflix 數(shù)據(jù)集上的推薦實驗表明,MRMA 能夠在推薦精確度上超過六種代表性的基于 LRMA 的協(xié)同過濾方法。
6. 凸差近似牛頓算法在非凸稀疏學習中的二次收斂
On Quadratic Convergence of DC Proximal Newton Algorithm in Nonconvex Sparse Learning
為求解高維的非凸正則化稀疏學習問題,我們提出了一種凸差(difference of convex/DC)近似牛頓算法。我們提出的算法將近似牛頓算法與基于凸差規(guī)劃的多階段凸松弛法(multi-stage convex relaxation)結(jié)合到了一起,從而在實現(xiàn)了強計算能力的同時保證了統(tǒng)計性。具體來說,具體來說,通過利用稀疏建模結(jié)構(gòu)/假設(shè)的復(fù)雜特征(即局部受限的強凸性和 Hessian 平滑度),我們證明在凸松弛的每個階段內(nèi),我們提出的算法都能實現(xiàn)(局部)二次收斂,并最終能在僅少數(shù)幾次凸松弛之后得到具有最優(yōu)統(tǒng)計特性的稀疏近似局部最優(yōu)解。我們也提供了支持我們的理論的數(shù)值實驗。
7. 用于稀疏學習的同倫參數(shù)單純形方法
Parametric Simplex Method for Sparse Learning
本論文與普林斯頓大學、喬治亞理工大學和騰訊 AI 實驗室合作完成,作者關(guān)注了一種可形式化為線性規(guī)劃問題的廣義類別的稀疏學習——這類線性規(guī)劃問題可以使用一個正則化因子進行參數(shù)化,且作者也通過參數(shù)單純形方法(parametric simplex method/PSM)解決了這個問題。相對于其它相競爭的方法,這篇文章中的參數(shù)單純形方法具有顯著的優(yōu)勢:(1)PSM 可以自然地為正則化參數(shù)的所有值獲取完整的解決路徑;(2)PSM 提供了一種高精度的對偶證書停止(dual certificate stopping)標準;(3)PSM 只需非常少的迭代次數(shù)就能得到稀疏解,而且該解的稀疏性能顯著降低每次迭代的計算成本。
特別需要指出,這篇文章展示了 PSM 相對于多種稀疏學習方法的優(yōu)越性,其中包括用于稀疏線性回歸的 Dantzig 選擇器、用于稀疏穩(wěn)健線性回歸的 LAD-Lasso、用于稀疏精度矩陣估計的 CLIME、稀疏差分網(wǎng)絡(luò)估計和稀疏線性規(guī)劃判別(LPD)分析。然后作者提供了能保證 PSM 總是輸出稀疏解的充分條件,使其計算性能可以得到顯著的提升。作者也提供了嚴密充分的數(shù)值實驗,演示證明了 PSM 方法的突出表現(xiàn)。
8. 預(yù)測未來的場景分割和物體運動
Predicting Scene Parsing and Motion Dynamics in the Future
本論文與新加坡國立大學、Adobe 研究室和 360 人工智能研究院合作完成。無人車和機器人這樣的對智能系統(tǒng)中,預(yù)期未來對提前計劃及決策非常重要。文中預(yù)測未來的場景分割和物體運動幫助智能系統(tǒng)更好地理解視覺環(huán)境,因為場景分割能提供像素級語義分割(即何種物體在何處會出現(xiàn)),物體運動信息能提供像素級運動狀態(tài)(即物體未來會如何移動)。本文提出了一種全新的方法來預(yù)測未來的未觀測到的視頻場景分割和物體運動。用歷史信息(過去的視頻幀以及對應(yīng)的場景分割結(jié)果)作為輸入,文章中的新模型能夠預(yù)測未來任意幀的場景分割和物體運動。
更重要的是,這篇文章中的模型優(yōu)于其他分開預(yù)測分割和運動的方法,因為文中聯(lián)合處理這兩個預(yù)測問題以及充分利用了它們的互補關(guān)系。據(jù)內(nèi)部統(tǒng)計,文中的方法是第一個學習同時預(yù)測未來場景分割和物體運動的方法。在大規(guī)模 Cityscape 數(shù)據(jù)集上的實驗表明,本文的模型相比精心設(shè)計的基線方法,能獲得顯著更好的分割和運動預(yù)測結(jié)果。另外,這篇論文也展示了如何用機構(gòu)內(nèi)部的模型預(yù)測汽車轉(zhuǎn)向角,獲得的優(yōu)秀結(jié)果進一步證實了該新模型學習隱含變量的能力。
NIPS 全稱為 Annual Conference and Workshop on Neural Information Processing Systems,于 1986 年在由加州理工學院和貝爾實驗室組織的 Snowbird 神經(jīng)網(wǎng)絡(luò)計算年度閉門論壇上首次提出。會議固定在每年 12 月舉行。今年是第 31 屆,將于 12 月 4 日到 9 日在美國西岸加州南部的長灘市(Long Beach)舉辦。
計算機學科由于成果更新迅速,更愿意通過會議優(yōu)先發(fā)表成果,因此該類頂級會議大多比期刊更具權(quán)威性與影響力。NIPS 和 ICML 是機器學習領(lǐng)域最受認可的兩大頂會,是中國計算機學會 CCF 推薦的 A 類會議及 Google 學術(shù)指標前五名。(見如下)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。