丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

本文作者: skura 編輯:汪思穎 2019-01-06 10:39 專題:NeurIPS 2018
導(dǎo)語:論文提出了一種非常新穎有趣的神經(jīng)網(wǎng)絡(luò)思維方法,有人認為這可能是一篇開啟深度學(xué)習(xí)新進化的里程碑式論文~

雷鋒網(wǎng) AI 科技評論按,不久前,NeurIPS 2018 在加拿大蒙特利爾召開,在這次著名會議上獲得最佳論文獎之一的論文是《Neural Ordinary Differential Equations》,論文地址:https://arxiv.org/abs/1806.07366。Branislav Holl?nder 在 towards data science 上對這篇論文進行了解讀,雷鋒網(wǎng) AI 科技評論編譯整理如下:

這篇論文的作者隸屬于著名的多倫多大學(xué)向量研究所。在這篇文章中,我將嘗試解釋這篇論文的主要觀點,并討論它們對深度學(xué)習(xí)領(lǐng)域的潛在影響。該論文涉及到了常微分方程(ODE)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和歸一化流(NF)等概念,但我會盡可能直觀地解釋它的觀點,讓您可以在不太深入了解技術(shù)細節(jié)的情況下理解主要概念。如果你感興趣的話,你可以去論文原稿中閱讀這些細節(jié)。文章分為多個部分,每個部分解釋論文中的一個或多個章節(jié)。

從序列變換到神經(jīng)微分方程

如今,多神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)(如 RNN 或殘差網(wǎng)絡(luò))包含重復(fù)的層塊,這些層塊能夠有序保留信息,并通過學(xué)習(xí)函數(shù)在每一步中對其進行更改。一般來說,這種網(wǎng)絡(luò)可以用下面的方程來描述:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

因此,ht 是時間步長 t 的「隱藏」信息,f(ht,θt)是當前隱藏信息和參數(shù)θ的學(xué)習(xí)函數(shù)。本文提出的核心問題是,我們是否可以通過逐步減小步長 [t,t+1] 來提升目前這些網(wǎng)絡(luò)的最優(yōu)性能。我們可以想象這是逐步增加 RNN 中的評估數(shù)量,或者增加殘差網(wǎng)絡(luò)中的殘差層數(shù)量。如果我們這樣做,我們最終會得到上述方程的微分版本:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

因為方程的解是一個函數(shù)(函數(shù) h(t)),所以這種方程稱為常微分方程(ode)。換句話說,通過求解方程,我們得到了所需的隱藏狀態(tài)序列。我們必須在每次評估過程中,從初始狀態(tài) h0 開始求解方程。這種問題也稱為初值問題。

用「伴隨法」計算模式求解器的梯度

數(shù)值求解一個 ODE 通常是通過積分來完成的。多年來,人們發(fā)明了很多積分方法,包括簡單的 Euler 方法和 Runge-Kutta 方法的高階變種。然而,這些方法在計算上都是相當密集的。在訓(xùn)練過程中尤其如此,它需要對積分步驟進行微分,以便能將網(wǎng)絡(luò)參數(shù)θ的所有梯度相加,這會導(dǎo)致較高的內(nèi)存成本。

本文提出了一種用 Pontryagin 的「伴隨法」計算 ODE 梯度的替代方法。該方法通過求解第二個時間向后增加的 ODE,可以與所有的 ODE 積分器一起使用,并且占用較小的內(nèi)存。讓我們考慮最小化 ODE 求解器結(jié)果的損失函數(shù),即:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

在第二步中,使用了 ODE 解的定義,在第三步中,將 ODESolve 作為求解 ODE 的操作符引入。正如我前面提到的,這個操作符依賴于初始狀態(tài) z(t0)、數(shù) f、初始和結(jié)束時間 t0、t1 以及搜索的參數(shù) θ。「伴隨法」現(xiàn)在確定了損耗函數(shù) w.r.t 的梯度,其隱藏狀態(tài)為:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

這個數(shù)量伴隨著 ODE 的增加。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

計算梯度 NIPS2018最佳論文解讀:Neural Ordinary Differential Equations(上述方程要求的第一個梯度)現(xiàn)在可以通過向后求解增強的 ODE 來完成。為了完整性,下面的公式說明了如何計算神經(jīng)網(wǎng)絡(luò)函數(shù)參數(shù)的梯度 w.r.t:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

如作者所述,整個梯度計算算法過程如下:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

用于監(jiān)督學(xué)習(xí)的 ODE 網(wǎng)絡(luò)

接下來是論文中最有趣的部分:相關(guān)的應(yīng)用。作者在論文中提到的第一個應(yīng)用是在監(jiān)督學(xué)習(xí)領(lǐng)域,即 MNIST 書寫數(shù)字分類。結(jié)果表明,該方法與參數(shù)較少的殘差網(wǎng)絡(luò)性能相當。本文中用于評估的網(wǎng)絡(luò)對輸入圖像進行兩次采樣,然后應(yīng)用于 6 個殘差塊。總之,網(wǎng)絡(luò)包含大約 60 萬個參數(shù)。ODESolve 網(wǎng)絡(luò)使用單個 ODESolve 模塊替換 6 層網(wǎng)絡(luò)。此外,作者還對 RK 網(wǎng)絡(luò)進行了測試,除了使用 Runge-Kutta 方法直接反向傳播誤差外,該網(wǎng)絡(luò)與 RK 網(wǎng)絡(luò)相似。如上所述,您可以將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的層數(shù)與 ODE 網(wǎng)絡(luò)中的評估數(shù)聯(lián)系起來。這兩個網(wǎng)絡(luò)的參數(shù)個數(shù)為 22 萬個,重要的結(jié)果是,使用大約 1/3 的參數(shù),RK 網(wǎng)絡(luò)和 ODE 網(wǎng)絡(luò)的性能與殘差網(wǎng)絡(luò)大致相同。此外,ODE 網(wǎng)絡(luò)的內(nèi)存復(fù)雜性是恒定的(見下圖)。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

此外,可以調(diào)整 ODE 解的精度以最大限度地提高計算性能。例如,一個人可以進行高精度的訓(xùn)練,并降低評估準確性(更多詳細信息,請參閱原文)。

連續(xù)歸一化流

歸一化流是分布的可逆變換。它們可以通過一系列非線性變換將簡單的概率密度轉(zhuǎn)換為復(fù)雜的概率密度,正如在神經(jīng)網(wǎng)絡(luò)中一樣。因此,它們利用分布中的變量轉(zhuǎn)換公式:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

上式中,q0(z0)為初始分布,qk(zk)為轉(zhuǎn)換分布,轉(zhuǎn)換為 fk,k=0...K。上述和中的 Jacobi 行列式保證了整個轉(zhuǎn)換過程中分布函數(shù)的積分保持為 1。不幸的是,除了一些簡單的變換外,計算這個行列式代價太大。

歸一化流的一個常見應(yīng)用是變分自動編碼器(VAE),它通常假定潛在變量是高斯分布的。這一假設(shè)使得 VAE 的輸出結(jié)果變差,因為它不允許網(wǎng)絡(luò)學(xué)習(xí)所需的分布。對于歸一化流,高斯參數(shù)可以在「解碼」之前轉(zhuǎn)換成各種各樣的分布,從而提高 VAE 的生成能力。這篇博文詳細解釋了歸一化流:http://akosiorek.github.io/ml/2018/04/03/norm_flows.html

本文討論了歸一化流在連續(xù)域中的擴展。有趣的是,這簡化了歸一化常數(shù)的計算。如果我們讓隨機變量在時間上是連續(xù)的,用函數(shù) f 描述時間的變化(f 是 Lipschitz 連續(xù)的),則概率的對數(shù)變化遵循簡單的微分方程:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

因此,行列式的計算在這里被簡單的矩陣運算所取代。此外,如果我們使用一個轉(zhuǎn)換的和,那么我們只需要對矩陣求和:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

為了證明 CNF 的有效性,本文測試了概率密度從高斯分布到兩個目標分布的轉(zhuǎn)換,如下圖所示。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

利用 CNF(上兩行)和 NF(下一行)在高斯分布和目標分布之間進行轉(zhuǎn)換(從 5% 到 100%)。

采用最大似然估計方法對神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,使目標概率分布下的期望值最大化,然后將模型反演為已知分布的樣本。

通過 ODE 生成時間序列模型

本文提到的第三個應(yīng)用(可能是最重要的應(yīng)用),是通過 ODE 進行時間序列建模。作者開始這項工作的動機之一是他們對不規(guī)則采樣數(shù)據(jù)的興趣,如醫(yī)療記錄數(shù)據(jù)或網(wǎng)絡(luò)流量數(shù)據(jù)。這種數(shù)據(jù)的離散化常常定義不明確,導(dǎo)致某些時間間隔內(nèi)數(shù)據(jù)丟失或潛在變量不準確。有一些方法將時間信息連接到 RNN 的輸入上,但這些方法并不能從根本上解決問題。

基于 ODE 模塊的解決方案是一個連續(xù)時間生成模型,在給定初始狀態(tài) z0 和觀測時間 t0…tN 的情況下,該模型計算潛在狀態(tài) z_t1…z_tN 和輸出 x_t1…x_tN

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

神經(jīng)網(wǎng)絡(luò)函數(shù) f 負責計算從當前時間步長開始的任何時間 t 處的潛伏狀態(tài) z。該模型是一個變分自動編碼器,它使用 RNN 在初始潛伏狀態(tài) z0 下編碼過去的軌跡(在下圖中為綠色)。與所有變分自動編碼器一樣,它通過分布的參數(shù)(在本例中,滿足均值為μ、標準差為σ的高斯分布)來捕獲潛在狀態(tài)分布。從這個分布中,抽取一個樣本并由 ODESolve 進行處理。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

該體系結(jié)構(gòu)在一個雙向二維螺旋的合成數(shù)據(jù)集上進行了測試,該數(shù)據(jù)集在不規(guī)則的時間點采樣,并且數(shù)據(jù)中有高斯噪聲。下圖定性地顯示了 Latent Neural ODE 模型的優(yōu)越建模性能:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

結(jié)論

本文提出了一種非常有趣和新穎的神經(jīng)網(wǎng)絡(luò)思維方法。這可能是一篇開啟深度學(xué)習(xí)新進化的里程碑式論文。我希望隨著時間的推移,越來越多的研究人員開始從不同的角度來思考神經(jīng)網(wǎng)絡(luò),正如本文所做的那樣。

文中的方法是否確實適用于現(xiàn)有的各種模型、是否會被時間證明是有效的,仍有待觀察。作者也提到了他們方法的一些局限性:

  • 小批量可能是這種方法的一個問題,然而作者提到,即使在整個實驗過程中使用小批量,評估的數(shù)量仍然是可以管理的。

  • 只有當網(wǎng)絡(luò)具有有限的權(quán)值并使用 Lipschitz 非線性函數(shù)(如 tanh 或 relu,而不是階躍函數(shù))時,才能保證 ODE 解的唯一性。

  • 前向軌跡的可逆性可能會受到前向模式求解器中的數(shù)值誤差、反向模式求解器中的數(shù)值誤差以及由于多個初始值映射到同一結(jié)束狀態(tài)而丟失的信息的綜合影響。

作者還提到,他們的方法是不唯一的,殘差網(wǎng)絡(luò)作為近似的 ODE 求解器的想法已經(jīng)過時了。此外,還有一些論文試圖通過神經(jīng)網(wǎng)絡(luò)和高斯過程來學(xué)習(xí)不同的方程。

本文提出的方法的一個重要優(yōu)點是,在評估或訓(xùn)練過程中,通過改變數(shù)值積分的精度,可以自由地調(diào)節(jié)速度和精確度之間的平衡。此外,該方法也非常適用(只要求神經(jīng)網(wǎng)絡(luò)的非線性是 Lipschitz 連續(xù)的),并且可以應(yīng)用于時間序列建模、監(jiān)督學(xué)習(xí)、密度估計或其他順序過程。

來源:https://towardsdatascience.com/paper-summary-neural-ordinary-differential-equations-37c4e52df128

雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說