丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

本文作者: skura 編輯:汪思穎 2019-01-06 10:39 專題:NeurIPS 2018
導(dǎo)語(yǔ):論文提出了一種非常新穎有趣的神經(jīng)網(wǎng)絡(luò)思維方法,有人認(rèn)為這可能是一篇開(kāi)啟深度學(xué)習(xí)新進(jìn)化的里程碑式論文~

雷鋒網(wǎng) AI 科技評(píng)論按,不久前,NeurIPS 2018 在加拿大蒙特利爾召開(kāi),在這次著名會(huì)議上獲得最佳論文獎(jiǎng)之一的論文是《Neural Ordinary Differential Equations》,論文地址:https://arxiv.org/abs/1806.07366。Branislav Holl?nder 在 towards data science 上對(duì)這篇論文進(jìn)行了解讀,雷鋒網(wǎng) AI 科技評(píng)論編譯整理如下:

這篇論文的作者隸屬于著名的多倫多大學(xué)向量研究所。在這篇文章中,我將嘗試解釋這篇論文的主要觀點(diǎn),并討論它們對(duì)深度學(xué)習(xí)領(lǐng)域的潛在影響。該論文涉及到了常微分方程(ODE)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和歸一化流(NF)等概念,但我會(huì)盡可能直觀地解釋它的觀點(diǎn),讓您可以在不太深入了解技術(shù)細(xì)節(jié)的情況下理解主要概念。如果你感興趣的話,你可以去論文原稿中閱讀這些細(xì)節(jié)。文章分為多個(gè)部分,每個(gè)部分解釋論文中的一個(gè)或多個(gè)章節(jié)。

從序列變換到神經(jīng)微分方程

如今,多神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)(如 RNN 或殘差網(wǎng)絡(luò))包含重復(fù)的層塊,這些層塊能夠有序保留信息,并通過(guò)學(xué)習(xí)函數(shù)在每一步中對(duì)其進(jìn)行更改。一般來(lái)說(shuō),這種網(wǎng)絡(luò)可以用下面的方程來(lái)描述:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

因此,ht 是時(shí)間步長(zhǎng) t 的「隱藏」信息,f(ht,θt)是當(dāng)前隱藏信息和參數(shù)θ的學(xué)習(xí)函數(shù)。本文提出的核心問(wèn)題是,我們是否可以通過(guò)逐步減小步長(zhǎng) [t,t+1] 來(lái)提升目前這些網(wǎng)絡(luò)的最優(yōu)性能。我們可以想象這是逐步增加 RNN 中的評(píng)估數(shù)量,或者增加殘差網(wǎng)絡(luò)中的殘差層數(shù)量。如果我們這樣做,我們最終會(huì)得到上述方程的微分版本:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

因?yàn)榉匠痰慕馐且粋€(gè)函數(shù)(函數(shù) h(t)),所以這種方程稱為常微分方程(ode)。換句話說(shuō),通過(guò)求解方程,我們得到了所需的隱藏狀態(tài)序列。我們必須在每次評(píng)估過(guò)程中,從初始狀態(tài) h0 開(kāi)始求解方程。這種問(wèn)題也稱為初值問(wèn)題。

用「伴隨法」計(jì)算模式求解器的梯度

數(shù)值求解一個(gè) ODE 通常是通過(guò)積分來(lái)完成的。多年來(lái),人們發(fā)明了很多積分方法,包括簡(jiǎn)單的 Euler 方法和 Runge-Kutta 方法的高階變種。然而,這些方法在計(jì)算上都是相當(dāng)密集的。在訓(xùn)練過(guò)程中尤其如此,它需要對(duì)積分步驟進(jìn)行微分,以便能將網(wǎng)絡(luò)參數(shù)θ的所有梯度相加,這會(huì)導(dǎo)致較高的內(nèi)存成本。

本文提出了一種用 Pontryagin 的「伴隨法」計(jì)算 ODE 梯度的替代方法。該方法通過(guò)求解第二個(gè)時(shí)間向后增加的 ODE,可以與所有的 ODE 積分器一起使用,并且占用較小的內(nèi)存。讓我們考慮最小化 ODE 求解器結(jié)果的損失函數(shù),即:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

在第二步中,使用了 ODE 解的定義,在第三步中,將 ODESolve 作為求解 ODE 的操作符引入。正如我前面提到的,這個(gè)操作符依賴于初始狀態(tài) z(t0)、數(shù) f、初始和結(jié)束時(shí)間 t0、t1 以及搜索的參數(shù) θ?!赴殡S法」現(xiàn)在確定了損耗函數(shù) w.r.t 的梯度,其隱藏狀態(tài)為:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

這個(gè)數(shù)量伴隨著 ODE 的增加。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

計(jì)算梯度 NIPS2018最佳論文解讀:Neural Ordinary Differential Equations(上述方程要求的第一個(gè)梯度)現(xiàn)在可以通過(guò)向后求解增強(qiáng)的 ODE 來(lái)完成。為了完整性,下面的公式說(shuō)明了如何計(jì)算神經(jīng)網(wǎng)絡(luò)函數(shù)參數(shù)的梯度 w.r.t:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

如作者所述,整個(gè)梯度計(jì)算算法過(guò)程如下:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

用于監(jiān)督學(xué)習(xí)的 ODE 網(wǎng)絡(luò)

接下來(lái)是論文中最有趣的部分:相關(guān)的應(yīng)用。作者在論文中提到的第一個(gè)應(yīng)用是在監(jiān)督學(xué)習(xí)領(lǐng)域,即 MNIST 書(shū)寫(xiě)數(shù)字分類。結(jié)果表明,該方法與參數(shù)較少的殘差網(wǎng)絡(luò)性能相當(dāng)。本文中用于評(píng)估的網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行兩次采樣,然后應(yīng)用于 6 個(gè)殘差塊。總之,網(wǎng)絡(luò)包含大約 60 萬(wàn)個(gè)參數(shù)。ODESolve 網(wǎng)絡(luò)使用單個(gè) ODESolve 模塊替換 6 層網(wǎng)絡(luò)。此外,作者還對(duì) RK 網(wǎng)絡(luò)進(jìn)行了測(cè)試,除了使用 Runge-Kutta 方法直接反向傳播誤差外,該網(wǎng)絡(luò)與 RK 網(wǎng)絡(luò)相似。如上所述,您可以將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的層數(shù)與 ODE 網(wǎng)絡(luò)中的評(píng)估數(shù)聯(lián)系起來(lái)。這兩個(gè)網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)為 22 萬(wàn)個(gè),重要的結(jié)果是,使用大約 1/3 的參數(shù),RK 網(wǎng)絡(luò)和 ODE 網(wǎng)絡(luò)的性能與殘差網(wǎng)絡(luò)大致相同。此外,ODE 網(wǎng)絡(luò)的內(nèi)存復(fù)雜性是恒定的(見(jiàn)下圖)。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

此外,可以調(diào)整 ODE 解的精度以最大限度地提高計(jì)算性能。例如,一個(gè)人可以進(jìn)行高精度的訓(xùn)練,并降低評(píng)估準(zhǔn)確性(更多詳細(xì)信息,請(qǐng)參閱原文)。

連續(xù)歸一化流

歸一化流是分布的可逆變換。它們可以通過(guò)一系列非線性變換將簡(jiǎn)單的概率密度轉(zhuǎn)換為復(fù)雜的概率密度,正如在神經(jīng)網(wǎng)絡(luò)中一樣。因此,它們利用分布中的變量轉(zhuǎn)換公式:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

上式中,q0(z0)為初始分布,qk(zk)為轉(zhuǎn)換分布,轉(zhuǎn)換為 fk,k=0...K。上述和中的 Jacobi 行列式保證了整個(gè)轉(zhuǎn)換過(guò)程中分布函數(shù)的積分保持為 1。不幸的是,除了一些簡(jiǎn)單的變換外,計(jì)算這個(gè)行列式代價(jià)太大。

歸一化流的一個(gè)常見(jiàn)應(yīng)用是變分自動(dòng)編碼器(VAE),它通常假定潛在變量是高斯分布的。這一假設(shè)使得 VAE 的輸出結(jié)果變差,因?yàn)樗辉试S網(wǎng)絡(luò)學(xué)習(xí)所需的分布。對(duì)于歸一化流,高斯參數(shù)可以在「解碼」之前轉(zhuǎn)換成各種各樣的分布,從而提高 VAE 的生成能力。這篇博文詳細(xì)解釋了歸一化流:http://akosiorek.github.io/ml/2018/04/03/norm_flows.html

本文討論了歸一化流在連續(xù)域中的擴(kuò)展。有趣的是,這簡(jiǎn)化了歸一化常數(shù)的計(jì)算。如果我們讓隨機(jī)變量在時(shí)間上是連續(xù)的,用函數(shù) f 描述時(shí)間的變化(f 是 Lipschitz 連續(xù)的),則概率的對(duì)數(shù)變化遵循簡(jiǎn)單的微分方程:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

因此,行列式的計(jì)算在這里被簡(jiǎn)單的矩陣運(yùn)算所取代。此外,如果我們使用一個(gè)轉(zhuǎn)換的和,那么我們只需要對(duì)矩陣求和:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

為了證明 CNF 的有效性,本文測(cè)試了概率密度從高斯分布到兩個(gè)目標(biāo)分布的轉(zhuǎn)換,如下圖所示。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

利用 CNF(上兩行)和 NF(下一行)在高斯分布和目標(biāo)分布之間進(jìn)行轉(zhuǎn)換(從 5% 到 100%)。

采用最大似然估計(jì)方法對(duì)神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使目標(biāo)概率分布下的期望值最大化,然后將模型反演為已知分布的樣本。

通過(guò) ODE 生成時(shí)間序列模型

本文提到的第三個(gè)應(yīng)用(可能是最重要的應(yīng)用),是通過(guò) ODE 進(jìn)行時(shí)間序列建模。作者開(kāi)始這項(xiàng)工作的動(dòng)機(jī)之一是他們對(duì)不規(guī)則采樣數(shù)據(jù)的興趣,如醫(yī)療記錄數(shù)據(jù)或網(wǎng)絡(luò)流量數(shù)據(jù)。這種數(shù)據(jù)的離散化常常定義不明確,導(dǎo)致某些時(shí)間間隔內(nèi)數(shù)據(jù)丟失或潛在變量不準(zhǔn)確。有一些方法將時(shí)間信息連接到 RNN 的輸入上,但這些方法并不能從根本上解決問(wèn)題。

基于 ODE 模塊的解決方案是一個(gè)連續(xù)時(shí)間生成模型,在給定初始狀態(tài) z0 和觀測(cè)時(shí)間 t0…tN 的情況下,該模型計(jì)算潛在狀態(tài) z_t1…z_tN 和輸出 x_t1…x_tN

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

神經(jīng)網(wǎng)絡(luò)函數(shù) f 負(fù)責(zé)計(jì)算從當(dāng)前時(shí)間步長(zhǎng)開(kāi)始的任何時(shí)間 t 處的潛伏狀態(tài) z。該模型是一個(gè)變分自動(dòng)編碼器,它使用 RNN 在初始潛伏狀態(tài) z0 下編碼過(guò)去的軌跡(在下圖中為綠色)。與所有變分自動(dòng)編碼器一樣,它通過(guò)分布的參數(shù)(在本例中,滿足均值為μ、標(biāo)準(zhǔn)差為σ的高斯分布)來(lái)捕獲潛在狀態(tài)分布。從這個(gè)分布中,抽取一個(gè)樣本并由 ODESolve 進(jìn)行處理。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

該體系結(jié)構(gòu)在一個(gè)雙向二維螺旋的合成數(shù)據(jù)集上進(jìn)行了測(cè)試,該數(shù)據(jù)集在不規(guī)則的時(shí)間點(diǎn)采樣,并且數(shù)據(jù)中有高斯噪聲。下圖定性地顯示了 Latent Neural ODE 模型的優(yōu)越建模性能:

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

結(jié)論

本文提出了一種非常有趣和新穎的神經(jīng)網(wǎng)絡(luò)思維方法。這可能是一篇開(kāi)啟深度學(xué)習(xí)新進(jìn)化的里程碑式論文。我希望隨著時(shí)間的推移,越來(lái)越多的研究人員開(kāi)始從不同的角度來(lái)思考神經(jīng)網(wǎng)絡(luò),正如本文所做的那樣。

文中的方法是否確實(shí)適用于現(xiàn)有的各種模型、是否會(huì)被時(shí)間證明是有效的,仍有待觀察。作者也提到了他們方法的一些局限性:

  • 小批量可能是這種方法的一個(gè)問(wèn)題,然而作者提到,即使在整個(gè)實(shí)驗(yàn)過(guò)程中使用小批量,評(píng)估的數(shù)量仍然是可以管理的。

  • 只有當(dāng)網(wǎng)絡(luò)具有有限的權(quán)值并使用 Lipschitz 非線性函數(shù)(如 tanh 或 relu,而不是階躍函數(shù))時(shí),才能保證 ODE 解的唯一性。

  • 前向軌跡的可逆性可能會(huì)受到前向模式求解器中的數(shù)值誤差、反向模式求解器中的數(shù)值誤差以及由于多個(gè)初始值映射到同一結(jié)束狀態(tài)而丟失的信息的綜合影響。

作者還提到,他們的方法是不唯一的,殘差網(wǎng)絡(luò)作為近似的 ODE 求解器的想法已經(jīng)過(guò)時(shí)了。此外,還有一些論文試圖通過(guò)神經(jīng)網(wǎng)絡(luò)和高斯過(guò)程來(lái)學(xué)習(xí)不同的方程。

本文提出的方法的一個(gè)重要優(yōu)點(diǎn)是,在評(píng)估或訓(xùn)練過(guò)程中,通過(guò)改變數(shù)值積分的精度,可以自由地調(diào)節(jié)速度和精確度之間的平衡。此外,該方法也非常適用(只要求神經(jīng)網(wǎng)絡(luò)的非線性是 Lipschitz 連續(xù)的),并且可以應(yīng)用于時(shí)間序列建模、監(jiān)督學(xué)習(xí)、密度估計(jì)或其他順序過(guò)程。

來(lái)源:https://towardsdatascience.com/paper-summary-neural-ordinary-differential-equations-37c4e52df128

雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

NIPS2018最佳論文解讀:Neural Ordinary Differential Equations

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)