丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給叢末
發(fā)送

0

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

本文作者: 叢末 2020-02-03 09:45
導語:這是計算機科學和物理、生物等傳統(tǒng)科學的不同點之一。

本科畢業(yè)于清華姚班、博士畢業(yè)于普林斯頓大學,師從 Sanjeev Arora 教授,馬騰宇作為 AI 學界一顆冉冉升起的新星,如今已在國際頂級會議和期刊上發(fā)表了 20 篇高質(zhì)量的論文,曾拿下 2018 ACM 博士論文獎等諸多重量級的學術(shù)榮譽。

日前,在北京智源人工智能研究院主辦的海外學者報告會上,馬騰宇帶來了一場干貨味十足的報告,不僅基于近期聚焦的研究工作“設(shè)計顯式的正則化器”分享了理解深度學習的方法,還基于自己的研究經(jīng)驗分享了不少研究方法論和觀點。

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

他指出,現(xiàn)在用來理解深度學習的常用方法是隱式的正則化方法,然而他們在研究中發(fā)現(xiàn),顯式的正則化方法可能是更好的選擇。

同時,他強調(diào),計算機科學跟物理、生物等傳統(tǒng)科學的不同之處在于:可以不斷地設(shè)計新的算法?!半m然我們無法理解現(xiàn)有的深度學習算法,但我們可以設(shè)計我們既能理解又能保證有效的新算法。”

我們下面來看馬騰宇的報告內(nèi)容:

一、為什么過參數(shù)化的深度學習模型能實現(xiàn)泛化?

深度學習是馬騰宇研究組的重要研究方向,他們的主要研究思路是從方法論層面,通過一些數(shù)學或理論的分析從技術(shù)的角度提高深度學習模型的性能。

他指出,從方法論的層面來看,深度學習當前存在的一個非常核心的挑戰(zhàn)就在于需要很大規(guī)模的數(shù)據(jù)才能實現(xiàn)泛化,并且數(shù)據(jù)量的規(guī)模需要大到非常夸張的地步,以至于他認為學術(shù)界很難完全收集這么多數(shù)據(jù),往往只有工業(yè)界能做到。

因此,如果希望深度學習模型減少對數(shù)據(jù)的依賴,就需要理解如何能用更少的數(shù)據(jù)來實現(xiàn)深度學習模型的泛化。

那為什么現(xiàn)在過參數(shù)化(Overparametrized)的深度學習模型能夠泛化呢?

這是因為現(xiàn)在的深度學習模型與之前的模型相比,一個核心區(qū)別就在于:此前的傳統(tǒng)觀點認為,當數(shù)據(jù)數(shù)量遠超過參數(shù)數(shù)量時,模型才能泛化;而在深度學習時代,觀點則相反,認為成功的模型應(yīng)該有更多的參數(shù)、更少的數(shù)據(jù)量。所以現(xiàn)在深度學習模型要實現(xiàn)泛化,需要的參數(shù)多于數(shù)據(jù)量。

然而在深度學習的時代,模型的泛化都非常難以解釋,原因就是很多傳統(tǒng)的觀點并不再適用了。其中有一些傳統(tǒng)的觀點還是有效的,比如說奧卡姆剃刀定律(Occam's Razor),指的是低復(fù)雜度的模型也可能泛化得很好。

不過這種「低復(fù)雜度」其實是很難定義的,因此更核心的問題是如何正確定義模型復(fù)雜度,以及我們可以通過什么方法能衡量并找到正確定義的復(fù)雜度。這是他們希望通過一些理論研究來解決的問題。

常見的方法是隱式的正則化方法,分析該方法可以聚焦于兩個方面:第一,算法更偏好低復(fù)雜度的方案;第二,低復(fù)雜度的模型泛化得很好。分析好這兩個方面,就可以理解現(xiàn)有的算法,同時探索新的度量復(fù)雜度的方法——因為算法偏好的復(fù)雜度基本就是正確的復(fù)雜度度量方法。

馬騰宇以其團隊開展的一些工作為例闡述了一些發(fā)現(xiàn):

  • 第一,在模型訓練和收斂方面,學習率至關(guān)重要。例如在他們最近的一篇 NeurIPS 論文中證明了,一個使用了大學習率的兩層神經(jīng)網(wǎng)絡(luò),只能表示線性的函數(shù),因而即使使用了很復(fù)雜的模型,在有噪聲的情況下也只能表示一些非常簡單的解,從而使得模型要比想象中更簡單些,這實際上是噪聲在深度學習中起到了正則化的作用。

  • 第二,初始化方法對模型的復(fù)雜度,也有同樣的效果。例如 Chizat Bach 在 2019 年發(fā)表了一篇論文,證明了大的初始化狀態(tài)更容易得到最小的神經(jīng)切線核范數(shù)解。而他們自己的一些工作,則證明了小的初始化更偏向于得到更加「豐富」的狀態(tài),會比核狀態(tài)更有意思,比如說最小的 L1 解或者原子核范數(shù)解。Woodworth 等人有一項工作基本上就說明:一個較小的初始化的模型,會收斂到一個最小的 L1 解而不是 L2 解上。

這些工作的核心思想是,不同的算法有不同的偏好,而不同的偏好則會有不同的復(fù)雜度量,學習率會有偏好,初始化狀態(tài)也有偏好。

二、隱式/算法的正則化是理解深度學習的唯一方法嗎?

如果想要理解深度學習,是不是只有理解隱式/算法的正則化這一種方法呢?

對此,馬騰宇認為應(yīng)該要重新回顧一下經(jīng)典的方法——理解顯式的正則化方法。他表示,顯式的正則化方法確實也值得被大家關(guān)注,而且從短期來講,它可能是一個更有成效的方法。

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

隱式/算法的正則化方法,為了達到要求,需要對算法進行正則化,算法會傾向于得出低復(fù)雜度的解。然而從很多算法正則化相關(guān)的論文中,他們發(fā)現(xiàn)在說明「算法傾向于得出低復(fù)雜度的解」方面遭遇瓶頸,而在說明「低復(fù)雜度的解泛化得更好」方面則比較簡單。

因此,顯式的正則化方法可能是理解深度學習更好的選擇。

在這種經(jīng)典的機器學習范式下,重點關(guān)注的則是研究怎樣的復(fù)雜度可以讓模型實現(xiàn)更好的泛化性能。而對于「算法傾向于得出低復(fù)雜度的解」這一研究瓶頸,則「全看運氣」。

顯式的正則化方法的不足點是需要改變算法,因為正則化復(fù)雜度勢必就會改變算法。然而其優(yōu)勢在于,不僅僅能夠理解現(xiàn)有的算法,還可以設(shè)計一些新的復(fù)雜度度量或正則器,設(shè)計一些新的算法,并將優(yōu)化和統(tǒng)計數(shù)據(jù)分離開來。

他指出,最近機器學習領(lǐng)域的一個很火的話題是「雙重下降」(Double Descent)現(xiàn)象,就是說測試誤差并不是單一下降的,而是雙重下降。而最近他們在一項工作中,嘗試展示的則是在將算法正則化之后,可能就不會再出現(xiàn)雙重下降現(xiàn)象。

2019 年 Nagarajan 等人的一篇 NeurIPS 最佳論文獎?wù)故玖艘恢率諗繜o法說明深度學習中發(fā)生的現(xiàn)象。他們舉出了一個反例來說明這一點,雖然這個反例非常令人信服,但是僅僅是針對現(xiàn)有算法成立的一個反例。即算法加入正則化之后,這些反例很有可能就不再成立了。

那如何檢驗是否做到了將優(yōu)化和統(tǒng)計數(shù)據(jù)分離呢?

方法則是,模型在正則化目標函數(shù)后,不管使用什么算法都能實現(xiàn)同樣的泛化能力,這就能說明優(yōu)化和統(tǒng)計數(shù)據(jù)分離了。

馬騰宇表示,他們現(xiàn)在也證明了能夠使用顯式的正則化方法來替代隱式的正則化方法,雖然還無法完全替代,但他相信正在朝著這個方向前進。

三、無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

在當下 AI 界的普遍認知中,深度學習的內(nèi)在機理無法理解,本質(zhì)上變成了一個科學問題。對此,馬騰宇指出,計算機科學跟物理、生物等傳統(tǒng)科學的不同之處在于:可以不斷地設(shè)計新的算法。

科學研究的內(nèi)容更多的是世界上已經(jīng)發(fā)生或存在的客觀現(xiàn)象(比如黑洞),而在計算機科學中,研究者可以不研究發(fā)什么什么,而是去研究任何想要研究的事情。

他呼吁道:「雖然我們無法理解現(xiàn)有的深度學習算法,但我們可以設(shè)計我們既能理解又能保證有效的新算法。我認為計算機科學領(lǐng)域的研究者可以把研究做得更主動一些。」

報告中,馬騰宇還基于自己近期的研究工作,事無巨細地分享了顯式正則化的具體研究示例,雷鋒網(wǎng) AI 科技評論在這里附上馬博士 PPT 的相關(guān)內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

雷鋒網(wǎng) AI 科技評論報道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

斯坦福大學馬騰宇:無法理解現(xiàn)有的深度學習算法?那就設(shè)計一個能理解的!

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說