丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給叢末
發(fā)送

0

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

本文作者: 叢末 2020-02-03 09:45
導(dǎo)語(yǔ):這是計(jì)算機(jī)科學(xué)和物理、生物等傳統(tǒng)科學(xué)的不同點(diǎn)之一。

本科畢業(yè)于清華姚班、博士畢業(yè)于普林斯頓大學(xué),師從 Sanjeev Arora 教授,馬騰宇作為 AI 學(xué)界一顆冉冉升起的新星,如今已在國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表了 20 篇高質(zhì)量的論文,曾拿下 2018 ACM 博士論文獎(jiǎng)等諸多重量級(jí)的學(xué)術(shù)榮譽(yù)。

日前,在北京智源人工智能研究院主辦的海外學(xué)者報(bào)告會(huì)上,馬騰宇帶來(lái)了一場(chǎng)干貨味十足的報(bào)告,不僅基于近期聚焦的研究工作“設(shè)計(jì)顯式的正則化器”分享了理解深度學(xué)習(xí)的方法,還基于自己的研究經(jīng)驗(yàn)分享了不少研究方法論和觀點(diǎn)。

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

他指出,現(xiàn)在用來(lái)理解深度學(xué)習(xí)的常用方法是隱式的正則化方法,然而他們?cè)谘芯恐邪l(fā)現(xiàn),顯式的正則化方法可能是更好的選擇。

同時(shí),他強(qiáng)調(diào),計(jì)算機(jī)科學(xué)跟物理、生物等傳統(tǒng)科學(xué)的不同之處在于:可以不斷地設(shè)計(jì)新的算法。“雖然我們無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法,但我們可以設(shè)計(jì)我們既能理解又能保證有效的新算法。”

我們下面來(lái)看馬騰宇的報(bào)告內(nèi)容:

一、為什么過(guò)參數(shù)化的深度學(xué)習(xí)模型能實(shí)現(xiàn)泛化?

深度學(xué)習(xí)是馬騰宇研究組的重要研究方向,他們的主要研究思路是從方法論層面,通過(guò)一些數(shù)學(xué)或理論的分析從技術(shù)的角度提高深度學(xué)習(xí)模型的性能。

他指出,從方法論的層面來(lái)看,深度學(xué)習(xí)當(dāng)前存在的一個(gè)非常核心的挑戰(zhàn)就在于需要很大規(guī)模的數(shù)據(jù)才能實(shí)現(xiàn)泛化,并且數(shù)據(jù)量的規(guī)模需要大到非??鋸埖牡夭?,以至于他認(rèn)為學(xué)術(shù)界很難完全收集這么多數(shù)據(jù),往往只有工業(yè)界能做到。

因此,如果希望深度學(xué)習(xí)模型減少對(duì)數(shù)據(jù)的依賴,就需要理解如何能用更少的數(shù)據(jù)來(lái)實(shí)現(xiàn)深度學(xué)習(xí)模型的泛化。

那為什么現(xiàn)在過(guò)參數(shù)化(Overparametrized)的深度學(xué)習(xí)模型能夠泛化呢?

這是因?yàn)楝F(xiàn)在的深度學(xué)習(xí)模型與之前的模型相比,一個(gè)核心區(qū)別就在于:此前的傳統(tǒng)觀點(diǎn)認(rèn)為,當(dāng)數(shù)據(jù)數(shù)量遠(yuǎn)超過(guò)參數(shù)數(shù)量時(shí),模型才能泛化;而在深度學(xué)習(xí)時(shí)代,觀點(diǎn)則相反,認(rèn)為成功的模型應(yīng)該有更多的參數(shù)、更少的數(shù)據(jù)量。所以現(xiàn)在深度學(xué)習(xí)模型要實(shí)現(xiàn)泛化,需要的參數(shù)多于數(shù)據(jù)量。

然而在深度學(xué)習(xí)的時(shí)代,模型的泛化都非常難以解釋,原因就是很多傳統(tǒng)的觀點(diǎn)并不再適用了。其中有一些傳統(tǒng)的觀點(diǎn)還是有效的,比如說(shuō)奧卡姆剃刀定律(Occam's Razor),指的是低復(fù)雜度的模型也可能泛化得很好。

不過(guò)這種「低復(fù)雜度」其實(shí)是很難定義的,因此更核心的問(wèn)題是如何正確定義模型復(fù)雜度,以及我們可以通過(guò)什么方法能衡量并找到正確定義的復(fù)雜度。這是他們希望通過(guò)一些理論研究來(lái)解決的問(wèn)題。

常見(jiàn)的方法是隱式的正則化方法,分析該方法可以聚焦于兩個(gè)方面:第一,算法更偏好低復(fù)雜度的方案;第二,低復(fù)雜度的模型泛化得很好。分析好這兩個(gè)方面,就可以理解現(xiàn)有的算法,同時(shí)探索新的度量復(fù)雜度的方法——因?yàn)樗惴ㄆ玫膹?fù)雜度基本就是正確的復(fù)雜度度量方法。

馬騰宇以其團(tuán)隊(duì)開展的一些工作為例闡述了一些發(fā)現(xiàn):

  • 第一,在模型訓(xùn)練和收斂方面,學(xué)習(xí)率至關(guān)重要。例如在他們最近的一篇 NeurIPS 論文中證明了,一個(gè)使用了大學(xué)習(xí)率的兩層神經(jīng)網(wǎng)絡(luò),只能表示線性的函數(shù),因而即使使用了很復(fù)雜的模型,在有噪聲的情況下也只能表示一些非常簡(jiǎn)單的解,從而使得模型要比想象中更簡(jiǎn)單些,這實(shí)際上是噪聲在深度學(xué)習(xí)中起到了正則化的作用。

  • 第二,初始化方法對(duì)模型的復(fù)雜度,也有同樣的效果。例如 Chizat Bach 在 2019 年發(fā)表了一篇論文,證明了大的初始化狀態(tài)更容易得到最小的神經(jīng)切線核范數(shù)解。而他們自己的一些工作,則證明了小的初始化更偏向于得到更加「豐富」的狀態(tài),會(huì)比核狀態(tài)更有意思,比如說(shuō)最小的 L1 解或者原子核范數(shù)解。Woodworth 等人有一項(xiàng)工作基本上就說(shuō)明:一個(gè)較小的初始化的模型,會(huì)收斂到一個(gè)最小的 L1 解而不是 L2 解上。

這些工作的核心思想是,不同的算法有不同的偏好,而不同的偏好則會(huì)有不同的復(fù)雜度量,學(xué)習(xí)率會(huì)有偏好,初始化狀態(tài)也有偏好。

二、隱式/算法的正則化是理解深度學(xué)習(xí)的唯一方法嗎?

如果想要理解深度學(xué)習(xí),是不是只有理解隱式/算法的正則化這一種方法呢?

對(duì)此,馬騰宇認(rèn)為應(yīng)該要重新回顧一下經(jīng)典的方法——理解顯式的正則化方法。他表示,顯式的正則化方法確實(shí)也值得被大家關(guān)注,而且從短期來(lái)講,它可能是一個(gè)更有成效的方法。

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

隱式/算法的正則化方法,為了達(dá)到要求,需要對(duì)算法進(jìn)行正則化,算法會(huì)傾向于得出低復(fù)雜度的解。然而從很多算法正則化相關(guān)的論文中,他們發(fā)現(xiàn)在說(shuō)明「算法傾向于得出低復(fù)雜度的解」方面遭遇瓶頸,而在說(shuō)明「低復(fù)雜度的解泛化得更好」方面則比較簡(jiǎn)單。

因此,顯式的正則化方法可能是理解深度學(xué)習(xí)更好的選擇。

在這種經(jīng)典的機(jī)器學(xué)習(xí)范式下,重點(diǎn)關(guān)注的則是研究怎樣的復(fù)雜度可以讓模型實(shí)現(xiàn)更好的泛化性能。而對(duì)于「算法傾向于得出低復(fù)雜度的解」這一研究瓶頸,則「全看運(yùn)氣」。

顯式的正則化方法的不足點(diǎn)是需要改變算法,因?yàn)檎齽t化復(fù)雜度勢(shì)必就會(huì)改變算法。然而其優(yōu)勢(shì)在于,不僅僅能夠理解現(xiàn)有的算法,還可以設(shè)計(jì)一些新的復(fù)雜度度量或正則器,設(shè)計(jì)一些新的算法,并將優(yōu)化和統(tǒng)計(jì)數(shù)據(jù)分離開來(lái)。

他指出,最近機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)很火的話題是「雙重下降」(Double Descent)現(xiàn)象,就是說(shuō)測(cè)試誤差并不是單一下降的,而是雙重下降。而最近他們?cè)谝豁?xiàng)工作中,嘗試展示的則是在將算法正則化之后,可能就不會(huì)再出現(xiàn)雙重下降現(xiàn)象。

2019 年 Nagarajan 等人的一篇 NeurIPS 最佳論文獎(jiǎng)?wù)故玖艘恢率諗繜o(wú)法說(shuō)明深度學(xué)習(xí)中發(fā)生的現(xiàn)象。他們舉出了一個(gè)反例來(lái)說(shuō)明這一點(diǎn),雖然這個(gè)反例非常令人信服,但是僅僅是針對(duì)現(xiàn)有算法成立的一個(gè)反例。即算法加入正則化之后,這些反例很有可能就不再成立了。

那如何檢驗(yàn)是否做到了將優(yōu)化和統(tǒng)計(jì)數(shù)據(jù)分離呢?

方法則是,模型在正則化目標(biāo)函數(shù)后,不管使用什么算法都能實(shí)現(xiàn)同樣的泛化能力,這就能說(shuō)明優(yōu)化和統(tǒng)計(jì)數(shù)據(jù)分離了。

馬騰宇表示,他們現(xiàn)在也證明了能夠使用顯式的正則化方法來(lái)替代隱式的正則化方法,雖然還無(wú)法完全替代,但他相信正在朝著這個(gè)方向前進(jìn)。

三、無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

在當(dāng)下 AI 界的普遍認(rèn)知中,深度學(xué)習(xí)的內(nèi)在機(jī)理無(wú)法理解,本質(zhì)上變成了一個(gè)科學(xué)問(wèn)題。對(duì)此,馬騰宇指出,計(jì)算機(jī)科學(xué)跟物理、生物等傳統(tǒng)科學(xué)的不同之處在于:可以不斷地設(shè)計(jì)新的算法。

科學(xué)研究的內(nèi)容更多的是世界上已經(jīng)發(fā)生或存在的客觀現(xiàn)象(比如黑洞),而在計(jì)算機(jī)科學(xué)中,研究者可以不研究發(fā)什么什么,而是去研究任何想要研究的事情。

他呼吁道:「雖然我們無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法,但我們可以設(shè)計(jì)我們既能理解又能保證有效的新算法。我認(rèn)為計(jì)算機(jī)科學(xué)領(lǐng)域的研究者可以把研究做得更主動(dòng)一些?!?/p>

報(bào)告中,馬騰宇還基于自己近期的研究工作,事無(wú)巨細(xì)地分享了顯式正則化的具體研究示例,雷鋒網(wǎng) AI 科技評(píng)論在這里附上馬博士 PPT 的相關(guān)內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

斯坦福大學(xué)馬騰宇:無(wú)法理解現(xiàn)有的深度學(xué)習(xí)算法?那就設(shè)計(jì)一個(gè)能理解的!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)