丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

本文作者: MrBear 編輯:楊曉凡 2018-04-25 16:51
導(dǎo)語(yǔ):當(dāng)沿用已久的光學(xué)技術(shù)與年輕的深度學(xué)習(xí)相對(duì)比,我們可以從中獲得怎樣的啟示?

雷鋒網(wǎng) AI 科技評(píng)論按:這篇文章來(lái)自資深機(jī)器學(xué)習(xí)專家、NIPS 2017 「時(shí)間檢驗(yàn)獎(jiǎng)」( Test of Time Award ) 獲得者 Ali Rahimi。上一次 Ali 在獲獎(jiǎng)演講中把深度學(xué)習(xí)比作煉金術(shù)引起了深度學(xué)習(xí)界的大規(guī)模的討論,Yann LeCun 也和他掐了起來(lái),但最終大家都認(rèn)可深度學(xué)習(xí)的理論基礎(chǔ)還不夠扎實(shí)。另一方面,深度學(xué)習(xí)熱度不減,不僅各個(gè)知名大學(xué)的相關(guān)碩士博士申請(qǐng)火爆,甚至本科和高中階段都有學(xué)校開(kāi)始考慮設(shè)置機(jī)器學(xué)習(xí)/人工智能課程,其中當(dāng)然也少不了身處潮頭浪尖的深度學(xué)習(xí)。

那么,Ali 就提出了下面這個(gè)問(wèn)題。

你會(huì)認(rèn)為深度學(xué)習(xí)技術(shù)已經(jīng)成熟到了能在中學(xué)中教授這門課程嗎?

Ali 把這個(gè)問(wèn)題引發(fā)的思考寫成了一篇文章。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

你會(huì)認(rèn)為深度學(xué)習(xí)技術(shù)已經(jīng)成熟到了能在中學(xué)中教授這門課程嗎?

我為什么會(huì)這樣問(wèn)呢?不久前,我收到了一位大公司的產(chǎn)品經(jīng)理的電子郵件。由于我本人喜歡將私人郵件公布開(kāi)來(lái),所以,下面我將它貼了出來(lái):

來(lái)自:M.

您好,Ali,

請(qǐng)問(wèn)您是如何教團(tuán)隊(duì)中年輕的成員們測(cè)試他們對(duì)于模型參數(shù)的預(yù)感或者獲得這種直覺(jué)呢?

我們團(tuán)隊(duì)中的工程師們經(jīng)常從其他的科學(xué)家的研究結(jié)果那里直接「 繼承 」超參數(shù),但他們十分畏懼自己調(diào)參。

這封電子郵件讓我陷入了好幾天的沉思中。我久久不能想出一個(gè)有建設(shè)性的答案。

如果實(shí)在要我回答的話,我想說(shuō):他的工程師們確實(shí)應(yīng)該感到害怕!

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

假如,你是一名工程師,面對(duì)上面這個(gè)網(wǎng)絡(luò),你需要讓它在特定的數(shù)據(jù)集上更好地工作。你可以認(rèn)為這些網(wǎng)絡(luò)層的存在都是有其原因的。但作為一個(gè)科學(xué)領(lǐng)域,我們至今還沒(méi)有一個(gè)通用的方式去表述這些原因。我們教授深度學(xué)習(xí)的方式與我們教授其他學(xué)科的方式差別很大。

光學(xué)工程師們是如何開(kāi)展工作的

幾年前,我接觸到了光學(xué)領(lǐng)域。在光學(xué)領(lǐng)域中,你也會(huì)構(gòu)建一層層組件來(lái)處理輸入。下面是一個(gè)相機(jī)的鏡頭:

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

為了設(shè)計(jì)這樣的東西,你將首先使用基本的光學(xué)結(jié)構(gòu),它們通常是以發(fā)明它的名人的名字命名的。你會(huì)進(jìn)行仿真實(shí)驗(yàn),發(fā)現(xiàn)它哪些地方不符合你的要求,然后插入額外的鏡片來(lái)糾正缺點(diǎn)。

接著,你要通過(guò)一個(gè)數(shù)值化的優(yōu)化器來(lái)處理整個(gè)系統(tǒng),對(duì)諸如曲面的形狀、位置、傾斜度等參數(shù)進(jìn)行調(diào)整,使得一些設(shè)計(jì)目標(biāo)最大化。然后,你會(huì)再進(jìn)行仿真,修改設(shè)計(jì),優(yōu)化系統(tǒng),并且一次次重復(fù)這個(gè)過(guò)程,直到系統(tǒng)滿足需求。

這個(gè)過(guò)程和深度神經(jīng)網(wǎng)絡(luò)何其相似!

這一串結(jié)構(gòu)中的 36 個(gè)鏡片都是有著特定的意義才被插入其中的,它們分別負(fù)責(zé)糾正某些特定的異常情況。這就要求我們有一個(gè)非常清晰的心理模型,弄清每個(gè)鏡片對(duì)透過(guò)它的光線有什么作用。這種心理模型通常是以某個(gè)功能為依據(jù)得來(lái)的,比如折射、反射、衍射、色散,或者波前校正。

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

人們并不畏懼這個(gè)設(shè)計(jì)過(guò)程。每年,美國(guó)都有數(shù)以百計(jì)的光學(xué)工程師畢業(yè),從事設(shè)計(jì)鏡頭的工作。他們并不害怕自己的工作。

這不是因?yàn)楣鈱W(xué)是十分簡(jiǎn)單的。這是因?yàn)樗麄兒芎玫慕M織了光學(xué)的心理模型。

現(xiàn)代光學(xué)的教學(xué)被抽象成了不同的層次。

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

在最上面,是最簡(jiǎn)單的一層——射線光學(xué)。射線光學(xué)是波光學(xué)的一種簡(jiǎn)化,在波光學(xué)中,光線代表波前的法向量。波光學(xué)是麥克斯韋方程組的近似解。麥克斯韋方程組可以從量子物理中推導(dǎo)出來(lái),而這我就不是十分了解了。

每一層都通過(guò)簡(jiǎn)化假設(shè)的方式從下面的層脫胎而來(lái)。因此,每一層都可以解釋比上面的一層更加復(fù)雜的現(xiàn)象。

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

我把大部分的時(shí)間花在了設(shè)計(jì)最上面的四個(gè)抽象層上。

這就是我們今天教授光學(xué)的方法。但是這些理論并不總是像上面的網(wǎng)絡(luò)結(jié)構(gòu)這樣組織起來(lái)的。直到一百年前,這其中的一些理論還以一種相互矛盾的狀態(tài)共存。從業(yè)者所能依賴的僅僅是一些缺乏權(quán)威的、非正式的關(guān)于光學(xué)理論。

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

在牛頓形式化定義射線光學(xué)的近一百年之前,上面提到的這種狀況并沒(méi)有阻止伽利略制造出一個(gè)非常棒的望遠(yuǎn)鏡。在伽利略的腦海里,他有一個(gè)足夠優(yōu)秀的關(guān)于光線的心理模型,這使得他能夠制造出一個(gè)能將物體放大十倍的望遠(yuǎn)鏡。但是他對(duì)于光學(xué)的認(rèn)識(shí)也存在一些不足,以致于他不能夠校正色差,或者獲得更寬廣的視場(chǎng)。

在這些光線的理論被統(tǒng)一成抽象層的堆疊之前,每一種學(xué)說(shuō)都需要從對(duì)光線的基本概念開(kāi)始。這樣會(huì)編造出一套新的不切實(shí)際的假設(shè)。牛頓的射線光學(xué)將光線建模成能夠被固體物質(zhì)吸引或者排斥的霧狀粒子?;莞箤⒐饩€建模成一種通過(guò)神秘的媒介「以太」傳播的縱向壓力波。他像聲音一樣對(duì)光線建模。麥克斯韋也假設(shè)光線通過(guò)「以太」傳播。你還可以在麥克斯韋方程組的系數(shù)中看到這種假設(shè)的痕跡。

是的這是一個(gè)愚蠢的模型!但是它能夠被量化,有預(yù)測(cè)的能力。

盡管這些假說(shuō)現(xiàn)在聽(tīng)起來(lái)可能很愚蠢,但是,這些模型是可以量化的,并且他們有預(yù)測(cè)的能力。你可以將數(shù)據(jù)填入這些系統(tǒng)中并且得到數(shù)值化的預(yù)測(cè)作為輸出。這對(duì)于工程師來(lái)說(shuō)是十分有用的!

那么對(duì)于深度學(xué)習(xí)……

在深度學(xué)習(xí)中我們要探索什么呢,就是要找到一種用于描述深度學(xué)習(xí)中每一層的功能的模塊化語(yǔ)言。

如果我們能夠像在光學(xué)中描述光線如何穿過(guò)一個(gè)光學(xué)器件那樣描述深度神經(jīng)網(wǎng)絡(luò)中的每一層具有怎樣的功能,我們?cè)O(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)的工作會(huì)更加簡(jiǎn)單。

我認(rèn)為卷積層的功能是運(yùn)行與他們的輸入相匹配的過(guò)濾器,池化層則是緊隨其后的非線性單元。這是一個(gè)較為「 底層 」的描述,類似于從麥克斯韋方程組的角度來(lái)描述鏡頭的功能。

也許存在我們能夠依賴的更「 高層 」的抽象概念,我們可以根據(jù)數(shù)據(jù)的數(shù)值經(jīng)過(guò)網(wǎng)絡(luò)層之后被修改的量化情況來(lái)描述網(wǎng)絡(luò)層的功能,這類似于根據(jù)鏡頭如何使光線彎曲來(lái)描述它的功能。

并且,如果這個(gè)抽象概念是可以被量化的那就更高了。這樣一來(lái),你可以將數(shù)字輸入到一個(gè)公式中,進(jìn)行粗略的分析,這會(huì)幫助你設(shè)計(jì)你的網(wǎng)絡(luò)結(jié)構(gòu)。

我們距離這樣的語(yǔ)言還很遙遠(yuǎn)。那么,讓我們從更簡(jiǎn)單的情況入手。

但是,也許我被幻想帶跑偏了!

讓我們從更簡(jiǎn)單的情況入手吧。我們有很多對(duì)于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練如何工作的心理模型。我已經(jīng)收集好了一些值得解釋的現(xiàn)象的案例。讓我們看看這些心里模型是如何很好的解釋這些現(xiàn)象的。

在我更深入的分析之前,我承認(rèn)這個(gè)小研究是十分粗糙的。光學(xué)用了長(zhǎng)達(dá) 300 多年去做到這一點(diǎn),而我只花了一個(gè)星期六的下午去做這個(gè)研究。相應(yīng)地,我只將我的發(fā)現(xiàn)發(fā)表在了我的博客中。

  • 現(xiàn)象:隨機(jī)梯度下降(SGD)算法的隨機(jī)初始化足夠好,但是之后小的數(shù)值錯(cuò)誤或者不恰當(dāng)?shù)牟介L(zhǎng)會(huì)破壞隨即梯度下降過(guò)程。

一些從業(yè)者已經(jīng)注意到,梯度積聚的方式的微小變化會(huì)導(dǎo)致在測(cè)試集上巨大的性能差異。比如,當(dāng)你使用 GPU 而不是 CPU 進(jìn)行訓(xùn)練時(shí)(https://github.com/tensorflow/tensorflow/issues/2226,https://github.com/tensorflow/tensorflow/issues/2732),就會(huì)出現(xiàn)這種情況。

你認(rèn)為這是一個(gè)值得解釋的合理的觀測(cè)結(jié)果嗎?或者你認(rèn)為這可能是偽造的、不真實(shí)的觀測(cè)結(jié)果呢?或者也許你認(rèn)為這個(gè)觀測(cè)結(jié)果中有些錯(cuò)誤,就像它在一定程度上邏輯上自相矛盾?或者它的表述是不恰當(dāng)?shù)摹?/p>

我敢肯定你此時(shí)肯定百感交集。但是暫且讓我們把它作為一個(gè)現(xiàn)象記錄下來(lái),繼續(xù)進(jìn)行我們的研究。

  • 現(xiàn)象:淺層模型的局部最小值比尖銳的最小值的泛化能力更好

這個(gè)說(shuō)法現(xiàn)在非常流行。一些人堅(jiān)持它是正確的(https://arxiv.org/abs/1609.04836,https://arxiv.org/abs/1611.01838https://arxiv.org/abs/1704.04289,https://arxiv.org/abs/1710.06451),包括我在內(nèi)的其他人認(rèn)為這個(gè)說(shuō)法從邏輯上看就不正確,那些認(rèn)為它正確的人反駁道:從經(jīng)驗(yàn)上來(lái)說(shuō),這個(gè)說(shuō)法的確是正確的(https://arxiv.org/abs/1703.04933)!如今,有的研究者已經(jīng)對(duì)這個(gè)說(shuō)法加以提煉,得出了變體的版本(https://arxiv.org/abs/1706.08947)。這個(gè)說(shuō)法至今令人困惑(https://twitter.com/beenwrekt/status/941005520420225025)。

我需要指出,這個(gè)現(xiàn)象可能是充滿爭(zhēng)議的,但是盡管如此還是把它記錄下來(lái)吧。

  • 現(xiàn)象:嵌入批量正則化(BN)層會(huì)加速隨機(jī)梯度下降

「 批量正則化是有效的 」這說(shuō)法是幾乎毫無(wú)爭(zhēng)議的。我在此僅僅舉出一個(gè)反例(http://nyus.joshuawise.com/batchnorm.pdf),并且將這個(gè)現(xiàn)象記錄下來(lái),不予置評(píng)。

  • 現(xiàn)象:盡管存在很多局部最優(yōu)點(diǎn)和鞍點(diǎn),但隨機(jī)梯度下降算法總能成功解決優(yōu)化問(wèn)題

對(duì)于這個(gè)問(wèn)題,人們有各種各樣的說(shuō)法。一個(gè)經(jīng)常被提到的說(shuō)法是,在深度學(xué)習(xí)訓(xùn)練的損失函數(shù)的面上普遍存在鞍點(diǎn)和局部最小值(https://arxiv.org/abs/1712.04741)。此外,人們要么認(rèn)為梯度下降可以克服這個(gè)問(wèn)題(https://arxiv.org/abs/1412.6544),要么認(rèn)為沒(méi)有必要克服這個(gè)問(wèn)題就可以得出一個(gè)能夠被很好的泛化的解(https://arxiv.org/abs/1712.04741)。也有人認(rèn)為深度學(xué)習(xí)模型的損失表面總體上來(lái)說(shuō)是很好處理的(http://openaccess.thecvf.com/content_cvpr_2017/html/Haeffele_Global_Optimality_in_CVPR_2017_paper.html)。

在這里,我勉強(qiáng)將這個(gè)現(xiàn)象記錄下來(lái)。

  • 現(xiàn)象:Dropout 比其他的「 隨機(jī)化策略 」更加有效

我不知道如何將類似于 Dropout 的算法歸類,所以我在這里將他們稱為「 隨機(jī)化策略 」。

很抱歉,在這里我僅僅將它記錄下來(lái),不加以評(píng)論。

  • 現(xiàn)象:深度神經(jīng)網(wǎng)絡(luò)能夠記住隨機(jī)的標(biāo)簽,并且能夠?qū)⑵浞夯?/strong>

這里的證據(jù)是很清楚的(https://arxiv.org/abs/1611.03530),我親愛(ài)的朋友們發(fā)現(xiàn)了它們并支持這個(gè)觀點(diǎn)。

盡管富有爭(zhēng)議,我在這里還是將它記錄下來(lái)。

說(shuō)明

我們已經(jīng)發(fā)現(xiàn)了一些現(xiàn)象。從我上面引用的論文中,我也已經(jīng)得到了我認(rèn)為能夠能夠在最佳的程度上解釋這些現(xiàn)象的學(xué)術(shù)理論。

讓我們一起來(lái)看看我們的研究進(jìn)展:

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

但我們?nèi)匀粍e高興的太早,我們還面臨著以下的問(wèn)題:

首先,我并不認(rèn)同我們我們?cè)谝婚_(kāi)始想要解釋的一些觀測(cè)結(jié)果是合理的

第二,我不能將這些解釋組織成一個(gè)層次化的抽象,不能像光學(xué)的層次化抽象那樣明顯的表述出來(lái)。

第三,我懷疑我從論文中引用的一些理論并不是正確的。

我的觀點(diǎn)

大量的新人涌入到了我們這個(gè)行業(yè)中,而我們通常差不多都是用一些不規(guī)范的方式培訓(xùn)他們,教給他們一些預(yù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò),隨后就要求他們能自己創(chuàng)新。對(duì)于那些需要解釋的現(xiàn)象,我們自己都不能達(dá)成一致。想要在高中就能教這些東西,我們還離得太遠(yuǎn)了。

那么我們?cè)撛趺醋瞿兀?br/>

如果我們能夠提供由不同層次的抽象層組成的心理模型,用于描述深度學(xué)習(xí)網(wǎng)絡(luò)中每一層的功能,那就太好了。在深度學(xué)習(xí)領(lǐng)域,我們與「 折射率 」、「 色散 」、「 衍射 」相對(duì)應(yīng)的概念是什么呢?也許你已經(jīng)思考過(guò)這些問(wèn)題,但是我們沒(méi)有把我們關(guān)于這些概念的語(yǔ)言標(biāo)準(zhǔn)化。

讓我們將我們都同意的一組現(xiàn)象歸攏。接著,我們可以試著去將它們解釋清楚。什么是我們等價(jià)于牛頓環(huán)、克爾效應(yīng)、法拉第效應(yīng)的東西呢?

我和一小群同事開(kāi)始進(jìn)行了一項(xiàng)實(shí)證研究,試圖將我們領(lǐng)域內(nèi)的心理模型進(jìn)行分類,使之形式化,然后用實(shí)驗(yàn)驗(yàn)證他們。這是一項(xiàng)很大的工程。我認(rèn)為這是建立一個(gè)層次化的深度學(xué)習(xí)心理模型、得以在高中開(kāi)設(shè)深度學(xué)習(xí)課程的第一步。

via argmin,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

我們還缺多少基礎(chǔ)理論,才能在高中開(kāi)設(shè)深度學(xué)習(xí)課程?

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄