丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

本文作者: AI研習(xí)社-譯站 2021-01-12 14:22
導(dǎo)語:為了探索神經(jīng)網(wǎng)絡(luò)的規(guī)模有多大的極限,我們可能首先需要探索神經(jīng)網(wǎng)絡(luò)的規(guī)模到底有多小的極限。

譯者:AI研習(xí)社(聽風(fēng)1996

雙語原文鏈接:Scaling down Deep Learning


不管是按什么樣的科學(xué)標準,人類基因組項目都是巨大的:它涉及數(shù)十億美元的資金,數(shù)十家機構(gòu)以及超過十多年的快速研究進展。但這僅僅是冰山一角。早在項目開始之前,科學(xué)家們就在全力整理人類遺傳學(xué)這門復(fù)雜的科學(xué)。而大多數(shù)時候,他們研究的不是人類。遺傳學(xué)的基礎(chǔ)性發(fā)現(xiàn)都集中在如豌豆、霉菌、果蠅和小鼠等非常簡單的生物體上,時至今日,生物學(xué)家為了節(jié)省時間、精力和金錢,將這些更簡單的生物體作為遺傳學(xué)的 "最小工作范例"。一個精心設(shè)計的果蠅實驗,如Feany和Bender(2000),可以讓我們學(xué)到關(guān)于人類的令人嘆為觀止的東西。

與果蠅相似的是深度學(xué)習(xí)中所使用的是MNIST數(shù)據(jù)集。大量的深度學(xué)習(xí)創(chuàng)新工作,包括dropAdam,卷積網(wǎng)絡(luò)生成式對抗網(wǎng)絡(luò)變分自編碼器,都從MNIST實驗開始。一旦這些創(chuàng)新在小型實驗中證明了自己的能力,科學(xué)家們就找到了將它們擴展到更大、更有影響力的應(yīng)用。

果蠅和MNIST的關(guān)鍵優(yōu)勢在于它們可以極大地加快探索性研究的迭代周期。以果蠅為例,果蠅的生命周期只有幾天,其營養(yǎng)需求可以忽略不計。這比哺乳動物,尤其是人類更容易與之合作。對于MNIST而言,訓(xùn)練一個強大的分類器只需要幾十行代碼,不到一分鐘的時間,耗電量可忽略不計。這與最先進的視覺,文本和游戲模型形成鮮明對比,后者可能需要花費數(shù)月甚至數(shù)十萬美元的電力資料來訓(xùn)練模型。  

然而,盡管MNIST具有歷史意義,但它有三個顯著的缺點。首先,它在區(qū)分線性、非線性和平移不變性的模型方面做得很差。例如,logistic、MLP和CNN基準在它身上獲得94、99+和99+%的準確率。這就很難衡量CNN的空間先驗的貢獻,也很難判斷不同正則化方案的相對有效性。其次,對于一個玩具(譯者注:極?。?shù)據(jù)集來說,它有些大。每個輸入例子都是一個784維的向量,因此當(dāng)執(zhí)行超參搜索或調(diào)試元學(xué)習(xí)循環(huán)需要不小的計算量。第三,MNIST很難被改寫。理想的小型數(shù)據(jù)集應(yīng)該是程序化生成的,這樣研究人員就可以輕易地改變背景噪聲、平移性和分辨率等參數(shù)。

為了解決這些缺點,我們提出了MNIST-1D數(shù)據(jù)集。它是MNIST的一個極簡化、低內(nèi)存和低計算量的替代方案,專為探索性深度學(xué)習(xí)研究而設(shè)計,其中能夠快速迭代是我們優(yōu)先考慮的要求。訓(xùn)練實例小了20倍,但它們?nèi)阅芨玫卦u估1)線性和非線性分類器之間的差異,以及2)是否具有空間歸納偏差(例如平移不變性)的模型。雖然數(shù)據(jù)集是程序自動化生成的,但仍可以類比到現(xiàn)實世界中的數(shù)字分類。   

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

構(gòu)建MNIST-1D數(shù)據(jù)集。與MNIST一樣,分類器的目標是確定輸入中存在哪個數(shù)字。與MNIST不同的是,每個例子都是一個一維的點序列。為了生成一個示例,我們從一個數(shù)字模板開始,然后隨機對其進行填充、平移和轉(zhuǎn)換。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

在MNIST-1D數(shù)據(jù)集上可視化常見模型的性能。該數(shù)據(jù)集根據(jù)它們是否使用非線性特征(邏輯回歸vs. MLP)或是否存在空間歸納偏差(MLP vs. CNN)將它們清晰地分開。人類做得最好。最好可以放大來觀察上圖結(jié)果。

使用案例

在本節(jié)中,我們將探討MNIST-1D如何用于研究核心 "深度學(xué)習(xí)科學(xué) "現(xiàn)象的幾個例子。

尋找彩票。深度學(xué)習(xí)模型的參數(shù)比真正所需參數(shù)的多十倍甚至百倍是很正常的。這種過度參數(shù)化有助于訓(xùn)練,但會增加計算開銷。一種解決方案是在訓(xùn)練過程中逐步修剪模型中的權(quán)重,使最終的網(wǎng)絡(luò)只是其原始大小的一小部分。雖然這種方法可行,但傳統(tǒng)觀點認為,稀疏網(wǎng)絡(luò)從頭開始訓(xùn)練效果不好。Frankle & Carbin(2019)最近的工作挑戰(zhàn)了這種傳統(tǒng)觀點。作者報告稱,在更大的網(wǎng)絡(luò)發(fā)現(xiàn)了稀疏的子網(wǎng)絡(luò),這些網(wǎng)絡(luò)的訓(xùn)練精度相當(dāng)甚至更高。這些 "彩票 "子網(wǎng)絡(luò)可以通過一個簡單的迭代程序得到:訓(xùn)練一個網(wǎng)絡(luò),修剪最小的權(quán)重, 然后將其余的權(quán)重倒回其原始初始化并重新訓(xùn)練。      

自從原始論文發(fā)表以來,大量的工作都試圖解釋這一現(xiàn)象,然后將其用于在更大的數(shù)據(jù)集和模型上。然而,很少有工作試圖找出這種影響的“最小工作實例”,以便對其進行更仔細的研究。下圖顯示了MNIST-1D數(shù)據(jù)集不僅會使之成為可能,而且使我們能夠通過精心控制的實驗,闡明彩票成功的一些原因。與許多后續(xù)實驗不同的是,這個實驗只花了研究人員兩天的時間就制作完成了。有興趣的讀者也可以在瀏覽器中僅需幾分鐘內(nèi)便可復(fù)現(xiàn)這些結(jié)果。  


探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步  探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

查詢和分析 lottery tickets。在a-b)中,我們隔離了該效應(yīng)下的一個 "最小可行示例 "。 Morcos et al (2019) 最近的工作表明, lottery tickets可以在數(shù)據(jù)集之間轉(zhuǎn)移。我們想確認空間歸納偏差是否在其中起到了作用。因此,我們進行了一系列實驗:在c)中,我們繪制了92%稀疏 lottery tickets的漸近性能。在d)中,我們將數(shù)據(jù)集中所有的1D信號反轉(zhuǎn),有效地保留了空間結(jié)構(gòu),但改變了各個數(shù)據(jù)點的位置。這類似于將圖像倒轉(zhuǎn)過來。在這種消融作用下, lottery tickets繼續(xù)保持不敗。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步接下來,在e)中,我們對1D信號的索引進行了置換,從而有效地從數(shù)據(jù)集中去除空間結(jié)構(gòu)。這種消融對 lottery tickets性能的損傷明顯更大,說明 lottery tickets中的部分性能可以歸結(jié)為空間歸納偏差。最后,在f)中,我們保持lottery tickets的稀疏性結(jié)構(gòu),但用不同的隨機種子初始化其權(quán)重。與Frankle & Carbin(2019)中報告的結(jié)果相反,我們看到我們的 lottery tickets繼續(xù)優(yōu)于眾多基線模型,與我們的假設(shè)一致,即 lottery tickets背后具有空間歸納偏差。在g)中,我們通過測量模型第一層中未掩膜的權(quán)重彼此相鄰的頻率來驗證我們的假設(shè)。lottery tickets的相鄰權(quán)重比隨機預(yù)測的要多很多,這意味著局部連接結(jié)構(gòu)更容易引起空間偏差。

您還可以可視化通過隨機和 lottery tickets修剪選擇的實際掩膜:VISUALIZE MASKS

觀察深度雙重下降。神經(jīng)網(wǎng)絡(luò)的另一個有趣的屬性是 "雙重下降 "現(xiàn)象。這句話指的是一種訓(xùn)練機制,其中更多的數(shù)據(jù)、模型參數(shù)量或梯度更新步驟實際上會降低模型的測試精度1 2 3 4。從直覺上看,在監(jiān)督學(xué)習(xí)的過程中,有一個閾值插值,在這個閾值下,由模型和優(yōu)化算法組成的學(xué)習(xí)過程剛好可以勉強適合整個訓(xùn)練集。在這個閾值上,實際上只有一個模型能夠擬合數(shù)據(jù),而這個模型對標簽的噪聲和模型化非常敏感。

這種效應(yīng)存在幾個性質(zhì),比如什么因素會影響它的寬度和位置,在深度模型的背景下沒有得到很好的理解。我們認為MNIST-1D數(shù)據(jù)集是探索這些屬性的好工具。事實上,經(jīng)過研究人員幾個小時的努力,我們能夠重現(xiàn)雙下降模式。下圖顯示了我們對一個全連接的網(wǎng)絡(luò)和卷積模型的結(jié)果。我們還觀察到了一個細微的差別,這是我們在以前的工作中沒有看到提到的:當(dāng)使用均方誤差損失時,插值閾值位于n?Kn?K模型參數(shù),其中nn是訓(xùn)練樣本的數(shù)量,KK是模型輸出數(shù)量。但是當(dāng)使用負對數(shù)似然損失時,插值閾值取決于神經(jīng)網(wǎng)絡(luò)模型參數(shù)-而不依賴于模型輸出的數(shù)量。這是一個有趣的實驗觀察,可以解釋在這類任務(wù)中使用對數(shù)似然損失比MSE損失的一些優(yōu)勢。你可以在這里重現(xiàn)這些結(jié)果。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

  

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

觀察深度雙重下降。MNIST-1D是確定深度模型的插值閾值的良好環(huán)境。這個閾值在全連接模型中相當(dāng)容易預(yù)測,但對于其他模型,如CNNs、RNNs和Transformers,則不太容易預(yù)測。在這里,我們看到CNN在相同的插值閾值下有一個雙下降峰值,但效果卻不那么明顯。

基于梯度的元學(xué)習(xí)。元學(xué)習(xí)的目標是 "學(xué)會如何學(xué)習(xí)"。一個模型通過有兩個層次的優(yōu)化來實現(xiàn):第一個是快速的內(nèi)循環(huán),對應(yīng)傳統(tǒng)的學(xué)習(xí)目標;第二個是相對慢一些的外循環(huán),更新學(xué)習(xí)過程的 "元 "屬性。元學(xué)習(xí)最簡單的例子之一是基于梯度的超參數(shù)優(yōu)化。這個概念是由 Bengio (2000) 提出的,然后由 Maclaurin et al. (2015)擴展到深度學(xué)習(xí)模型。其基本思想是實現(xiàn)一個完全可分的神經(jīng)網(wǎng)絡(luò)訓(xùn)練循環(huán),然后在整個過程中進行反向傳播,以優(yōu)化學(xué)習(xí)率和權(quán)重衰減等超參數(shù)。

元學(xué)習(xí)是一個很有前景的課題,但它很卻難擴展。首先,元學(xué)習(xí)算法需要消耗大量的時間和計算。其次,實現(xiàn)往往會變得復(fù)雜,因為有兩倍多的超參數(shù)(每個優(yōu)化級別都有一組),而且大多數(shù)深度學(xué)習(xí)框架并沒有為元學(xué)習(xí)專門設(shè)置。這對在MNIST-1D等小規(guī)模數(shù)據(jù)集上調(diào)試和迭代元學(xué)習(xí)算法提出了特別高的要求。例如,實現(xiàn)和調(diào)試下圖所示的基于梯度的超參數(shù)優(yōu)化學(xué)習(xí)率只花了幾個小時。你可以在這里重現(xiàn)這些結(jié)果。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

  

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

元學(xué)習(xí)的學(xué)習(xí)率:看第三個圖,最佳學(xué)習(xí)率似乎是0.6。與許多基于梯度的元學(xué)習(xí)實現(xiàn)不同,我們的實現(xiàn)需要幾秒鐘的時間來運行,只占用幾十行代碼。這使得研究人員可以在擴大規(guī)模之前對新穎的想法進行迭代。

激活函數(shù)的元學(xué)習(xí)。在實現(xiàn)了基于梯度的元學(xué)習(xí)的 "最小工作示例 "后,我們意識到它可以被擴展到一個簡單而新穎的應(yīng)用中:激活函數(shù)的元學(xué)習(xí)。再花上幾個小時的研究時間,我們就能用第二個神經(jīng)網(wǎng)絡(luò)對分類器的激活函數(shù)進行參數(shù)化,然后使用元梯度學(xué)習(xí)權(quán)重。如下圖所示,我們學(xué)習(xí)的激活函數(shù)大幅優(yōu)于ReLU, Elu5, 和Swish6等基線非線性。你可以在這里復(fù)現(xiàn)這些結(jié)果。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

元學(xué)習(xí)得到一個激活函數(shù)。從一個ELU形狀開始,我們使用基于梯度的元學(xué)習(xí)來尋找在MNIST-1D數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的最佳激活函數(shù)。激活函數(shù)本身由第二個(元)神經(jīng)網(wǎng)絡(luò)進行參數(shù)化。請注意,上圖中ELU基線(紅色)被tanh基線(藍色)所遮擋。

我們將這個激活函數(shù)轉(zhuǎn)移到在MNIST和CIFAR-10圖像上訓(xùn)練的卷積模型上,發(fā)現(xiàn)它達到了中等的性能。特別是在優(yōu)化的早期,它的訓(xùn)練損耗很低,這也是MNIST-1D 訓(xùn)練的目標。不過,當(dāng)我們按最終測試損失對非線性進行排名時,它的性能達到了包中的中等水平。我們懷疑,在更大的模型和數(shù)據(jù)集上運行相同的元學(xué)習(xí)算法會進一步完善我們的激活函數(shù),讓它至少能匹配人為設(shè)計的最佳激活函數(shù)。不過,我們還是把這個問題留給以后的工作吧。

測量深度網(wǎng)絡(luò)的空間先驗。深度學(xué)習(xí)的成功很大一部分源于 "深度先驗",其中包括硬編碼的平移不變性(如卷積濾波器)、巧妙的架構(gòu)選擇(如自注意力層)和良好條件下的優(yōu)化場景(如批量歸一化)。這些先決條件中的原則是卷積的平移不變性。這個數(shù)據(jù)集的一個主要動機是構(gòu)建一個小型問題,可以有效地量化一個模型的空間先驗。本篇文章的第二張圖說明了MNIST-1D確實可以做到這一點。我們可以想象,其他更適度的空間先驗的模型將位于MLP和CNN基準之間的連續(xù)空間中的某個位置。在這里可以復(fù)現(xiàn)出這些結(jié)果。

池化方法的基準測試。我們最后的一個案例研究是從一個具體問題開始的。池化和采樣效率之間的關(guān)系是什么?我們沒有發(fā)現(xiàn)有證據(jù)表明池化使模型的采樣效率提高或降低,但這似乎是一個需要了解的重要關(guān)系??紤]到這一點,我們用不同的池化方法和訓(xùn)練集大小來訓(xùn)練模型,發(fā)現(xiàn)雖然池化在低維數(shù)據(jù)中往往是有效的,但在高維數(shù)據(jù)體系中并沒有太大的區(qū)別。我們并不完全理解這種效果,但假設(shè)池化是一種普通的架構(gòu)先驗,在低數(shù)據(jù)體系中聊勝于無,但在高維數(shù)據(jù)體系中卻最終限制了模型的表達。同樣的道理,max-pooling在低維數(shù)據(jù)體系中也可能有一個好的架構(gòu)先驗,但在高維數(shù)據(jù)體系中開始刪除信息--因此與L2 pooling相比表現(xiàn)更差。在這里可以復(fù)現(xiàn)出這些結(jié)果。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

  

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

通用池化方法的基準測試。我們發(fā)現(xiàn),在低維數(shù)據(jù)體系下,池化有助于性能,而在高維數(shù)據(jù)體系下則阻礙了性能。雖然我們并不完全理解這種結(jié)果,我們假設(shè)池化是一種普通的架構(gòu)先決條件,在低維數(shù)據(jù)體系下聊勝于無,但在高數(shù)據(jù)制度下就會變得過度限制。

何時縮放規(guī)模

這篇文章并不是反對大規(guī)模機器學(xué)習(xí)研究的。這種研究已經(jīng)一次又一次地證明了它的價值,并且已經(jīng)成為ML研究生態(tài)系統(tǒng)中最令人興奮的方面之一。相反,這篇文章支持小規(guī)模的機器學(xué)習(xí)研究。神經(jīng)網(wǎng)絡(luò)在規(guī)模或性能方面沒有問題,但它們在可解釋性、可重復(fù)性和迭代速度方面確實存在問題。我們認為精心控制的小規(guī)模實驗是解決這些問題的好方法。

事實上,小規(guī)模研究是對大規(guī)模研究的補充。在生物學(xué)領(lǐng)域,果蠅遺傳學(xué)幫助指導(dǎo)了人類基因組計劃,我們認為小規(guī)模的研究應(yīng)該始終著眼于如何成功地擴大規(guī)模。例如,這篇文章中報告的幾項研究結(jié)果已經(jīng)到了應(yīng)該進行大規(guī)模研究的地步。我們想證明,大規(guī)模 lottery tickets也能學(xué)習(xí)空間歸納偏差,并證明他們發(fā)展局部連接的證據(jù)。我們還想嘗試在更大的模型上學(xué)習(xí)一個激活函數(shù),希望找到一個在通用性上優(yōu)于ReLU和Swish的激活函數(shù)。

我們應(yīng)該強調(diào)的是,我們現(xiàn)在只是準備在受控環(huán)境下隔離和理解這些結(jié)果,然后再進行擴展。我們認為,只有在相關(guān)的因果機制被分離和理解之后,擴大系統(tǒng)的規(guī)模才是一個好主意。

其他的小型數(shù)據(jù)集

這項工作的核心靈感來自于對MNIST數(shù)據(jù)集的崇拜和迷戀。雖然它有一些明顯的缺陷--我們已經(jīng)解決了其中的一些問題--但它也有許多討人喜歡的品質(zhì)和被低估的優(yōu)點:它簡單、直觀,為探索創(chuàng)造性的新想法提供了完美的沙盤。

我們的工作也與Rawal等人(2020)的Synthetic Petri Dish在哲學(xué)上有相似之處。它與我們這項工作是同時發(fā)表的,作者對生物學(xué)進行了類似的引用,以激勵使用小型合成數(shù)據(jù)集進行探索性研究。他們的工作與我們的不同之處在于,他們使用元學(xué)習(xí)來獲得他們的數(shù)據(jù)集,而我們的數(shù)據(jù)集是由人工構(gòu)建的。Synthetic Petri Dish的目的是加速神經(jīng)架構(gòu)搜索,而我們的數(shù)據(jù)集的目的是加速 "深度學(xué)習(xí)的科學(xué) "問題。

還有很多其他小規(guī)模的數(shù)據(jù)集,通常用于研究 "深度學(xué)習(xí)的科學(xué) "問題。CIFAR-10數(shù)據(jù)集中的樣本數(shù)是MNIST的4倍,但訓(xùn)練樣本的總數(shù)量是一樣的。CIFAR-10在區(qū)分MLP和CNN架構(gòu),以及各種CNN架構(gòu)(如vanilla CNNs與ResNets)方面做得更好。FashionMNIST數(shù)據(jù)集與MNIST大小相同,但(區(qū)分)難度會更大一些。最后一個選擇是Scikit-learn的數(shù)據(jù)集:有幾十個選擇,有些是人工合成的,有些是真實的。但要把真實世界類比到比如說數(shù)字分類,是不可能的,人們往往可以用簡單的線性或基于內(nèi)核的方法在這些數(shù)據(jù)集上做得很好。

結(jié)束語

為了探索神經(jīng)網(wǎng)絡(luò)規(guī)模的極限,有一種違反直覺的可能性是,為了探索神經(jīng)網(wǎng)絡(luò)的規(guī)模有多大的極限,我們可能首先需要探索神經(jīng)網(wǎng)絡(luò)的規(guī)模到底有多小的極限。以保留其行為在規(guī)模上的細微差別來縮放模型大小和數(shù)據(jù)集,會使研究人員能夠快速迭代基礎(chǔ)和創(chuàng)新的想法。這種快速迭代周期是獲得關(guān)于如何將逐漸復(fù)雜的歸納偏差納入我們的模型的見解的最佳方式。然后,我們可以跨空間尺度遷移這些歸納偏差,以顯著提高大規(guī)模模型的采樣效率和泛化特性。我們認為不怎么起眼的MNIST-1D數(shù)據(jù)集是朝著這個方向邁出的第一步。

腳注

  1. Trunk, Gerard V. “A problem of dimensionality: A simple example.” IEEE Transactions on pattern analysis and machine intelligence 3 (1979): 306-307. ?

  2. Belkin, Mikhail, et al. “Reconciling modern machine-learning practice and the classical bias–variance trade-off.” Proceedings of the National Academy of Sciences 116.32 (2019): 15849-15854. ?

  3. Spigler, Stefano, et al. “A jamming transition from under-to over-parametrization affects loss landscape and generalization.” arXiv preprint arXiv:1810.09665 (2018). ?

  4. Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019). ?

  5. Clevert, Djork-Arné, Thomas Unterthiner, and Sepp Hochreiter. Fast and accurate deep network learning by exponential linear units (elus). ICLR 2016. ?

  6. Ramachandran, Prajit, Barret Zoph, and Quoc V. Le. Searching for activation functions. (2017). ?


AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長。

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

探索神經(jīng)網(wǎng)絡(luò)規(guī)模下限,MNIST-1D數(shù)據(jù)集邁出了第一步

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說