丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

本文作者: MrBear 編輯:幸麗娟 2019-06-03 11:01 專題:ICLR 2019
導(dǎo)語:竟意外得到了具備強(qiáng)大剪枝能力的「超級掩?!梗?

雷鋒網(wǎng) AI 科技評論按: 作為某種程度上的技術(shù)黑盒,神經(jīng)網(wǎng)絡(luò)的諸多工作原理仍然有待探索。年初,F(xiàn)rankle 和 Carbin 的論文「 The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks」提出了一種生成稀疏的高性能網(wǎng)絡(luò)的簡單方法,可以有效進(jìn)行網(wǎng)絡(luò)剪枝,這一突破性進(jìn)展也讓這篇論文成為 ICLR 2019 最佳論文的得主之一。在本文,Uber AI 研究院對這一「彩票假設(shè)」成果進(jìn)行了深度解構(gòu),意外得到了具備強(qiáng)大剪枝能力的通用「超級掩?!?/span>(Supermask)!雷鋒網(wǎng) AI 科技評論編譯如下。

在 Uber,我們利用神經(jīng)網(wǎng)絡(luò)從根本上提升我們對城市中的人和物的運(yùn)動的理解。在其他用例中,我們使用神經(jīng)網(wǎng)絡(luò),通過自然語言模型來加速客戶服務(wù)響應(yīng)速度,并通過跨城市需求的時空預(yù)測來縮短用戶等待時間。在此過程中,我們已經(jīng)開發(fā)出了相應(yīng)的基礎(chǔ)設(shè)施來擴(kuò)展模型的訓(xùn)練并支持更快的模型開發(fā)。

盡管神經(jīng)網(wǎng)絡(luò)是強(qiáng)大且被廣泛使用的工具,但它們的許多微妙的屬性仍然鮮為人知。隨著世界各地的科學(xué)家在理解網(wǎng)絡(luò)的基本屬性方面取得的重要進(jìn)展,Uber AI 的大部分研究也在這個方向上迅速跟進(jìn)。相關(guān)工作包括評估內(nèi)在的網(wǎng)絡(luò)復(fù)雜性,尋找更自然的輸入空間以及揭示流行模型中的隱藏缺陷。

我們最近發(fā)布了一篇論文「Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask」(https://arxiv.org/abs/1905.01067),就旨在揭開神經(jīng)網(wǎng)絡(luò)神秘的面紗。我們基于 Frankle 和 Carbin 提出的引人關(guān)注的「彩票假設(shè)」展開這項(xiàng)研究。他們的工作展示了一個非常簡單的算法刪除其較小的權(quán)重并進(jìn)行重訓(xùn)練,可以在性能與全網(wǎng)絡(luò)相當(dāng)?shù)拇笮途W(wǎng)絡(luò)中找到稀疏的可訓(xùn)練子網(wǎng)絡(luò)或「彩票」,給很多研究者帶來了驚喜。然而他們(和通常發(fā)生在出色的研究中的情況一樣)提出了與它們回答的問題一樣多的問題,而且也尚未很好地理解許多底層的機(jī)制。我們的論文提出了對這些機(jī)制的解釋,揭示了這些子網(wǎng)的有趣的特殊模式,引入了與「彩票」算法相競爭的變體,并獲得了意外發(fā)現(xiàn)的衍生品:「超級掩?!埂?/span>

「彩票假設(shè)」

首先,我們簡要總結(jié) Frankle 和 Carbin 的論文「 The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks」(https://arxiv.org/abs/1803.03635),論文標(biāo)題簡寫為「LT」。在本文中,作者提出了一種生成稀疏的高性能網(wǎng)絡(luò)的簡單方法:在對網(wǎng)絡(luò)進(jìn)行訓(xùn)練后,將所有小于某個閾值的權(quán)重設(shè)置為「0」(對其進(jìn)行剪枝),將其余權(quán)重重置回其初始配置,然后在保證被剪枝的權(quán)重處于凍結(jié)狀態(tài)的情況下(未經(jīng)過訓(xùn)練),從這個起始配置重新訓(xùn)練網(wǎng)絡(luò)。通過使用這種方法,他們得到了兩個有趣的結(jié)果。

首先,他們證明了剪枝后的網(wǎng)絡(luò)性能良好。經(jīng)過深度剪枝的網(wǎng)絡(luò)(剪掉了 95% 到 99.5% 的權(quán)重)與規(guī)模較大的未經(jīng)剪枝的網(wǎng)絡(luò)相比,性能并沒有下降。此外,僅僅被適度剪枝的網(wǎng)絡(luò)(剪掉了 50% 到 90% 的權(quán)重)的性能往往還優(yōu)于未剪枝的競爭模型。

其次,除了這些讓人眼前一亮的結(jié)果,剩余網(wǎng)絡(luò)的結(jié)構(gòu)和權(quán)重的特征同樣有趣。通常情況下,如果你使用經(jīng)過訓(xùn)練的網(wǎng)絡(luò),通過隨機(jī)權(quán)重對其重新進(jìn)行初始化,然后重新訓(xùn)練它,其性能將與之前大致相當(dāng)。但是對于精簡的骨架彩票(LT)網(wǎng)絡(luò)來說,這個特性并不成立。只有當(dāng)網(wǎng)絡(luò)重新回到其初始狀態(tài)時(包括使用的特定初始權(quán)重),網(wǎng)絡(luò)才能很好地訓(xùn)練。用新的權(quán)重重新初始化會導(dǎo)致訓(xùn)練效果不佳。正如 Frankle 和 Carbin 的研究所指出的那樣,剪枝掩模的特定組合(對于每個權(quán)重來說,顯示是否刪除該權(quán)重的 0-1 值)和掩模之下的權(quán)重構(gòu)成了一個在更大的網(wǎng)路中找出的幸運(yùn)子網(wǎng)絡(luò)?;蛘哒缱畛醯难芯恐兴哪菢樱@是一個通往勝利的「彩票」模型。

我們發(fā)現(xiàn)這個例子很有趣,因?yàn)樗腥硕疾恢罏槭裁磿霈F(xiàn)這樣的結(jié)果。LT 網(wǎng)絡(luò)是如何使它們表現(xiàn)出更好的性能?剪枝掩模和初始權(quán)重集合為何如此緊密的耦合,而重新初始化的網(wǎng)絡(luò)較難訓(xùn)練?為什么直接選擇較大的權(quán)重是選擇掩模的有效標(biāo)準(zhǔn)?其它創(chuàng)建掩模的標(biāo)準(zhǔn)是否也有效呢?

奇怪而有效的掩模

在開始調(diào)查研究時,我們觀察了一些需要解釋的奇怪現(xiàn)象。在訓(xùn)練 LT 網(wǎng)絡(luò)時,我們觀察到許多重置的、用掩模處理過的網(wǎng)絡(luò)的準(zhǔn)確率可能明顯高于初始化。也就是說,對未經(jīng)訓(xùn)練的網(wǎng)絡(luò)應(yīng)用特定掩模會得到一個部分工作的網(wǎng)絡(luò)。

這可能會讓人感到意外,因?yàn)槿绻闶褂靡粋€隨機(jī)初始化的、未經(jīng)訓(xùn)練的網(wǎng)絡(luò)來進(jìn)行諸如對 MNIST 數(shù)據(jù)集(https://en.wikipedia.org/wiki/MNIST_database)中的手寫數(shù)字進(jìn)行分類的任務(wù),你會發(fā)現(xiàn)這樣得到的準(zhǔn)確率并不比隨機(jī)運(yùn)行要好(準(zhǔn)確率大約為 10%)。但是現(xiàn)在,假設(shè)你將網(wǎng)絡(luò)權(quán)重與一個僅僅包含「0」、「1」的掩模相乘。在這種情況下,權(quán)重要么維持不變,要么完全被刪除,但最終得到的網(wǎng)絡(luò)現(xiàn)在就可以達(dá)到近 40% 的準(zhǔn)確率了!這很奇怪,然而在使用選擇具有較大最終值權(quán)重的 LT 論文中的步驟(我們稱之為「large final」的掩模準(zhǔn)則)來應(yīng)用創(chuàng)建好的掩模時,確實(shí)發(fā)生了這樣的情況:

 

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖 1:未經(jīng)訓(xùn)練的網(wǎng)絡(luò)隨機(jī)運(yùn)行的結(jié)果(例如,如圖所示,在 MNIST 數(shù)據(jù)集上的準(zhǔn)確率為 10%),如果這些網(wǎng)絡(luò)被隨機(jī)初始化、或隨機(jī)初始化并被隨機(jī)地進(jìn)行掩模處理。然而,應(yīng)用 LT 掩模會提高網(wǎng)絡(luò)的準(zhǔn)確率,使其超過隨機(jī)的情況。

我們將具備「可以在不訓(xùn)練底層權(quán)重的情況下,立即生成部分工作的網(wǎng)絡(luò)」的特性的掩模稱為超級掩模(Supermask)。

如圖 1 所示,在隨機(jī)初始化網(wǎng)絡(luò)和帶有隨機(jī)掩模的隨機(jī)初始化網(wǎng)絡(luò)中,權(quán)重和掩模都不包含任何關(guān)于標(biāo)簽的信息,因此其準(zhǔn)確性不一定能比隨機(jī)的情況更好。在具有 LT「large final」掩模的隨機(jī)初始化網(wǎng)絡(luò)中,得到優(yōu)于隨機(jī)情況的性能并非不可能,因?yàn)檠谀4_實(shí)是在訓(xùn)練過程中產(chǎn)生的。但這還是有些出乎意料,因?yàn)閺挠?xùn)練回傳到初始網(wǎng)絡(luò)的唯一信息是通過「0-1」掩模傳輸?shù)?,并且?yīng)用掩模的標(biāo)準(zhǔn)只是選擇有大最終值的權(quán)重。

掩模運(yùn)算是需要訓(xùn)練的,為什么「0」很重要?

那么,為什么我們認(rèn)為,只需應(yīng)用 LT 掩模就可以大大提高測試的準(zhǔn)確率呢?

LT 論文中實(shí)現(xiàn)的掩模運(yùn)算過程將執(zhí)行兩個操作:將權(quán)重設(shè)置為零,以及凍結(jié)這些權(quán)重。通過確定這兩個部分中的哪一個會提高訓(xùn)練好的網(wǎng)絡(luò)的性能,我們還發(fā)現(xiàn)了未經(jīng)訓(xùn)練網(wǎng)絡(luò)的這種獨(dú)特性能的底層原理。

為了分開上述兩個因素,我們進(jìn)行了一個簡單的實(shí)驗(yàn):我們復(fù)現(xiàn)了 LT 迭代剪枝實(shí)驗(yàn),其中網(wǎng)絡(luò)權(quán)重在交替的「訓(xùn)練/掩模/重置」的循環(huán)中被掩模處理,但我們還嘗試了其它的處理方式:將「零掩模」處理的權(quán)重凍結(jié)為其初始值,而不是將其凍結(jié)為零。如果零不是特殊的,那么這兩種方法得到的性能應(yīng)該相似。我們遵循 Frankle 和 Carbin(2019)的做法,在 CIFAR-10 數(shù)據(jù)集上訓(xùn)練三個卷積神經(jīng)網(wǎng)絡(luò)(CNN),Conv2,Conv4 和 Conv6(具有 2/4/6 卷積層的小型 CNN,這與 LT 論文中使用的相同)。

下方圖 2 為實(shí)驗(yàn)結(jié)果,通過剪枝操作(或者更準(zhǔn)確地說:「凍結(jié)為一定的值」)將左側(cè)的未剪枝的網(wǎng)絡(luò)修改為右側(cè)的修剪后的網(wǎng)絡(luò)。水平黑線表示原始未剪枝網(wǎng)絡(luò)五次運(yùn)行的平均性能。此處和其他圖中的不確定性代表五次運(yùn)行中的最小值和最大值。藍(lán)色實(shí)線代表使用將剪枝后的權(quán)重設(shè)置為零并凍結(jié)它們的 LT 算法訓(xùn)練的網(wǎng)絡(luò)。藍(lán)色虛線則代表使用沒有將剪枝權(quán)重凍結(jié)成其初始值的 LT 算法訓(xùn)練的網(wǎng)絡(luò): 

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖2:當(dāng)在 CIFAR-10 數(shù)據(jù)集上測試上述的三個卷積神經(jīng)網(wǎng)絡(luò)時,我們發(fā)現(xiàn)具有被凍結(jié)為其初始值的剪枝后權(quán)重的網(wǎng)絡(luò)的準(zhǔn)確率比具有被設(shè)置為零的剪枝后權(quán)重的網(wǎng)絡(luò)的準(zhǔn)確率明顯要低一些。

我們看到,當(dāng)權(quán)重被特意凍結(jié)為零而不是隨機(jī)初始值時,網(wǎng)絡(luò)的表現(xiàn)更好。對于通過 LT「final large」標(biāo)準(zhǔn)進(jìn)行掩模處理的這些網(wǎng)絡(luò),當(dāng)它們具有小的最終值時,將權(quán)重設(shè)置為零似乎是非常好的選擇。

那么為什么零是理想的值?一種假設(shè)是,我們使用的掩模標(biāo)準(zhǔn)傾向于將那些趨向于零的權(quán)重通過掩模處理為零。為了驗(yàn)證這個假設(shè),讓我們考慮一種新的凍結(jié)方法。我們在前兩個實(shí)驗(yàn)之間插入另一個實(shí)驗(yàn):對將要被凍結(jié)的任意權(quán)重,如果它在訓(xùn)練過程中趨向于零,我們會將它凍結(jié)為零;而如果它逐漸遠(yuǎn)離零,那么我們將它凍結(jié)為其隨機(jī)初始值。結(jié)果如下面的圖 3 所示:

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖3:根據(jù)權(quán)重在訓(xùn)練期間移動的方向,有選擇性地將權(quán)重凍結(jié)為其初始值或零,會得到比將所有權(quán)重一律初始化為零或其初始值更好的性能。

我們看到這種處理方法的性能比將所有權(quán)重凍結(jié)為零或初始值更好!這印證了我們的假設(shè),即將值凍結(jié)為的性能較好,是由于這些值無論如何都會趨向于零的事實(shí)。如果了解關(guān)于為什么「final large」掩模標(biāo)準(zhǔn)偏向于選擇那些趨向于零的權(quán)重的深入討論,請參閱我們的論文(https://arxiv.org/abs/1905.01067)。

因此,我們發(fā)現(xiàn)對于某些諸如「large final」的掩模標(biāo)準(zhǔn),掩模是在訓(xùn)練中得出的:掩模操作傾向于將權(quán)重朝著它們在訓(xùn)練時移動的方向移動。

這同時解釋了為什么存在「超級掩?!?,并間接說明其它的掩模標(biāo)準(zhǔn)可能會得到更好的「超級掩?!梗ㄈ绻鼈兡軆?yōu)先將在訓(xùn)練中趨向于為零的權(quán)重掩模為零)。

其它的掩模標(biāo)準(zhǔn)

現(xiàn)在我們已經(jīng)對原始的 LT 掩模標(biāo)準(zhǔn)「large final」表現(xiàn)出色的原因進(jìn)行了探索,那么我們不妨想想還有什么其它的掩模標(biāo)準(zhǔn)也會有很好的性能?!竘arge final」標(biāo)準(zhǔn)保留具有較大最終值的權(quán)重并將其余權(quán)重設(shè)置為零。我們可以將這種剪枝標(biāo)準(zhǔn)和許多其它的標(biāo)準(zhǔn)視為將二維(w i =初始權(quán)重,wf =最終權(quán)重)空間劃分為對應(yīng)于應(yīng)該保持的權(quán)重(「1」掩模)與應(yīng)該剪枝的區(qū)域(「0」掩模)。工作原理如圖 5 所示:

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖 5:不同的掩模標(biāo)準(zhǔn)可以被認(rèn)為是將(wi,wf)空間分割成與掩模值「1」或「0」相對應(yīng)的區(qū)域。橢圓以動畫的形式表示出某給定層的正相關(guān)的初始值和最終權(quán)重占據(jù)的區(qū)域。圖中的掩模對應(yīng)于LT論文中使用的「large final」標(biāo)準(zhǔn):保持具有大的最終值的權(quán)重,并且對具有接近零的最終值的權(quán)重進(jìn)行剪枝。請注意,此標(biāo)準(zhǔn)忽略了權(quán)重的初始值。

在上一部分中,我們展示了一些證據(jù)來支撐下面的假設(shè):將已經(jīng)趨向于零的權(quán)重設(shè)置為零會得到很好的網(wǎng)絡(luò)性能。該假設(shè)表明,如果他們遵循這一基本規(guī)則,這對其它的掩模標(biāo)準(zhǔn)可能也有效。其中一個此類掩模標(biāo)準(zhǔn)是:優(yōu)先保持那些移動得離零最遠(yuǎn)的權(quán)重,我們可以將其寫為評分函數(shù) |wf|-|wi| 的形式。我們將此標(biāo)準(zhǔn)稱為「magnitude increase」,并將其與其他標(biāo)準(zhǔn)一起表示為圖 6 中的條件控制示例,如下所示:

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖 6:從 LT 論文中出現(xiàn)的「large final」標(biāo)準(zhǔn)開始,從左到右依次為本研究中考慮的八個掩模標(biāo)準(zhǔn)。我們給出了用來指代各種方法的名稱以及將每個(wi,wf)對投影到一個分?jǐn)?shù)上的公式。我們保留具有最高分?jǐn)?shù)(彩色區(qū)域)的權(quán)重,并且對具有最小分?jǐn)?shù)(灰色區(qū)域)的權(quán)重進(jìn)行剪枝。

這種「magnitude increase」標(biāo)準(zhǔn)與「large final」標(biāo)準(zhǔn)一樣有效,在某些情況下明顯還要更好一些。對于全連接(FC)和 Conv4 網(wǎng)絡(luò),所有標(biāo)準(zhǔn)的結(jié)果如圖 7 所示;要想了解其他網(wǎng)絡(luò)的性能結(jié)果,請參閱我們的論文(https://arxiv.org/abs/1905.01067)。作為對比基線,我們還顯示了使用隨機(jī)剪枝標(biāo)準(zhǔn)得到的結(jié)果,該標(biāo)準(zhǔn)直接選擇具有所需的剪枝百分比的隨機(jī)掩模。請注意,八個標(biāo)準(zhǔn)中的前六個標(biāo)準(zhǔn)形成了三對相反的情況:在每種情況下,我們看到當(dāng)該對中的一個成員比隨機(jī)基線表現(xiàn)更好時,相對的另一個成員的性能就比隨機(jī)基線更差。

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖 7:兩個網(wǎng)絡(luò)的準(zhǔn)確率與剪枝百分比的測量結(jié)果,MNIST 數(shù)據(jù)集上的全連接網(wǎng)絡(luò)(左圖)和 CIFAR-10 數(shù)據(jù)集上的 Conv4 網(wǎng)絡(luò)(右圖)。表明多個掩模標(biāo)準(zhǔn)——「large final」,「magnitude increase」,以及另外兩個標(biāo)準(zhǔn),確實(shí)優(yōu)于黑色的隨機(jī)剪枝基線。在Conv4網(wǎng)絡(luò)中,「magnitude increase」的性能提升大于其他掩模標(biāo)準(zhǔn); 星號標(biāo)記出了「large final」和「magnitude increase」之間的差異在 p = 0.05 的水平上具有統(tǒng)計顯著性的情況。

通常而言,我們觀察到,那些傾向于保留具有較大最終值的權(quán)重的方法能夠發(fā)現(xiàn)高性能子網(wǎng)絡(luò)。

真正起作用的是符號!

我們已經(jīng)探索了各種方法,用來選擇應(yīng)該對哪些權(quán)重進(jìn)行剪枝以及應(yīng)該將剪枝后的權(quán)重設(shè)置為何值。現(xiàn)在,我們將考慮應(yīng)該將保留下來的權(quán)重設(shè)置為何值。特別是,我們想研究 Frankle 和 Carbin(2019)的工作中一個有趣的觀察結(jié)果,該結(jié)果表明,當(dāng)你將其重置為原始初始值時,經(jīng)過剪枝的骨架 LT 網(wǎng)絡(luò)可以很好地進(jìn)行訓(xùn)練。但是,當(dāng)你隨機(jī)重新初始化網(wǎng)絡(luò)時,訓(xùn)練的性能會降低。

為什么重新初始化導(dǎo)致 LT 網(wǎng)絡(luò)訓(xùn)練不佳?初始化過程中的哪些因素很重要呢?

為了找到問題的答案,我們評估了一些重新初始化了的變體。

  • 「Reint」實(shí)驗(yàn):基于原始的初始化分布重新初始化保留的權(quán)重。

  • 「Reshuffle」實(shí)驗(yàn):在遵循該層中剩余權(quán)重的原始分布的情況下進(jìn)行重新初始化,這是通過重新調(diào)整保留下來的權(quán)重的初始值來實(shí)現(xiàn)的。

  • 「Constant」實(shí)驗(yàn):通過將剩余權(quán)重值設(shè)置為正或負(fù)的常量來重新初始化,將常量設(shè)置為每層的原始初始值的標(biāo)準(zhǔn)差。

所有重新初始化實(shí)驗(yàn)都是基于相同的原始網(wǎng)絡(luò)實(shí)現(xiàn)的,并使用了「large final」掩模標(biāo)準(zhǔn)和迭代剪枝。我們將原始 LT 網(wǎng)絡(luò)(權(quán)重重置,使用了 large ginal 標(biāo)準(zhǔn))和隨機(jī)剪枝網(wǎng)絡(luò)作為對比基線。

我們發(fā)現(xiàn)這三種變體中沒有一種能夠像原始 LT 網(wǎng)絡(luò)那樣進(jìn)行訓(xùn)練,如下圖 8 中的虛線所示:

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖 8:我們展示了測試準(zhǔn)確率與兩個網(wǎng)絡(luò)的剪枝百分比,全連接網(wǎng)絡(luò)(左圖)和 Conv4 (右圖),同時使用不同的重新初始化方法。在遵循符號一致性的那些與不符合符號一致性的初始化方法之間的明顯的性能區(qū)別表明,保留權(quán)重的特定初始值并不像它們的符號那么重要。

然而,當(dāng)我們通過確?!笧楸A粝聛淼臋?quán)重重新分配的值與其原始的初始值具有相同符號」來控制符號的一致性時,所有三種變體都能取得更好的性能。圖 8 中顯示的純色實(shí)線說明了這種情況。顯然,使得所有變體的性能都比隨機(jī)情況更好的共同要素(包括原始的「重置」方法)就是符號!這表明只要你保持符號一致,重新初始化就不會損害模型的性能。事實(shí)上,只要我們沿用原始的符號,即使直接將所有保留的權(quán)值設(shè)置為常量也能得到很好的模型效果!

更好的「超級掩?!?/span>

在文章的開頭,我們介紹了「超級掩模」的概念,它是二值掩碼,當(dāng)應(yīng)用于隨機(jī)初始化網(wǎng)絡(luò)時,無需進(jìn)行額外的訓(xùn)練即可得到比隨機(jī)情況更高的測試準(zhǔn)確率。我們現(xiàn)在將注意力轉(zhuǎn)而投向?qū)ふ铱梢缘玫阶罴训摹赋壯谀!沟姆椒ā?/span>

我們可以評估圖 7 中所示的相同剪枝方法和剪枝百分比,來查看「超級掩?!沟臐撃堋N覀冞€可以考慮為生成「超級掩?!苟鴥?yōu)化的其它掩模標(biāo)準(zhǔn)?;趯?nbsp;LT 權(quán)重的初始符號的重要性的觀察以及使權(quán)重接近其最終值的想法,我們引入了一個新的掩模標(biāo)準(zhǔn),該標(biāo)準(zhǔn)選擇具有大的最終值的權(quán)重,該權(quán)重也在訓(xùn)練的最后保持相同的符號。這種方法被稱為「large final, same sign」,如圖 9 所示。我們還添加了「large final, same sign」作為條件控制案例,它會尋找在訓(xùn)練結(jié)束時符號有所改變的權(quán)重。

 

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!圖9:「large final, same sign」的掩模標(biāo)準(zhǔn)在本研究中得到了性能最好的「超級掩?!埂Ec圖 5 中的「large final」掩模相反,請注意該標(biāo)準(zhǔn)對 wi 和 wf 符號不同的象限進(jìn)行了掩模運(yùn)算。

通過使用「large final, same sign」的簡單掩碼標(biāo)準(zhǔn),我們可以創(chuàng)建在 MNIST 數(shù)據(jù)集上獲得性能卓越的具有 80% 測試準(zhǔn)確率的網(wǎng)絡(luò)。在不進(jìn)行訓(xùn)練的情況下,可以在 CIFAR-10 數(shù)據(jù)集上獲得 24% 的測試準(zhǔn)確率。另一個奇妙的觀察結(jié)果是,如果我們將掩模應(yīng)用于有符號常數(shù)(如上一節(jié)所述)而不是實(shí)際的初始權(quán)重,我們可以在 MNIST 數(shù)據(jù)集上得到高達(dá) 86% 的更高的測試準(zhǔn)確率,在 CIFAR-10 數(shù)據(jù)集上得到 41% 的測試準(zhǔn)確率。

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

圖 10:我們評估了應(yīng)用各種掩模時,在 MNIST 數(shù)據(jù)集上單個全連接網(wǎng)絡(luò)的初始條件下(沒有經(jīng)過訓(xùn)練)得到的準(zhǔn)確率。X 軸代表網(wǎng)絡(luò)中剩余權(quán)重的百分比;所有其余的權(quán)重都被設(shè)置為零?!竘arge final, same sign」的掩碼可以創(chuàng)建性能遠(yuǎn)高于其他方法的「超級掩?!?。請注意,除了為繪制此圖生成不確定帶的五次獨(dú)立運(yùn)行之外,繪圖上的每個數(shù)據(jù)點(diǎn)都使用了相同的底層網(wǎng)絡(luò),只不過應(yīng)用了不同的掩碼。

我們發(fā)現(xiàn)這樣的「超級掩模」是存在的,并且可以通過這樣簡單的標(biāo)準(zhǔn)找到它是非常有趣的。除了是一個科學(xué)上的有趣發(fā)現(xiàn),這還可能對遷移學(xué)習(xí)和元學(xué)習(xí)產(chǎn)生影響——可以對網(wǎng)絡(luò)進(jìn)行近似求解。例如,只需使用不同的掩碼,就可以求得 MNIST 輸入像素的任何排列和輸出類的排列。它們還為我們提供了一種網(wǎng)絡(luò)壓縮方法,因?yàn)槲覀冎恍枰4娑笛诖a和單個隨機(jī)種子就可以重建網(wǎng)絡(luò)的全部權(quán)重。

如果你想了解我們能夠在多大程度上提升這些「超級掩模」的性能,請參閱我們的論文(https://arxiv.org/abs/1905.01067),在論文中我們嘗試了直接對它們進(jìn)行訓(xùn)練的方法。

via https://eng.uber.com/deconstructing-lottery-tickets/  雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Uber AI 研究院深度解構(gòu) ICLR 2019 最佳論文「彩票假設(shè)」!

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說