0
本文作者: 圖普科技 | 2017-08-02 10:08 |
雷鋒網(wǎng)按:本文由圖普科技編譯自《Summary of Unintuitive Properties of Neural Networks》,雷鋒網(wǎng)獨(dú)家首發(fā)。
神經(jīng)網(wǎng)絡(luò)對(duì)解決很多問(wèn)題都十分有效,包括語(yǔ)言識(shí)別、語(yǔ)音識(shí)別和圖像識(shí)別等。然而要理解神經(jīng)網(wǎng)絡(luò)是如何解決這些問(wèn)題卻有一定的難度。本文將對(duì)神經(jīng)網(wǎng)絡(luò)的特殊和“非直觀屬性”進(jìn)行總結(jié)整理。
神經(jīng)網(wǎng)絡(luò)是強(qiáng)大的學(xué)習(xí)模型,特別是用于解決視覺(jué)識(shí)別和語(yǔ)音識(shí)別問(wèn)題的深度學(xué)習(xí)網(wǎng)絡(luò)。之所以這么說(shuō),是因?yàn)樗鼈兙哂斜磉_(dá)任意計(jì)算的能力。但是我們現(xiàn)在仍然很難完全理解神經(jīng)網(wǎng)絡(luò)的屬性,因此,我們不知道它們是如何在一個(gè)動(dòng)態(tài)的環(huán)境下作出一個(gè)又一個(gè)決策的。受到Hugo Larochelle的啟發(fā),我們?cè)诒疚目偨Y(jié)了神經(jīng)網(wǎng)絡(luò)的“非直觀”屬性。
網(wǎng)絡(luò)的決策過(guò)程非常復(fù)雜,而且涉及到了許多的層,因此我們很難搞清楚其中的思路。為了一步步弄清神經(jīng)網(wǎng)絡(luò)是如何進(jìn)行訓(xùn)練的,我們做出了很大的努力(比如,一個(gè)研究人員開(kāi)發(fā)了一個(gè)“深度可視化工具包”)。盡管如此,這些層的內(nèi)部對(duì)我們來(lái)說(shuō)還是相當(dāng)?shù)膹?fù)雜。
深度可視化工具包的截圖
一個(gè)由“谷歌研究所”和紐約大學(xué)的研究人員組成的團(tuán)隊(duì)最近發(fā)現(xiàn),一些具有對(duì)抗性的示例似乎會(huì)與網(wǎng)絡(luò)的高度泛化性(也稱“概括性”)產(chǎn)生矛盾。我們現(xiàn)在急需弄清網(wǎng)絡(luò)是否能夠很好地進(jìn)行泛化,以及它是如何被這些對(duì)抗性例子所迷惑的。
神經(jīng)網(wǎng)絡(luò)的對(duì)抗性示例
在對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化時(shí),損失函數(shù)可以有一些局部最大值和最小值,這就表示它一般既不是凸面也不是凹面。針對(duì)這個(gè)問(wèn)題,一個(gè)研究小組提出了一種方法,這種方法能夠識(shí)別和解決高維度非凸優(yōu)化的鞍點(diǎn)問(wèn)題。然而,谷歌和斯坦福大學(xué)的附屬研究小組引入了一個(gè)簡(jiǎn)單的方案來(lái)尋找神經(jīng)網(wǎng)絡(luò)正克服局部?jī)?yōu)化難題的證據(jù)。他們發(fā)現(xiàn),從初始化到最終的解決方案,各種各樣的現(xiàn)代神經(jīng)網(wǎng)絡(luò)從未遇到過(guò)任何大的障礙。他們的實(shí)驗(yàn)是為了回答這些問(wèn)題的:神經(jīng)網(wǎng)絡(luò)會(huì)進(jìn)入和避開(kāi)一些列局部最小值嗎?在靠近和通過(guò)各種鞍點(diǎn)時(shí),神經(jīng)網(wǎng)絡(luò)會(huì)以不同的速度移動(dòng)嗎?他們所找到的證據(jù)有力地證明了答案是否定的。
神經(jīng)網(wǎng)絡(luò)的損失函數(shù)是非凸函數(shù)
一個(gè)“平底最小值”相當(dāng)于低期望的過(guò)度擬合,它是承重空間內(nèi)的一個(gè)大型連接區(qū)域,在此區(qū)域內(nèi)的失誤都會(huì)大致保持不變。在適用于股票市場(chǎng)預(yù)測(cè)的應(yīng)用程序中,帶有平底最小值搜索算法的網(wǎng)絡(luò)表現(xiàn)要?jiǎng)儆趥鹘y(tǒng)的反向傳播和重量衰減。然而,最近一篇關(guān)于深度學(xué)習(xí)大批量培訓(xùn)的報(bào)告發(fā)現(xiàn),使用較大批量進(jìn)行培訓(xùn)通常會(huì)找到較精確的最小值,并且泛化或概括表現(xiàn)比較差。換句話來(lái)說(shuō),如果我們將訓(xùn)練算法考慮在內(nèi),那么泛化就會(huì)完成得更出色。
在2017年ICLR的一項(xiàng)研究中,一個(gè)簡(jiǎn)單的實(shí)驗(yàn)性框架被用于定義學(xué)習(xí)模型的高效率能力。這項(xiàng)工作暗示了幾個(gè)先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的高效率能力,足以對(duì)訓(xùn)練數(shù)據(jù)造成破壞,因此,這個(gè)模型有足夠的能力記住這些訓(xùn)練數(shù)據(jù)。對(duì)于一個(gè)被Android語(yǔ)音搜索所使用的深度原聲模型,一個(gè)谷歌研究團(tuán)隊(duì)表示,幾乎所有通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的改進(jìn)都能被濃縮至一個(gè)相同大小的神經(jīng)網(wǎng)絡(luò),這樣一來(lái),我們就比較容易部署這些網(wǎng)絡(luò)了。
在視覺(jué)和語(yǔ)言數(shù)據(jù)集上,“深度信念網(wǎng)絡(luò)”包含了普通的有監(jiān)督學(xué)習(xí)模式之前的一個(gè)非監(jiān)督學(xué)習(xí)階段(預(yù)訓(xùn)練的組成部分)。一個(gè)關(guān)于預(yù)訓(xùn)練的實(shí)驗(yàn),從模型能力、訓(xùn)練示例數(shù)量和網(wǎng)絡(luò)架構(gòu)深度等方面對(duì)預(yù)訓(xùn)練進(jìn)行了實(shí)證分析。
如果學(xué)習(xí)能夠以一種循序漸進(jìn)的方式進(jìn)行,那么這將是非常重要和有意義的。然而,目前來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)還沒(méi)有能力達(dá)到這一種循序漸進(jìn)的屬性。它們一般只會(huì)在一次性得到所有數(shù)據(jù)的情況下,完成多個(gè)任務(wù)的學(xué)習(xí)。在學(xué)習(xí)完一項(xiàng)任務(wù)之后,它們所獲得的知識(shí)將會(huì)被改寫(xiě),以適應(yīng)一項(xiàng)新的培訓(xùn)任務(wù)。在“認(rèn)知科學(xué)”中,這被稱為“災(zāi)難性遺忘”,這也是神經(jīng)網(wǎng)絡(luò)眾所周知的一個(gè)短板。
以上這些都是神經(jīng)網(wǎng)絡(luò)“非直觀屬性”的典型例子。如果我們拿到了結(jié)果,但完全不理解為何模型會(huì)作出這樣的決策,那么我們就很難在科學(xué)研究中取得進(jìn)步,特別是在模型正變得越來(lái)越龐大和復(fù)雜的情況下,弄清楚模型工作原理和思路是非常必要且緊迫的。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。