丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

本文作者: 楊曉凡 2017-10-28 00:24
導(dǎo)語:寥寥幾層網(wǎng)絡(luò)已經(jīng)能在高度重疊的數(shù)字分割上顯露頭角

雷鋒網(wǎng) AI 科技評論按:眼見“深度學(xué)習(xí)教父”Geoffery Hinton在許多場合談到過自己正在攻關(guān)的“Capsule”之后,現(xiàn)在我們終于等到了這篇論文,得以具體感受Capsule的特性。雷鋒網(wǎng) AI 科技評論把這篇論文主要成果介紹如下。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

背景

目前的神經(jīng)網(wǎng)絡(luò)中,每一層的神經(jīng)元都做的是類似的事情,比如一個(gè)卷積層內(nèi)的每個(gè)神經(jīng)元都做的是一樣的卷積操作。而Hinton堅(jiān)信,不同的神經(jīng)元完全可以關(guān)注不同的實(shí)體或者屬性,比如在一開始就有不同的神經(jīng)元關(guān)注不同的類別(而不是到最后才有歸一化分類)。具體來說,有的神經(jīng)元關(guān)注位置、有的關(guān)注尺寸、有的關(guān)注方向。這類似人類大腦中語言、視覺都有分別的區(qū)域負(fù)責(zé),而不是分散在整個(gè)大腦中。

為了避免網(wǎng)絡(luò)結(jié)構(gòu)的雜亂無章,Hinton提出把關(guān)注同一個(gè)類別或者同一個(gè)屬性的神經(jīng)元打包集合在一起,好像膠囊一樣。在神經(jīng)網(wǎng)絡(luò)工作時(shí),這些膠囊間的通路形成稀疏激活的樹狀結(jié)構(gòu)(整個(gè)樹中只有部分路徑上的膠囊被激活),從而形成了他的Capsule理論。Capsule也就具有更好的解釋性。值得一提的是,同在谷歌大腦(但不在同一個(gè)辦公室)的Jeff Dean也認(rèn)為稀疏激活的神經(jīng)網(wǎng)絡(luò)是未來的重要發(fā)展方向,不知道他能不能也提出一些不同的實(shí)現(xiàn)方法來。

Capsule這樣的網(wǎng)絡(luò)結(jié)構(gòu)在符合人們“一次認(rèn)知多個(gè)屬性”的直觀感受的同時(shí),也會帶來另一個(gè)直觀的問題,那就是不同的膠囊應(yīng)該如何訓(xùn)練、又如何讓網(wǎng)絡(luò)自己決定膠囊間的激活關(guān)系。Hinton這篇論文解決的重點(diǎn)問題就是不同膠囊間連接權(quán)重(路由)的學(xué)習(xí)。

解決路由問題

首先,每個(gè)層中的神經(jīng)元分組形成不同的膠囊,每個(gè)膠囊有一個(gè)“活動向量”activity vector,它是這個(gè)膠囊對于它關(guān)注的類別或者屬性的表征。樹結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)就對應(yīng)著一個(gè)活動的膠囊。通過一個(gè)迭代路由的過程,每個(gè)活動的膠囊都會從高一層網(wǎng)絡(luò)中的膠囊中選擇一個(gè),讓它成為自己的母節(jié)點(diǎn)。對于高階的視覺系統(tǒng)來說,這樣的迭代過程就很有潛力解決一個(gè)物體的部分如何層層組合成整體的問題。

對于實(shí)體在網(wǎng)絡(luò)中的表征,眾多屬性中有一個(gè)屬性比較特殊,那就是它出現(xiàn)的概率(網(wǎng)絡(luò)檢測到某一類物體出現(xiàn)的置信度)。一般典型的方式是用一個(gè)單獨(dú)的、輸出0到1之間的回歸單元來表示,0就是沒出現(xiàn),1就是出現(xiàn)了。在這篇論文中,Hinton想用活動向量同時(shí)表示一個(gè)實(shí)體是否出現(xiàn)以及這個(gè)實(shí)體的屬性。他的做法是用向量不同維度上的值分別表示不同的屬性,然后用整個(gè)向量的模表示這個(gè)實(shí)體出現(xiàn)的概率。為了保證向量的長度,也就是實(shí)體出現(xiàn)的概率不超過1,向量會通過一個(gè)非線性計(jì)算進(jìn)行標(biāo)準(zhǔn)化,這樣實(shí)體的不同屬性也就實(shí)際上體現(xiàn)為了這個(gè)向量在高維空間中的方向。

采用這樣的活動向量有一個(gè)很大的好處,就是可以幫助低層級的膠囊選擇自己連接到哪個(gè)高層級的膠囊。具體做法是,一開始低層級的膠囊會給所有高層級的膠囊提供輸入;然后這個(gè)低層級的膠囊會把自己的輸出和一個(gè)權(quán)重矩陣相乘,得到一個(gè)預(yù)測向量。如果預(yù)測向量和某個(gè)高層級膠囊的輸出向量的標(biāo)量積更大,就可以形成從上而下的反饋,提高這兩個(gè)膠囊間的耦合系數(shù),降低低層級膠囊和其它高層級膠囊間的耦合系數(shù)。進(jìn)行幾次迭代后,貢獻(xiàn)更大的低層級膠囊和接收它的貢獻(xiàn)的高層級膠囊之間的連接就會占越來越重要的位置。

在論文作者們看來,這種“一致性路由”(routing-by-agreement)的方法要比之前最大池化之類只保留了唯一一個(gè)最活躍的特征的路由方法有效得多。

網(wǎng)絡(luò)構(gòu)建

作者們構(gòu)建了一個(gè)簡單的CapsNet。除最后一層外,網(wǎng)絡(luò)的各層都是卷積層,但它們現(xiàn)在都是“膠囊”的層,其中用向量輸出代替了CNN的標(biāo)量特征輸出、用一致性路由代替了最大池化。與CNN類似,更高層的網(wǎng)絡(luò)觀察了圖像中更大的范圍,不過由于不再是最大池化,所以位置信息一直都得到了保留。對于較低的層,空間位置的判斷也只需要看是哪些膠囊被激活了。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

這個(gè)網(wǎng)絡(luò)中最底層的多維度膠囊結(jié)構(gòu)就展現(xiàn)出了不同的特性,它們起到的作用就像傳統(tǒng)計(jì)算機(jī)圖形渲染中的不同元素一樣,每一個(gè)膠囊關(guān)注自己的一部分特征。這和目前的計(jì)算機(jī)視覺任務(wù)中,把圖像中不同空間位置的元素組合起來形成整體理解(或者說圖像中的每個(gè)區(qū)域都會首先激活整個(gè)網(wǎng)絡(luò)然后再進(jìn)行組合)具有截然不同的計(jì)算特性。在底層的膠囊之后連接了PrimaryCaps層和DigitCaps層。

實(shí)驗(yàn)結(jié)果

由于膠囊具有新的特性,所以文中的實(shí)驗(yàn)結(jié)果也并不只是跑跑Benchmark而已,還有很多對膠囊?guī)淼男绿匦缘姆治觥?/p>

數(shù)字識別

首先在MNIST數(shù)據(jù)集上,經(jīng)過三次路由迭代學(xué)習(xí)、層數(shù)也不算多的CapsNet就得到了優(yōu)秀的錯(cuò)誤率。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

同時(shí),作者們依據(jù)CapsNet中的表征對“網(wǎng)絡(luò)認(rèn)為自己識別到”的圖像進(jìn)行重構(gòu),表明在正確識別的樣本中(豎線左側(cè)),CapsNet可以正確識別到圖像中的細(xì)節(jié),同時(shí)降低噪聲。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

健壯性

由于網(wǎng)絡(luò)結(jié)構(gòu)中DigitCaps部分能夠分別學(xué)到書寫中旋轉(zhuǎn)、粗細(xì)、風(fēng)格等變化,所以對小變化的健壯性更好。在用一個(gè)隨機(jī)抹黑過數(shù)字的MNIST數(shù)據(jù)集訓(xùn)練CapsNet后,作者們用它來識別affNIST數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中的樣本都是經(jīng)過小幅度變化后的MNIST樣本,變化后的樣本如下圖。這個(gè)CapsNet直接拿來識別affNIST的正確率有79%;同步訓(xùn)練的、參數(shù)數(shù)目類似的CNN只有66%。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

分割高度重合的數(shù)字

作者們把MNIST數(shù)據(jù)集中的數(shù)字兩兩疊在一起建立了MultiMNIST數(shù)據(jù)集,兩個(gè)數(shù)字的邊框范圍平均有80%是重合的。CapsNet的識別結(jié)果高于CNN基準(zhǔn)自不必提,但作者們接下來做的圖形分析中清晰地展現(xiàn)出了膠囊的妙處。

如圖,作者們把兩個(gè)激活程度最高的膠囊對應(yīng)的數(shù)字作為識別結(jié)果,據(jù)此對識別到的圖像元素進(jìn)行了重構(gòu)。對于下圖中識別正確的樣本(L指真實(shí)標(biāo)簽,R指激活程度最高的兩個(gè)膠囊對應(yīng)的標(biāo)簽),可以看到由于不同的膠囊各自工作,在一個(gè)識別結(jié)果中用到的特征并不會影響到另一個(gè)識別結(jié)果,不受重疊的影響(或者說重疊部分的特征可以復(fù)用)。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

另一方面,每個(gè)膠囊還是需要足夠多的周邊信息支持,而不是一味地認(rèn)為重疊部分的特征就需要復(fù)用。下圖左圖是選了一個(gè)高激活程度的膠囊和一個(gè)低激活程度膠囊的結(jié)果(*R表示其中一個(gè)數(shù)字既不是真實(shí)標(biāo)簽也不是識別結(jié)果,L仍然為真實(shí)標(biāo)簽)??梢钥吹?,在(5,0)圖中,關(guān)注“7”的膠囊并沒有找到足夠多的“7”的特征,所以激活很弱;(1,8)圖中也是因?yàn)闆]有“0”的支持特征,所以重疊的部分也沒有在“0”的膠囊中用第二次。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

膠囊效果的討論

在論文最后,作者們對膠囊的表現(xiàn)進(jìn)行了討論。他們認(rèn)為,由于膠囊具有分別處理不同屬性的能力,相比于CNN可以提高對圖像變換的健壯性,在圖像分割中也會有出色的表現(xiàn)。膠囊基于的“圖像中同一位置至多只有某個(gè)類別的一個(gè)實(shí)體”的假設(shè)也使得膠囊得以使用活動向量這樣的分離式表征方式來記錄某個(gè)類別實(shí)例的各方面屬性,還可以通過矩陣乘法建模的方式更好地利用空間信息。不過膠囊的研究也才剛剛開始,他們覺得現(xiàn)在的膠囊至于圖像識別,就像二十一世紀(jì)初的RNN之于語音識別 —— 研究現(xiàn)在只是剛剛起步,日后定會大放異彩。

論文全文參見:https://arxiv.org/pdf/1710.09829.pdf 

雷鋒網(wǎng) AI 科技評論編譯

相關(guān)文章:

重磅| Geffory Hinton:深度學(xué)習(xí)進(jìn)入平臺期?不,深度學(xué)習(xí)需要的是“推倒重來”

Hinton親自講解迄今未發(fā)表工作:膠囊理論的核心概念到底是什么?

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

終于盼來了Hinton的Capsule新論文,它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說