丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國際 正文
發(fā)私信給李尊
發(fā)送

1

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

本文作者: 李尊 2016-06-24 19:04
導(dǎo)語:文中提出一個(gè)深度神經(jīng)網(wǎng)絡(luò),它根據(jù)順序沿著兩個(gè)空間維度來預(yù)測圖片中的像素。該模型離散了原始像素值的可能性,同時(shí)編碼保證了整個(gè)圖片的完整性。

對自然圖片的分布進(jìn)行建模一直以來都是無監(jiān)督學(xué)習(xí)中的里程碑式的難題。這要求圖片模型易表達(dá)、易處理、可拓展。我們提出一個(gè)深度神經(jīng)網(wǎng)絡(luò),它根據(jù)順序沿著兩個(gè)空間維度來預(yù)測圖片中的像素。我們的模型離散了原始像素值的可能性,同時(shí)編碼保證了整個(gè)圖片的完整性。

建模特性包含二維循環(huán)層,以及對深度遞歸網(wǎng)絡(luò)連接的有效利用。我們實(shí)現(xiàn)了比之前所有的模型都要好的在自然圖片上對數(shù)可能性的分?jǐn)?shù)。我們的主要結(jié)果也對Imagenet進(jìn)行分類提供了支撐依據(jù)。從模型分析出的樣本相當(dāng)清楚、多樣且有普遍適用性。

引言

在無監(jiān)督學(xué)習(xí)中,通用型圖形建模一直以來都是中心問題。概率密度模型可以被用來處理一系列圖像壓縮到和圖像重構(gòu)等復(fù)雜的問題,如圖像修復(fù)(圖1)以及使圖像去糊,以及生成新的圖片。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖1 從PixelRNN采集的樣本

通用模型其中一個(gè)巨大優(yōu)勢就是有近乎無數(shù)的圖像數(shù)據(jù)可以學(xué)習(xí)。然而,因?yàn)閳D像是高維且高度構(gòu)造的,預(yù)估自然圖片的分布是相當(dāng)大的一個(gè)難題。在生成通用模型的過程中最重要的挑戰(zhàn)之一是將它建的復(fù)雜、直觀同時(shí)又易處理、可拓展。這種權(quán)衡產(chǎn)生了大量的通用模型,且它們每一個(gè)都有自身的優(yōu)勢。構(gòu)建已處理模型的一個(gè)有效方式是將圖像中的聯(lián)合像素作為一個(gè)有條件的分布產(chǎn)品。這種構(gòu)建方式被稱為自回歸模型,如NADE。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是相當(dāng)厲害的模型因?yàn)樗峁┢跫s式、分享性的參數(shù)化系列條件分布。在本文中我們改進(jìn)了二維循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs,并將它運(yùn)用到大規(guī)模的自然圖片建模中。我們也同樣考慮了另外一種簡化了的構(gòu)筑方法,它和PixelRNN的核心內(nèi)容是一樣的。PixelRNN和PixelCNN抓住了整個(gè)像素相關(guān)的概括特征,不用引入獨(dú)立性的假設(shè),如潛在的變化模型。

本文的貢獻(xiàn)如下:

在第3節(jié)中,我們設(shè)計(jì)了兩種PixelRNNs來對應(yīng)兩種LSTM的層級:

我們認(rèn)為純粹的回旋PixelCNN是我們最快的構(gòu)筑方法,同時(shí)我們設(shè)計(jì)了PixelRNN的通用版。在第5節(jié)中,我們展示了在我們的模型以及調(diào)用LSTM層中的連接中使用離散softmax分布的相關(guān)好處。

接下來我們在MNIST和CIFAR-10上進(jìn)行了測試,結(jié)果表明他們獲得了比之前所有的模型都要好的對數(shù)可能性的分?jǐn)?shù)。我們也提供了對大范圍ImageNet數(shù)據(jù)組重新調(diào)整大小至32 32和64 64像素的結(jié)果。從我們了解的來看最有可能的生產(chǎn)模型在數(shù)據(jù)組中還沒有被報(bào)道過。

最后,我們對于PixelRNNs生成的樣本數(shù)據(jù)進(jìn)行了定性評估。

模型

我們的目標(biāo)是預(yù)測可以用來運(yùn)算的圖像以及可以生成的新圖像的自然圖片分布情況。神經(jīng)網(wǎng)絡(luò)掃描圖像都是每次一行以及每行一個(gè)像素。通過掃描值,它對每個(gè)像素的像素值的條件分布進(jìn)行預(yù)測。圖像像素的關(guān)聯(lián)分布被分成一個(gè)有條件的分布。在預(yù)測中的限定條件也在圖像所有的像素位置進(jìn)行共享。

在這一節(jié)中我們將先來關(guān)注分布形式,而在下一節(jié)中我們將主要講述PixelRNN內(nèi)部的構(gòu)筑創(chuàng)新點(diǎn)。

一個(gè)像素一個(gè)像素地生成圖片

我們的目的是將一個(gè)概率p(x)添加到一張由n×n構(gòu)成的圖像x中。公式如下

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

p(xi|x1,...,xi?1)值是依據(jù)前序像素x1,...,xi?1第i個(gè)像素 x i的概念,運(yùn)算過程是一行一行,一個(gè)像素一個(gè)像素進(jìn)行的。如圖2左所示:

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

每個(gè)像素x i反過來又由三個(gè)值決定,每個(gè)都由三種顏色紅、綠、藍(lán)三色構(gòu)成。我們將它們的分布排布如下:

p(xi,R|x<i)p(xi,G|x<i,xi,R)p(xi,B|x<i,xi,R,xi,G) (2)

像素作為分散變量

在之前的嘗試中我們使用連續(xù)分布來計(jì)算圖像中的像素值。這次我們反過來將p(x)設(shè)計(jì)為離散分布,將公式2中的每個(gè)條件分布用softmax層來設(shè)計(jì)。根據(jù)實(shí)驗(yàn)我們發(fā)現(xiàn)離散分布比連續(xù)分布更易學(xué)習(xí)且表現(xiàn)更好。

像素遞歸神經(jīng)網(wǎng)絡(luò)

在這節(jié)中我們將介紹PixelRNN的構(gòu)筑部分。

在本節(jié)中,我們描述了構(gòu)成PixelRNN的結(jié)構(gòu)組件。在第3.1和3.2,我們描述了兩種使用卷積一次各州計(jì)算沿著空間維度之一LSTM層。在3.3節(jié)中,我們描述了如何將剩余的連接,以提高PixelRNN與許多LSTM層的培訓(xùn)。在3.4節(jié),我們描述了一個(gè)計(jì)算顏色的離散聯(lián)合分布,并確保適當(dāng)?shù)恼{(diào)理方案屏蔽技術(shù)的SOFTMAX層。在3.5節(jié)我們描述了PixelCNN架構(gòu)。最后,在第3.6節(jié),我們描述了多尺度結(jié)構(gòu)。

Row LSTM

Row LSTM是將圖像一行一行從上到下一次性完整分析它的特性,整個(gè)分析過程是一維回旋的。運(yùn)算過程如下:

一個(gè)Row LSTM網(wǎng)絡(luò)層有一個(gè)輸入狀態(tài)的成分以及周期性的狀態(tài)轉(zhuǎn)換成分,它們一起組成了長短期記憶人工神經(jīng)網(wǎng)絡(luò)核心的四個(gè)大門。為了提高Row LSTM網(wǎng)絡(luò)行的輸入狀態(tài)成分先要將整個(gè)二維輸入地圖運(yùn)算完全。

BiLSTM對角線

Diagonal BiLSTM被設(shè)計(jì)為既能并行計(jì)算又能抓取任何尺寸圖像的可用文本信息。圖4就解釋了其大致過程。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖4

剩余連接

我們將PixelRNNs訓(xùn)練到12層深度,從LSTM層拓展到另一個(gè)深度。圖5為剩余模塊的大致圖解:

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖5

隱藏回旋

       在網(wǎng)絡(luò)中每層每一個(gè)輸入位置的h特性都分散到了三個(gè)部分,每個(gè)都對應(yīng)著一個(gè)RGB頻道。我們也使用兩種隱藏方式mask A和mask B, 如下圖所示。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

PixelCNN

The Row和Diagonal LSTM在它們自身領(lǐng)域都有一個(gè)無限制的范圍,由于每次都需要按序列計(jì)算,這將造成相當(dāng)大的運(yùn)算損失。PixelCNN使用多維卷積層來阻止空間錯(cuò)誤,但它只用在訓(xùn)練估算測試圖片時(shí)。

Multi-Scale PixelRNN

Multi-Scale PixelRNN由無限制PixelRNN以及PixelRNNs組成。

模型說明

這一節(jié)中我們將給出像素遞歸神經(jīng)網(wǎng)絡(luò)(PixelRNNs)在實(shí)驗(yàn)中運(yùn)用的說明。

我們有四種網(wǎng)絡(luò):

1.       基于Row LSTM的PixelRNN

2.       基于Diagonal BiLSTM的網(wǎng)絡(luò)

3.       完全卷曲網(wǎng)絡(luò)

4.       多標(biāo)度的網(wǎng)絡(luò)

表一詳細(xì)說明了每層在單標(biāo)度網(wǎng)絡(luò)的特性。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

表1 構(gòu)筑特性

實(shí)驗(yàn)

這一節(jié)中我們來談實(shí)驗(yàn)以及結(jié)果部分。首先我們來探討我們的運(yùn)算方法以及結(jié)果對比。在5.2節(jié)中我們將會(huì)詳細(xì)談到訓(xùn)練的細(xì)節(jié)。然后我們將給出在構(gòu)筑成分上的相關(guān)有效性的成果,以及我們在MNIST、CIFAR-10 和ImageNet數(shù)據(jù)組方面的最佳成績。

估算

我們所有的模型都是按從離散分布中得到的對數(shù)可能性損失運(yùn)算訓(xùn)練和預(yù)估的。

訓(xùn)練細(xì)節(jié)

我們所有的模型都是使用Torch工具盒在GPU上進(jìn)行訓(xùn)練的。從不同的限定條件來看,RMSProp是集合表現(xiàn)最佳的,把它用來進(jìn)行所有的測試。結(jié)合所有的像素遞歸神經(jīng)網(wǎng)絡(luò)來看,我們了解到了最初的循環(huán)神經(jīng)狀態(tài)。

離散softmax分布

Softmax除了是一個(gè)直接的、容易的工具外,我們發(fā)現(xiàn)將它使用在離散像素值上也能得到更好的結(jié)果。在圖6中我們展示了一些模型中softmax的活動(dòng)狀態(tài)。另一個(gè)離散分布的優(yōu)勢是我們不用擔(dān)心間隔處外的大量分布小塊,而這在連續(xù)分布中則經(jīng)常出現(xiàn)。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖6 模型中softmax的活動(dòng)狀態(tài)

5.4剩余連接

神經(jīng)網(wǎng)絡(luò)另一個(gè)核心部分是剩余連接。使用剩余連接和使用跳躍連接一樣有效,兩個(gè)一起使用還能協(xié)同加速、充分發(fā)揮優(yōu)勢。

 谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

表2 剩余和跳躍連接在ROW LSTM網(wǎng)絡(luò)上的效果

當(dāng)同時(shí)使用剩余和跳躍連接時(shí),我們可以在表3中看到其在ROW LSTM上的提升效果。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

表3

MINST

雖然我們的目標(biāo)是對自然圖片進(jìn)行大范圍建模,但我們也嘗試了用二維MINST對我們的模型進(jìn)行了測試。在表4中我們將Diagonal BiLSTM模型與之前已發(fā)布的結(jié)果進(jìn)行了對比,據(jù)我們所知這是最好的MNIST測試成績。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

表4

CIFAR-10

接下來我們在CIFAR-10上測試了我們的模型,表5列舉了我們模型的測試結(jié)果以及與已發(fā)布的進(jìn)行對比。對于這些神經(jīng)網(wǎng)絡(luò)而言,Diagonal BiLSTM表現(xiàn)最好,Row LSTM和PixelRNN緊隨其后。這也符合它們各自的優(yōu)勢領(lǐng)域:Diagonal BiLSTM有全局感官,Row LSTM有特定閉合感官,PixelRNN能感覺到文本最微小的細(xì)節(jié)。下圖展示的是Diagonal BiLSTM在CIFAR-10的表現(xiàn):

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

表5 不同模型在CIFAR-10上的測試表現(xiàn)

IMAGENET

雖然據(jù)我們所知在ILSVRC ImageNet上還沒有已發(fā)布的能與我們模型對比的結(jié)果,我們還是進(jìn)行了測試,結(jié)果如表6所示。

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

表6 ImageNet 32×32和 64× 64逆對數(shù)可能表現(xiàn)

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖7  我們的模型在ImageNet上訓(xùn)練的32 × 32結(jié)果樣本

 

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖8 同樣的模型在沒有多比例條件下的64× 64 模型結(jié)果樣本

谷歌ICML獲獎(jiǎng)?wù)撐? 看像素遞歸神經(jīng)網(wǎng)絡(luò)如何幫圖片“極致”建模 ?

圖9 模型訓(xùn)練完整圖片

 

結(jié)論

在這篇文章中,我們在深度遞歸網(wǎng)絡(luò)下建立了對自然圖片的通用建模并顯著提升了它的效率。我們提出了一種新穎的二維LSTM層:ROW LSTM和 Diagonal BiLSTM,它能更容易擴(kuò)展到其他數(shù)據(jù)上。這些模型被訓(xùn)練來模擬原始的RGB像素值。在使用一種softmax層在有條件的分布下,我們將像素值作為離散隨機(jī)變量來處理。我們使用隱藏回旋來讓PixelRNNs來在色彩頻道之間完整地獨(dú)立建模。在這些模型中我們改進(jìn)了一些構(gòu)筑特性使得PixelRNNs能夠達(dá)到12層LSTM。

我們的實(shí)驗(yàn)證明PixelRNNs能夠顯著提升MNIST和CIFAR-10數(shù)據(jù)組的表現(xiàn)。同時(shí)也對Imagenet數(shù)據(jù)組進(jìn)行圖像建模提供了新的支撐依據(jù)。通過部分樣本以及完整樣本的結(jié)果,我們認(rèn)為PixelRNNs對局部以及大范圍關(guān)聯(lián)圖像建模效果良好,而且能夠使圖像更加清晰完善。像我們一樣給予這些模型改進(jìn)能夠讓他們更強(qiáng)大,而且鑒于還有無數(shù)的數(shù)據(jù)可以進(jìn)行訓(xùn)練,我們認(rèn)為這個(gè)結(jié)果還能進(jìn)一步提升。

via ICML

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說