丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給圖普科技
發(fā)送

0

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

本文作者: 圖普科技 編輯:谷磊 2017-06-05 10:33
導語:“范例卷積神經(jīng)網(wǎng)絡”是“自監(jiān)督學習”的一個絕佳例子

雷鋒網(wǎng)按:本文由圖普科技編譯自《Exemplar CNNs and Information Maximization》,雷鋒網(wǎng)獨家首發(fā)。

前幾周,我針對一篇題為《Unsupervised Learning by Predicting Noise》的論文寫了自己的解讀和看法。在文章中,我提到了解讀這一方法的另一個角度——信息最大化,即尋找有限熵數(shù)據(jù)的非線性表征,同時最大程度地保留輸入的信息。

在那篇文章中,我簡單地提了一下“Exemplar-CNNs”的方法。這一方法也能被理解為“卷積神經(jīng)網(wǎng)絡范例”。我是從下面這篇論文中了解到這個方法的:

《 Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks》Dosovitskiy, Fischer, Springenberg, Riedmiller & Brox (2014)

在此之前我從沒見過“范例”與“卷積神經(jīng)網(wǎng)絡”的組合,所以我認為這可能是論文所做的的“首創(chuàng)”。

本文內容摘要:

  • 本文對“范例卷積神經(jīng)網(wǎng)絡”的訓練方法僅作了簡單簡單的概述,所以如果想要獲得更多、更真實的信息,請閱讀論文原文。

  • 本文簡要介紹了“變分信息最大化”,并將其運用到了“范例卷積神經(jīng)網(wǎng)絡”的案例中。

  • 我們在案例中只使用了一個數(shù)量適中的訓練圖像集,“范例卷積神經(jīng)網(wǎng)絡”恰恰利用了這一點,把數(shù)據(jù)分布表示為一個經(jīng)驗分布(離散有限可能性的分布)。

  • 假設我們離散了分布,使之變得不連續(xù),那么“范例卷積神經(jīng)網(wǎng)絡”就能夠被推導成為“種子圖像”和其表征之間的互信息的一個下界。

“范例卷積神經(jīng)網(wǎng)絡”概述

在前面提到的論文中,Dosovistkiy等人采用的方法其實很簡單。從一個未經(jīng)標記的數(shù)據(jù)庫中取出適量有趣的圖像,把這些圖像稱為“種子圖像”或者是“范例”。你需要對每一個圖像進行各種各樣的轉換,你可以更改“種子圖像”的顏色,或者把它旋轉至不同的方向。而這些轉換后的圖像集合就是一個“代理圖像集”。下圖就是對一只鹿的“種子圖像”進行各種轉換之后得到的圖像集:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

每一張范例圖像都需要經(jīng)過轉換,形成一個“代理圖像集”。所以,你有多少張“種子圖像”,就會有多少個“代理圖像集”。完成以后,你就可以開始一個卷積網(wǎng)絡的訓練了。你需要讓它通過一張轉換后的圖像,推測其“種子圖像”的各項指數(shù)。所以,如果你有8000個“種子圖像”,你就需要解決8000個圖像分類的問題。那么相應地,你的卷積網(wǎng)絡也就具備了8000維度的分類功能。

當然了,“種子圖像”數(shù)量越多,網(wǎng)絡訓練的難度就越大,到最后網(wǎng)絡掌握的分類功能的維度也就越高。論文的作者們表示,8000個“種子圖像”尚在網(wǎng)絡分類功能可處理的范圍之內,而且這8000個圖像的訓練就已足夠讓我們達到比較理想的效果了。

下面我想補充的是——我們在“范例卷積神經(jīng)網(wǎng)絡”中建立的“馬爾科夫鏈”的圖像模型視圖。

變分信息最大化的視圖

“信息最大化”能夠根據(jù)信息測量變量的不同,采取不同的方式來進行表征學習。為了進一步了解“范例卷積神經(jīng)網(wǎng)絡”,我們來看下圖的“馬爾科夫鏈”:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

上圖中的X表示“種子圖像”,Tαx表示轉換后的圖像(隨機抽樣變換參數(shù)α),Z=g(Tαx;Θ)表示采用了隨機圖像并計算了其表征的一個映射。所以,從Tαx到的Z箭頭事實上是一個確定性映射。

如果我們把z看作是x的表征,那么實現(xiàn)“互信息”║[X,Z]的最大化就是有意義的。這個“互信息”有一個下界,這個下界就是標準的“變分下限”。

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

如果我們的變分集Q涵蓋了真實情境Px∣z,那么這一下界就是確定的。

“范例卷積神經(jīng)網(wǎng)絡”的特別之處就在于,它利用了“分布Px實際上是N觀測值的一個經(jīng)驗分布”這一事實。這是當我們推導一個損失函數(shù)時,通常被我們否定的一種情況,只有在最后才能代替經(jīng)驗分布,構造一個無偏估計值。這里,我們很大程度上是依靠這樣一個事實——我們只有N觀測值,而且N與數(shù)據(jù)維度D相比較小。用N來模擬離散分布,比模擬圖像分布要簡單得多。

如果我們有N的“種子圖像”Xn,那么我們就可以勉強用X來表示下面的經(jīng)驗分布:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

假如Z的分布被稍稍地離散了,那么賦予Z的情境也會被離散,只是離散的比例不同。

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

因此,在這種情況下,一個僅根據(jù)不同比例離散分布的變分集合Q就變得非常必要了:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

上面公式中,W代表的是q的參數(shù),πn(Z,W)表示形成了一個有效的離散概率分布。這樣才會使得“范例卷積神經(jīng)網(wǎng)絡”和信息最大化。如果我們讓離散比例πn(Z,W)靈活地任意變化,變分集合Q就能意識到其后部內容,而我們對“互信息”的限制就會比較嚴格。使用上面對qΘ的定義,我們可以把下界表達為:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

從x可以得到其表征z,使用其中的原理,我們可以依據(jù)轉換參數(shù)α的期望值,寫出以下表達式:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

表達式左邊的部分看上去很像是“范例卷積神經(jīng)網(wǎng)絡”學習的“N式”分類問題:我們可以把其中的πn看作是“N式”的分類器,這個分類器需要一張任意轉換過的圖像,然后估測出“代理集合”n。上面的方程式事實上是這個分類器的“損失函數(shù)”。

為獲得真正的“范例卷積神經(jīng)網(wǎng)絡”方程式,我們需要做的最后一件事是進一步限制Q。因此,我們只能讓離散比例π符合以下的邏輯回歸式:

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

如果我們把這些值重新代入之前得出的方程式,那么我們就會得到論文中提到的“多項損失函數(shù)”(與論文中的方程式5相對比):

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

因此,我們已經(jīng)證明了“范例卷積神經(jīng)網(wǎng)絡”進行優(yōu)化的目標函數(shù),實際上是限制“種子圖像”和轉換后圖像的表征g(Tαx)間的“互信息”的一個下界。

這個“互信息”下界的限制有多嚴格?

“互信息”的下界限制其實可能并不是那么的嚴格,因為π(z,Θ)僅受限于線性分類器。但是如果我們決心嚴格限制互信息,那么這個下界是完全可能更加嚴格的。確實,如果我們不考慮最后一層g,而是把一些中間的隱藏層視作表征,把上面的一些層視作是q的一部分,那么這個所謂的下界限制就仍然是有效的,而且中間層的限制就會更嚴格。

那些非寬松的界限并不一定就是故障所在,相反,它可能還是一個特色。僅考慮q的邏輯回歸模型,實際上是一個比信息優(yōu)化更嚴格的目標函數(shù)。就像我之前經(jīng)常提到的,“互信息”本身對表征的可逆再參量化并不敏感,因此它不能夠自己找到已還原了的表征。所以,僅考慮下界的問題可能更適用于這個案例。你不僅需要用z來保留關于x的信息,還需要一個線性可辨性的格式,如果你之后想要把表征用于線性分類器的話,那么這個線性可辨性就是一個相當有用的屬性。

到底什么東西才能被用作表征?

最后,一個這樣的問題出現(xiàn)了——到底什么樣的函數(shù)或映射應該被用作表征呢?關于這個問題,你有三個選項:

  • 作者是把g(x,Θ)的層用作表征本身的。這在我看來是有些難以理解的,因為這個函數(shù)從未經(jīng)過一個真實圖像補丁的訓練,它只受過轉換過的圖像補丁Tαx的訓練。我認為作者這一做法的原因是,盡管受到種子補丁的訓練較少,但是這個函數(shù)已經(jīng)經(jīng)過大量轉換過的圖像的訓練,所以它是完全有能力成為表征的。作者還提出,最后一層最終將會被訓練得越來越不容易受轉換圖像的影響。

  • 你可以使用一個隨機表征g(Tαx,Θ),但是過不久這個表征就會顯得很累贅,不好處理。因為你必須每次都抽樣檢查α,對它進行評估,并且整合α上面建立的所有表征。

  • 你可以使用“范例卷積神經(jīng)網(wǎng)絡”和信息最大化的方法。如果g是轉換圖像的不變量,那么它就能表示成“范例卷積神經(jīng)網(wǎng)絡”和信息最大化。實際上,如果g不是轉換圖像的不變量,那“范例卷積神經(jīng)網(wǎng)絡”和信息最大化可能更有可能是不變的。

最后,就像我在前面說的,你可以把g的中間層當作表征,而不是最后一層。你還是可以訓練那些中間層,讓他們實現(xiàn)信息最大化,事實上那些中間層的界限還更嚴格一些。其實作者也是這樣做的:他們集合了各個層的特征,然后考慮了所有中間層之上的一個線性SVM。

總結

“范例卷積神經(jīng)網(wǎng)絡”是“自監(jiān)督學習”的一個絕佳例子。采用一個未經(jīng)標記的數(shù)據(jù)庫,并在此之上建立一個代理的監(jiān)督式學習任務來幫助表征學習。像我在本文中說的,“范例卷積神經(jīng)網(wǎng)絡”還能被理解為——尋找一個信息最大化的表征。

相對簡單的用于變分界限的變分分布可能是個非常有益的東西,而設立嚴格的界限可能反而會讓事情變得更糟。誰知道呢?但是在這個框架內建立“范例卷積神經(jīng)網(wǎng)絡”,確實讓我們更好地理解了其工作原理。

雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉載。詳情見轉載須知。

“范例卷積神經(jīng)網(wǎng)絡”和信息最大化

分享:
相關文章

專欄作者

基于圖像識別技術多維度解讀圖片和視頻
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說