丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給圖普科技
發(fā)送

0

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

本文作者: 圖普科技 編輯:谷磊 2017-05-26 12:50
導(dǎo)語:NAT的表征學(xué)習(xí)原則可以理解為尋找InfoMax表征,即最大化地保留了輸入數(shù)據(jù)的信息的有限熵的表征。

雷鋒網(wǎng)按:本文由圖普科技編譯自《Unsupervised Learning by Predicting Noise: an Information Maximization View》,雷鋒網(wǎng)獨(dú)家首發(fā)。

這個標(biāo)題是來自一篇近期在互聯(lián)網(wǎng)上流傳甚廣的論文——Bojanowski 和Joulin的《 Unsupervised Learning by Predicting Noise》 (2017)

Bojanowski and Joulin在論文中介紹了一種叫做“噪聲目標(biāo)法”(NAT)的方法。它通過將數(shù)據(jù)映射到隨機(jī)采樣的噪聲向量,進(jìn)行表征學(xué)習(xí)。這個方法看似簡單,實(shí)際上功能非常強(qiáng)大,甚至還有超乎常理。

在這篇文章中,我把這個算法重新解讀為“一個信息最大化的工具”。如果你愿意從我的這個角度來考慮這個算法,你就不難理解“噪聲目標(biāo)法”了。

本文內(nèi)容摘要

1、本文從informax(信息最大化)算法入手,解釋如何最大程度地保留輸入數(shù)據(jù)信息,進(jìn)而學(xué)習(xí)最優(yōu)的密集表征。

2、把表征限制在一個單位范圍內(nèi),對于informax算法框架十分有利,本文闡明了其中的原因。

3、一個分布均勻的確定性表征是否存在,以及informax算法標(biāo)準(zhǔn)是否達(dá)到了最大化,問題的答案非常明顯。因此,如果我們相信這樣的解決方法是確實(shí)存在的,那么我們完全可以直接尋找接近均勻分布的確定性映射。

4、“噪聲目標(biāo)法”(NAT)就是尋找一個在單位范圍的邊緣是均勻分布的確定性映射。具體來說就是,從統(tǒng)一樣本中,盡量縮小實(shí)際操作的“地球移動距離”(EMD)。

5、Bojanowski和Joulin在他們的論文中提到了隨機(jī)使用“匈牙利算法”來更新分配矩陣,在本文的最后,我也對此作了簡單的闡述。 

通過信息最大化進(jìn)行表征的學(xué)習(xí)

假設(shè)我們現(xiàn)在將要學(xué)習(xí)來自于一些 pX分布的數(shù)據(jù) xn的一個密集表征。通常情況下,表征可以用一個隨機(jī)變量zn表示,這個變量作經(jīng)過了一些參數(shù)分布條件噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來的采樣。

xn~pX

zn~pZ|X=xn

在變化的自編碼器中,這個參數(shù)分布條件噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來會被稱為“編碼器”或者是“識別模型”,又或者是“攤銷變化后端”。不過重要的是,我們現(xiàn)在是跟“編碼器”進(jìn)行一對一工作,無需明確地指示出一個生成的分布噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來。

“信息最大化”原則的意思是一個好的表征的信息熵是密集分布的,同時還要保留輸入X中盡可能多的信息。這一目標(biāo)可以正式表達(dá)為:

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來表示“互信息”,噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來表示“申農(nóng)熵”。

我還引入了下面的符號分布:

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

在實(shí)際中,這些“最優(yōu)化問題”有可能是以各種不恰當(dāng)?shù)姆绞匠尸F(xiàn)的,所以這些問題本身也是存在問題的。

1、一般情況下,邊緣的熵是很難估測的。我們需要采取一種比較智能的方式來限制噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來,不需要對熵進(jìn)行實(shí)際的計算。

2、如果一個表征具有確定性和可逆性,那么“互信息”在連續(xù)的空間內(nèi)就是無限循環(huán)的,而這些最優(yōu)化問題就會變得毫無意義。所以,為了使這些最優(yōu)化問題變得有意義,我們需要確保那些病態(tài)的可逆行為永遠(yuǎn)都不會出現(xiàn)。

為了解決以上問題,我們可以作以下的改變:

1、首先,運(yùn)用勒貝格有限測度,把Z的定義域限制在的噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來子集范圍內(nèi),這樣一來,微分熵噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來在這個定義域內(nèi)就會始終受到均勻分布的熵的約束。為了與論文內(nèi)容一致,我們可以把表征定義域限制在歐幾里得單位噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來的范圍內(nèi)。

2、第二,嘗試把噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來和多噪聲表征噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來表示噪聲)之間的信息最大化。我將假定噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來遵循了一種球狀的分布規(guī)則,而這個添加的噪聲在實(shí)際操作中,從任何給定的范圍噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來內(nèi),設(shè)定了一個噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來預(yù)測的上限(或者是設(shè)定了表征可逆性的上限);從而也框定了“互信息”,把它限制在一個有限值內(nèi)。那么我們的最優(yōu)化問題就變成了:

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

這個損失函數(shù)生成了一種直觀的感受:你可能正以一種非常隨機(jī)的方式,把你的輸入Xn在單位范圍內(nèi)映射為Zn,但是這樣做,原始數(shù)據(jù)點(diǎn)Xn就會很容易從Zn的噪聲版——噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來恢復(fù)。換句話來說,我們是在尋找一個在某種程度上能夠抵擋加性噪聲的表征。

確定和統(tǒng)一的表征

我們能很輕易地指出是否存在至少一個表征pZ|X;θ,這個表征具備以下兩種特質(zhì):

第一,ZnXn的確定性函數(shù);第二,噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來是在單位范圍內(nèi)的均勻分布。

如果具備了以上特征,那么這個噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來就是信息最大化目標(biāo)中的全局最優(yōu)點(diǎn)。

但值得關(guān)注的是,這個確定性的表征也許并不是獨(dú)一無二的,可能會存在很多很多好的表征,尤其是當(dāng)噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來時。

再看這樣的案例:假設(shè)X是一個標(biāo)準(zhǔn)的多元高斯,表征Z是X的一個正常的正交投影。例如,針對一些正交轉(zhuǎn)換A來說:

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

Z在單位范圍內(nèi)將會具備均勻分布,而這也是一個確定性的映射。因此,Z是一個信息最大化的表征,它對任何同樣正交映射A都十分有利。

所以,如果我們假設(shè)只存在至少一個確定的、統(tǒng)一Px的表征,那么尋找確定的、能夠把數(shù)據(jù)映射為大致均勻分布的表征就意義非凡了。

這才是“噪聲目標(biāo)法”(NAT)的目的所在

為達(dá)到一個在表征空間里均勻的分布,NAT采用的方法是使“地球移動距離”(EMD)最小化。首先,我們根據(jù)已有的數(shù)據(jù)點(diǎn),隨機(jī)畫了盡可能多的均勻分布,我們把這些均勻分布看作Cn。然后,我們試著把每個Cn與一個數(shù)據(jù)點(diǎn)配對,直到Cn和對應(yīng)的表征噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來之間的“均方距離”達(dá)到最小值。一旦配對成功,已配對的表征和噪聲向量之間的“均方距離”就能被視為測量分布均勻性的度量單位。確實(shí),這是對“瓦瑟斯坦距離”(Pz分布和均勻分布之間的距離)的一種經(jīng)驗(yàn)性估測。

信息最大化的表征就一定是好的表征嗎?

過去的幾天,我做了太多這種類型的講話——什么是一個好的表征?無監(jiān)督的表征學(xué)習(xí)究竟是什么意思?對于InfoMax表征,你同樣可以提出這樣的問題:這是找到一個好表征的最佳指導(dǎo)原則嗎?

還不夠。對于新手,你可以以任意的方式轉(zhuǎn)換你的表征,只要你的轉(zhuǎn)換是可逆的,那么“互信息”就應(yīng)該是相同的。所以你可以在可逆的條件下對你的表征做任何轉(zhuǎn)換,無需考慮InfoMax的目標(biāo)。因此,InfoMax標(biāo)準(zhǔn)不能單獨(dú)找到你轉(zhuǎn)換過的表征。

更有可能出現(xiàn)的是,我們在操作經(jīng)驗(yàn)中所看到的那些成功案例都是ConvNets與InfoMax原則聯(lián)合使用的結(jié)果。我們僅在ConvNet比較容易展示的表征中,對信息進(jìn)行最大化操作。

本文總結(jié)

NAT的表征學(xué)習(xí)原則可以理解為尋找InfoMax表征,即最大化地保留了輸入數(shù)據(jù)的信息的有限熵的表征。在“卷積神經(jīng)網(wǎng)絡(luò)范例”中也存在類似的信息最大化的解讀,它根據(jù)數(shù)據(jù)點(diǎn)的噪聲版本來估測這個數(shù)據(jù)點(diǎn)的指數(shù)。在開始的時候,你肯定會認(rèn)為這些算法很奇怪,甚至是超乎常理的,但是如果我們把這些算法重新理解為信息最大化工具,我們就會對他們有所改觀。反正至少我對他們是有了更深的認(rèn)識和理解的。

特別內(nèi)容:一些關(guān)于EMD隨機(jī)版本的小提示

以這種文字的方式實(shí)施EMD度量的難處在于,你需要找到一個最優(yōu)的分配方案,分配好兩個實(shí)操經(jīng)驗(yàn)上的分布和尺度噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來。那么為了回避這個難題,作者提出了一個“最優(yōu)分配矩陣”的任意更新升級,即所有的配對一次只進(jìn)行一小批更新升級。

我并不指望這個“最優(yōu)分配矩陣”能有多有用,但是值得一提的是,這一矩陣使這個算法很容易陷入局部的最小值。假設(shè)表征噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來的參數(shù)是固定的,我們變化、更新的只是其中的分配。我們來看下面圖形中的解讀:

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

在這個2D的球狀單位(圓圈)上的X1,X2,X3分別是三個數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)之間距離相等。是三個可能的噪聲分配,三者之間也是距離相等。C1,C2,C3很明顯,其中的最優(yōu)分配就是把X1與C1配對,X2與C2配對,X3與C3配對。

假設(shè),我們當(dāng)前的映射是次優(yōu)的,如圖中藍(lán)色箭頭指示的;而且我們現(xiàn)在只能在尺寸2的minibatch上更新分配。在尺寸2的minibatch上,我們的分配只有兩種可能性:第一,保持原來的分配不變;第二,把所有的點(diǎn)都互換,就像圖中紅色箭頭指示的。在上圖這個例子中,保持原來的分配(藍(lán)色箭頭)比互換所有的點(diǎn)(紅色箭頭)更可行。因此,minibatch的更新將會使minibatch算法陷入這個局部的最小值。

但是這并不意味著這個方法沒有用。當(dāng)噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來也同時被更新了的情況下,這個方法確實(shí)能讓算法擺脫這個局部最小值。其次,batch的尺寸越大,就約難找到這樣的局部最小值,那么算法也就越不會陷入最小值。

我們可以轉(zhuǎn)換一種思維方式,把這個任意的“匈牙利算法”的局部最小值看作是一個圖表。每一個節(jié)點(diǎn)代表一個分配矩陣狀態(tài)(一個分配排列),每一條邊對應(yīng)一個基于minibatch的有效更新。一個局部最小值就是一個節(jié)點(diǎn),這個最小值節(jié)點(diǎn)與其周邊的N!節(jié)點(diǎn)相比成本較低。

如果我們把原本大小為B的minibatch擴(kuò)大到一個總樣本的尺寸N,那么我們就會在圖中得到一個N!節(jié)點(diǎn),而每個節(jié)點(diǎn)都會超出額度,達(dá)到噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來。那么任意兩個節(jié)點(diǎn)連接的概率就是噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來。Batch的B尺寸越大,我們這個圖表就會變得越緊密,局部最小值也就不存在了。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

噪聲預(yù)測的無監(jiān)督學(xué)習(xí)——通往信息最大化的未來

分享:
相關(guān)文章

專欄作者

基于圖像識別技術(shù)多維度解讀圖片和視頻
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說