0
本文作者: 亞萌 | 2017-03-04 18:40 |
雷鋒網(wǎng)[AI科技評(píng)論]按:3月3日,中國(guó)人工智能學(xué)會(huì)AIDL第二期【人工智能前沿講習(xí)班】在北京中科院自動(dòng)化所舉行,本期講習(xí)班的主題為【機(jī)器學(xué)習(xí)前沿】。周志華教授擔(dān)任學(xué)術(shù)主任,前來(lái)授課的嘉賓均為中國(guó)機(jī)器學(xué)習(xí)界一流專(zhuān)家、資深科研人員和企業(yè)精英,包括:耿新、郭天佑、劉鐵巖、王立威、葉杰平、于劍、余揚(yáng)、張長(zhǎng)水、鄭宇、朱軍。
來(lái)自清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系的朱軍副教授做了題為《貝葉斯學(xué)習(xí)前沿進(jìn)展》的開(kāi)場(chǎng)分享課。總共2個(gè)小時(shí)時(shí)長(zhǎng)的課程,內(nèi)容主要分為三大部分:貝葉斯基本理論、模型和算法;可擴(kuò)展的貝葉斯方法;深度生成模型。本文乃三大內(nèi)容中的第一部分:貝葉斯基本理論、模型和算法。
朱軍
清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授、智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室副主任、深度學(xué)習(xí)技術(shù)與應(yīng)用國(guó)家工程實(shí)驗(yàn)室副主任、國(guó)家萬(wàn)人計(jì)劃青年拔尖人才、中國(guó)自然科學(xué)基金優(yōu)秀青年基金獲得者、中國(guó)計(jì)算機(jī)學(xué)會(huì)青年科學(xué)家、IEEE AI’s 10 to Watch入選者。
以下是根據(jù)朱軍副教授現(xiàn)場(chǎng)分享整理的文字報(bào)告,雷鋒網(wǎng)[AI科技評(píng)論]做編輯整理。
學(xué)術(shù)主任周志華教授介紹詞:朱軍老師是我們國(guó)內(nèi)機(jī)器學(xué)習(xí)非常優(yōu)秀的一位年輕的學(xué)者,他特別在貝葉斯學(xué)習(xí)方面有一套非常有特色的東西,大家知道貝葉斯學(xué)習(xí)是機(jī)器學(xué)習(xí)里面非常主流的一個(gè)流派,朱軍老師是把這兩個(gè)東西做了非常有機(jī)的結(jié)合,今天請(qǐng)朱軍老師將給大家做一個(gè)全面的貝葉斯學(xué)習(xí)前沿介紹,下面歡迎朱軍老師。
朱軍:非常感謝周老師給這個(gè)機(jī)會(huì)讓我跟大家分享一下。我今天想和大家分享的是,在深度學(xué)習(xí)或者大數(shù)據(jù)環(huán)境下我們?cè)趺慈タ创鄬?duì)來(lái)說(shuō)比較傳統(tǒng)的一類(lèi)方法,貝葉斯方法。它是在機(jī)器學(xué)習(xí)和人工智能里比較經(jīng)典的方法。
類(lèi)似的報(bào)告我之前在CCF ADL講過(guò),包括去年暑假周老師做學(xué)術(shù)主任在廣州有過(guò)一次報(bào)告,大家如果想看相關(guān)的工作,我們寫(xiě)了一個(gè)文章,正好我今天講的大部分思想在這個(gè)文章里面有一個(gè)更系統(tǒng)的講述,大家可以下去找這個(gè)文章讀。
這次分享主要包括三個(gè)部分:
第一部分:基本理論、模型和算法
貝葉斯方法基礎(chǔ)
正則化貝葉斯推理和案例
第二部分:可擴(kuò)展的貝葉斯方法
在線學(xué)習(xí)
分布式MCMC
第三部分:深度生成模型
貝葉斯方法概念是比較簡(jiǎn)單的,一般情況下我們做貝葉斯推理,用了一個(gè)核心的工具叫貝葉斯定理或者貝葉斯準(zhǔn)則,實(shí)際上寫(xiě)出來(lái)就是這么一個(gè)簡(jiǎn)單的公式,大家學(xué)概率基本上都學(xué)過(guò)這個(gè)。
公式里有幾個(gè)基本的對(duì)象,我們用θ描述模型的參數(shù),這個(gè)模型可以是神經(jīng)網(wǎng)絡(luò)、線性模型、或者SVM,參數(shù)都用θ來(lái)描述;大D是我們的訓(xùn)練集;π(θ)是先驗(yàn)分布,是我們看到數(shù)據(jù)之前對(duì)模型本身分布的描述;p(D|θ)是似然函數(shù),給定一個(gè)模型θ的情況下描述這個(gè)數(shù)據(jù)的似然;我們的目標(biāo)是想獲得這個(gè)后驗(yàn)分布,是看到數(shù)據(jù)之后我們?cè)僦匦驴茨P捅旧淼姆植记闆r。這是1763年當(dāng)時(shí)貝葉斯生前沒(méi)有發(fā)表的文章里面,最早闡述了這個(gè)公式,最后正式發(fā)表了。
首先,預(yù)測(cè)問(wèn)題。我們用大M來(lái)描述model class,比如線性模型、非線性模型,model class里面有多個(gè)具體的模型,我們還是用參數(shù)θ表示。對(duì)新來(lái)的樣本做一個(gè)預(yù)測(cè),比如算它的似然,這樣可以用前邊推出來(lái)的后驗(yàn)分布來(lái)做一個(gè)積分。這個(gè)是給定模型下樣本的似然,這是所有可能模型的分布。本質(zhì)上是做了一個(gè)平均,這個(gè)思想實(shí)際上跟周老師的集成學(xué)習(xí)的思想是比較相近的,我們也是對(duì)很多種模型做了一個(gè)加權(quán)的平均,只是說(shuō)在這個(gè)地方模型可能有無(wú)限多個(gè),我們是用概率分布來(lái)去描述它。
這個(gè)似然函數(shù)通常假設(shè)在給定模型參數(shù)的情況下,測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)是獨(dú)立的,這就是我們通常說(shuō)的獨(dú)立同分布的假設(shè)。
除了做預(yù)測(cè),我們還可以做不同模型的比較、模型的選擇。比如說(shuō)我們要做分類(lèi)問(wèn)題,到底是要選線性的模型還是深度學(xué)習(xí)的非線性模型,這是在做模型選擇的問(wèn)題。這個(gè)問(wèn)題可以描述成這樣:我們用M1表示一個(gè)model class,可能是一個(gè)線性模型,我們用M2表示另外一個(gè)model class,是非線性模型,我們?cè)谕瑯訑?shù)據(jù)集D的情況下,我們可以去比較這兩個(gè)量哪個(gè)大,這個(gè)量是描述的在M1下我們觀察到訓(xùn)練集的一個(gè)似然,另外一個(gè)是在M2的情況下觀察的數(shù)據(jù)集似然,可以通過(guò)這個(gè)比較看我應(yīng)該選擇哪一種模型,這是一個(gè)用貝葉斯方法做模型選擇的一個(gè)基本的規(guī)則。
做貝葉斯的人會(huì)告訴你很多的理由,我們后邊從例子里邊也會(huì)看到一些答案。這里給大家簡(jiǎn)單講一個(gè),概率論的結(jié)果告訴我們實(shí)際上在很多情況下對(duì)數(shù)據(jù)的建模是存在這種貝葉斯的模型來(lái)刻畫(huà)的。這有一個(gè)基本性質(zhì)叫Infinite Exchangeability,假如你數(shù)據(jù)有N個(gè)樣本,如果將它們?nèi)我饨粨Q順序,這些數(shù)據(jù)的聯(lián)合分布不變化,也即是我們通常說(shuō)的和序列無(wú)關(guān),那么它的聯(lián)合分布可以寫(xiě)成貝葉斯的形式---存在一個(gè)模型和對(duì)應(yīng)的分布,你通過(guò)積分的形式可以刻畫(huà)整個(gè)分布。如果用圖示畫(huà)一下,在給定這個(gè)模型的情況下,數(shù)據(jù)是完全獨(dú)立的,我們叫條件獨(dú)立性,這是概率圖模型里的一個(gè)非常重要的概念。
稍微提一點(diǎn),可交換性比前面講的獨(dú)立同分布更廣泛一點(diǎn),可交換的數(shù)據(jù)可以不是獨(dú)立同分布的。另外,這個(gè)定理只告訴你存在,但是后面的問(wèn)題是我們不知道具體的模型應(yīng)該是什么樣的,比如說(shuō)是線性模型、非線性模型,用什么樣的模型去刻畫(huà),這是統(tǒng)計(jì)建模要解決的問(wèn)題。
在貝葉斯里有兩個(gè)流派,一個(gè)是客觀貝葉斯,另一個(gè)是主觀貝葉斯。所謂客觀貝葉斯,就是希望能夠把先驗(yàn)的影響盡量弱化,所以會(huì)研究一些noninformative priors,就是你用貝葉斯的結(jié)果像用統(tǒng)計(jì)的方法得到結(jié)果一樣,有一些統(tǒng)計(jì)性質(zhì)。而主觀貝葉斯,實(shí)際上是更希望利用貝葉斯框架的靈活性,因?yàn)樨惾~斯框架給了你一個(gè)先驗(yàn)的分布,你可以在先驗(yàn)上做文章,我們后邊也會(huì)有些例子來(lái)講怎么去利用先驗(yàn)提供的靈活性,來(lái)做具體的學(xué)習(xí)任務(wù)或者解決問(wèn)題。用主觀貝葉斯的好處之一是,當(dāng)你的數(shù)據(jù)足夠多的時(shí)候,可以通過(guò)先驗(yàn)引入一些知識(shí)來(lái)幫助你學(xué)習(xí),這個(gè)尤其在交叉學(xué)科里,比如用貝葉斯方法做認(rèn)知或者神經(jīng)科學(xué),是大家比較喜歡用的方法。
當(dāng)然還有另外一些具體的技術(shù),我可以相信這個(gè)prior,但是我盡量弱化prior里邊參數(shù)的影響,這里面有一種技術(shù)叫“層次的prior”。有一個(gè)基本的假設(shè),這個(gè)π里面的參數(shù)叫超參數(shù),它離我這個(gè)產(chǎn)生數(shù)據(jù)的模型越遠(yuǎn)的話影響就越弱,實(shí)際上利用這種基本假設(shè),就可以構(gòu)建多層的prior。
從這里面可以看到,貝葉斯本身就是一個(gè)多層的,和深度學(xué)習(xí)的多層表示本質(zhì)是一樣的,只不過(guò)這里邊完全用概率的方式來(lái)刻畫(huà)。當(dāng)然還有一些近似的方法,做一些empirical prior,通過(guò)數(shù)據(jù)估計(jì)出來(lái)。好處是計(jì)算相對(duì)比較簡(jiǎn)單,不好的地方是多次用訓(xùn)練數(shù)據(jù),會(huì)得到一些過(guò)擬合的問(wèn)題。
我們前面已經(jīng)看到,不管是在最基本的貝葉斯運(yùn)算或者是在多層先驗(yàn)里面都會(huì)反復(fù)用到積分運(yùn)算,這是在用貝葉斯方法時(shí)面臨的最討厭的事情,因?yàn)檫@里的積分不像我們學(xué)微積分時(shí)的那種一元或者二元簡(jiǎn)單的積分運(yùn)算,這里的積分可能是非常高維的積分。假設(shè)我們用一個(gè)線性模型,當(dāng)特征100維時(shí),我這個(gè)就是100維的積分,如果更高維的,比如說(shuō)上千、上萬(wàn)維,這個(gè)積分相應(yīng)更高維。這里面有很重要的計(jì)算問(wèn)題,我怎么用數(shù)值的方法來(lái)算這個(gè)積分。這是在這種不確定性或者概率推理里邊要解決的主要目標(biāo)。
我用一頁(yè)P(yáng)PT簡(jiǎn)單給大家介紹了一下。因?yàn)榉e分非常難算,所以通常情況下會(huì)用一些近似,尤其是在機(jī)器學(xué)習(xí)里面,大家用的貝葉斯方法通常是一個(gè)近似的貝葉斯推理。
這里面我列舉了幾個(gè)比較常用的經(jīng)典近似貝葉斯推理的方法。
首先第一種,變分的方法。變分的基本原理是把一個(gè)要解的問(wèn)題,通過(guò)引入一個(gè)變量變成一個(gè)優(yōu)化的問(wèn)題。這樣做的好處是,你可以在優(yōu)化問(wèn)題中引入一些約束,讓問(wèn)題簡(jiǎn)化,以達(dá)到快速求解的過(guò)程;但是也會(huì)帶來(lái)壞處,如果你的約束比較嚴(yán)格的話,近似的程度就會(huì)變差。
下面一種是非常通用而且理論上精確的方法,它是基于隨機(jī)模擬的,我們叫MCMC的方法,它是通過(guò)構(gòu)造一個(gè)隨機(jī)過(guò)程來(lái)逐漸逼近你要的分布,通過(guò)這個(gè)隨機(jī)過(guò)程不斷的采樣,達(dá)到刻畫(huà)目標(biāo)分布的結(jié)果。現(xiàn)在面臨的挑戰(zhàn)是:1)當(dāng)數(shù)據(jù)比較多的時(shí)候,怎么去做這個(gè)計(jì)算;2)在高維空間里面怎么去做隨機(jī)的模擬;3)當(dāng)我們的模型變得復(fù)雜的時(shí)候,比如最后會(huì)給大家講的深度產(chǎn)生式模型里邊有多層的隱含變量,像深度學(xué)習(xí)一樣,這種模型下我怎么還去做MCMC。這些挑戰(zhàn)同樣存在于變分近似方法里面,現(xiàn)在仍然是研究的熱點(diǎn)。還有一些相關(guān)的,比如像EP或者拉普拉斯近似,基本上可以理解為變分的一種特殊類(lèi)別。
其實(shí)我前面已經(jīng)給大家簡(jiǎn)單講了一些,這個(gè)是我們的一個(gè)總結(jié),如果想去做貝葉斯機(jī)器學(xué)習(xí)的話,基本面臨著幾個(gè)方面的問(wèn)題。
第一點(diǎn),是基本理論上的問(wèn)題。我前面講的貝葉斯方法概念非常簡(jiǎn)單,它的核心是貝葉斯定理。貝葉斯定理已經(jīng)250多年了,它存在一些自己的局限,我們?cè)趺磸幕拘畔⑻幚頊?zhǔn)則的角度來(lái)重新理解它,去做更靈活的推理。
第二點(diǎn),是關(guān)于計(jì)算方面的。有了模型、有了推理框架之后我怎么去做高效的計(jì)算、怎么做高精度的計(jì)算。
第三點(diǎn),對(duì)不同場(chǎng)景怎么去做建模。將貝葉斯方法應(yīng)用到不同場(chǎng)景時(shí),你要去理解你的問(wèn)題,找到合適的模型。
我后面基本上圍繞這三個(gè)方面給大家講。第一個(gè)方面,給大家提出一種比較新的觀點(diǎn)來(lái)看經(jīng)典的貝葉斯定理,告訴大家怎么去擴(kuò)展它的靈活性。第二個(gè)是關(guān)于Scalability,我怎么算比較快。最后一個(gè),貝葉斯方法和深度學(xué)習(xí)怎么結(jié)合,既利用深度學(xué)習(xí)的好處又保持貝葉斯在概率建模和推理的能力。
我們先從最基本的概念開(kāi)始,可能大家學(xué)過(guò)模式識(shí)別或者信號(hào)處理,都會(huì)接觸過(guò)這個(gè)概念,叫KL散度,它描述兩個(gè)概率分布之間的差異有多大。
首先,我們可以通過(guò)優(yōu)化的方式重新審視貝葉斯推理。對(duì)任意一個(gè)分布我可以來(lái)做這件事情,這個(gè)是我們的目標(biāo)P,我們可以找一個(gè)Q分布,它是一個(gè)well defined的分布,我可以通過(guò)最小化它們之間的KL,取最小值的時(shí)候兩個(gè)是相等的,這是非常簡(jiǎn)單的道理。
我們可以把這個(gè)基本過(guò)程用到貝葉斯定理里。貝葉斯推理的目標(biāo)是找到這個(gè)后驗(yàn)分布,將它代入這個(gè)目標(biāo)函數(shù)里,現(xiàn)在Q是我假設(shè)的分布。這樣,我們得到了一個(gè)優(yōu)化的問(wèn)題。這是我們?cè)瓉?lái)的貝葉斯定理,如果這個(gè)目標(biāo)函數(shù)等于0的話,實(shí)際上Q等于我們想要的P(C/D)的后驗(yàn)分布。目標(biāo)函數(shù)的第一項(xiàng)是限制我們的后驗(yàn)分布不能離先驗(yàn)分布太遠(yuǎn),后面一項(xiàng)實(shí)際上是描述了對(duì)數(shù)據(jù)集的擬合程度。
這樣的話,我們獲得了一種新的角度來(lái)看貝葉斯推理在干嗎。有了這種新的理解之后,我們可以做的事情有很多。
實(shí)際上,我們說(shuō)貝葉斯定理或者貝葉斯推理是信息處理的一種準(zhǔn)則。在信息論里,我們有一個(gè)通道,有輸入和輸出。在做貝葉斯推理時(shí),我們的輸入是一個(gè)先驗(yàn)分布和一個(gè)似然函數(shù),輸出是一個(gè)后驗(yàn)分布。有了這種觀點(diǎn)之后,我們可以做很多擴(kuò)展。大家可以想,我的輸入、輸出可以保持不變,但我可以替換信息處理的準(zhǔn)則。我可以把這里邊信息處理的準(zhǔn)則拿掉,做的比經(jīng)典貝葉斯更加普適。
這種基于優(yōu)化的解釋?zhuān)瑢?shí)際上在上世紀(jì)80年代就有統(tǒng)計(jì)學(xué)家提出過(guò),E.T. Jaynes是比較有名的統(tǒng)計(jì)學(xué)家,對(duì)我們前面講的優(yōu)化解釋做了一些comments,它給經(jīng)典的貝葉斯提供了一個(gè)新穎(fresh)的解釋?zhuān)梢宰屫惾~斯方法更廣泛被應(yīng)用,而且可以激發(fā)(stimulate)新的發(fā)展。我們?cè)?010年左右重新審視了這個(gè)思路,并依此為基礎(chǔ)又發(fā)展了一些更普適的貝葉斯推理準(zhǔn)則,后面我會(huì)介紹。
上述優(yōu)化的觀點(diǎn)可以啟發(fā)我們把貝葉斯方法和基于風(fēng)險(xiǎn)最小化(risk-minimization)的機(jī)器學(xué)習(xí)框架有機(jī)結(jié)合。機(jī)器學(xué)習(xí)深入研究過(guò)risk-minimization以及相關(guān)的優(yōu)化工具,在我們的框架下可以融合貝葉斯推理,得到一個(gè)更靈活的信息處理準(zhǔn)則。
在機(jī)器學(xué)習(xí)和模式識(shí)別里,大家比較熟悉的是這個(gè)損失函數(shù)優(yōu)化問(wèn)題。比如說(shuō),我要做分類(lèi),我要訓(xùn)練神經(jīng)網(wǎng)絡(luò),第一項(xiàng)是一個(gè)損失函數(shù),它度量了在訓(xùn)練集的錯(cuò)誤率;第二項(xiàng)是我們想加的正則化項(xiàng),目的是保護(hù)這個(gè)模型避免過(guò)擬合、避免發(fā)散,這是一個(gè)基本框架。這些東西在機(jī)器學(xué)習(xí)里基本上和貝葉斯是不搭邊的,不會(huì)和貝葉斯放在一起來(lái)討論。
還有一些,比如現(xiàn)在又引起大家很多關(guān)注的增強(qiáng)學(xué)習(xí)/在線學(xué)習(xí),它的目標(biāo)是優(yōu)化Regret/reward,也有一個(gè)目標(biāo)函數(shù)來(lái)度量。那么,一個(gè)問(wèn)題是這些傳統(tǒng)的方法能不能與貝葉斯有機(jī)融合?
先給大家看一個(gè)簡(jiǎn)單的例子,是線性的SVM,它的目的是想找一個(gè)線性平面把不同類(lèi)別區(qū)分開(kāi)。
我們說(shuō)有一個(gè)叫貝葉斯的SVM。
我們可以先簡(jiǎn)單的把貝葉斯的思路套到SVM上來(lái)看發(fā)生了什么事。傳統(tǒng)的SVM是找一個(gè)決策面,按照一定的最優(yōu)準(zhǔn)則來(lái)找。貝葉斯的思想是:我們可以有無(wú)窮多個(gè)決策面,但是每個(gè)決策面有一定的概率。考慮這個(gè)簡(jiǎn)單例子,設(shè)有有限多個(gè)可能決策面,如果隨機(jī)采樣的話,比如你采樣100次,這個(gè)藍(lán)色的線可能會(huì)出現(xiàn)30次,這個(gè)綠色的線可能出現(xiàn)5次,這個(gè)線可能出現(xiàn)15次。這里邊畫(huà)的幾條線,都可以把這幾個(gè)樣本分開(kāi)。
假設(shè)這個(gè)分布是已經(jīng)知道的,我們?cè)趺醋龇诸?lèi)判別。根據(jù)不同的判別準(zhǔn)則,得到損失函數(shù)是不一樣的。比如:我現(xiàn)在來(lái)了這些打問(wèn)號(hào)的測(cè)試樣本,我想問(wèn),那這些測(cè)試樣本到底屬于哪個(gè)類(lèi)別?
因?yàn)檫@里面決策面是不確定的,我們可以有兩種策略來(lái)做判別。
一種是模型平均:先對(duì)這種模型做平均,在做判別。比如,我們可以取這個(gè)分布的均值,對(duì)應(yīng)于這個(gè)紅色的面(下圖中顏色較深的線),我可以用這個(gè)紅色平面來(lái)做判別,這是一種思路。它對(duì)應(yīng)的損失函數(shù)就可以像經(jīng)典的SVM一樣計(jì)算,因?yàn)槿〉闷骄缶褪且粋€(gè)決策面了,和我們傳統(tǒng)的問(wèn)題一樣。
還有一種模型叫隨機(jī)模型,它實(shí)際上是這么做的:新來(lái)了一個(gè)測(cè)試樣本,我從后驗(yàn)分布里面隨機(jī)采樣一個(gè)模型,比如對(duì)這個(gè)測(cè)試樣本我隨機(jī)采樣是這個(gè)紅色的線(下圖中顏色較深的線),然后用它來(lái)做判別。另外一個(gè)樣本來(lái)了之后,我再隨機(jī)采樣一次,可能采集的是這個(gè)。
下邊再來(lái)一個(gè)樣本,我再采樣一次,可能得到和第一次采樣一樣的決策面,然后用它來(lái)判別。
因?yàn)榉诸?lèi)平面是隨機(jī)的,所以我還要去度量它的一個(gè)損失函數(shù)。所以,我們可以先假設(shè)這個(gè)分類(lèi)面是固定的,做一個(gè)判別;然后對(duì)損失函數(shù)求期望。
放在一起來(lái)看一下。我們第一種策略是平均模型,第二個(gè)是隨機(jī)模型,這兩個(gè)在理論上有一些關(guān)系,這里我不細(xì)說(shuō)了。我們有了這個(gè)loss函數(shù)之后,就可以直接進(jìn)行優(yōu)化,這是從貝葉斯的角度做SVM的方法。。
有了上述問(wèn)題之后,怎么去求解?對(duì)于第一種平均模型,可以通過(guò)用凸優(yōu)化的思路來(lái)求解。當(dāng)模型是線性的,如果先驗(yàn)是高斯,你的后驗(yàn)分布還是一個(gè)高斯。這實(shí)際上退化到傳統(tǒng)的SVM。你還可以拓展,利用核方法來(lái)拓展非線性的模型,這都是可以的。
對(duì)于第二種,給定先驗(yàn),可以求出一般解。這里有一個(gè)問(wèn)題,這個(gè)后驗(yàn)分布通常沒(méi)有一個(gè)解析形式,所以大家研究怎么去做推理。這有一個(gè)比較好的方法,大家感興趣可以去看,用了統(tǒng)計(jì)里經(jīng)常用的數(shù)據(jù)增廣(data augmentation)。
它(數(shù)據(jù)增廣)的基本過(guò)程:原來(lái)這個(gè)分布不太好做,引入一個(gè)額外變量過(guò)來(lái)。它的條件是說(shuō),保證邊緣分布還是原來(lái)的分布。在這個(gè)聯(lián)合分布下你可以做吉布斯采樣,每一步都很簡(jiǎn)單,比如:第一步可能是高斯,第二步也是某種標(biāo)準(zhǔn)分布。這樣可以不斷迭代進(jìn)行采樣。具體細(xì)節(jié),大家可以看Polson&Scott有一篇文章。
這種貝葉斯的觀點(diǎn)可以帶來(lái)一些額外的好處。跟深度學(xué)習(xí)中表示學(xué)習(xí)的思想一致,在貝葉斯SVM里,我們可以考慮隱含變量,也可以加很多層的隱含變量,來(lái)學(xué)這些隱變量的分布。在神經(jīng)網(wǎng)絡(luò)里可能學(xué)具體的取值,在概率模型里學(xué)分布,這是它們的一個(gè)差別。這里有一個(gè)典型的例子,叫主題模型,在文本分析里面用的比較多。
這是一個(gè)主題模型描述文本生成的一個(gè)過(guò)程。
它的基本假設(shè)是文檔是有若干主題刻畫(huà)的。假設(shè)這里有2個(gè)主題,大家從keyword里能看出來(lái)相應(yīng)的語(yǔ)義,比如:第一個(gè)是關(guān)于圖像,另一個(gè)是關(guān)于電力相關(guān)的東西。在第一個(gè)文檔里,我用顏色區(qū)分相應(yīng)的主題,比如說(shuō)這里面的單詞以0.8的概率從第一個(gè)主題生成,相應(yīng)的, 0.2的概率從另一個(gè)主題生成。對(duì)于第二個(gè)文檔,混合分布是(0.3、0.7)。整個(gè)過(guò)程可以描述成一個(gè)非常經(jīng)典的層次貝葉斯方法。
這是它的圖模型,W是觀察到的文本里面的單詞,每個(gè)單詞對(duì)應(yīng)一個(gè)topic assignment。下面有一個(gè)混合概率,上面有一個(gè)先驗(yàn),這邊是我們要學(xué)的topic。它定義了這個(gè)聯(lián)合分布。
LDA非常經(jīng)典,2003年的一篇論文可能引了近2萬(wàn)次,表明它在很多地方用。它有一個(gè)好處是可以代到很多復(fù)雜的模型里面。后期的工作基本上可以總結(jié)成有大概三個(gè)方面。一個(gè)是先驗(yàn),比如我要考慮主題之間的相關(guān)性,可以用非共軛的logistic-normal先驗(yàn)分布。還可以做時(shí)間序列數(shù)據(jù)的分析,或者關(guān)系網(wǎng)絡(luò)數(shù)據(jù)的分析等。
這里給大家簡(jiǎn)單看一個(gè)例子,如何將貝葉斯SVM用于主題模型。我們可以用同樣的原理,在主題模型上定義貝葉斯SVM分類(lèi)器,通過(guò)最優(yōu)化目標(biāo)函數(shù),實(shí)現(xiàn)兩種功能:1)學(xué)習(xí)隱含主題;2)學(xué)習(xí)分類(lèi)器。在定義分類(lèi)器時(shí),我們采用如前所述的兩種策略——平均模型和隨機(jī)模型,分別會(huì)得到相應(yīng)的模型。這是一些真實(shí)數(shù)據(jù)上的測(cè)試結(jié)果,能夠體現(xiàn)這種方法的有效性。
下面有一些特定的分析,可能有人會(huì)問(wèn),做后驗(yàn)約束和在先驗(yàn)上加約束會(huì)有什么差別?我現(xiàn)在告訴大家,在先驗(yàn)上做的約束都可以在后驗(yàn)上做,是我們的一個(gè)特例。另外,我們?cè)诤篁?yàn)上做約束可以更靈活,也就是,有些后驗(yàn)分布在經(jīng)典的方法得不到。
這是一個(gè)直觀的解釋。大家做貝葉斯方法,可以有各種的參數(shù)化、無(wú)參數(shù)化的貝葉斯模型,都是在這個(gè)平面里做的。我們做的事情實(shí)際上是增加了一個(gè)維度,它和之前的兩個(gè)維度是獨(dú)立的,因此,可以在這上面做很多事情。首先,可以把經(jīng)典的模型做到最大間隔學(xué)習(xí),得到新的模型。其次,我們也可以把知識(shí)信息引入貝葉斯推理中。因此,我們可以形成一個(gè)有機(jī)的框架,包括知識(shí)、學(xué)習(xí)/推理、以及最下邊的統(tǒng)計(jì)建模。
這是第一部分,我想和大家分享的是:我們做貝葉斯方法,現(xiàn)在已經(jīng)不局限在經(jīng)典的貝葉斯框架,實(shí)際上有一些新的發(fā)展。
更多雷鋒網(wǎng)文章:
國(guó)產(chǎn)阿爾法狗"絕藝"晉升十段,騰訊AI在下一盤(pán)大棋?
百度首席科學(xué)家吳恩達(dá):大腦能在一秒內(nèi)完成的任何工作,都會(huì)被AI取代
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。