丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

本文作者: 楊曉凡 編輯:郭奕欣 2017-08-17 01:33 專題:ICML 2017
導(dǎo)語:準(zhǔn)確、稀疏、可解釋三個(gè)問題都解決了,LLA 會(huì)在更多應(yīng)用中取代 LSTM 嗎?

雷鋒網(wǎng) AI 科技評(píng)論按:近日,ICML2017收錄的一篇論文引起了雷鋒網(wǎng)AI科技評(píng)論的注意。這篇關(guān)于序列數(shù)據(jù)預(yù)測(cè)的論文是 Alex Smola 和他在 CMU 時(shí)的兩個(gè)博士生 Manzil Zaheer 和 Amr Ahmed 共同完成的,后者目前已經(jīng)加入谷歌大腦。

Alex Smola是機(jī)器學(xué)習(xí)界的重要人物,他的主要研究領(lǐng)域是可拓展算法、核方法、統(tǒng)計(jì)模型和它們的應(yīng)用,已經(jīng)發(fā)表超過200篇論文并參與編寫多本學(xué)術(shù)專著。他曾在NICTA、雅虎、谷歌從事研究工作,在2013到2016年間任CMU教授,之后來到亞馬遜任AWS的機(jī)器學(xué)習(xí)總監(jiān)。MXNet 在去年成為 Amazon AWS 的官方開源平臺(tái),而 MXNet 的主要作者李沐正是 Alex Smola 在 CMU 時(shí)的學(xué)生。

以下雷鋒網(wǎng) AI 科技評(píng)論就對(duì)這篇名為「Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequential Data」(潛LSTM分配:序列數(shù)據(jù)的聯(lián)合聚類和非線性動(dòng)態(tài)建模)的論文做具體的介紹。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

研究背景

序列數(shù)據(jù)預(yù)測(cè)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要問題,這個(gè)問題在文本到用戶行為的各種行為中都會(huì)出現(xiàn)。比如在統(tǒng)計(jì)學(xué)語言建模應(yīng)用中,研究目標(biāo)是在給定的語境下預(yù)測(cè)文本數(shù)據(jù)的下一個(gè)單詞,這和用戶行為建模應(yīng)用中根據(jù)用戶歷史行為預(yù)測(cè)下一個(gè)行為非常類似。準(zhǔn)確的用戶行為建模就是提供用戶相關(guān)的、個(gè)性化的、有用的內(nèi)容的重要基礎(chǔ)。

一個(gè)好的序列數(shù)據(jù)模型應(yīng)當(dāng)準(zhǔn)確、稀疏、可解釋,然而目前所有的用戶模型或者文本模型都不能同時(shí)滿足這三點(diǎn)要求。目前最先進(jìn)的序列數(shù)據(jù)建模方法是使用 LSTM(Long-Short Term Memory)這樣的 RNN 網(wǎng)絡(luò),已經(jīng)有許多例子證明他們可以有效地捕捉數(shù)據(jù)中的長(zhǎng)模式和短模式,比如捕捉語言中表征級(jí)別的語義,以及捕捉句法規(guī)律。但是,這些神經(jīng)網(wǎng)絡(luò)學(xué)到的表征總的來說不具有解釋性,人類也無法訪問。不僅如此,模型所含的參數(shù)的數(shù)量是和模型能夠預(yù)測(cè)的單詞類型或者動(dòng)作類型成正比的,參數(shù)數(shù)量往往會(huì)達(dá)到千萬級(jí)甚至億級(jí)。值得注意的是,在用戶建模任務(wù)中,字符級(jí)別的 RNN 是不可行的,因?yàn)槊枋鲇脩粜袨榈耐皇菃卧~而是 hash 指數(shù)或者 URL。

從另一個(gè)角度看這個(gè)問題,以 LDA 和其它一些變種話題模型為代表的多任務(wù)學(xué)習(xí)潛變量模型,它們是嚴(yán)格的非序列數(shù)據(jù)模型,有潛力很好地從文本和用戶數(shù)據(jù)中挖掘潛在結(jié)構(gòu),而且也已經(jīng)取得了一些商業(yè)上的成果。話題模型很熱門,因?yàn)樗鼈兡軌蛟诓煌脩簦ɑ蛭臋n)之間共享統(tǒng)計(jì)強(qiáng)度,從而具有把數(shù)據(jù)組織為一小部分突出的主題(或話題)的能力。這樣的話題表征總的來說可以供人類訪問,也很容易解釋。

LLA模型

在這篇論文中,作者們提出了 Latent LSTM Allocation(潛LSTM分配,LLA)模型,它把非序列LDA的優(yōu)點(diǎn)嫁接到了序列RNN上面來。LLA借用了圖模型中的技巧來指代話題(關(guān)于一組有關(guān)聯(lián)的詞語或者用戶行為),方法是在不同用戶(或文檔)和循環(huán)神經(jīng)網(wǎng)絡(luò)之間共享統(tǒng)計(jì)強(qiáng)度,用來對(duì)整個(gè)(用戶動(dòng)作或者文檔)序列中的話題進(jìn)化變化建模,拋棄了從單個(gè)用戶行為或者單詞級(jí)別做建模的方法。

LLA 繼承了 LDA 模型的稀疏性和可解釋性,同時(shí)還具有 LSTM 的準(zhǔn)確率。作者們?cè)谖闹刑峁┝硕鄠€(gè) LLA 的變種,在保持解釋性的前提下嘗試在模型大小和準(zhǔn)確率之間找到平衡。如圖1所示,在基于Wikipedia數(shù)據(jù)集對(duì)語言建模的任務(wù)中,LLA 取得了接近 LSTM 的準(zhǔn)確率,同時(shí)從模型大小的角度還保持了與 LDA 相同的稀疏性。作者們提供了一個(gè)高效的推理算法用于LLA的參數(shù)推理,并在多個(gè)數(shù)據(jù)集中展示了它的功效和解釋性。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

柱狀圖是參數(shù)數(shù)量,折線是復(fù)雜度。根據(jù)圖中示意,在基于 Wikipedia 數(shù)據(jù)集的語言建模任務(wù)中,LLA 比 LDA 的復(fù)雜度更低,參數(shù)數(shù)量也比 LSTM 大大減少。

LLA 把分層貝葉斯模型和 LSTM 結(jié)合起來。LLA 會(huì)根據(jù)用戶的行為序列數(shù)據(jù)對(duì)每個(gè)用戶建模,模型還會(huì)同時(shí)把這些動(dòng)作分為不同的話題,并且學(xué)到所分到的話題序列中的短期動(dòng)態(tài)變化,而不是直接學(xué)習(xí)行為空間。這樣的結(jié)果就是模型的可解釋性非常高、非常簡(jiǎn)明,而且能夠捕捉復(fù)雜的動(dòng)態(tài)變化。作者們?cè)O(shè)計(jì)了一個(gè)生成式分解模型,先用 LSTM 對(duì)話題序列建模,然后用 Dirichlet 多項(xiàng)式對(duì)單詞散播建模,這一步就和 LDA 很相似。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

假設(shè)話題數(shù)目為K、單詞庫大小為V;有一個(gè)文檔集D,其中單篇文檔d由Nd個(gè)單詞組成。生成式模型的完整流程就可以表示為(上圖 a 的為例):

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

在這樣的模型下,觀察一篇指定的文檔d的邊際概率就可以表示為:

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

式中,Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017就是文檔中給定某個(gè)話題下的前幾個(gè)詞之后,對(duì)下一個(gè)次生成話題的概率;Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017則是給定了話題之后生成單詞的概率。這個(gè)公式就展現(xiàn)出了對(duì)基于 LSTM 和 LDA 的語言模型的簡(jiǎn)單改動(dòng)。

這種修改的好處有兩層,首先這樣可以獲得一個(gè)分解模型,參數(shù)的數(shù)量相比 RRLM 得到了大幅度減少。其次,這個(gè)模型的可解釋性非常高。

另一方面,為了實(shí)現(xiàn)基于 LLA 的推理算法,作者們用隨機(jī) EM 方法對(duì)模型表示進(jìn)行了近似,并設(shè)計(jì)了一些加速采樣方法。模型偽碼如下:

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

LLA變體

作者們認(rèn)為,模型直接使用原始文本會(huì)比使用總結(jié)出的主題有更好的預(yù)測(cè)效果。所以在 Topic LLA之外,又提出了兩個(gè)變體 Word LLA 和 Char LLA (前文 a、b、c 三個(gè)模型),分別能夠直接處理原文本的單詞和字符(Char LLA自己會(huì)對(duì)字符串做出轉(zhuǎn)換,從而緩和 Word LLA 單詞庫過大的問題 )。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

實(shí)驗(yàn)結(jié)果

在幾個(gè)實(shí)驗(yàn)中,作者們把60%的數(shù)據(jù)用于訓(xùn)練模型,讓模型預(yù)測(cè)其余40%作為任務(wù)目標(biāo)。同步對(duì)比的模型有自動(dòng)編碼器(解碼器)、單詞級(jí)別LSTM、字符級(jí)別LSTM、LDA、Distance-dependent LDA。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

柱狀圖部分的參數(shù)數(shù)量用來體現(xiàn)模型大小,折現(xiàn)的復(fù)雜度用于體現(xiàn)模型的準(zhǔn)確率??梢钥吹剑瑑蓚€(gè)任務(wù)中 LDA 仍然保持了最小的模型大小,而單詞級(jí)別LSTM表現(xiàn)出了最高的準(zhǔn)確率,但模型大小要高出一個(gè)數(shù)量級(jí);從單詞級(jí)別LSTM到字符級(jí)別LSTM,模型大小基本減半,準(zhǔn)確度也有所犧牲。

在這樣的對(duì)比之下就體現(xiàn)出了 LLA 的特點(diǎn),在保持了與 LDA 同等的解釋性的狀況下,能夠在模型大小和準(zhǔn)確度之間取得更好的平衡(目標(biāo)并不是達(dá)到比LSTM更高的準(zhǔn)確率)。

其它方面的對(duì)比如下:

收斂速度  LLA的收斂速度并沒有什么劣勢(shì),比快速LDA采樣也只慢了一點(diǎn)點(diǎn)。不過基于字符的LSTM和LLA都要比其它的變體訓(xùn)練起來慢一些,這是模型本質(zhì)導(dǎo)致的,需要在單詞和字符層面的LSTM都做反向傳播。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

特征效率  作者們做了嘗試,只具有250個(gè)話題的三種 LLA 模型都比具有1000個(gè)話題的 LDA 模型有更高的準(zhǔn)確率。這說明 LLA 的特征效率更高。從另一個(gè)角度說,LLA 的表現(xiàn)更好不是因?yàn)槟P透螅且驗(yàn)樗鼘?duì)數(shù)據(jù)中的順序有更好的描述能力。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

解釋性  LLA和LDA都能對(duì)全局主題做出揭示,LLA 總結(jié)出的要更加明確。如下表,LDA 會(huì)總結(jié)出“Iowa”,僅僅因?yàn)樗诓煌奈臋n中都出現(xiàn)了;而 LLA 追蹤短期動(dòng)態(tài)的特性可以讓它在句子的不同位置正確切換主題。 

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

聯(lián)合訓(xùn)練  由于論文中的模型可以切分為 LDA 和 LSTM 兩部分,作者們也對(duì)比了“聯(lián)合訓(xùn)練”和“先訓(xùn)練 LDA,再在話題上訓(xùn)練 LSTM”兩種不同訓(xùn)練方式的效果。結(jié)果表明,聯(lián)合訓(xùn)練的效果要好很多,因?yàn)閱为?dú)訓(xùn)練的 LDA 中產(chǎn)生的隨機(jī)錯(cuò)誤也會(huì)被之后訓(xùn)練的 LSTM 學(xué)到,LSTM 的學(xué)習(xí)表現(xiàn)就是由 LDA 的序列生成質(zhì)量決定的。所以聯(lián)合訓(xùn)練的狀況下可以提高 LDA 的表現(xiàn),從而提高了整個(gè)模型的表現(xiàn)。

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

論文地址:http://proceedings.mlr.press/v70/zaheer17a.html 

雷鋒網(wǎng) AI 科技評(píng)論編譯整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Alex Smola論文詳解:準(zhǔn)確稀疏可解釋,三大優(yōu)點(diǎn)兼具的序列數(shù)據(jù)預(yù)測(cè)算法LLA| ICML 2017

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說