丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

本文作者: AI研習(xí)社-譯站 2018-08-28 09:57
導(dǎo)語:LSA模型專注于降維,而LDA模型專注于解決主題建模問題。

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 2 latent methods for dimension reduction and topic modeling,作者為 Edward Ma。
翻譯 | dudubear、機(jī)智的工人       校對(duì) | 余杭       審核 | 余杭


用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

圖片鏈接: https://pixabay.com/en/golden-gate-bridge-women-back-1030999/

在優(yōu)秀的詞嵌入方法出現(xiàn)之前,潛在語義分析模型(LSA)和文檔主題生成模型(LDA)都是解決自然語言問題的好方法。LSA模型和LDA模型有相同矩陣形式的詞袋表示輸入。不過,LSA模型專注于降維,而LDA模型專注于解決主題建模問題。

由于有很多資料介紹這兩個(gè)模型的數(shù)學(xué)細(xì)節(jié),本篇文章就不深入介紹了。如果感興趣,請(qǐng)自行閱讀參考資料。為了讓大家更好地理解,我不會(huì)做去停用詞這樣的預(yù)處理操作。但這是在使用LSA、LSI和LDA模型時(shí)非常關(guān)鍵的部分。閱讀以下文章,你會(huì)了解以下內(nèi)容:

  • 潛在語義分析模型(LSA)

  • 文檔主題生成模型(LDA)

  • 主旨概要


潛在語義分析(LSA)

2005年Jerome Bellegarda將LSA模型引入自然語言處理任務(wù)。LSA模型的目的是對(duì)分類任務(wù)降維。其主要思想是具有相似語義的詞會(huì)出現(xiàn)在相似的文本片段中。在自然語言處理領(lǐng)域,我們經(jīng)常用潛在語義索引(LSI)作為其別名。

首先,我們用m個(gè)文檔和n個(gè)詞作為模型的輸入。這樣我們就能構(gòu)建一個(gè)以文檔為行、以詞為列的m*n矩陣。我們可以使用計(jì)數(shù)或TF-IDF得分。然而,用TF-IDF得分比計(jì)數(shù)更好,因?yàn)榇蟛糠智闆r下高頻并不意味著更好的分類。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

  圖片來源: http://mropengate.blogspot.com/2016/04/tf-idf-in-r-language.html

TF-IDF的主要思想是高頻的詞有可能不代表著很多的信息。換句話說,就是出現(xiàn)頻率小的詞在模型中有更高的權(quán)重。字詞的重要性與它在同一文件中出現(xiàn)的次數(shù)成正比,但同時(shí)與其在語料庫中出現(xiàn)的次數(shù)成反比。更詳細(xì)的內(nèi)容,請(qǐng)參考此博客(https://towardsdatascience.com/3-basic-approaches-in-bag-of-words-which-are-better-than-word-embeddings-c2cbc7398016)。

該模型的挑戰(zhàn)是矩陣很稀疏(或維數(shù)很高),同時(shí)有噪聲(包括許多高頻詞)。因此,使用分解 SVD 來降維。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

SVD 的思想在于找到最有價(jià)值的信息并使用低維的t來表達(dá)這一信息。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

輸出

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

可以看到維度從 130 K 降到了  50

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

輸出

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模


文檔主題生成模型(LDA)

2003年,David Blei, Andrew Ng和Michael O. Jordan提出了LDA模型。這屬于無監(jiān)督學(xué)習(xí),而主題模型是其個(gè)中典型。它建立的假設(shè)在于每份文檔都使用多個(gè)主題混合生成,同樣每個(gè)主題也是由多個(gè)單詞混合生成。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

  不同話題下的不同詞匯

顯然,你可以想象出兩層聚合。第一層是類別的分布。打個(gè)比方,類似我們有金融新聞、天氣新聞和政治新聞。第二層則是類中的單詞分布。比如,我們可以在天氣新聞中找到類似“晴朗的”和“云”這樣的單詞,在金融新聞中找到“錢”和“股票”這樣的單詞。

然而,"a","with","can"這樣的單詞對(duì)主題建模問題沒有幫助。這樣的單詞存在于各個(gè)文檔,并且在類別之間概率大致相同。因此,想要得到更好的效果,消除停用詞是關(guān)鍵一步。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

對(duì)特定的文檔d,我們得到了其主題分布θ。則主題t可以根據(jù)這個(gè)分布(θ)從?中選出相應(yīng)的單詞。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

輸出

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模


主旨概要

要獲取完整代碼,請(qǐng)?jiān)L問我的github倉庫


......

想要繼續(xù)閱讀,請(qǐng)移步至我們的AI研習(xí)社社區(qū):https://club.leiphone.com/page/TextTranslation/841

更多精彩內(nèi)容盡在 AI 研習(xí)社。

不同領(lǐng)域包括計(jì)算機(jī)視覺,語音語義,區(qū)塊鏈,自動(dòng)駕駛,數(shù)據(jù)挖掘,智能控制,編程語言等每日更新。

雷鋒網(wǎng)雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說