用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

本文作者： AI研習(xí)社-譯站

2018-08-28 09:57

導(dǎo)語：LSA模型專注于降維，而LDA模型專注于解決主題建模問題。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標題 2 latent methods for dimension reduction and topic modeling，作者為 Edward Ma。
翻譯 | dudubear、機智的工人校對 | 余杭審核 | 余杭

圖片鏈接： https://pixabay.com/en/golden-gate-bridge-women-back-1030999/

在優(yōu)秀的詞嵌入方法出現(xiàn)之前，潛在語義分析模型（LSA）和文檔主題生成模型（LDA）都是解決自然語言問題的好方法。LSA模型和LDA模型有相同矩陣形式的詞袋表示輸入。不過，LSA模型專注于降維，而LDA模型專注于解決主題建模問題。

由于有很多資料介紹這兩個模型的數(shù)學(xué)細節(jié)，本篇文章就不深入介紹了。如果感興趣，請自行閱讀參考資料。為了讓大家更好地理解，我不會做去停用詞這樣的預(yù)處理操作。但這是在使用LSA、LSI和LDA模型時非常關(guān)鍵的部分。閱讀以下文章，你會了解以下內(nèi)容：

潛在語義分析模型（LSA）
文檔主題生成模型（LDA）
主旨概要

潛在語義分析（LSA）

2005年Jerome Bellegarda將LSA模型引入自然語言處理任務(wù)。LSA模型的目的是對分類任務(wù)降維。其主要思想是具有相似語義的詞會出現(xiàn)在相似的文本片段中。在自然語言處理領(lǐng)域，我們經(jīng)常用潛在語義索引（LSI）作為其別名。

首先，我們用m個文檔和n個詞作為模型的輸入。這樣我們就能構(gòu)建一個以文檔為行、以詞為列的m*n矩陣。我們可以使用計數(shù)或TF-IDF得分。然而，用TF-IDF得分比計數(shù)更好，因為大部分情況下高頻并不意味著更好的分類。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模

圖片來源： http://mropengate.blogspot.com/2016/04/tf-idf-in-r-language.html

TF-IDF的主要思想是高頻的詞有可能不代表著很多的信息。換句話說，就是出現(xiàn)頻率小的詞在模型中有更高的權(quán)重。字詞的重要性與它在同一文件中出現(xiàn)的次數(shù)成正比，但同時與其在語料庫中出現(xiàn)的次數(shù)成反比。更詳細的內(nèi)容，請參考此博客（https://towardsdatascience.com/3-basic-approaches-in-bag-of-words-which-are-better-than-word-embeddings-c2cbc7398016）。

該模型的挑戰(zhàn)是矩陣很稀疏（或維數(shù)很高），同時有噪聲（包括許多高頻詞）。因此，使用分解 SVD 來降維。

用 LDA 和 LSA 兩種方法來降維和做 Topic 建模