FanJianning: LDA主題模型簡(jiǎn)介 | 統(tǒng)計(jì)之都 (中國(guó)統(tǒng)計(jì)學(xué)門戶網(wǎng)站，免費(fèi)統(tǒng)計(jì)學(xué)服務(wù)平臺(tái))

枯井道人 2016-07-17

展開全文

上個(gè)學(xué)期到現(xiàn)在陸陸續(xù)續(xù)研究了一下主題模型（topic model）這個(gè)東東。何謂“主題”呢？望文生義就知道是什么意思了，就是諸如一篇文章、一段話、一個(gè)句子所表達(dá)的中心思想。不過從統(tǒng)計(jì)模型的角度來說，我們是用一個(gè)特定的詞頻分布來刻畫主題的，并認(rèn)為一篇文章、一段話、一個(gè)句子是從一個(gè)概率模型中生成的。

D. M. Blei在2003年（準(zhǔn)確地說應(yīng)該是2002年）提出的LDA（Latent Dirichlet Allocation）模型（翻譯成中文就是——潛在狄利克雷分配模型）讓主題模型火了起來，今年3月份我居然還發(fā)現(xiàn)了一個(gè)專門的LDA的R軟件包（7月份有更新），可見主題模型方興未艾呀。主題模型是一種語言模型，是對(duì)自然語言進(jìn)行建模，這個(gè)在信息檢索中很有用。

LDA主題模型涉及到貝葉斯理論、Dirichlet分布、多項(xiàng)分布、圖模型、變分推斷、EM算法、Gibbs抽樣等知識(shí)，不是很好懂，LDA那篇30 頁的文章我看了四、五遍才基本弄明白是咋回事。那篇文章其實(shí)有點(diǎn)老了，但是很經(jīng)典，從它衍生出來的文章現(xiàn)在已經(jīng)有n多n多了。主題模型其實(shí)也不只是LDA 了，LDA之前也有主題模型，它是之前的一個(gè)突破，它之后也有很多對(duì)它進(jìn)行改進(jìn)的主題模型。需要注意的是，LDA也是有名的Linear Discriminant Analysis（線性判別分析）的縮寫。

LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)，可以用來識(shí)別大規(guī)模文檔集（document collection）或語料庫（corpus）中潛藏的主題信息。它采用了詞袋（bag of words）的方法，這種方法將每一篇文檔視為一個(gè)詞頻向量，從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序，這簡(jiǎn)化了問題的復(fù)雜性，同時(shí)也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布，而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。由于 Dirichlet分布隨機(jī)向量各分量間的弱相關(guān)性（之所以還有點(diǎn)“相關(guān)”，是因?yàn)楦鞣至恐捅仨殲?），使得我們假想的潛在主題之間也幾乎是不相關(guān)的，這與很多實(shí)際問題并不相符，從而造成了LDA的又一個(gè)遺留問題。

對(duì)于語料庫中的每篇文檔，LDA定義了如下生成過程（generative process）：

1. 對(duì)每一篇文檔，從主題分布中抽取一個(gè)主題；

2. 從上述被抽到的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞；

3. 重復(fù)上述過程直至遍歷文檔中的每一個(gè)單詞。

更形式化一點(diǎn)說，語料庫中的每一篇文檔與 $T$ （通過反復(fù)試驗(yàn)等方法事先給定）個(gè)主題的一個(gè)多項(xiàng)分布相對(duì)應(yīng)，將該多項(xiàng)分布記為 $θ$ 。每個(gè)主題又與詞匯表（vocabulary）中的 $V$ 個(gè)單詞的一個(gè)多項(xiàng)分布相對(duì)應(yīng)，將這個(gè)多項(xiàng)分布記為 $ϕ$ 。上述詞匯表是由語料庫中所有文檔中的所有互異單詞組成，但實(shí)際建模的時(shí)候要剔除一些停用詞（stopword），還要進(jìn)行一些詞干化（stemming）處理等。 $θ$ 和 $ϕ$ 分別有一個(gè)帶有超參數(shù)（hyperparameter） $α$ 和 $β$ 的Dirichlet先驗(yàn)分布。對(duì)于一篇文檔 $d$ 中的每一個(gè)單詞，我們從該文檔所對(duì)應(yīng)的多項(xiàng)分布 $θ$ 中抽取一個(gè)主題 $z$ ，然后我們?cè)購闹黝} $z$ 所對(duì)應(yīng)的多項(xiàng)分布 $ϕ$ 中抽取一個(gè)單詞 $w$ 。將這個(gè)過程重復(fù) $N_{d}$ 次，就產(chǎn)生了文檔 $d$ ，這里的 $N_{d}$ 是文檔 $d$ 的單詞總數(shù)。這個(gè)生成過程可以用如下的圖模型表示：

這個(gè)圖模型表示法也稱作“盤子表示法”（plate notation）。圖中的陰影圓圈表示可觀測(cè)變量（observed variable），非陰影圓圈表示潛在變量（latent variable），箭頭表示兩變量間的條件依賴性（conditional dependency），方框表示重復(fù)抽樣，重復(fù)次數(shù)在方框的右下角。

該模型有兩個(gè)參數(shù)需要推斷（infer）：一個(gè)是“文檔-主題”分布 $θ$ ，另外是 $T$ 個(gè)“主題-單詞”分布 $ϕ$ 。通過學(xué)習(xí)（learn）這兩個(gè)參數(shù)，我們可以知道文檔作者感興趣的主題，以及每篇文檔所涵蓋的主題比例等。推斷方法主要有LDA模型作者提出的變分-EM算法，還有現(xiàn)在常用的Gibbs抽樣法。

LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn)。如前所述，LDA模型自從誕生之后有了蓬勃的擴(kuò)展，特別是在社會(huì)網(wǎng)絡(luò)和社會(huì)媒體研究領(lǐng)域最為常見。

您可能也喜歡：

LDA-math-LDA 文本建模

LDA-math-文本建模

LDA-math-認(rèn)識(shí)Beta/Dirichlet分布

LDA-math-神奇的Gamma函數(shù)

中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院研究生課程“統(tǒng)計(jì)模型”

LDA-math-MCMC 和 Gibbs Sampling

微博名人那些事兒

分層線性模型軟件HLM6.0操作簡(jiǎn)介

無覓關(guān)聯(lián)推薦[?]

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：枯井道人 > 《統(tǒng)計(jì)》

舉報(bào)/認(rèn)領(lǐng)