一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

FanJianning: LDA主題模型簡(jiǎn)介 | 統(tǒng)計(jì)之都 (中國(guó)統(tǒng)計(jì)學(xué)門戶網(wǎng)站,免費(fèi)統(tǒng)計(jì)學(xué)服務(wù)平臺(tái))

 枯井道人 2016-07-17

上個(gè)學(xué)期到現(xiàn)在陸陸續(xù)續(xù)研究了一下主題模型(topic model)這個(gè)東東。何謂“主題”呢?望文生義就知道是什么意思了,就是諸如一篇文章、一段話、一個(gè)句子所表達(dá)的中心思想。不過從統(tǒng)計(jì)模型的角度來說, 我們是用一個(gè)特定的詞頻分布來刻畫主題的,并認(rèn)為一篇文章、一段話、一個(gè)句子是從一個(gè)概率模型中生成的。

D. M. Blei在2003年(準(zhǔn)確地說應(yīng)該是2002年)提出的LDA(Latent Dirichlet Allocation)模型(翻譯成中文就是——潛在狄利克雷分配模型)讓主題模型火了起來, 今年3月份我居然還發(fā)現(xiàn)了一個(gè)專門的LDA的R軟件包(7月份有更新),可見主題模型方興未艾呀。主題模型是一種語言模型,是對(duì)自然語言進(jìn)行建模,這個(gè)在信息檢索中很有用。

LDA主題模型涉及到貝葉斯理論、Dirichlet分布、多項(xiàng)分布、圖模型、變分推斷EM算法、Gibbs抽樣等知識(shí),不是很好懂,LDA那篇30 頁的文章我看了四、五遍才基本弄明白是咋回事。那篇文章其實(shí)有點(diǎn)老了,但是很經(jīng)典,從它衍生出來的文章現(xiàn)在已經(jīng)有n多n多了。主題模型其實(shí)也不只是LDA 了,LDA之前也有主題模型,它是之前的一個(gè)突破,它之后也有很多對(duì)它進(jìn)行改進(jìn)的主題模型。需要注意的是,LDA也是有名的Linear Discriminant Analysis(線性判別分析)的縮寫。

LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識(shí)別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡(jiǎn)化了問題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。由于 Dirichlet分布隨機(jī)向量各分量間的弱相關(guān)性(之所以還有點(diǎn)“相關(guān)”,是因?yàn)楦鞣至恐捅仨殲?),使得我們假想的潛在主題之間也幾乎是不相關(guān)的,這與很多實(shí)際問題并不相符,從而造成了LDA的又一個(gè)遺留問題。

對(duì)于語料庫中的每篇文檔,LDA定義了如下生成過程(generative process):

1. 對(duì)每一篇文檔,從主題分布中抽取一個(gè)主題;

2. 從上述被抽到的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;

3. 重復(fù)上述過程直至遍歷文檔中的每一個(gè)單詞。

更形式化一點(diǎn)說,語料庫中的每一篇文檔與 T(通過反復(fù)試驗(yàn)等方法事先給定)個(gè)主題的一個(gè)多項(xiàng)分布相對(duì)應(yīng),將該多項(xiàng)分布記為 θ。每個(gè)主題又與詞匯表(vocabulary)中的  V個(gè)單詞的一個(gè)多項(xiàng)分布相對(duì)應(yīng),將這個(gè)多項(xiàng)分布記為 ?。上述詞匯表是由語料庫中所有文檔中的所有互異單詞組成,但實(shí)際建模的時(shí)候要剔除一些停用詞(stopword),還要進(jìn)行一些詞干化(stemming)處理等。θ?分別有一個(gè)帶有超參數(shù)(hyperparameter)αβ的Dirichlet先驗(yàn)分布。對(duì)于一篇文檔d中的每一個(gè)單詞,我們從該文檔所對(duì)應(yīng)的多項(xiàng)分布θ中抽取一個(gè)主題z,然后我們?cè)購闹黝}z所對(duì)應(yīng)的多項(xiàng)分布?中抽取一個(gè)單詞w。將這個(gè)過程重復(fù)Nd次,就產(chǎn)生了文檔d,這里的Nd是文檔d的單詞總數(shù)。這個(gè)生成過程可以用如下的圖模型表示:

 這個(gè)圖模型表示法也稱作“盤子表示法”(plate notation)。圖中的陰影圓圈表示可觀測(cè)變量(observed variable),非陰影圓圈表示潛在變量(latent variable),箭頭表示兩變量間的條件依賴性(conditional dependency),方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。

該模型有兩個(gè)參數(shù)需要推斷(infer):一個(gè)是“文檔-主題”分布θ,另外是T個(gè)“主題-單詞”分布?。通過學(xué)習(xí)(learn)這兩個(gè)參數(shù),我們可以知道文檔作者感興趣的主題,以及每篇文檔所涵蓋的主題比例等。推斷方法主要有LDA模型作者提出的變分-EM算法,還有現(xiàn)在常用的Gibbs抽樣法。

LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn)。如前所述,LDA模型自從誕生之后有了蓬勃的擴(kuò)展,特別是在社會(huì)網(wǎng)絡(luò)和社會(huì)媒體研究領(lǐng)域最為常見。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    肥白女人日韩中文视频| 国产欧美精品对白性色| 五月天婷亚洲天婷综合网| 欧美亚洲91在线视频| 老外那个很粗大做起来很爽| 欧美美女视频在线免费看| 亚洲一区二区三区熟女少妇| 久久久免费精品人妻一区二区三区 | 蜜桃传媒视频麻豆第一区| 国产精欧美一区二区三区久久| 熟女少妇一区二区三区蜜桃| 日本精品中文字幕在线视频| 好吊日成人免费视频公开| 日韩精品第一区二区三区| 国产在线一区中文字幕 | 亚洲最新中文字幕在线视频| 中文字幕人妻日本一区二区 | 亚洲香艳网久久五月婷婷| 亚洲女同一区二区另类| 爱草草在线观看免费视频| 四季av一区二区播放| 国产免费观看一区二区| 欧美午夜性刺激在线观看| 国产亚洲欧美一区二区| 亚洲精品深夜福利视频| 久久中文字幕中文字幕中文| 男女激情视频在线免费观看| 欧美91精品国产自产| 91欧美日韩中在线视频| 欧美午夜一级特黄大片| 精品老司机视频在线观看| 精品一区二区三区三级视频| 日韩中文字幕免费在线视频| 日本午夜福利视频免费观看| 亚洲国产色婷婷久久精品| 国产中文字幕久久黄色片| 日韩黄色一级片免费收看| 99久久免费看国产精品| 免费精品一区二区三区| 99视频精品免费视频| 国产欧美另类激情久久久|