設(shè)為 “星標(biāo)”,重磅干貨,第一時(shí)間送達(dá)!?PaperWeekly 原創(chuàng) · 作者|韓蕊莘
SLM 論文標(biāo)題: Unsupervised Neural Word Segmentation for Chinese via Segmental Language Modeling 論文來(lái)源: EMNLP 2018 論文鏈接: https:///abs/1810.03167 代碼鏈接: https://github.com/Edward-Sun/SLM 本文首次提出了基于神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督中文分詞模型,并在 SIGHAN 2005 分詞競(jìng)賽的四個(gè)不同數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的統(tǒng)計(jì)模型性能。以往的無(wú)監(jiān)督分詞模型可大致分為判別模型和生成模型。前者使用精心設(shè)計(jì)的有效方法(互信息,nVBE,MDL 等等)來(lái)進(jìn)行候選詞分割,而后者側(cè)重于為中文設(shè)計(jì)統(tǒng)計(jì)模型,并找到生成概率最高的最優(yōu)分割。 本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的生成式模型:Segmental Language Models (SLMs),SLMs 可以直接生成分詞后的句子,并給出相應(yīng)的生成句子的概率。1.1 Segmental Language Models 本文受到 RNN 的啟發(fā),本時(shí)刻的狀態(tài)受到上一狀態(tài)的影響。與神經(jīng)語(yǔ)言模型相似,SLMs 建模的目標(biāo)是學(xué)習(xí)分割后的字符序列的聯(lián)合概率函數(shù)。作者采用了 encoder+decoder 的范式來(lái)解決這個(gè)問(wèn)題,但由于是無(wú)監(jiān)督的分詞,作者使用了一個(gè) RNN 作為 encoder 給整個(gè)序列進(jìn)行編碼作為每個(gè)字的 embedding,因?yàn)?decoder 生成的內(nèi)容與 encoder 提供的內(nèi)容不一樣,所以 SLM 不是一個(gè)標(biāo)準(zhǔn)的 encoder-decoder 模型。SLM 的具體工作方式如圖:因?yàn)槭菬o(wú)監(jiān)督的,作者計(jì)算了每個(gè)字的所有可能的分詞序列的概率:1.2 實(shí)驗(yàn)結(jié)果 從表 1 可以看出,SLMs 在 PKU 和 AS 數(shù)據(jù)集上優(yōu)于以往最好的判別和生成模型。這可能是由于 SLM 模型的分割準(zhǔn)則更接近這兩個(gè)數(shù)據(jù)集(模型名稱后面的數(shù)字表示的是最大切分長(zhǎng)度)。 此外作者還發(fā)現(xiàn)在中文中,“的”經(jīng)常跟在形容詞之后,“了”經(jīng)常跟在動(dòng)詞之后。因此,作者提出一個(gè)后處理模塊來(lái)處理這個(gè)問(wèn)題。此外,作者還利用分割后的訓(xùn)練數(shù)據(jù)集的前 1024 句對(duì)來(lái)弱監(jiān)督訓(xùn)練“SLM-4”,并進(jìn)行了評(píng)價(jià)。1.3 總結(jié)本文提出了一種完全無(wú)監(jiān)督中文詞匯挖掘的神經(jīng)網(wǎng)絡(luò)生成模型。這是當(dāng)時(shí)中文無(wú)監(jiān)督分詞的第一個(gè)神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,該模型在 SIGHAN 2005 的四個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了與 SOTA 統(tǒng)計(jì)模型相當(dāng)?shù)男阅堋?/span>Improving Cross-Domain Chinese Word Segmentation with Word Embeddingshttps://github.com/vatile/CWS-NAACL20192.1 Intro分詞幾乎是所有 NLP 任務(wù)的基礎(chǔ),但是往往會(huì)存在帶標(biāo)注的數(shù)據(jù)數(shù)量有限的問(wèn)題,這一問(wèn)題很大程度限制了模型的 performance。因此本文提出了一種基于半監(jiān)督的方法來(lái)改善中文分詞(Chinese Word Segmentation, CWS)的效果。該方法不需要制定復(fù)雜的手工特性和特定領(lǐng)域的字典。只需要考慮目標(biāo)域內(nèi)在原始文本上訓(xùn)練的 word-embedding 即可。該方法較 baseline 能夠提升 3 個(gè)點(diǎn)。2.2 Contributions 在中文中,我們對(duì)于分詞有一個(gè)基本的直覺(jué):在同一個(gè)上下文窗口內(nèi)的單詞組合應(yīng)該彼此接近。也就是說(shuō),如果一個(gè)序列的切分不正確,那么這些切分錯(cuò)誤的詞很可能在語(yǔ)義和句法上與其周?chē)脑~不一致。因此,一個(gè)不正確的分詞的 embedding 應(yīng)該遠(yuǎn)離它周?chē)~的 embedding。 - 基于以上假設(shè),作者提出了一種基于 word-embedding 的半監(jiān)督分詞方法——WEB-CWS(Word-Embedding-Based CWS),該方法還可以實(shí)現(xiàn) cross-domain 的分詞。
- 作者在多個(gè)數(shù)據(jù)集中驗(yàn)證了該方法的有效性(e.g., novels, medicine, and patent)。
2.3 Word-Embedding-Based CWS模型整體流程如上圖。 - 首先會(huì)有一個(gè) taget domain 的 raw corpus,我們將其定義為語(yǔ)料 T ,然后使用作為 beseline 的 segmenter 去分詞,分完詞之后得到語(yǔ)料 T'。
- 然后在 T' 上利用基于 word-embedding 的分詞方法(WEB-CWS)得到一組單詞的 embeddings E。此外,所有在 T' 中的 token 組合成一個(gè) taget domain 的字典 D。
- 最后,E 和 D 使用基于單詞嵌入的 segmenter 對(duì) T 進(jìn)行重新分割。
2.3.1 CWS-Oriented Word Embedding Model作者在這部分采用了 w2v 的 skip-gram 的思路,但是因?yàn)?skip-gram 的目標(biāo)函數(shù)是 LM 的目標(biāo)函數(shù):作者為了讓模型更加適配 CWS 任務(wù),做了以下幾點(diǎn)修改: 添加面向 CWS 的負(fù)樣本;Skip-gram 將詞 w 的 context 在 window 里的詞作為正樣本,在本論文中,給定目標(biāo)詞 w 及其上下文 C,并將 SL 和 SR 作為 C 中 w 左右的字符序列,對(duì)于 SL 或 SR 的任意子串 s' 在字典 D 中,而不在 C 中,那么(w, s')會(huì)被看做一個(gè)負(fù)樣本。 改變對(duì)多字詞進(jìn)行子采樣的方法;作者使用了一種多字詞內(nèi)部采樣負(fù)樣本的方法,比如給定一個(gè)多字符的目標(biāo)單詞 ,假設(shè)它所有的子詞都在 D 中。作者提出的字內(nèi)負(fù)采樣方法將產(chǎn)生以下負(fù)樣本:、、、 和 ,模型能夠?qū)W習(xí)在切分詞的時(shí)候不要分割那些多字符的單詞。在中文中,有一些常見(jiàn)的由子串組成的多字詞,這些子串本身也是非常常見(jiàn)的詞。比如“但是”這個(gè)詞能被分為“但”和“是”,而在 skip-gram 中頻繁詞的 embedidng 相對(duì)接近,因?yàn)轭l繁詞與其他詞共現(xiàn)的頻率較高。在上一個(gè)方法中模型也傾向于不把“但是”切開(kāi),所以作者提出了一種 subsampling 的方法:通過(guò)這樣做,可以保留那些子字符串本身就是更常見(jiàn)單詞的多字符單詞。 規(guī)范化嵌入的點(diǎn)積;在原始的 skip-gram 模型中,直接使用兩個(gè)單詞的嵌入量的點(diǎn)積作為 sigmoid 層的輸入。為了使基于 CWS 的單詞嵌入模型導(dǎo)出的單詞嵌入更符合上述用于分割的 metric,作者將原目標(biāo)函數(shù)的訓(xùn)練目標(biāo)修改為基于 dot-product 的目標(biāo)函數(shù): 平滑訓(xùn)練中正樣本和負(fù)樣本的權(quán)值。2.3.2 Word-Embedding-Based Segmentater在這一步,作者將序列分詞的過(guò)程建模為一個(gè)基于假設(shè)的維特比解碼過(guò)程。 給定一個(gè)由 n 個(gè)字符組成的句子 ( 和 是句子開(kāi)頭/結(jié)尾的標(biāo)記)。在 中,字符 被分詞器切分為單詞 存儲(chǔ)在 中;字符 未分割,存儲(chǔ)在 中。之后給定一個(gè)特征 和一個(gè)假設(shè) ,可以以兩種方式生成,通過(guò)添加 到 中,或移動(dòng) 中的第一個(gè)詞到 中,然后添加 到 中。概率計(jì)算: 假設(shè) 的對(duì)數(shù)概率定義為:其中 f 是窗口大小,如果 f = 2, 將由 和 計(jì)算得到。2.4 Experiment上表的結(jié)果表明,作者提出的的 WEB-CWS 模型可以明顯改善特定領(lǐng)域的四個(gè)數(shù)據(jù)集的 CWS,包括 DL、FR、ZX 和 DM,在F值上提高了 3.0% 以上。這一結(jié)果表明 WEB-CWS 能夠有效地改善跨域 CWS。2.5 總結(jié)本文提出了一種半監(jiān)督的中文分詞模型——WEB-CWS,可以用來(lái)有效地改進(jìn)跨域 CWS。該模型只需要一個(gè)基本的分詞器和目標(biāo)域中的一個(gè)原始語(yǔ)料庫(kù)作為 CWS 部署單詞 embedding 的方式。WEB-CWS 在特定領(lǐng)域的四個(gè)數(shù)據(jù)集上明顯改進(jìn)了 SOTA 分詞器的性能,特別是在特定領(lǐng)域的名詞實(shí)體方面。論文標(biāo)題: Improving Chinese Segmentation-free Word Embedding With Unsupervised Association Measure 論文鏈接: https:///abs/2007.02342 目前很多神經(jīng)網(wǎng)絡(luò)模型不再將分詞作為解決問(wèn)題的首要步驟,而是通過(guò)直接學(xué)習(xí)每個(gè)詞的 embedding 來(lái)解決具體任務(wù)。但是使用這種方式在詞匯中會(huì)存在大量的的噪聲 n-gram,并且這些 n-gram 在字符之間沒(méi)有很強(qiáng)的關(guān)聯(lián)強(qiáng)度,一定程度上限制了 embedding 的質(zhì)量。 為了解決這一問(wèn)題,作者提出了一種新的無(wú)分詞的詞嵌入模型,該模型通過(guò)一種新的無(wú)監(jiān)督關(guān)聯(lián)方法——時(shí)間信息點(diǎn)關(guān)聯(lián)(PATI)來(lái)構(gòu)建 n-gram 詞典。該方法利用了語(yǔ)料庫(kù)中存在的潛在信息,從而能夠收集更多有效有更強(qiáng)的凝聚力的 n-grams。3.1 Methods為了解決這一問(wèn)題,作者提出了一種新的無(wú)分詞的詞嵌入模型 PATI Filtered N-gram Embedding(PFNE),整體流程如下:3.1.2 PATI作者提出了一種無(wú)監(jiān)督的 n-gram 關(guān)聯(lián)度量方法——pointwise association with times information(PATI): 其中 F 是 n-gram:g 出現(xiàn)的頻率。 給定一個(gè)固定長(zhǎng)度 s 的 n-gram g = concat(a, b),總存在使 MP 最小化的 n-gram 段 的特定組合。然后在此組合 下計(jì)算 PATI 中 (Eq.(10)) 處的第三個(gè)分量 AT。然后將 rate 定義文為 與 之比與 與 之比之間的最大值。設(shè) AC 為頻率較低的集合 {am,?} 或 {?,bm} 的大小的倒數(shù)。則 times 和 AT 被表述為:3.1.3 PATI FILTERED N-GRAM EMBEDDING MODEL這一步主要就是根據(jù)上一步構(gòu)建出來(lái)的詞表,通過(guò) word2vec 的方式學(xué)習(xí)每個(gè)詞的 embedding。PFNE 對(duì) skip-gram 的負(fù)采樣進(jìn)行了修正,將 bag of positive samples 的定義 Np 從包含 top-K 頻繁 n-gram 的配對(duì)改為由 top-K 中找 PATI 得分最高 n-gram 構(gòu)建配對(duì)。其中 和 分別是 n-gram 和 n-gram 的向量表示。3.2 總結(jié)本文提出了一種無(wú)監(jiān)督的分詞(也可以說(shuō)是新詞發(fā)現(xiàn))算法,在分詞階段改善了以往使用頻率統(tǒng)計(jì)的方法,使用結(jié)合左右 n-gram 的方法使分詞結(jié)果的置信度最高。最后可以使用分詞后的結(jié)果去訓(xùn)練 w2v,效果要優(yōu)于其他方法。
|