一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

無(wú)監(jiān)督中文分詞算法近年研究進(jìn)展

 520jefferson 2021-01-12
設(shè)為 “星標(biāo)”,重磅干貨,第一時(shí)間送達(dá)!

轉(zhuǎn)載自 | PaperWeekly
?PaperWeekly 原創(chuàng) · 作者|韓蕊莘
學(xué)校|北京大學(xué)碩士生
研究方向|問(wèn)答系統(tǒng)

SLM

論文標(biāo)題:

Unsupervised Neural Word Segmentation for Chinese via Segmental Language Modeling


論文來(lái)源:

EMNLP 2018


論文鏈接:

https:///abs/1810.03167


代碼鏈接:

https://github.com/Edward-Sun/SLM

本文首次提出了基于神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督中文分詞模型,并在 SIGHAN 2005 分詞競(jìng)賽的四個(gè)不同數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的統(tǒng)計(jì)模型性能。以往的無(wú)監(jiān)督分詞模型可大致分為判別模型和生成模型。前者使用精心設(shè)計(jì)的有效方法(互信息,nVBE,MDL 等等)來(lái)進(jìn)行候選詞分割,而后者側(cè)重于為中文設(shè)計(jì)統(tǒng)計(jì)模型,并找到生成概率最高的最優(yōu)分割。

本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的生成式模型:Segmental Language Models (SLMs),SLMs 可以直接生成分詞后的句子,并給出相應(yīng)的生成句子的概率。

1.1 Segmental Language Models

本文受到 RNN 的啟發(fā),本時(shí)刻的狀態(tài)受到上一狀態(tài)的影響。與神經(jīng)語(yǔ)言模型相似,SLMs 建模的目標(biāo)是學(xué)習(xí)分割后的字符序列的聯(lián)合概率函數(shù)。

作者采用了 encoder+decoder 的范式來(lái)解決這個(gè)問(wèn)題,但由于是無(wú)監(jiān)督的分詞,作者使用了一個(gè) RNN 作為 encoder 給整個(gè)序列進(jìn)行編碼作為每個(gè)字的 embedding,因?yàn)?decoder 生成的內(nèi)容與 encoder 提供的內(nèi)容不一樣,所以 SLM 不是一個(gè)標(biāo)準(zhǔn)的 encoder-decoder 模型。SLM 的具體工作方式如圖:

因?yàn)槭菬o(wú)監(jiān)督的,作者計(jì)算了每個(gè)字的所有可能的分詞序列的概率:

1.2 實(shí)驗(yàn)結(jié)果

從表 1 可以看出,SLMs 在 PKU 和 AS 數(shù)據(jù)集上優(yōu)于以往最好的判別和生成模型。這可能是由于 SLM 模型的分割準(zhǔn)則更接近這兩個(gè)數(shù)據(jù)集(模型名稱后面的數(shù)字表示的是最大切分長(zhǎng)度)。

此外作者還發(fā)現(xiàn)在中文中,“的”經(jīng)常跟在形容詞之后,“了”經(jīng)常跟在動(dòng)詞之后。因此,作者提出一個(gè)后處理模塊來(lái)處理這個(gè)問(wèn)題。此外,作者還利用分割后的訓(xùn)練數(shù)據(jù)集的前 1024 句對(duì)來(lái)弱監(jiān)督訓(xùn)練“SLM-4”,并進(jìn)行了評(píng)價(jià)。

1.3 總結(jié)

本文提出了一種完全無(wú)監(jiān)督中文詞匯挖掘的神經(jīng)網(wǎng)絡(luò)生成模型。這是當(dāng)時(shí)中文無(wú)監(jiān)督分詞的第一個(gè)神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,該模型在 SIGHAN 2005 的四個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了與 SOTA 統(tǒng)計(jì)模型相當(dāng)?shù)男阅堋?/span>
WEB-CWS

論文標(biāo)題:
Improving Cross-Domain Chinese Word Segmentation with Word Embeddings
論文來(lái)源:
NAACL 2019
論文鏈接:
https:///abs/1903.01698
代碼鏈接:
https://github.com/vatile/CWS-NAACL2019

2.1 Intro

分詞幾乎是所有 NLP 任務(wù)的基礎(chǔ),但是往往會(huì)存在帶標(biāo)注的數(shù)據(jù)數(shù)量有限的問(wèn)題,這一問(wèn)題很大程度限制了模型的 performance。
因此本文提出了一種基于半監(jiān)督的方法來(lái)改善中文分詞(Chinese Word Segmentation, CWS)的效果。該方法不需要制定復(fù)雜的手工特性和特定領(lǐng)域的字典。只需要考慮目標(biāo)域內(nèi)在原始文本上訓(xùn)練的 word-embedding 即可。該方法較 baseline 能夠提升 3 個(gè)點(diǎn)。

2.2 Contributions

在中文中,我們對(duì)于分詞有一個(gè)基本的直覺(jué):在同一個(gè)上下文窗口內(nèi)的單詞組合應(yīng)該彼此接近。也就是說(shuō),如果一個(gè)序列的切分不正確,那么這些切分錯(cuò)誤的詞很可能在語(yǔ)義和句法上與其周?chē)脑~不一致。因此,一個(gè)不正確的分詞的 embedding 應(yīng)該遠(yuǎn)離它周?chē)~的 embedding。

  • 基于以上假設(shè),作者提出了一種基于 word-embedding 的半監(jiān)督分詞方法——WEB-CWS(Word-Embedding-Based CWS),該方法還可以實(shí)現(xiàn) cross-domain 的分詞。
  • 作者在多個(gè)數(shù)據(jù)集中驗(yàn)證了該方法的有效性(e.g., novels, medicine, and patent)。

2.3 Word-Embedding-Based CWS

模型整體流程如上圖。

  • 首先會(huì)有一個(gè) taget domain 的 raw corpus,我們將其定義為語(yǔ)料 T ,然后使用作為 beseline 的 segmenter 去分詞,分完詞之后得到語(yǔ)料 T'
  • 然后在 T' 上利用基于 word-embedding 的分詞方法(WEB-CWS)得到一組單詞的 embeddings E。此外,所有在 T' 中的 token 組合成一個(gè) taget domain 的字典 D。
  • 最后,ED 使用基于單詞嵌入的 segmenter 對(duì) T 進(jìn)行重新分割。
2.3.1 CWS-Oriented Word Embedding Model
作者在這部分采用了 w2v 的 skip-gram 的思路,但是因?yàn)?skip-gram 的目標(biāo)函數(shù)是 LM 的目標(biāo)函數(shù):

作者為了讓模型更加適配 CWS 任務(wù),做了以下幾點(diǎn)修改:

添加面向 CWS 的負(fù)樣本;Skip-gram 將詞 w 的 context 在 window 里的詞作為正樣本,在本論文中,給定目標(biāo)詞 w 及其上下文 C,并將 SLSR 作為 C 中 w 左右的字符序列,對(duì)于 SLSR 的任意子串 s' 在字典 D 中,而不在 C 中,那么(w, s')會(huì)被看做一個(gè)負(fù)樣本。

改變對(duì)多字詞進(jìn)行子采樣的方法;作者使用了一種多字詞內(nèi)部采樣負(fù)樣本的方法,比如給定一個(gè)多字符的目標(biāo)單詞 ,假設(shè)它所有的子詞都在 D 中。作者提出的字內(nèi)負(fù)采樣方法將產(chǎn)生以下負(fù)樣本:、、、,模型能夠?qū)W習(xí)在切分詞的時(shí)候不要分割那些多字符的單詞。
在中文中,有一些常見(jiàn)的由子串組成的多字詞,這些子串本身也是非常常見(jiàn)的詞。比如“但是”這個(gè)詞能被分為“但”和“是”,而在 skip-gram 中頻繁詞的 embedidng 相對(duì)接近,因?yàn)轭l繁詞與其他詞共現(xiàn)的頻率較高。在上一個(gè)方法中模型也傾向于不把“但是”切開(kāi),所以作者提出了一種 subsampling 的方法:

通過(guò)這樣做,可以保留那些子字符串本身就是更常見(jiàn)單詞的多字符單詞。

規(guī)范化嵌入的點(diǎn)積;在原始的 skip-gram 模型中,直接使用兩個(gè)單詞的嵌入量的點(diǎn)積作為 sigmoid 層的輸入。為了使基于 CWS 的單詞嵌入模型導(dǎo)出的單詞嵌入更符合上述用于分割的 metric,作者將原目標(biāo)函數(shù)的訓(xùn)練目標(biāo)修改為基于 dot-product 的目標(biāo)函數(shù):

平滑訓(xùn)練中正樣本和負(fù)樣本的權(quán)值。
2.3.2 Word-Embedding-Based Segmentater

在這一步,作者將序列分詞的過(guò)程建模為一個(gè)基于假設(shè)的維特比解碼過(guò)程。

給定一個(gè)由 n 個(gè)字符組成的句子 是句子開(kāi)頭/結(jié)尾的標(biāo)記)。
假設(shè)如下:

中,字符 被分詞器切分為單詞 存儲(chǔ)在 中;字符 未分割,存儲(chǔ)在 中。
之后給定一個(gè)特征 和一個(gè)假設(shè) ,可以以兩種方式生成,通過(guò)添加 中,或移動(dòng) 中的第一個(gè)詞到 中,然后添加 中。

概率計(jì)算:

假設(shè) 的對(duì)數(shù)概率定義為:

其中 f 是窗口大小,如果 f = 2, 將由 計(jì)算得到。

2.4 Experiment

上表的結(jié)果表明,作者提出的的 WEB-CWS 模型可以明顯改善特定領(lǐng)域的四個(gè)數(shù)據(jù)集的 CWS,包括 DL、FR、ZX 和 DM,在F值上提高了 3.0% 以上。這一結(jié)果表明 WEB-CWS 能夠有效地改善跨域 CWS。

2.5 總結(jié)

本文提出了一種半監(jiān)督的中文分詞模型——WEB-CWS,可以用來(lái)有效地改進(jìn)跨域 CWS。該模型只需要一個(gè)基本的分詞器和目標(biāo)域中的一個(gè)原始語(yǔ)料庫(kù)作為 CWS 部署單詞 embedding 的方式。WEB-CWS 在特定領(lǐng)域的四個(gè)數(shù)據(jù)集上明顯改進(jìn)了 SOTA 分詞器的性能,特別是在特定領(lǐng)域的名詞實(shí)體方面。
PFNE

論文標(biāo)題:

Improving Chinese Segmentation-free Word Embedding With Unsupervised Association Measure


論文鏈接:

https:///abs/2007.02342

目前很多神經(jīng)網(wǎng)絡(luò)模型不再將分詞作為解決問(wèn)題的首要步驟,而是通過(guò)直接學(xué)習(xí)每個(gè)詞的 embedding 來(lái)解決具體任務(wù)。但是使用這種方式在詞匯中會(huì)存在大量的的噪聲 n-gram,并且這些 n-gram 在字符之間沒(méi)有很強(qiáng)的關(guān)聯(lián)強(qiáng)度,一定程度上限制了 embedding 的質(zhì)量。

為了解決這一問(wèn)題,作者提出了一種新的無(wú)分詞的詞嵌入模型,該模型通過(guò)一種新的無(wú)監(jiān)督關(guān)聯(lián)方法——時(shí)間信息點(diǎn)關(guān)聯(lián)(PATI)來(lái)構(gòu)建 n-gram 詞典。該方法利用了語(yǔ)料庫(kù)中存在的潛在信息,從而能夠收集更多有效有更強(qiáng)的凝聚力的 n-grams。

3.1 Methods

為了解決這一問(wèn)題,作者提出了一種新的無(wú)分詞的詞嵌入模型 PATI Filtered N-gram Embedding(PFNE),整體流程如下:
3.1.2 PATI

作者提出了一種無(wú)監(jiān)督的 n-gram 關(guān)聯(lián)度量方法——pointwise association with times information(PATI):

假設(shè)語(yǔ)料為 ,一共 N 個(gè)詞,對(duì)于任意一個(gè)長(zhǎng)度為 s 的 n-gram:。假設(shè) ,那么 g = concat(a, b), a 和 b 都是 n-gram g 左邊或者右邊可能的部分。定義 是單個(gè) n-gram 段 a, b 和組合 n-gram 段 g 在整個(gè)語(yǔ)料庫(kù)中的原始頻率。

其中 F 是 n-gram:g 出現(xiàn)的頻率。

MP 定義如下:

給定一個(gè)固定長(zhǎng)度 s 的 n-gram g = concat(a, b),總存在使 MP 最小化的 n-gram 段 的特定組合。然后在此組合 下計(jì)算 PATI 中 (Eq.(10)) 處的第三個(gè)分量 AT。
AT 定義如下:

然后將 rate 定義文為 之比與 之比之間的最大值。
設(shè) AC 為頻率較低的集合 {am,?} 或 {?,bm} 的大小的倒數(shù)。則 timesAT 被表述為:
3.1.3 PATI FILTERED N-GRAM EMBEDDING MODEL
這一步主要就是根據(jù)上一步構(gòu)建出來(lái)的詞表,通過(guò) word2vec 的方式學(xué)習(xí)每個(gè)詞的 embedding。PFNE 對(duì) skip-gram 的負(fù)采樣進(jìn)行了修正,將 bag of positive samples 的定義 Np 從包含 top-K 頻繁 n-gram 的配對(duì)改為由 top-K 中找 PATI 得分最高 n-gram 構(gòu)建配對(duì)。

其中 分別是 n-gram 和 n-gram 的向量表示。

3.2 總結(jié)

本文提出了一種無(wú)監(jiān)督的分詞(也可以說(shuō)是新詞發(fā)現(xiàn))算法,在分詞階段改善了以往使用頻率統(tǒng)計(jì)的方法,使用結(jié)合左右 n-gram 的方法使分詞結(jié)果的置信度最高。最后可以使用分詞后的結(jié)果去訓(xùn)練 w2v,效果要優(yōu)于其他方法。

下載1:四件套

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多

    青青操成人免费在线视频| 欧美日韩国内一区二区| 精品国产亚洲av成人一区| 国产精品十八禁亚洲黄污免费观看| 日本不卡视频在线观看| 国产在线观看不卡一区二区| 欧美胖熟妇一区二区三区| 日本东京热视频一区二区三区| 国产美女精品午夜福利视频| 欧美日韩一区二区综合| 欧美日韩国产自拍亚洲| 国产爆操白丝美女在线观看| 五月婷婷六月丁香狠狠| 国产三级欧美三级日韩三级| 欧美日韩国产自拍亚洲| 中文字幕日韩欧美亚洲午夜| 婷婷亚洲综合五月天麻豆| 极品熟女一区二区三区| 欧美日韩精品久久第一页| 欧美午夜国产在线观看| 免费黄片视频美女一区| 青青操视频在线播放免费| 观看日韩精品在线视频| 欧美乱码精品一区二区三| 加勒比系列一区二区在线观看| 黄色国产一区二区三区| 大伊香蕉一区二区三区| 午夜精品福利视频观看| 伊人久久五月天综合网| 国产自拍欧美日韩在线观看| 国产欧美日产中文一区| 国产精品久久熟女吞精| 日韩不卡一区二区三区色图| 亚洲熟妇中文字幕五十路| 日韩一区二区免费在线观看| 久久精品国产在热久久| 区一区二区三中文字幕| 国产精品香蕉在线的人| 国产午夜福利在线观看精品| 加勒比东京热拍拍一区二区| 国产精品免费精品一区二区|