11款開放中文分詞引擎大比拼

趙東華 2016-03-23

展開全文

摘要: 在逐漸步入DT（DataTechnology）時(shí)代的今天，自然語義分析技術(shù)越發(fā)不可或缺。對于我們每天打交道的中文來說，并沒有類似英文空格的邊界標(biāo)志。而理解句子所包含的詞語，則是理解漢語語句的第一步。漢語自動(dòng)分詞的任務(wù) ...

在逐漸步入DT（DataTechnology）時(shí)代的今天，自然語義分析技術(shù)越發(fā)不可或缺。對于我們每天打交道的中文來說，并沒有類似英文空格的邊界標(biāo)志。而理解句子所包含的詞語，則是理解漢語語句的第一步。漢語自動(dòng)分詞的任務(wù)，通俗地說，就是要由機(jī)器在文本中的詞與詞之間自動(dòng)加上空格。

一提到自動(dòng)分詞，通常會(huì)遇到兩種比較典型的質(zhì)疑。一種質(zhì)疑是來自外行人的：這件事看上去平凡之極，好像一點(diǎn)兒也不“fancy”，會(huì)有什么用呢？另一種質(zhì)疑則是來自業(yè)內(nèi)：自動(dòng)分詞研究已經(jīng)進(jìn)行了數(shù)年，而網(wǎng)上也存在各種不同的開放分詞系統(tǒng)，但對于實(shí)際商用似乎也未見一個(gè)“即插即用”的系統(tǒng)。

那么，目前常見的開放分詞引擎，到底性能如何呢？為了進(jìn)行測試，我們調(diào)研了11款網(wǎng)上常見的并且公開提供服務(wù)的分詞系統(tǒng)，包括：

分詞的客觀量化測試離不開標(biāo)注數(shù)據(jù)，即人工所準(zhǔn)備的分詞“標(biāo)準(zhǔn)答案”。在數(shù)據(jù)源方面，我們將測試分為：

1.新聞數(shù)據(jù)：140篇，共30517詞語；

2.微博數(shù)據(jù)：200篇，共12962詞語；

3.汽車論壇數(shù)據(jù)（汽車之家）100篇：共27452詞語；

4.餐飲點(diǎn)評數(shù)據(jù)（大眾點(diǎn)評）：100條，共8295詞語。

準(zhǔn)確度計(jì)算規(guī)則：

1.將所有標(biāo)點(diǎn)符號去除，不做比較。

2.參與測試的部分系統(tǒng)進(jìn)行了實(shí)體識別，可能造成詞語認(rèn)定的不統(tǒng)一。我們將對應(yīng)位置替換成了人工標(biāo)注的結(jié)果，得到準(zhǔn)確率估算的上界。

3.經(jīng)過以上處理，用SIGHAN分詞評分腳本比較得到最終的準(zhǔn)確率，召回率和F1值。

以上所有數(shù)據(jù)采用北大現(xiàn)代漢語基本加工規(guī)范對所有數(shù)據(jù)進(jìn)行分詞作為標(biāo)準(zhǔn)。具體數(shù)據(jù)下載地址請參見附錄。通過這四類數(shù)據(jù)綜合對比不同分詞系統(tǒng)的分詞準(zhǔn)確度。

上圖為參與比較的10款分詞引擎在不同數(shù)據(jù)的分詞準(zhǔn)確度結(jié)果。可以看出，在所測試的四個(gè)數(shù)據(jù)集上，BosonNLP和哈工大語言云都取得了較高的分詞準(zhǔn)確率，尤其在新聞數(shù)據(jù)上。因?yàn)殁叶〗馀Ｊ菍⑺锌赡艹稍~的詞語全部掃描出來（例如：“最不滿意”分為：“最不不滿滿意”），與其他系統(tǒng)輸出規(guī)范不同，因而不參與準(zhǔn)確率統(tǒng)計(jì)。

為了更直接的比較不同數(shù)據(jù)源的差別，我們從每個(gè)數(shù)據(jù)源的測試數(shù)據(jù)中抽取比較典型的示例進(jìn)行更直觀的對比。

【新聞數(shù)據(jù)】

新聞數(shù)據(jù)的特點(diǎn)是用詞規(guī)整，符合語法規(guī)則，也是普遍做得比較不錯(cuò)的一個(gè)領(lǐng)域。對比其他數(shù)據(jù)源，有7家系統(tǒng)都在新聞?lì)I(lǐng)域達(dá)到最高。包括IKAnalyzer、盤古分詞、搜狗分詞、新浪云、NLPIR、語言云、BosonNLP。并且有三家系統(tǒng)準(zhǔn)確率超過90%。

樣例：香港中文大學(xué) 將來合肥一中進(jìn)行招生宣傳今年在皖招 8 人萬家熱線安徽第一門戶

【微博數(shù)據(jù)】

微博數(shù)據(jù)用詞多樣、話題廣泛，并常包含錯(cuò)別字及網(wǎng)絡(luò)流行詞。能夠比較全面的體現(xiàn)每家分詞系統(tǒng)的準(zhǔn)確度。

樣例：補(bǔ) 了 battle 賽峰暴班的兩個(gè) 弟弟妹妹 @楊寶心 @修兒一個(gè) 是我很挺的好弟弟一個(gè) 是我推薦進(jìn) 好聲音的妹子雖然都在 battle 階段都下來了但是我依然像之前那樣覺得你們非常棒

【汽車論壇】

汽車數(shù)據(jù)是針對汽車領(lǐng)域的專業(yè)評價(jià)數(shù)據(jù)，會(huì)出現(xiàn)很多的專業(yè)術(shù)語。例如示例中的“胎噪”、“風(fēng)燥”等，如果系統(tǒng)沒有足夠強(qiáng)大的訓(xùn)練詞庫或領(lǐng)域優(yōu)化，會(huì)使準(zhǔn)確率有較大程度降低。比較有意思的是，對比其他數(shù)據(jù)源，有3家系統(tǒng)都在汽車論壇領(lǐng)域達(dá)到最高：騰訊文智、SCWS中文分詞、結(jié)巴分詞。

樣例：舒適性胎噪風(fēng)噪偏大避震偏硬過坎彈跳明顯

【餐飲點(diǎn)評】

餐飲點(diǎn)評數(shù)據(jù)為顧客評論數(shù)據(jù)，更偏重口語化。會(huì)出現(xiàn)很多類似“閨蜜”、“萌萌噠”口語化詞語和很多不規(guī)范的表達(dá)，使分詞更加困難。

樣例：跟閨蜜在西單逛街想吃壽司了在西單沒搜到其他的日料店就來禾綠了我們倆都覺得沒以前好了

各家系統(tǒng)對于多數(shù)簡單規(guī)范的文本的分詞已經(jīng)達(dá)到很高的水平。但在仔細(xì)對比每一家中文分詞后依舊發(fā)現(xiàn)切分歧義詞和未登陸詞（即未在訓(xùn)練數(shù)據(jù)中出現(xiàn)的詞）仍然是影響分詞準(zhǔn)確度的兩大“攔路虎”。

01、切分歧義

據(jù)測試數(shù)據(jù)的切分結(jié)果，一類屬于機(jī)器形式的歧義，在真實(shí)語言環(huán)境下，只有唯一可能的正確切分結(jié)果，稱其為偽歧義。另一類有兩種以上可實(shí)現(xiàn)的切分結(jié)果，稱為真歧義。由于真歧義數(shù)據(jù)無法比較正確或者錯(cuò)誤。所有我們著重舉例來比較各家系統(tǒng)對偽歧義的處理效果。

正確：在倫敦奧運(yùn)會(huì) 上將可能有一位沙特阿拉伯的女子

（BosonNLP、新浪云、語言云、NLPIR、騰訊文智）

錯(cuò)誤：在倫敦奧運(yùn)會(huì) 上將可能有一位沙特阿拉伯的女子

（PHP結(jié)巴分詞、SCWS中文分詞、搜狗分詞、庖丁解牛）

示例中原意指倫敦奧運(yùn)會(huì)可能有一位沙特阿拉伯的女子，錯(cuò)誤分詞的意思是指上將（軍銜）中有一位是沙特阿拉伯的女子，句意截然不同。當(dāng)然，分析的層次越深，機(jī)器對知識庫質(zhì)量、規(guī)模等的依賴性就越強(qiáng)，所需要的時(shí)間、空間代價(jià)也就越大。

02、未登錄詞：未登錄詞大致包含三大類

a)新涌現(xiàn)的通用詞：類似“神馬”、“納尼”、“甩賣”、“玫瑰金”等新思想、新事物所帶來的新詞匯，不管是文化的、政治的、還是經(jīng)濟(jì)的，在人們的生活中不斷涌現(xiàn)。同時(shí)很多詞語也具有一定的時(shí)效性。

b)專業(yè)術(shù)語：是相對日常用語而言的，一般指的某一行業(yè)各種名稱用語，大多數(shù)情況為該領(lǐng)域的專業(yè)人士所熟知。這種未登錄詞理論上是可預(yù)期的。能夠人工預(yù)先添加到詞表中（但這也只是理想狀態(tài)，在真實(shí)環(huán)境下并不易做到）。

c)專有名詞：如中國人名、外國譯名、地名、公司名等。這種詞語很多基本上不可通過詞典覆蓋，考驗(yàn)分詞系統(tǒng)的新詞識別能力。

【新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語】

示例中的藍(lán)色字包括專業(yè)術(shù)語：“肚腩”、“腹肌”、“腹直肌”、“腹外斜肌”、“腹橫肌”；新涌現(xiàn)的通用詞：“人魚線”、“馬甲線”。大多數(shù)的系統(tǒng)對于示例文本的分詞結(jié)果都不夠理想，例如：“大肚腩”（SCWS中文分詞） “腹直肌腹外斜肌”（搜狗分詞、IKAnalyer、NLPIR、SCWS中文分詞）、“人魚線”（PHP結(jié)巴分詞）。總的來說這兩種類型的數(shù)據(jù)每家系統(tǒng)都存在一定的缺陷，相對而言哈工大的語言云在這方面表現(xiàn)的較好。

本季最強(qiáng) 家庭瘦腰計(jì)劃徹底告別大肚腩沒有腹肌的人生是不完整的平面模特 yanontheway 親身示范的 9 個(gè) 動(dòng)作徹底強(qiáng)化腹直肌腹外斜肌腹內(nèi)斜肌以及腹橫肌每個(gè) 動(dòng)作認(rèn)真做足 50 次一定要堅(jiān)持做完美的人魚線性感的馬甲線都要我們自己去爭取

【專有名詞】

示例出現(xiàn)的專有名詞包括“蒂莫西伊斯頓”（姓名）、“英國”“意大利”“北歐”（地點(diǎn)）、“金斯敦”（機(jī)構(gòu)名）、“伊麗莎白格林希爾茲”（機(jī)構(gòu)名）。而這種用詞典無法窮盡的專有名詞也成為各家分詞準(zhǔn)確率降低的重要原因。其中搜狗分詞、IKAnalyer、PHP結(jié)巴分詞、騰訊文智、SCWS中文分詞在新詞識別時(shí)較為謹(jǐn)慎，常將這類專有名詞切分成多個(gè)詞語。

油畫英國畫家蒂莫西伊斯頓唯美風(fēng) 油畫 timothy easton 畢業(yè) 于英國金斯敦藝術(shù) 學(xué)院曾獲伊麗莎白格林希爾茲基金會(huì) 獎(jiǎng) 得以前往意大利和北歐學(xué)習(xí) 一年的機(jī)會(huì)

當(dāng)然在分詞準(zhǔn)確度可以接受的情況下，很多細(xì)節(jié)問題，包括是否有出錯(cuò)情況、是否支持各種字符、是否標(biāo)注詞性等都可能讓我們望而卻步。在分詞顆粒度選擇當(dāng)中，BosonNLP、SCWS、盤古分詞、結(jié)巴分詞、庖丁解牛都提供了多種選擇，可以根據(jù)需求來采用不同的分詞粒度。與北大的分詞標(biāo)準(zhǔn)對比來說，新浪云默認(rèn)的分詞粒度較大，而搜狗分詞、騰訊文智分詞粒度相對較小。除此之外，BosonNLP、新浪云、NLPIR、騰訊文智同時(shí)提供了實(shí)體識別、情感分析、新聞分類等其他擴(kuò)展服務(wù)。

下表給出了各家系統(tǒng)在應(yīng)用方面的詳細(xì)對比。

中文分詞是其他中文信息處理的基礎(chǔ)，并且在很多領(lǐng)域都有廣泛的應(yīng)用，包括搜索引擎、機(jī)器翻譯（MT）、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對等等。隨著非結(jié)構(gòu)化文本的廣泛應(yīng)用，中文分詞等文本處理技術(shù)也變得越來越重要。通過評測可以看出，部分開放分詞系統(tǒng)在不同領(lǐng)域已經(jīng)達(dá)到較高準(zhǔn)確率。對于數(shù)據(jù)分析處理的從業(yè)者，相信在此之上構(gòu)建數(shù)據(jù)分析系統(tǒng)、人機(jī)交互平臺，更能夠起到事半功倍的效果。

注意：分詞數(shù)據(jù)準(zhǔn)備及評測由BosonNLP完成。

附錄

評測數(shù)據(jù)地址

http:///dev/resource

各家分詞系統(tǒng)鏈接地址

BosonNLP：http:///dev/center

IKAnalyzer：http://www.oschina.net/p/ikanalyzer

NLPIR：http://ictclas./docs

SCWS中文分詞：http://www./scws/docs.php

結(jié)巴分詞：https://github.com/fxsjy/jieba

盤古分詞：http://pangusegment./

庖丁解牛：https://code.google.com/p/paoding/

搜狗分詞：http://www.sogou.com/labs/webservice/

騰訊文智：http://www./wiki/API說明文檔

新浪云：http://www./doc/sae/python/segment.html

語言云：http://www./document

社區(qū)熱帖

社區(qū)精華

· 用ggplot2繪制花朵

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：趙東華 > 《我的文件夾》

舉報(bào)/認(rèn)領(lǐng)