在逐漸步入DT(DataTechnology)時(shí)代的今天,自然語義分析技術(shù)越發(fā)不可或缺。對于我們每天打交道的中文來說,并沒有類似英文空格的邊界標(biāo)志。而理解句子所包含的詞語,則是理解漢語語句的第一步。漢語自動(dòng)分詞的任務(wù),通俗地說,就是要由機(jī)器在文本中的詞與詞之間自動(dòng)加上空格。
一提到自動(dòng)分詞,通常會(huì)遇到兩種比較典型的質(zhì)疑。一種質(zhì)疑是來自外行人的:這件事看上去平凡之極,好像一點(diǎn)兒也不“fancy”,會(huì)有什么用呢?另一種質(zhì)疑則是來自業(yè)內(nèi):自動(dòng)分詞研究已經(jīng)進(jìn)行了數(shù)年,而網(wǎng)上也存在各種不同的開放分詞系統(tǒng),但對于實(shí)際商用似乎也未見一個(gè)“即插即用”的系統(tǒng)。
那么,目前常見的開放分詞引擎,到底性能如何呢?為了進(jìn)行測試,我們調(diào)研了11款網(wǎng)上常見的并且公開提供服務(wù)的分詞系統(tǒng),包括: 分詞的客觀量化測試離不開標(biāo)注數(shù)據(jù),即人工所準(zhǔn)備的分詞“標(biāo)準(zhǔn)答案”。在數(shù)據(jù)源方面,我們將測試分為:
1.新聞數(shù)據(jù):140篇,共30517詞語; 2.微博數(shù)據(jù):200篇,共12962詞語; 3.汽車論壇數(shù)據(jù)(汽車之家)100篇:共27452詞語; 4.餐飲點(diǎn)評數(shù)據(jù)(大眾點(diǎn)評):100條,共8295詞語。
準(zhǔn)確度計(jì)算規(guī)則: 1.將所有標(biāo)點(diǎn)符號去除,不做比較。 2.參與測試的部分系統(tǒng)進(jìn)行了實(shí)體識別,可能造成詞語認(rèn)定的不統(tǒng)一。我們將對應(yīng)位置替換成了人工標(biāo)注的結(jié)果,得到準(zhǔn)確率估算的上界。
3.經(jīng)過以上處理,用SIGHAN分詞評分腳本比較得到最終的準(zhǔn)確率,召回率和F1值。
以上所有數(shù)據(jù)采用北大現(xiàn)代漢語基本加工規(guī)范對所有數(shù)據(jù)進(jìn)行分詞作為標(biāo)準(zhǔn)。具體數(shù)據(jù)下載地址請參見附錄。通過這四類數(shù)據(jù)綜合對比不同分詞系統(tǒng)的分詞準(zhǔn)確度。 上圖為參與比較的10款分詞引擎在不同數(shù)據(jù)的分詞準(zhǔn)確度結(jié)果。可以看出,在所測試的四個(gè)數(shù)據(jù)集上,BosonNLP和哈工大語言云都取得了較高的分詞準(zhǔn)確率,尤其在新聞數(shù)據(jù)上。因?yàn)殁叶〗馀J菍⑺锌赡艹稍~的詞語全部掃描出來(例如:“最不滿意”分為:“最不不滿滿意”),與其他系統(tǒng)輸出規(guī)范不同,因而不參與準(zhǔn)確率統(tǒng)計(jì)。
為了更直接的比較不同數(shù)據(jù)源的差別,我們從每個(gè)數(shù)據(jù)源的測試數(shù)據(jù)中抽取比較典型的示例進(jìn)行更直觀的對比。
【新聞數(shù)據(jù)】 新聞數(shù)據(jù)的特點(diǎn)是用詞規(guī)整,符合語法規(guī)則,也是普遍做得比較不錯(cuò)的一個(gè)領(lǐng)域。對比其他數(shù)據(jù)源,有7家系統(tǒng)都在新聞?lì)I(lǐng)域達(dá)到最高。包括IKAnalyzer、盤古分詞、搜狗分詞、新浪云、NLPIR、語言云、BosonNLP。并且有三家系統(tǒng)準(zhǔn)確率超過90%。 樣例:香港 中文 大學(xué) 將 來 合肥 一中 進(jìn)行 招生 宣傳 今年 在 皖 招 8 人 萬家 熱線 安徽 第一 門戶
【微博數(shù)據(jù)】 微博數(shù)據(jù)用詞多樣、話題廣泛,并常包含錯(cuò)別字及網(wǎng)絡(luò)流行詞。能夠比較全面的體現(xiàn)每家分詞系統(tǒng)的準(zhǔn)確度。 樣例:補(bǔ) 了 battle 賽 峰暴班 的 兩 個(gè) 弟弟 妹妹 @楊寶心 @修兒 一個(gè) 是 我 很 挺 的 好 弟弟 一個(gè) 是 我 推薦 進(jìn) 好聲音 的 妹子 雖然 都 在 battle 階段 都 下來 了 但是 我 依然 像 之前 那樣 覺得 你們 非常 棒
【汽車論壇】 汽車數(shù)據(jù)是針對汽車領(lǐng)域的專業(yè)評價(jià)數(shù)據(jù),會(huì)出現(xiàn)很多的專業(yè)術(shù)語。例如示例中的“胎噪”、“風(fēng)燥”等,如果系統(tǒng)沒有足夠強(qiáng)大的訓(xùn)練詞庫或領(lǐng)域優(yōu)化,會(huì)使準(zhǔn)確率有較大程度降低。比較有意思的是,對比其他數(shù)據(jù)源,有3家系統(tǒng)都在汽車論壇領(lǐng)域達(dá)到最高:騰訊文智、SCWS中文分詞、結(jié)巴分詞。 樣例:舒適性 胎噪 風(fēng)噪 偏 大 避震 偏 硬 過 坎 彈跳 明顯
【餐飲點(diǎn)評】 餐飲點(diǎn)評數(shù)據(jù)為顧客評論數(shù)據(jù),更偏重口語化。會(huì)出現(xiàn)很多類似“閨蜜”、“萌萌噠”口語化詞語和很多不規(guī)范的表達(dá),使分詞更加困難。 樣例:跟 閨蜜 在 西單 逛街 想 吃 壽司 了 在 西單 沒 搜 到 其他 的 日料店 就 來 禾綠 了 我們 倆 都 覺得 沒 以前 好 了 各家系統(tǒng)對于多數(shù)簡單規(guī)范的文本的分詞已經(jīng)達(dá)到很高的水平。但在仔細(xì)對比每一家中文分詞后依舊發(fā)現(xiàn)切分歧義詞和未登陸詞(即未在訓(xùn)練數(shù)據(jù)中出現(xiàn)的詞)仍然是影響分詞準(zhǔn)確度的兩大“攔路虎”。
01、切分歧義 據(jù)測試數(shù)據(jù)的切分結(jié)果,一類屬于機(jī)器形式的歧義,在真實(shí)語言環(huán)境下,只有唯一可能的正確切分結(jié)果,稱其為偽歧義。另一類有兩種以上可實(shí)現(xiàn)的切分結(jié)果,稱為真歧義。由于真歧義數(shù)據(jù)無法比較正確或者錯(cuò)誤。所有我們著重舉例來比較各家系統(tǒng)對偽歧義的處理效果。 正確: 在 倫敦 奧運(yùn)會(huì) 上 將 可能 有 一 位 沙特阿拉伯 的 女子 (BosonNLP、新浪云、語言云、NLPIR、騰訊文智) 錯(cuò)誤: 在 倫敦 奧運(yùn)會(huì) 上將 可能 有 一 位 沙特阿拉伯 的 女子 (PHP結(jié)巴分詞、SCWS中文分詞、搜狗分詞、庖丁解牛) 示例中原意指倫敦奧運(yùn)會(huì)可能有一位沙特阿拉伯的女子,錯(cuò)誤分詞的意思是指上將(軍銜)中有一位是沙特阿拉伯的女子,句意截然不同。當(dāng)然,分析的層次越深,機(jī)器對知識庫質(zhì)量、規(guī)模等的依賴性就越強(qiáng),所需要的時(shí)間、空間代價(jià)也就越大。
02、未登錄詞:未登錄詞大致包含三大類 a)新涌現(xiàn)的通用詞:類似“神馬”、“納尼”、“甩賣”、“玫瑰金”等新思想、新事物所帶來的新詞匯,不管是文化的、政治的、還是經(jīng)濟(jì)的,在人們的生活中不斷涌現(xiàn)。同時(shí)很多詞語也具有一定的時(shí)效性。
b)專業(yè)術(shù)語:是相對日常用語而言的,一般指的某一行業(yè)各種名稱用語,大多數(shù)情況為該領(lǐng)域的專業(yè)人士所熟知。這種未登錄詞理論上是可預(yù)期的。能夠人工預(yù)先添加到詞表中(但這也只是理想狀態(tài),在真實(shí)環(huán)境下并不易做到)。
c)專有名詞:如中國人名、外國譯名、地名、公司名等。這種詞語很多基本上不可通過詞典覆蓋,考驗(yàn)分詞系統(tǒng)的新詞識別能力。
【新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語】 示例中的藍(lán)色字包括專業(yè)術(shù)語:“肚腩”、“腹肌”、“腹直肌”、“腹外斜肌”、“腹橫肌”;新涌現(xiàn)的通用詞:“人魚線”、“馬甲線”。大多數(shù)的系統(tǒng)對于示例文本的分詞結(jié)果都不夠理想,例如:“大肚 腩”(SCWS中文分詞) “腹 直 肌 腹 外 斜 肌”(搜狗分詞、IKAnalyer、NLPIR、SCWS中文分詞)、“人 魚線”(PHP結(jié)巴分詞)。總的來說這兩種類型的數(shù)據(jù)每家系統(tǒng)都存在一定的缺陷,相對而言哈工大的語言云在這方面表現(xiàn)的較好。 本 季 最 強(qiáng) 家庭 瘦 腰 計(jì)劃 徹底 告別 大 肚腩 沒有 腹肌 的 人生 是 不 完整 的 平面 模特 yanontheway 親身 示范 的 9 個(gè) 動(dòng)作 徹底 強(qiáng)化腹直肌 腹外斜肌 腹內(nèi)斜肌 以及 腹橫肌 每個(gè) 動(dòng)作 認(rèn)真 做 足 50 次 一定 要 堅(jiān)持 做 完美 的人魚線 性感 的 馬甲線 都 要 我們 自己 去 爭取
【專有名詞】 示例出現(xiàn)的專有名詞包括“蒂莫西伊斯頓”(姓名)、“英國”“意大利”“北歐”(地點(diǎn))、“金斯敦”(機(jī)構(gòu)名)、“伊麗莎白 格林希爾茲”(機(jī)構(gòu)名)。而這種用詞典無法窮盡的專有名詞也成為各家分詞準(zhǔn)確率降低的重要原因。其中搜狗分詞、IKAnalyer、PHP結(jié)巴分詞、騰訊文智、SCWS中文分詞在新詞識別時(shí)較為謹(jǐn)慎,常將這類專有名詞切分成多個(gè)詞語。 油畫 英國 畫家 蒂莫西伊斯頓 唯美 風(fēng) 油畫 timothy easton 畢業(yè) 于 英國 金斯敦 藝術(shù) 學(xué)院 曾 獲伊麗莎白 格林希爾茲 基金會(huì) 獎(jiǎng) 得以 前往 意大利 和 北歐 學(xué)習(xí) 一 年 的 機(jī)會(huì) 當(dāng)然在分詞準(zhǔn)確度可以接受的情況下,很多細(xì)節(jié)問題,包括是否有出錯(cuò)情況、是否支持各種字符、是否標(biāo)注詞性等都可能讓我們望而卻步。在分詞顆粒度選擇當(dāng)中,BosonNLP、SCWS、盤古分詞、結(jié)巴分詞、庖丁解牛都提供了多種選擇,可以根據(jù)需求來采用不同的分詞粒度。與北大的分詞標(biāo)準(zhǔn)對比來說,新浪云默認(rèn)的分詞粒度較大,而搜狗分詞、騰訊文智分詞粒度相對較小。除此之外,BosonNLP、新浪云、NLPIR、騰訊文智同時(shí)提供了實(shí)體識別、情感分析、新聞分類等其他擴(kuò)展服務(wù)。
下表給出了各家系統(tǒng)在應(yīng)用方面的詳細(xì)對比。 中文分詞是其他中文信息處理的基礎(chǔ),并且在很多領(lǐng)域都有廣泛的應(yīng)用,包括搜索引擎、機(jī)器翻譯(MT)、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對等等。隨著非結(jié)構(gòu)化文本的廣泛應(yīng)用,中文分詞等文本處理技術(shù)也變得越來越重要。通過評測可以看出,部分開放分詞系統(tǒng)在不同領(lǐng)域已經(jīng)達(dá)到較高準(zhǔn)確率。對于數(shù)據(jù)分析處理的從業(yè)者,相信在此之上構(gòu)建數(shù)據(jù)分析系統(tǒng)、人機(jī)交互平臺,更能夠起到事半功倍的效果。 注意:分詞數(shù)據(jù)準(zhǔn)備及評測由BosonNLP完成。
附錄 評測數(shù)據(jù)地址 http:///dev/resource
各家分詞系統(tǒng)鏈接地址
BosonNLP:http:///dev/center IKAnalyzer:http://www.oschina.net/p/ikanalyzer NLPIR:http://ictclas./docs SCWS中文分詞:http://www./scws/docs.php 結(jié)巴分詞:https://github.com/fxsjy/jieba 盤古分詞:http://pangusegment./ 庖丁解牛:https://code.google.com/p/paoding/ 搜狗分詞:http://www.sogou.com/labs/webservice/ 騰訊文智:http://www./wiki/API說明文檔 新浪云:http://www./doc/sae/python/segment.html 語言云:http://www./document
|