簡(jiǎn)介
SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫(即:簡(jiǎn)易中文分詞系統(tǒng))。
這是一套基于詞頻詞典的機(jī)械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞。
詞是中文的最小語素單位,但在書寫時(shí)并不像英語會(huì)在詞之間用空格分開,
所以如何準(zhǔn)確并快速分詞一直是中文分詞的攻關(guān)難點(diǎn)。
SCWS 采用純 C 語言開發(fā),不依賴任何外部庫函數(shù),可直接使用動(dòng)態(tài)鏈接庫嵌入應(yīng)用程序,
支持的中文編碼包括 GBK、UTF-8 等。此外還提供了 PHP 擴(kuò)展模塊,
可在 PHP 中快速而方便地使用分詞功能。
分詞算法上并無太多創(chuàng)新成分,采用的是自己采集的詞頻詞典,并輔以一定的專有名稱,人名,地名,
數(shù)字年代等規(guī)則識(shí)別來達(dá)到基本分詞,經(jīng)小范圍測(cè)試準(zhǔn)確率在 90% ~ 95% 之間,
基本上能滿足一些小型搜索引擎、關(guān)鍵字提取等場(chǎng)合運(yùn)用。首次雛形版本發(fā)布于 2005 年底。
SCWS 由 hightman 開發(fā),
并以 BSD 許可協(xié)議開源發(fā)布,源碼托管在 github。
動(dòng)態(tài)
-
推薦?。?/strong>基于 scws + Xapian 的開源全文搜索引擎
xunsearch(迅搜)發(fā)布,是非常好用的 php 全文解決方案!
-
- 2013-7-11: SCWS-1.2.2 Released.
- 1) 改進(jìn)中英夾雜的長詞復(fù)合分法,比如 "奧迪A6/奧迪/A6"
- 2) 修正 pscws23 演示文件的一些寫法與新版 PHP 不兼容
- 3) 修正一些 configure 檢測(cè)錯(cuò)誤
-
- 2013-1-15: SCWS-1.2.1 Released.
- 1) 將源碼遷移并托管到 github
- 2) 改進(jìn) C API 中 scws_fork() 的算法,使之更為合理
- 3) 遷移并修改新版官方主頁:http://www./scws
-
- 2012-3-29: SCWS-1.2.0 Released.
- 1) 修改 php 擴(kuò)展代碼以兼容支持 php 5.4.x
- 2) 修正 php 擴(kuò)展中 scws_get_tops 的 limit 參數(shù)不允許少于 10 的問題
- 3) libscws 增加 scws_fork() 從既有的 scws 實(shí)例產(chǎn)生分支并共享詞典/規(guī)則集,主要用于多線程開發(fā)。
- 4) 新增部分版本的 win32 的 dll 擴(kuò)展,詳見下載頁面
-
- 2011-12-26: SCWS-1.1.9 Released.
- 1) 明確使用開源協(xié)議 New BSD License 發(fā)布新版本
- 2) 深度優(yōu)化復(fù)合分詞中的 SCWS_MULTISHORT 選項(xiàng),更為合理有效,符合全文檢索的需求
- 3) 測(cè)試腳本自動(dòng)加載當(dāng)前目錄下的 dict_user.txt 文本詞典
- 4) 修正 scws.c 中 __PARSE_XATTR__ 宏的 BUG 導(dǎo)致 scws_get_tops 和 scws_get_words 的 xattr 參數(shù)工作不正常的問題
- 5) 移除 scws.c 中關(guān)于 jabberd2s10 的注釋,已不包含它的代碼
- 6) 為獨(dú)立使用的 .h 文件添加 C++ 的 extern "C" 標(biāo)記以便直接使用:xdb.h,xdict.h,xtree.h,pool.h,darray.h
-
- 2011-07-30: SCWS-1.1.8 Released.
- 1) win32/目錄新增 vc9 工程文件, 默認(rèn)為 php-5.3.x 提供的 php_scws.dll 采用 VC9(thread-safety) 編譯
- 2) 修改英語專有名詞的識(shí)別方式, 原先 X.Y.Z 必須字母全大寫,現(xiàn)也允許小寫
- 3) 修改 congiure.in 在 ---enable-developer 選項(xiàng)的處理方式,不覆蓋預(yù)設(shè)的 CFLAGS
- 4) 改變數(shù)字字母單獨(dú)成詞時(shí)的規(guī)則,當(dāng)其中同時(shí)包含2個(gè)連續(xù)字母以及2個(gè)連續(xù)數(shù)字時(shí)強(qiáng)制拆分。例:原先單獨(dú)的 iso9001 是整詞,新規(guī)則切為 iso+9001 而 i9001 則保持不變?nèi)詾?。這樣做更有利于全文檢索。
-
- 2011-05-21: SCWS-1.1.7 Released.
- 1) 刪除 __PARSE_XATTR__ 宏中企圖修改 xattr 的內(nèi)容的作法, 當(dāng) xattr 為常量字符串時(shí)會(huì)出錯(cuò).
- 2) 調(diào)整 config.h 的包含方式移入 .c 文件而非 .h 文件
- 3) 增加一些PHP測(cè)試腳本, 位于phpext/scws_test.php, 精選了一些岐義較多的語句進(jìn)行測(cè)試。
- 4) 修正 scws_has_word() 的一處內(nèi)存泄露 (感謝lauxinz)
- 5) 修改調(diào)試模式的編譯選項(xiàng),去除-O2避免源碼和代碼無法對(duì)應(yīng)。 (感謝lauxinz)
-
- 2011-04-20: SCWS-1.1.6 Released.
- 1) 修正夾雜在漢字中間的1-2個(gè)英文字符的詞性為 en 而不是原來的 un 導(dǎo)致清除符號(hào)時(shí)消失.
- 2) 調(diào)整將數(shù)字后面的獨(dú)立 % 納入整詞作為百分比,如 33.3% 作為整詞而不再是 33.3 和 %
- 3) 修改連字符(-)和下劃線(_)的規(guī)則,當(dāng)出現(xiàn)在字母單詞之間時(shí)視為同一詞而不再強(qiáng)行切開,此時(shí)如果激活復(fù)合分詞的 DUALITY 選項(xiàng),則仍能將符號(hào)切開作為復(fù)合詞。
- 4) 修正浮點(diǎn)數(shù)的識(shí)別規(guī)則,避免將IPv4地址識(shí)別為2個(gè)小數(shù)的尷尬,比如 192.168.1.1 以前會(huì)被切成 192.168 和1.1 2個(gè)數(shù)字,現(xiàn)在不會(huì)了。
- 5) libscws 安裝后將所有的頭文件(*.h)按裝到 $prefix/include/scws 而不是以前的 $prefix/include,故采用C API開發(fā)時(shí)頭部建議寫 #include <scws/scws.h>
-
- 2010-12-31: SCWS-1.1.5 Released.
- 1) 修正 xdb.c 中存在的一處緩沖區(qū)溢出, 感謝論壇網(wǎng)友 hovea.
- 2) 修正 phpext/ 中 scws_get_result() 參數(shù)解析里多了一個(gè)z 的問題,感謝網(wǎng)友(阿男)告知
- 3) 修正 scws.c 中某些字符在ignore symbol設(shè)置下無效的問題
- 4) 修正 1.1.4 的 xdb.c 270行處由于書寫錯(cuò)誤導(dǎo)致的嚴(yán)重錯(cuò)誤, 1.1.4版作廢應(yīng)及時(shí)升為 1.1.5
- 2010-12-02: 新增基于HTTP/post的SCWS在線分詞API,供一些云平臺(tái)的應(yīng)用程序簡(jiǎn)易輕型調(diào)用。
-
- 2010-09-15: SCWS-1.1.3 Released.
- 1) 將 cli/ 下的工具程序命名下劃線改成連接線(減號(hào)), gen_scws_dict 改為 gen-scws-dict
- 2) 消除 php5.3 的警告信息, 重寫 phpext/ 中的部分zend API, 統(tǒng)一采用 zend_parse_parameters()
-
- 2010-05-09: SCWS-1.1.2 Released.
- 1) 這是一個(gè)bug fixed的發(fā)布, 修正非內(nèi)存模式的詞典返回的 malloced 標(biāo)識(shí)與 zflag_symbol 沖突導(dǎo)致姓名識(shí)別失敗.
- 2) 附帶修正 phptool_for_scws_xdb.zip 導(dǎo)出詞典時(shí)最后出現(xiàn)負(fù)偏移的 bug
- 3) 新增支持 php-5.3.x 的 php_scws.dll,編譯環(huán)境為 VC6, x86, ThreadSafe
- 4) 關(guān)于 1.1.x 的新功能的詳細(xì)用法及介紹請(qǐng)點(diǎn)此進(jìn)入BLOG查看;文本自動(dòng)分類、新詞TF/IDF計(jì)算器。
- 2010-03-04: SCWS-1.1.1 Released, 修正在 xdict 中針對(duì) SCWS_WORD_MALLOCED 定義過大(應(yīng)為0x80)導(dǎo)致內(nèi)存泄露.
- 2010-03-19: 簡(jiǎn)體中文 xdb 詞典更新, 修正部分生冷漢字被誤當(dāng)符號(hào)清除的 Bug(感謝 iSS的反饋), 點(diǎn)擊這里重新下載XDB詞典.
-
- 2010-01-28: SCWS-1.1.0 Released.
- 1) 新增功能: 支持載入純文本詞典(TXT), 一次分詞可使用多個(gè)詞典, 以實(shí)現(xiàn)不改變核心詞庫的原則下快速增減詞。
- 2) 新增功能:判斷文本中是否包含指定詞性的詞匯及獲取指定詞性的詞匯列表(詞性參數(shù)和scws_get_tops相同)
- 3) 該版本同步編譯支持 Win32 的 php_scws.dll,支持 5.2.x 及 4.4.x 系列的 PHP
- 4) scws_gen_dict 所有的文本詞典格式更為寬松與add_dict兼容,允許多個(gè)空格或制表符分割,可省略除詞外的選項(xiàng)
- 2009-7-31 SCWS 發(fā)布 1.0.4, 修正緊貼在中文后結(jié)尾的1~2個(gè)英文字母返回長度多1的bug。
- 2009-7-16 SCWS 中的 php 擴(kuò)展實(shí)現(xiàn)略作修改以正確支持 PHP5.3+, 版本號(hào)沒有改變, 但即日起的下載包已作更新。
- 2009-7-1 發(fā)布一套用純 php 開發(fā)的 xdb 詞典導(dǎo)入與導(dǎo)出工具,有需要的請(qǐng)下載參考使用(phptool_for_scws_xdb.zip)。
- 2009-5-26 SCWS 發(fā)布更新 1.0.3 版,整合yanbin提供的win32編譯工程文件及少數(shù)地方的兼容,但需要用戶自己編譯,因?yàn)槲乙矝]有編譯環(huán)境,只是將代碼調(diào)整到兼容win32環(huán)境。
- 2009-5-15 SCWS 發(fā)布更新 1.0.2 版,加入詞性規(guī)則消岐,很好的處理了大部分短詞岐義分詞。
- 2008-12-21 SCWS 劃入 FTPHP 項(xiàng)目,作為子項(xiàng)目重建本網(wǎng)站。
- 2006 - 2007 陸續(xù)開發(fā)純 PHP 實(shí)現(xiàn)的 PSCWS 第二版與第三版,2007-06-09 發(fā)布 scws-0.0.1 pre 版,功能基本完整,2008-03-08 發(fā)布 scws-1.0.0 正式版。
版本列表
版本 |
類型 |
平臺(tái) |
性能 |
其它 |
SCWS-1.1.x |
C 代碼 |
*Unix*/*PHP* |
準(zhǔn)確: 95%, 召回: 91%, 速度: 1.2MB/sec PHP擴(kuò)展分詞速度: 250KB/sec |
[下載] [文檔] [安裝說明] |
php_scws.dll(1) |
PHP擴(kuò)展庫 |
Windows/PHP 4.4.x |
準(zhǔn)確: 95%, 召回: 91%, 速度: 40KB/sec |
[下載] [文檔] [安裝說明] |
php_scws.dll(2) |
PHP擴(kuò)展庫 |
Windows/PHP 5.2.x |
準(zhǔn)確: 95%, 召回: 91%, 速度: 40KB/sec |
[下載] [文檔] [安裝說明] |
php_scws.dll(3) |
PHP擴(kuò)展庫 |
Windows/PHP 5.3.x |
準(zhǔn)確: 95%, 召回: 91%, 速度: 40KB/sec |
[下載] [文檔] [安裝說明] |
php_scws.dll(4) |
PHP擴(kuò)展庫 |
Windows/PHP 5.4.x |
準(zhǔn)確: 95%, 召回: 91%, 速度: 40KB/sec |
[下載] [文檔] [安裝說明] |
PSCWS23 |
PHP源代碼 |
不限 (不支持UTF-8) |
準(zhǔn)確: 93%, 召回: 89%, 速度: 960KB/min |
[下載] [文檔] |
PSCWS4 |
PHP源代碼 |
不限 |
準(zhǔn)確: 95%, 召回: 91%, 速度: 160KB/min |
[下載] [文檔] |
友情鏈接
|