一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

中文分詞的實現思路

 duduwolf 2005-11-25
在PHPE.net論壇上給網友的回貼。

現在的搜索引擎技術主要包括四個環(huán)節(jié),網頁抓取、超鏈分析、網頁檢索和搜索服務。分詞就是把一句完整的話分成幾個詞,搜索引擎找出其中的關鍵詞進行檢索。中文分詞是搜索服務的入口點,是中文搜索引擎的基礎所在。有了良好的分詞技術,才能真正讓搜索引擎了解用戶所需要的信息是什么。

寫寫中文分詞的PHP實現思路(因為最近正在寫個項目,暫時不能提供源代碼,不過難度不大),雖然在各方面都還有待完善,但是整個流程還是比較完整的。

首先有關分詞的基礎知識:

分詞技術研究報告
http://www./lunwen/computer/ai/3818.html

中文搜索引擎技術揭密:中文分詞
http://www./286.html

推薦看些課件(北大中文系研究生的課程):
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/contents/Chapter_07_1.ppt



第二. 語料庫的準備
可以選用《人民日報》語料庫,是北京大學計算語言學研究所與富士通公司(Fujitsu)合作的產品,加工2700萬字的《人民日報》語料庫,加工項目包括詞語切分、詞性標注、專有名詞(專有名詞短語)標注。在網上可以下載,不過不清楚是否免費,請自行搜索。

語料庫要加工為詞典,供PHP程序使用。

第三. 分詞算法原理
最常用的是最大匹配法和最大概率法,為了加強精確度,避免歧義,可以結合多種算法。多種算法結合會導致速度下降,視項目要求采用。

第四. 分詞的PHP實現
原理見上面推薦的PPT幻燈片,只不過是用PHP加載詞典文件,再實現字符串的搜索而已。目前來看,效果還是不錯的,但是效率不太高。沒有辦法,像PHP這種腳本語言,要求不能太高。接下來試試先用C寫分詞部份,再用PHP調用,測試一下效率。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    在线日韩中文字幕一区| 久久精品亚洲欧美日韩| 日韩中文字幕免费在线视频| 国产一区二区三区色噜噜| 亚洲中文字幕在线综合视频| 国产精品美女午夜视频| 91偷拍裸体一区二区三区| 精品午夜福利无人区乱码| 欧美精品久久99九九| 国产精品福利一二三区| 99视频精品免费视频播放 | 婷婷基地五月激情五月| 欧美日韩高清不卡在线播放| 国产欧美性成人精品午夜| 99久久免费看国产精品| 国产超薄黑色肉色丝袜| 色婷婷亚洲精品综合网| 国产综合一区二区三区av| 国产丝袜女优一区二区三区| 欧美不卡午夜中文字幕| 日本国产欧美精品视频| 国产福利在线播放麻豆| 内射精品欧美一区二区三区久久久 | 黄男女激情一区二区三区| 果冻传媒精选麻豆白晶晶 | 好吊日成人免费视频公开| 福利专区 久久精品午夜| 五月婷婷六月丁香亚洲| 亚洲高清中文字幕一区二三区| 日韩成人动画在线观看| 国产一区二区三区不卡| 色一情一伦一区二区三| 丝袜av一区二区三区四区五区| 九九热视频网在线观看| 欧美激情区一区二区三区| 国语对白刺激高潮在线视频| 日韩精品一级一区二区| 尹人大香蕉中文在线播放| 成人精品视频在线观看不卡| 国产欧美精品对白性色| 99国产成人免费一区二区|