jieba是一個強(qiáng)大的分詞庫,完美支持中文分詞 安裝jieba使用命令安裝 pip install jieba 出現(xiàn)上圖表示安裝成功了 jieba分詞模式全模式全模式:試圖將句子精確地切開,適合文本分析,輸出的是多有可能的分詞組合 運行結(jié)果: 我 精確模式精確模型:把句子中所有的可以分詞的詞語都掃描出來,速度非???,但不能解決歧義 注意:沒有參數(shù)cut_all的情況下,默認(rèn)為精確模式 import jieba str = "我是一個中國人"#word1 = jieba.cut(str)word1 = jieba.cut(str,cut_all=False)for item in word1:print(item) 運行結(jié)果: 我 搜索引擎模式搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞 詞性標(biāo)注使用jieba.posseg可以對詞性進(jìn)行標(biāo)注 import jieba.posseg str = "我是一個中國人"word1 = jieba.posseg.cut(str)#.flag 詞性#.word 詞語for item in word1:print(item.word+"--"+item.flag) 運行結(jié)果: 我--r 詞性說明自定義詞庫例如:我們現(xiàn)在想對句子【豆花魚是一種很好吃的魚】做一次分詞 import jieba.posseg str = "豆花魚是一種很好吃的魚"word1 = jieba.posseg.cut(str)for item in word1:print(item.word+"--"+item.flag) 分詞結(jié)果: 豆花--n 【分析】按理來說,豆花魚是一個名詞,但是現(xiàn)在詞庫沒有這個名詞,所以分錯了 那么接下來我們就自定義分詞詞庫 找到路徑C:\Users\OLIVER\AppData\Local\Programs\Python\Python36\Lib\site-packages\jieba下 我們可以看到現(xiàn)在存在一個dict.txt文件,那么我們現(xiàn)在新建一個文件Add_dict.txt 接著我們引入該詞庫進(jìn)行分詞 import jieba.posseg#引入詞庫jieba.load_userdict("C:/Users/OLIVER/AppData/Local/Programs/Python/Python36/Lib/site-packages/jieba/Add_dict.txt") str = "豆花魚是一種很好吃的魚"word1 = jieba.posseg.cut(str)for item in word1:print(item.word+"--"+item.flag) 運行結(jié)果: 豆花魚--nz 我們從上述的結(jié)果中可以清晰看到【豆花魚】已經(jīng)變成一個其他專有名詞了。 注意:新增的詞庫每次使用都需要引用,它不是一次引入終生使用的 |
|