一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

編程語言python-jieba分詞庫

 冒險的K 2021-11-25

jieba 庫是優(yōu)秀的中文分詞第三方庫,中文文本需要通過分詞獲得單個的詞語

jieba庫安裝

管理員身份運(yùn)行cmd窗口輸入命令:pip install jieba

jieba庫功能介紹

特征

  • 支持三種分詞模式

    • 精確模式:試圖將句子最精確地切開,適合文本分析

    • 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義

    • 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞

  • 支持繁體分詞

  • 支持自定義詞典

分詞功能

  • jieba.cut 和 jieba.lcut 方法接受兩個傳入?yún)?shù)

    • 第一個參數(shù)為需要分詞的字符串

    • cut_all參數(shù)用來控制是否采用全模式

lcut 將返回的對象轉(zhuǎn)化為 list 對象返回

  • jieba.cut_for_search 和 jieba.lcut_for_search 方法接受一個參數(shù)

    • 需要分詞的字符串

該方法適合用于搜索引擎構(gòu)建倒排索引的分詞,顆粒度較細(xì)
jieba.lcut_for_search 方法返回列表類型

添加自定義詞典

開發(fā)者可以指定自己自定義的詞典,以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識別能力,但是自行添加新詞可以保證更高的正確率

用法

  1. 使用自定義詞典文件

    • jieba.load_userdict(file_name) # file_name 是自定義詞典的路徑

  2. 使用jieba在程序中動態(tài)修改詞典

    • jieba.add_word(new_words) # new_words 是想要添加的新詞

    • jieba.del_word(words) # 刪除words

關(guān)鍵詞提取

  • jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse

sentence 為待提取的文本
topK 為返回幾個TF/IDF權(quán)重最大的關(guān)鍵詞,默認(rèn)是20

詞性標(biāo)注

  • jieba.posseg.POSTokenizer(tokenizer=None) 新建自定義分詞器,tokenizer參數(shù)可指定內(nèi)部使用的jieba.Tokenizer 分詞

jieba.posseg.dt 為默認(rèn)詞性標(biāo)注分詞器
標(biāo)注句子分詞后每個詞的詞性,采用和ictclas兼容的標(biāo)記法

案例

一、精確模式

import jieba
list1 = jieba.lcut("中華人民共和國是一個偉大的國家")
print(list1)
print("精確模式:"+"/".join(list1))

二、全模式

list2 = jieba.lcut("中華人民共和國是一個偉大的國家",cut_all = True)
print(list2,end=",")
print("全模式:"+"/".join(list2))

三、搜索引擎模式

list3 = jieba.lcut_for_search("中華人民共和國是一個偉大的國家")
print(list3)
print("搜索引擎模式:"+"  ".join(list3))

四、修改詞典

import jieba
text = "中信建投投資公司了一款游戲,中信也投資了一個游戲公司"
word = jieba.lcut(text)
print(word)

# 添加詞
jieba.add_word("中信建投")
jieba.add_word("投資公司")
word1 = jieba.lcut(text)
print(word1)

# 刪除詞
jieba.del_word("中信建投")
word2 = jieba.lcut(text)
print(word2)

五、詞性標(biāo)注

import jieba.posseg as pseg

words = pseg.cut("我愛北京天安門")
for i in words:
    print(i.word,i.flag)

六、統(tǒng)計三國演義中人物出場的次數(shù)

三國演義文本下載

import  jieba

txt = open("文件路徑", "r", encoding='utf-8').read()    # 打開并讀取文件
words = jieba.lcut(txt)     # 使用精確模式對文本進(jìn)行分詞
counts = {}     # 通過鍵值對的形式存儲詞語及其出現(xiàn)的次數(shù)

for word in words:
    if  len(word) == 1:    # 單個詞語不計算在內(nèi)
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語,每出現(xiàn)一次其對應(yīng)的值加 1
        
items = list(counts.items())     #將鍵值對轉(zhuǎn)換成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序 

for i in range(15):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word, count))
import jieba

excludes = {"將軍","卻說","荊州","二人","不可","不能","如此","如何"}
txt = open("三國演義.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}

for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關(guān)公" or word == "云長":
        rword = "關(guān)羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
        counts[rword] = counts.get(rword,0) + 1
    
for i in excludes:
    del counts[i]
    
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 

for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

文章來源:https://www.cnblogs.com/L-hua/p/15584823.html

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日韩一级毛一欧美一级乱| 69久久精品亚洲一区二区| 亚洲av熟女国产一区二区三区站| 国产亚洲欧美另类久久久| 亚洲国产成人爱av在线播放下载| 亚洲最新的黄色录像在线| 空之色水之色在线播放| 精品丝袜一区二区三区性色| 国内真实露脸偷拍视频| 精品少妇一区二区三区四区| 日韩精品一区二区三区av在线| 欧美日韩久久精品一区二区 | 亚洲中文字幕在线观看四区| 午夜福利视频日本一区| 午夜精品一区二区av| 好吊视频有精品永久免费| 亚洲国产av国产av| 大香蕉网国产在线观看av| 欧美一级特黄大片做受大屁股| 国产一区欧美一区二区| 国产欧美精品对白性色| 成人欧美一区二区三区视频| 中文字幕日韩欧美一区| 亚洲成人黄色一级大片| 一区二区三区日韩经典| 黄片免费在线观看日韩| 国产欧美日本在线播放| 日韩欧美三级中文字幕| 亚洲一区二区福利在线| 91天堂素人精品系列全集| 国产日韩欧美一区二区| 亚洲欧美黑人一区二区| 色综合久久六月婷婷中文字幕| 国产精品午夜福利在线观看| 成年女人下边潮喷毛片免费| 美女露小粉嫩91精品久久久| 99日韩在线视频精品免费| 91天堂免费在线观看| 99久久国产精品免费| 国产成人午夜在线视频| 精品人妻一区二区三区四区久久|