一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

8種Python文本處理工具集(附代碼頁)

 學術(shù)頭條 2020-11-27

文本處理一般包括詞性標注,句法分析,關(guān)鍵詞提取,文本分類,情感分析等等,這是針對中文的,如果是對于英文來說,只需要基本的tokenize。本文為大家提供了以下這些工具包。

1.Jieba

【結(jié)巴中文分詞】做最好的 Python 中文分詞組件
其功能包括支持三種分詞模式(精確模式、全模式、搜索引擎模式),支持繁體分詞,支持自定義詞典等。

代碼主頁:https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一個構(gòu)建Python程序以使用人類語言數(shù)據(jù)的領(lǐng)先平臺,被稱為“使用Python進行教學和計算語言學工作的絕佳工具”,以及“用自然語言進行游戲的神奇圖書館”。

官方主頁:http://www./
代碼主頁:https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一個用于處理文本數(shù)據(jù)的Python(2和3)庫。它為潛入常見的自然語言處理(NLP)任務(wù)提供了一個簡單的API,例如詞性標注,名詞短語提取,情感分析,分類,翻譯等。

官方主頁:http://textblob./en/dev/
代碼主頁:https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一個文本分析系統(tǒng),基于CLiPS和ILK開發(fā)的基于TiMBL和MBT內(nèi)存的學習應用程序。它提供了用于標記化和句子分裂,詞性標注,分塊,詞形還原,關(guān)系查找和介詞短語附件的工具。

官方主頁:http://www.clips./pages/MBSP

5.Gensim

【Gensim】是一個免費的Python庫

  • 可擴展的統(tǒng)計語義

  • 分析純文本文檔的語義結(jié)構(gòu)

  • 檢索語義相似的文檔

官方主頁:http:///gensim/index.html

代碼主頁:https://github.com/piskvorky/gensim

6.langid.py 

【langid.py 】是一個獨立的語言標識(LangID)工具。接受過97種語言的預訓練(ISO 639-1代碼),

【langid.py 】是一個獨立的語言標識(LangID)工具。接受過97種語言的預訓練(ISO 639-1代碼),培訓數(shù)據(jù)來自5個不同的來源:JRC-Acquis、ClueWeb 09、維基百科、路透社RCV2和Debian i18n。

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲中文字幕视频在线播放| 一区二区三区免费公开| 午夜亚洲精品理论片在线观看| 色婷婷视频免费在线观看| 爱草草在线观看免费视频| 欧美日韩高清不卡在线播放| 91久久国产福利自产拍| 日本av一区二区不卡| 最好看的人妻中文字幕| 亚洲欧美国产精品一区二区| 欧美激情一区=区三区| 中文文精品字幕一区二区| 99久热只有精品视频免费看| 加勒比日本欧美在线观看| 欧美国产亚洲一区二区三区| 日本欧美三级中文字幕| 国产午夜精品美女露脸视频| 日韩精品视频香蕉视频| 成人午夜激情在线免费观看 | 国产一区二区三区免费福利| 中文字幕日韩无套内射| 99久久免费中文字幕| 欧美人禽色视频免费看| 色婷婷久久五月中文字幕| 中文字幕久热精品视频在线| 国产精品二区三区免费播放心| 五月综合激情婷婷丁香| 亚洲第一区二区三区女厕偷拍| 欧美精品亚洲精品日韩专区| 国产精欧美一区二区三区久久| 亚洲伊人久久精品国产| 又黄又爽禁片视频在线观看| 国产亚洲精品香蕉视频播放| 日韩精品第一区二区三区| 国产免费观看一区二区| 国产精品福利一二三区| 久久精品蜜桃一区二区av| 亚洲视频一区二区久久久| 国产日韩精品欧美综合区| 亚洲午夜av一区二区| 不卡中文字幕在线视频|