【原】8種Python文本處理工具集（附代碼頁）

學術(shù)頭條 2020-11-27

展開全文

文本處理一般包括詞性標注，句法分析，關(guān)鍵詞提取，文本分類，情感分析等等，這是針對中文的，如果是對于英文來說，只需要基本的tokenize。本文為大家提供了以下這些工具包。

1.Jieba

【結(jié)巴中文分詞】做最好的 Python 中文分詞組件
其功能包括支持三種分詞模式（精確模式、全模式、搜索引擎模式），支持繁體分詞，支持自定義詞典等。

代碼主頁：https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一個構(gòu)建Python程序以使用人類語言數(shù)據(jù)的領(lǐng)先平臺，被稱為“使用Python進行教學和計算語言學工作的絕佳工具”，以及“用自然語言進行游戲的神奇圖書館”。

官方主頁：http://www./
代碼主頁：https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一個用于處理文本數(shù)據(jù)的Python（2和3）庫。它為潛入常見的自然語言處理（NLP）任務(wù)提供了一個簡單的API，例如詞性標注，名詞短語提取，情感分析，分類，翻譯等。

官方主頁：http://textblob./en/dev/
代碼主頁：https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一個文本分析系統(tǒng)，基于CLiPS和ILK開發(fā)的基于TiMBL和MBT內(nèi)存的學習應用程序。它提供了用于標記化和句子分裂，詞性標注，分塊，詞形還原，關(guān)系查找和介詞短語附件的工具。

官方主頁：http://www.clips./pages/MBSP

5.Gensim

【Gensim】是一個免費的Python庫

官方主頁：http:///gensim/index.html

代碼主頁：https://github.com/piskvorky/gensim

6.langid.py

【langid.py 】是一個獨立的語言標識（LangID）工具。接受過97種語言的預訓練（ISO 639-1代碼），

【langid.py 】是一個獨立的語言標識（LangID）工具。接受過97種語言的預訓練（ISO 639-1代碼），培訓數(shù)據(jù)來自5個不同的來源：JRC-Acquis、ClueWeb 09、維基百科、路透社RCV2和Debian i18n。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：學術(shù)頭條 > 《待分類》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区