spaCy是Python和Cython中的高級(jí)自然語(yǔ)言處理庫(kù),它建立在最新的研究基礎(chǔ)之上,從一開(kāi)始就設(shè)計(jì)用于實(shí)際產(chǎn)品。spaCy帶有預(yù)先訓(xùn)練的統(tǒng)計(jì)模型和單詞向量,目前支持20多種語(yǔ)言的標(biāo)記。它具有世界上速度最快的句法分析器,用于標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò)模型,解析和命名實(shí)體識(shí)別以及與深度學(xué)習(xí)整合。它是在MIT許可下發(fā)布的商業(yè)開(kāi)源軟件。 spaCy項(xiàng)目由@honnibal和@ines維護(hù),雖然無(wú)法通過(guò)電子郵件提供個(gè)人支持。但開(kāi)源者相信,如果公開(kāi)分享,會(huì)讓幫助更有價(jià)值,可以讓更多人從中受益。(Github官方地址:https://github.com/explosion/spaCy#spacy-industrial-strength-nlp) spaCy的特征:
安裝spaCy pip 使用pip,spaCy版本目前僅作為源包提供。
在使用pip時(shí),通常建議在虛擬環(huán)境中安裝軟件包以避免修改系統(tǒng)狀態(tài):
conda 通過(guò)社區(qū)開(kāi)發(fā)者的努力,終于重新添加了conda支持。現(xiàn)在可以通過(guò)conda-forge安裝spaCy:
更新spaCy spaCy的一些更新可能需要下載新的統(tǒng)計(jì)模型,如果正在運(yùn)行spaCy v2.0或更高版本,則可以使用validate命令來(lái)檢查安裝的模型是否兼容,如果不兼容,請(qǐng)打印有關(guān)如何更新的詳細(xì)信息:
如果已經(jīng)訓(xùn)練了自己的模型,請(qǐng)記住,訓(xùn)練和運(yùn)行時(shí)的輸入必須匹配。在更新spaCy之后,建議用新版本重新訓(xùn)練模型。 下載模型 從v1.7.0開(kāi)始,spaCy的模型可以作為Python包安裝。這意味著它們是應(yīng)用程序的組件,就像任何其他模塊一樣。 可以使用spaCy的下載命令來(lái)安裝模型,也可以通過(guò)將pip指向路徑或URL來(lái)手動(dòng)安裝模型。 加載和使用模型 要加載模型,請(qǐng)?jiān)谀P偷目旖萱溄又惺褂胹pacy.load(): 如果已經(jīng)通過(guò)pip安裝了一個(gè)模型,也可以直接導(dǎo)入它,然后調(diào)用它的load()方法: 支持舊版本 如果使用的是舊版本(v1.6.0或更低版本),則仍然可以使用python -m spacy.en.download all或python -m spacy.de.download all從spaCy下載并安裝舊模型。.tar.gz存檔也附加到v1.6.0版本,要手動(dòng)下載并安裝模型,請(qǐng)解壓存檔,將包含的目錄放入spacy / data,并通過(guò)spacy.load('en')或spacy.load('de')加載模型。 從源代碼編譯 另一種安裝spaCy的方法是克隆它的GitHub倉(cāng)庫(kù),并從源代碼構(gòu)建它。 如果要更改代碼庫(kù),常見(jiàn)方法是需要確保你有一個(gè)由包含頭文件,編譯器,pip,virtualenv和git的Python發(fā)行版組成的開(kāi)發(fā)環(huán)境。編譯器部分是最棘手的。,如何做到這一點(diǎn)取決于你的系統(tǒng)。有關(guān)詳細(xì)信息,請(qǐng)參閱Ubuntu,OS X和Windows上的說(shuō)明。 與通過(guò)pip進(jìn)行常規(guī)安裝相比,requirements.txt會(huì)額外安裝Cython等開(kāi)發(fā)人員依賴項(xiàng)。 有關(guān)更多詳細(xì)信息和說(shuō)明,請(qǐng)參閱有關(guān)從源代碼編譯spaCy和快速啟動(dòng)小部件的文檔,以獲取適用于您平臺(tái)和Python版本的正確命令,而不是上面的詳細(xì)命令,你也可以使用下面的結(jié)構(gòu)命令,所有命令都假定虛擬環(huán)境位于一個(gè)目錄.env中。如果使用的是其他目錄,則可以通過(guò)環(huán)境變量VENV_DIR進(jìn)行更改,例如VENV_DIR =“。custom-env”fab clean make。 Ubuntu 通過(guò)apt-get安裝系統(tǒng)級(jí)依賴關(guān)系:
macOS / OS X 安裝最新版本的XCode,包括所謂的“命令行工具”。 macOS和OS X預(yù)裝了Python和git。 Windows 安裝與用于編譯Python解釋器的版本相匹配的Visual Studio Express或更高版本。官方發(fā)行版是VS 2008(Python 2.7),VS 2010(Python 3.4)和VS 2015(Python 3.5)。 運(yùn)行測(cè)試 spaCy帶有一個(gè)廣泛的測(cè)試套件。 首先,找出spaCy的安裝位置:
然后在該目錄下運(yùn)行。The flags--vectors,--slow 和--model是可選的,并啟用額外的測(cè)試:
|
|