NLPIR大數(shù)據(jù)語義智能分析平臺 – NLPIR自然語言處理與信息檢索共享平臺

看見就非常 2020-04-22

展開全文

NLPIR大數(shù)據(jù)語義智能分析平臺在線演示

NLPIR大數(shù)據(jù)語義智能分析平臺是針對大數(shù)據(jù)內(nèi)容處理的需要，融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和網(wǎng)絡(luò)搜索技術(shù)的十三項功能，提供客戶端工具、云服務(wù)、二次開發(fā)接口。

NLPIR大數(shù)據(jù)語義智能分析平臺，憑借二十年技術(shù)沉淀與應(yīng)用驗證，贏得了全球30萬機(jī)構(gòu)與40萬記錄用戶的一致認(rèn)證與口碑，是大數(shù)據(jù)時代語義智能分析的一大利器！NLPIR服務(wù)的客戶領(lǐng)域包括：政府機(jī)構(gòu)、科研高校、金融風(fēng)控、傳媒出版以及各類企業(yè)。

NLPIR大數(shù)據(jù)語義智能分析平臺核心優(yōu)勢：

全球領(lǐng)先的技術(shù)：二十年技術(shù)沉淀，中文信息領(lǐng)域最高獎！
零門檻上手：無需大數(shù)據(jù)專業(yè)背景，工具平臺操作簡單易懂，文科背景也能輕松學(xué)習(xí)使用！
功能齊全：13項功能，幾乎涵蓋自然語言處理全技術(shù)鏈條！
靈活合作：云服務(wù)+客戶端+二次開發(fā)接口，不用用戶與需求都可以靈活使用！

NLPIR大數(shù)據(jù)語義智能分析客戶端

NLPIR大數(shù)據(jù)語義智能分析平臺十三大功能：

1.精準(zhǔn)采集：對境內(nèi)外互聯(lián)網(wǎng)海量信息實時精準(zhǔn)采集，有主題采集（按照信息需求的主題采集）與站點采集兩種模式（給定網(wǎng)址列表的站內(nèi)定點采集）。可幫助用戶快速獲取海量信息，尤其是境外信息與情報的挖掘。

2.文檔轉(zhuǎn)換：對doc、excel、pdf與ppt等多種主流文檔格式，進(jìn)行文本信息格式轉(zhuǎn)換，信息抽取準(zhǔn)確率極高，效率達(dá)到大數(shù)據(jù)處理的要求。

3. 新詞發(fā)現(xiàn)（新詞發(fā)現(xiàn)+關(guān)鍵詞提?。盒略~發(fā)現(xiàn)能從文本中挖掘出具有內(nèi)涵新詞、新概念，用戶可以用于專業(yè)詞典的編撰，還可以進(jìn)一步編輯標(biāo)注，導(dǎo)入分詞詞典中，提高分詞系統(tǒng)的準(zhǔn)確度，并適應(yīng)新的語言變化；關(guān)鍵詞提取能夠?qū)纹恼禄蛭恼录希崛〕鋈舾蓚€代表文章中心思想的詞匯或短語，可用于精化閱讀、語義查詢和快速匹配等。

3. 批量分詞：對原始語料進(jìn)行分詞、自動識別人名地名機(jī)構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注。可在分析過程中，導(dǎo)入用戶定義的詞典。

5. 語言統(tǒng)計：針對切分標(biāo)注結(jié)果，系統(tǒng)可以自動地進(jìn)行一元詞頻統(tǒng)計、二元詞語轉(zhuǎn)移概率統(tǒng)計（統(tǒng)計兩個詞左右連接的頻次即概率）。針對常用的術(shù)語，會自動給出相應(yīng)的英文解釋。

6. 文本聚類：能夠從大規(guī)模數(shù)據(jù)中自動分析出熱點事件，并提供事件話題的關(guān)鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。

7. 文本分類：包括專家規(guī)則類與機(jī)器訓(xùn)練分類，針對事先指定的規(guī)則和示例樣本，系統(tǒng)自動從海量文檔中識別并訓(xùn)練分類。NLPIR深度文本分類，可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、評論數(shù)據(jù)分類等諸多方面。

8. 摘要實體（自動摘要+實體抽?。鹤詣诱軌?qū)纹蚨嗥恼?，自動提煉出?nèi)容的精華，方便用戶快速瀏覽文本內(nèi)容。實體提取能夠?qū)纹蚨嗥恼?，自動提煉出?nèi)容摘要，抽取人名、地名、機(jī)構(gòu)名、時間及主題關(guān)鍵詞；方便用戶快速瀏覽文本內(nèi)容。

9.智能過濾：對文本內(nèi)容的語義智能過濾審查，內(nèi)置國內(nèi)最全詞庫，智能識別多種變種：形變、音變、繁簡等多種變形，語義精準(zhǔn)排歧。

10.情感分析：針對事先指定的分析對象，自動分析海量文檔的情感傾向：情感極性及情感值測量，并在原文中給出正負(fù)面的得分和句子樣例。

11. 文檔去重：能夠快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄，同時找出所有的重復(fù)記錄。

12全文檢索：JZSearch全文精準(zhǔn)檢索支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型，多字段的高效搜索，支持AND/OR/NOT以及NEAR鄰近等查詢語法，支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索。

13. 編碼轉(zhuǎn)換：自動識別文檔內(nèi)容的編碼，并進(jìn)行自動轉(zhuǎn)換，目前支持Unicode/BIG5/UTF-8等編碼自動轉(zhuǎn)換為簡體的GBK，同時將繁體BIG5和繁體GBK進(jìn)行繁簡轉(zhuǎn)化。

NLPIR在線演示：http://ictclas./nlpir

NLPIR客戶端下載1：https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR-Parser

NLPIR客戶端下載2：http://www./wordpress/wp-content/uploads/2020/01/NLPIR-Parser.zip

論文引用：（感謝《語料庫語言學(xué)》雜志與許家金教授的支持）

張華平、商建云，2019，NLPIR-Parser：大數(shù)據(jù)語義智能分析平臺 [J]，《語料庫語言學(xué)》（1）：87-104。

Zhang, Huaping & Jianyun Shang. (2019). NLPIR-Parser: An intelligent semantic analysis toolkit for big data. Corpus Linguistics 6(1): 87-104.

NLPIR用戶手冊：