云計算、智慧城市、移動互聯(lián)網(wǎng)、大數(shù)據(jù)與物聯(lián)網(wǎng)已經(jīng)成為大數(shù)據(jù)時代的技術特征,實現(xiàn)了人、機器與實物的多維互聯(lián)互通。大數(shù)據(jù)分為結構化大數(shù)據(jù)與非結構化大數(shù)據(jù),非結構化大數(shù)據(jù)的生產(chǎn)、搜索、挖掘與分析已經(jīng)成為了當前研究的熱點與難點,并且大數(shù)據(jù)搜索、挖掘與可視化等落地的工程實踐尚有較大距離,這也是當下的工程急需。 1. NLPIR大數(shù)據(jù)搜索與挖掘平臺簡介
NLPIR能夠全方位多角度滿足應用者對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術鏈條:網(wǎng)絡抓取、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統(tǒng)計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。 NLPIR所有功能模塊全部備有對應的二次開發(fā)接口(動態(tài)鏈接庫.dll,.so,及靜態(tài)鏈接庫等形式),平臺的各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD,麒麟等不同操作系統(tǒng),開發(fā)者可使用Java,C/C++,C#, Python,Php, R等各類主流開發(fā)語言調用其所有功能。
2、NLPIR大數(shù)據(jù)搜索與挖掘在線平臺功能介紹 本演示平臺(點擊左下角閱讀原文鏈接可進入)支持Chrome、Firefox、IE(9+)、UC、360等主流瀏覽器。 2.1 網(wǎng)絡信息實時采集與正文提取 NLPIR演示平臺根據(jù)新浪rss摘要,利用NLPIR的精準網(wǎng)絡采集系統(tǒng)實時抓取新浪最新的新聞(每次刷新均會重新抓?。?/span>NLPIR正文提取系統(tǒng)將網(wǎng)頁中的導航、廣告等內容去除,利用網(wǎng)絡文本鏈接密度作為主要參數(shù),采用深度神經(jīng)網(wǎng)絡模型,實現(xiàn)文本正文內容的自動提取。當然,也可由用戶人工自由輸入任意的文章。 為了確保服務的速度,在線演示系統(tǒng)的文章字數(shù)限制在3000字以內。
NLPIR/ICTCLAS中英文一體化分詞可視化效果圖
NLPIR/ICTCLAS分詞系統(tǒng)可以支持中英文分詞與詞性標注,可視化系統(tǒng)可根據(jù)詞性對不同的分詞結果進行區(qū)分顯示,一般虛詞都是淺色,而名詞、動詞、形容詞等實詞為顯著的顏色。本系統(tǒng)還支持在線用戶詞典的輸入,用戶可以在右下方添加用戶詞及詞性,如“中東呼吸綜合征/bing”。 NLPIR/ICTCLAS分詞系統(tǒng),采用層疊隱馬模型(算法細節(jié)請參照:張華平,高凱,黃河燕,趙燕平,《大數(shù)據(jù)搜索與挖掘》科學出版社。2014.5 ISBN:978-7-03-040318-6),分詞準確率接近98.23%,具備準確率高、速度快、可適應性強等優(yōu)勢。它能夠真正理解中文,利用機器學習的方式解決歧義切分與詞性標注歧義問題。 2.3 基于角色標注的實體抽取
實體抽取圖表展示效果(支持網(wǎng)絡圖與和炫圖)
NLPIR實體抽取系統(tǒng)能夠智能識別文本中出現(xiàn)的人名、地名、機構名、媒體、作者及文章的主題關鍵詞,這是對語言規(guī)律的深入理解和科學預測,其所提煉出的詞語不需要在詞典庫中事先存在。NLPIR實體抽取系統(tǒng)采用基于角色標注算法自動識別命名實體(算法細節(jié)請參照:張華平,高凱,黃河燕,趙燕平《大數(shù)據(jù)搜索與挖掘》科學出社2014.5ISBN:978-7-03-040318-6),開發(fā)者可在此基礎上搭建多樣化的大數(shù)據(jù)挖掘應用。 NLPIR實體抽取文本展示效果
2.4 基于完美雙數(shù)組TRIE樹的詞頻統(tǒng)計
柱形圖展現(xiàn)方式 折線圖展現(xiàn)方式 本演示平臺只展示了名詞、動詞、形容詞三種開放詞類的Top 10結果。這類結果已經(jīng)足夠支持后面的文本向量化計算,并達到較好的效果。 基于我們的完美雙數(shù)組TRIE樹的專利算法(近期有進一步的優(yōu)化),NLPIR的詞頻統(tǒng)計算法的效率較高,是常規(guī)算法的十倍以上。該算法的效率不會隨著待統(tǒng)計結果數(shù)目的劇增而指數(shù)級增長,一般是呈亞線性增長。建議大家調用NLPIR/ICTCLAS開放的詞頻統(tǒng)計接口。
2.5 基于深度機器學習的文本分類 NLPIR采用深度神經(jīng)網(wǎng)絡對分類體系進行了綜合訓練。演示平臺目前訓練的類別只是新聞的政治、經(jīng)濟、軍事等。我們內置的算法支持類別自定義訓練,該算法對常規(guī)文本的分類準確率較高,綜合開放測試的F值接近86%。NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外還可以實現(xiàn)文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應用于品牌報道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領域。 2.6 基于深度神經(jīng)網(wǎng)絡的文本情感分析
文本情感分析的餅圖展示 NLPIR情感分析提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。情感分析主要采用了兩種技術: 1.情感詞的自動識別與權重自動計算,利用共現(xiàn)關系,采用Bootstrapping的策略,反復迭代,生成新的情感詞及權重。 2.情感判別的深度神經(jīng)網(wǎng)絡:基于深度神經(jīng)網(wǎng)絡對情感詞進行擴展計算,綜合為最終的結果。
情感分析的漏斗視圖 2.7 基于上下文條件熵的關鍵詞提取
三維詞云圖可視化效果
文本演示效果 NLPIR關鍵詞提取能夠在全面把握文章中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語,相關結果可用于精化閱讀、語義查詢和快速匹配等。NLPIR主要采用交叉信息熵計算每個候選詞的上下文條件熵,所處理的文檔不受行業(yè)領域限制,且能夠識別出最新出現(xiàn)的新詞語,所輸出的詞語可以配以權重。 NLPIR文章關鍵詞提取的主要特色在于: 1、速度快:可以處理海量規(guī)模的網(wǎng)絡文本數(shù)據(jù),平均每小時處理至少50萬篇文檔。 2、處理精準:Top N的分析結果往往能反映出該篇文章的主題特征。 3、精準排序:關鍵詞按照影響權重排序,可以輸出權重值。 4、開放式接口:文章關鍵詞提取組件作為NLPIR的一部分,采用靈活的開發(fā)接口,可以方便地融入到用戶的業(yè)務系統(tǒng)中,可以支持各種操作系統(tǒng)和各類調用語言。
2.8 基于POS-CBOW的word2vec 語義擴展
語義關聯(lián)擴展力導分布演示圖
和弦演示圖
POS-CBOW方法綜合了詞性、詞的分布特點,采用word2vector改進模型,對5GB的新聞語料進行訓練,自動提取出了語義關聯(lián)關系。如果訓練文本調整為專業(yè)領域的生語料,該模型同樣可以產(chǎn)生專業(yè)領域的本體關聯(lián)關系。 2.9基于全局結構預測模型的轉移依存句法分析 NLPIR提出使用Yamada算法的結構化轉移依存句法分析模型,在Yamada算法的基礎上,加入全局的訓練以及預測,優(yōu)化了特征集合。該模型的精度(85.5%)接近于目前轉移依存句法最好結果(86.0%),并且在所有精度85%以上的依存句法模型中,達到了最快的分析速度。
2.10 簡繁轉化 根據(jù)中文簡繁詞庫,對照抽取互譯。
2.11 基于隱馬模型的自動注音 NLPIR根據(jù)詞庫,基于語意理解,對字詞自行語音標注,準確率達99%。 2.12基于關鍵詞提取的自動摘要 自動文本摘要中間件能夠實現(xiàn)文本內容的精簡提煉,從長篇文章中自動提取關鍵句和關鍵段落,構成摘要內容,方便用戶快速瀏覽文本內容,提高工作效率。 自動摘要中間件不僅可以針對一篇文檔生成連貫流暢的摘要,還能夠將具有相同主題的多篇文檔去除冗余,并生成一篇簡明扼要的摘要。用戶可以自由設定摘要的長度、百分比等參數(shù)。其處理速度達到每秒鐘20篇。
3. NLPIR大數(shù)據(jù)搜索與挖掘平臺主要優(yōu)勢 NLPIR大數(shù)據(jù)搜索與挖掘共享平臺的主要優(yōu)勢可以概括為以下三點: 3.1 技術優(yōu)勢
NLPIR由多名專注于大數(shù)據(jù)科學研究與工程應用融合領域的博士碩士,不斷創(chuàng)新,傾力打造十余年。并分別榮獲了2010年錢偉長中文信息處理科學技術獎一等獎,2002年國內973評測綜合第一名,2003年國際SIGHAN分詞大賽綜合第一名。綜合平衡了效果與效率,實現(xiàn)了 “又好又快”的技術追求。 3.2 普適優(yōu)勢 NLPIR提供豐富的open API,可無縫地融合到客戶的各類復雜操作系統(tǒng)之中,開發(fā)者可使用各類主流開發(fā)語言調用其所有功能。 3.3經(jīng)驗優(yōu)勢 十余年中,NLPIR先后服務了全球30萬家機構。 |
|
來自: 昵稱22473147 > 《待分類》