在實時計算領(lǐng)域,Apache Storm、Samza、Spark Streaming、Kafka Stream、Flink 等開源流式計算引擎層出不窮,呈現(xiàn)百家爭鳴之勢,Google 也順勢推出了開源的 Beam 計算框架標(biāo)準(zhǔn)。 TOP10 數(shù)據(jù)挖掘工具 1. RapidMiner RapidMiner是一個開源的數(shù)據(jù)挖掘軟件,由Java語言編寫而成,提供一些可擴(kuò)展的數(shù)據(jù)分析挖掘算法的實現(xiàn),它是作為一個服務(wù)提供,而不是一款本地軟件。除了數(shù)據(jù)挖掘,RapidMiner還提供如數(shù)據(jù)預(yù)處理和可視化、預(yù)測分析和統(tǒng)計建模、評估和部署等功能。 2 SAS Data Mining(SAS 數(shù)據(jù)挖掘軟件) 3. WEKA WEKA是一款非常復(fù)雜的數(shù)據(jù)挖掘工具,其原生的非Java版本主要是為了分析農(nóng)業(yè)領(lǐng)域數(shù)據(jù)而開發(fā)的。該工具基于Java版本,支持多種標(biāo)準(zhǔn)數(shù)據(jù)挖掘任務(wù),包括數(shù)據(jù)預(yù)處理、收集、分類、回歸分析、可視化和特征選取。 4. Software – R R軟件是另一種較為流行的GNU開源數(shù)據(jù)挖掘工具,它主要是由C語言和FORTRAN語言編寫的,是一款針對編程語言和軟件環(huán)境進(jìn)行統(tǒng)計計算和制圖的免費軟件。除了可以為科學(xué)家、研究人員以及學(xué)生提供數(shù)據(jù)挖掘和分析功能外,它還可以提供統(tǒng)計和制圖技術(shù),包括線性和非線性建模,經(jīng)典的統(tǒng)計測試,時間序列分析、分類、收集等等。 5 Orange數(shù)據(jù)挖掘軟件 Orange是一個開源數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具,它的圖形環(huán)境稱為Orange畫布,用戶可以在畫布上放置分析控件 (widget),然后把控件連接起來即可組成挖掘流程。除了界面友好易于使用的優(yōu)點,Orange的強項在于提供了大量可視化方法,可以對數(shù)據(jù)和模型進(jìn)行多種圖形化展示,并能智能搜索合適的可視化形式,支持對數(shù)據(jù)的交互式探索。 6. KNIME KNIME(Konstanz Information Miner)是基于Eclipse,用Java編寫的一款開源的數(shù)據(jù)分析、報告和綜合平臺,擁有數(shù)據(jù)提取、集成,處理,分析、轉(zhuǎn)換以及加載所需的所有數(shù)據(jù)挖掘工具。此外,它具有圖形用戶界面,可以幫助用戶輕松連接節(jié)點進(jìn)行數(shù)據(jù)處理。 7. NLTK NLTK(Natural Language Tool Kit)最適用于語言處理任務(wù),因為它可以提供一個語言處理工具,包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)抓取、情感分析等各種語言處理任務(wù)。而您需要做的只是安裝NLTK,然后將一個包拖拽到您最喜愛的任務(wù)中,您就可以去做其他事了。因為它是用Python語言編寫的,你可以在上面建立應(yīng)用,還可以自定義它的小任務(wù)。 8. JHepWork 為科學(xué)家,工程師和學(xué)生所設(shè)計的jHepWork是一個免費的開源數(shù)據(jù)分析框架,其主要是用開源庫來創(chuàng)建一個數(shù)據(jù)分析環(huán)境,并提供了豐富的用戶接口,以此來和那些收費的的軟件競爭。它主要是為了科學(xué)計算用的二維和三維的制圖,并包含了用Java實現(xiàn)的數(shù)學(xué)科學(xué)庫,隨機(jī)數(shù),和其它的數(shù)據(jù)挖掘算法。jHepWork是基于一個高級的編程語言Jython,當(dāng)然,Java代碼同樣可以用來調(diào)用jHepWork的數(shù)學(xué)和圖形庫。 9. Pentaho Pentaho為數(shù)據(jù)集成、業(yè)務(wù)分析以及大數(shù)據(jù)處理提供一個全面的平臺。使用這種商業(yè)工具,你可以輕松地混合各種來源的數(shù)據(jù),通過對業(yè)務(wù)數(shù)據(jù)進(jìn)行分析可以為未來的決策提供正確的信息引導(dǎo)。 10. Tanagra Tanagra是為學(xué)術(shù)和研究目的開發(fā)的數(shù)據(jù)挖掘軟件,且是完全免費的。它使用圖形界面的數(shù)據(jù)挖掘軟件,采用了類似Windows資源管理器中的樹狀結(jié)構(gòu)來組織分析組件。Tanagra缺乏高級的可視化能力,但它的強項是統(tǒng)計 分析,提供了眾多的有參和無參檢驗方法。同時它的特征選取方法也很多 |
|