一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

大數(shù)據(jù)的語言,工具與框架發(fā)展

 昵稱73595512 2021-02-21

為了解大數(shù)據(jù)的當前和未來狀態(tài),我們采訪了來自28個組織的31位IT技術(shù)主管。我們問他們,“你在數(shù)據(jù)提取,分析和報告中使用的最流行的語言,工具和框架是什么?” 以下的文章是他們告訴我們的記錄,經(jīng)過總結(jié)如下。

Python,Spark,Kafka

隨著大數(shù)據(jù)和對人工智能AL/機器學習 ML 的推動,Scala和Python語言以及Apache Spark中越來越受歡迎。

對OLAP數(shù)據(jù)倉庫的遷移,如果用 Python開發(fā)機器學習使用較少的結(jié)構(gòu)。開發(fā)者編寫Python ML模型非常方便,Python有擴展庫提供支持。 

Kafka用于流式提取,R和Python用于編程開發(fā),當然Java很普遍。SQL還不會消失,但它不是大數(shù)據(jù)最好的朋友,但是它的開放性讓更多的人可以訪問數(shù)據(jù),Gartner讓Hadoop上的SQL走出了幻滅之低谷。

我們看到很多數(shù)據(jù)倉庫的相關(guān)技術(shù),如Hadoop,Spark和Kafka等新興技術(shù),很多人還對Redshift,Snowflake和Big Query非常感興趣。

ML機器學習技術(shù)棧,增加了TensorFlow的強大工具讓人增加對其學習的信心,減小了學習曲線。

第三個是Kubernetes,也聚集了大量的愛好者,并在逐步擴大用戶領(lǐng)域。 

還有其他開源工具被廣泛使用,例如Spark,R和Python,這就是平臺提供與這些開源工具集成的原因。

在大數(shù)據(jù)工作流程中,可以引入一個新節(jié)點用Python,R或Spark開發(fā)代碼腳本。在執(zhí)行時,節(jié)點將執(zhí)行代碼成為工作流中節(jié)點管道的一部分。

在之前一段時間,R語言曾占據(jù)主導地位,特別是在數(shù)據(jù)科學運作模型中?,F(xiàn)在真正的技術(shù)創(chuàng)新是圍繞Python,因為Python有許多工具、庫的支持。

接著人們開始探索Spark和Kafka。Spark以極快的速度處理大量磁盤卷。Kafka是一個用于將數(shù)據(jù)傳輸?shù)絊park的消息傳遞系統(tǒng),R這個語言非常適合分析歷史數(shù)據(jù),獲取模型和獲取實時數(shù)據(jù),并幫助數(shù)據(jù)分組,以便實時運行并應用模型。

一些常見的工具和框架還包括內(nèi)存關(guān)系數(shù)據(jù)庫,如VoltDB,Spark,Storm,F(xiàn)link,Kafka 和 一些NoSQL數(shù)據(jù)庫。  

我們?yōu)樗蠧RUD數(shù)據(jù)操作提供LINQ類型的API,可以供各種語言調(diào)用,例如C#,Go,Java,JavaScript,Python,Ruby,PHP,Scala和Swift語言。因為設(shè)計的是高性能(可預測的低延遲)數(shù)據(jù)庫,我們的主要為數(shù)據(jù)訪問創(chuàng)建為編程而不是聲明,因此目前并不支持SQL。

當客戶要分析他們當前正在執(zhí)行的工作時,我們再添加SQL支持,我們支持將數(shù)據(jù)導出到后端數(shù)據(jù)倉庫和數(shù)據(jù)池以進行分析。對于數(shù)據(jù)抽取,Kafka和Kinesis等工具作為客戶中的默認數(shù)據(jù)的通信管道也越來越獲得關(guān)注。 

我們將SQL視作為各種規(guī)模公司使用平臺中數(shù)據(jù)的主要協(xié)議。對于集群的部署管理,我們看到Docker和Kubernetes的應用在迅速增長。對于數(shù)據(jù)抽取,Apache Kafka被我們的許多用戶使用,我們最近在Confluent合作伙伴計劃中取得了Kafka Connector的認證。為了更好的處理分析,我們經(jīng)常將Apache Spark與Apache Ignite一起并用作為內(nèi)存數(shù)據(jù)存儲。 

事實上Apache Kafka已經(jīng)成為一種標準,可以在提取近乎實時的大批量數(shù)據(jù)(尤其是傳感器數(shù)據(jù)),以流式傳輸?shù)綌?shù)據(jù)分析平臺。為了獲得最高的分析性能,數(shù)據(jù)庫內(nèi)機器學習和高級分析正成為組織大規(guī)模提供預測分析的一種極重要的方式。

對于可視化報表,目前市面上有各種各樣的數(shù)據(jù)可視化工具:從Tableau到Looker,從Microsoft Power BI到IBM Cognos再到MicroStrategy等等。業(yè)務分析師從未有過這么多選擇來實現(xiàn)可視化數(shù)據(jù)報表。他們肯定會這樣肯定,他們的基礎(chǔ)數(shù)據(jù)分析平臺如今已經(jīng)具有大規(guī)模和高性能,讓他們能夠在幾秒或幾分鐘內(nèi)完全準確地從最大數(shù)據(jù)中獲得洞察力, 

我們利用多種數(shù)據(jù)提取和索引工具,使用 Apache Kafka和NIFI項目目前最為普遍。

我們將 Hadoop YARN與HBASE/HDFS用于數(shù)據(jù)持久層,然后用于數(shù)據(jù)處理、預測建模、分析和深度學習項目,如Apache Zeppelin,Spark/Spark Streaming,Storm,SciKit-Learn和Elasticsearch這些開源項目,我們還可利用Talend,Pentaho,Tableau和其他優(yōu)秀的商業(yè)化軟件或工具。

TensorFlow,Tableau,PowerBI

1)我們使用Amazon Athena(Apache Presto)進行日志分析。

2)我們使用Mode Analytics進行數(shù)據(jù)可視化和報告。

3)我們使用TensorFlow來分析流量模式。 

從ML角度看數(shù)據(jù)科學,DL框架的可用性,TensorFlow,Pytorch,Keras,Caffe在應用ML和為大規(guī)模數(shù)據(jù)創(chuàng)建模型方面做出了很大的創(chuàng)新。 

BI用例正試圖擴大分析師的數(shù)據(jù)規(guī)模,Tableau,PowerBI,MicroStrategy,TIBCO和Qlik試圖擴大數(shù)據(jù)儀表盤面前的人數(shù)和角色。 

隨著技術(shù)團隊正在逐漸遠離MapReduce,我們看到 Spark。Java和Python越來越受歡迎。Kafka被用來抽取數(shù)據(jù),可視化的Visual Arcadia Data,Tableau,Qlik和PowerBI來生成報表。 

許多項目使用多種語言和多個分析工具。當然,我們也能看到很多SQL的使用場景以及面向數(shù)據(jù)科學的語言,如Python和R語言,但也是Java和C#等經(jīng)典編程語言的發(fā)揮之處。對于數(shù)據(jù)科學,我們有頂級工具包TensorFlow,緊隨其后的是自助式BI工具,如Tableau,PowerBI和ClickView。

其它

開源的世界。更多人正在轉(zhuǎn)向流數(shù)據(jù)數(shù)據(jù),這是由對實時答案的需求來驅(qū)動而來。

當然這取決于特定的項目,我們看到多種機制被用于抽取,富文本,文檔分類器,SciByte,數(shù)據(jù)本體,智能標簽工具,深入研究數(shù)據(jù)。個性化推薦與見解、情感分析等豐富了大數(shù)據(jù)。

客戶從瀏覽器中查找要使用的內(nèi)容,或正在尋找如何構(gòu)建自己的工具,SQL語言仍然是大數(shù)據(jù)的語言,它可以在在Hadoop和其他數(shù)據(jù)庫之上正常工作。

OData并不是那么新,人們正在從服務器端和客戶端進一步使用它,還有一些人在使用GraphQL來動態(tài)查詢和獲取數(shù)據(jù)。

服務器端編程也有很多新技術(shù),比如 MongoDB做得很好,Redis適合緩存。AWS S3對于使用Elasticsearch和S3作為后端的數(shù)據(jù)存儲非常有用,當然明確已經(jīng)確定的技術(shù)與設(shè)計模式。

使用R和Python的人會堅持使用他們熟悉的東西,大數(shù)據(jù)系統(tǒng)中有許多API提供了很多支持。從數(shù)據(jù)抽取的角度來看,人們希望提供盡可能多的方法來處理數(shù)據(jù)輸入和輸出,能夠支持盡可能多的工具,這不是臨界質(zhì)量。迎合人才,開發(fā)人員工具和API支持的兩方需求。

大公司希望人們使用相同的BI和數(shù)據(jù)科學工具,因為他們有各種工具,在數(shù)千人在一個工具上做標準化并與不同后端集成并加速數(shù)據(jù)生產(chǎn)的方式,包括提供數(shù)據(jù)的集成、加速和目錄以及數(shù)據(jù)語義等定義。數(shù)據(jù)目錄位于平臺的中心位置,將安全性,集成和加速功能集中到一個可與全部工具和數(shù)據(jù)源配合使用的中心開源層。

大數(shù)據(jù)世界在很多方面會很快地發(fā)展到所有的開發(fā)環(huán)境,包括內(nèi)部部署,云計算等等。我們看到了很多語言,執(zhí)行引擎和數(shù)據(jù)格式發(fā)生了變化。大數(shù)據(jù)的核心價值是允許客戶繞過這些不同的工具和標準,使用拖放或我們提供的代碼環(huán)境,可能無需手動編寫任何代碼,輕松將數(shù)據(jù)管道作為可重復框架的一部分,無論采用何種技術(shù),平臺或語言都 能進行大規(guī)模部署。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲第一区二区三区女厕偷拍 | 老司机亚洲精品一区二区| 亚洲国产成人久久一区二区三区| 国产人妻熟女高跟丝袜| 成人亚洲国产精品一区不卡| 在线观看免费无遮挡大尺度视频| 亚洲中文字幕有码在线观看| 欧美日韩一区二区综合| 懂色一区二区三区四区| 亚洲欧美日本成人在线| 国产一级一片内射视频在线| 国产精品久久三级精品| 亚洲中文在线观看小视频| 开心久久综合激情五月天| 91欧美亚洲视频在线| 国产传媒欧美日韩成人精品| 99久久国产精品亚洲| 黄色国产自拍在线观看| 亚洲精品福利视频在线观看| 亚洲品质一区二区三区| 国产综合一区二区三区av| 富婆又大又白又丰满又紧又硬| 日韩在线欧美一区二区| 日韩av生活片一区二区三区| 丰满的人妻一区二区三区| 日木乱偷人妻中文字幕在线| 欧美尤物在线视频91| 日韩欧美一区二区黄色| 午夜福利精品视频视频| 97人妻人人揉人人躁人人| 激情综合五月开心久久| 成人精品一区二区三区在线| 少妇福利视频一区二区| 国产精品亚洲精品亚洲| 一区二区福利在线视频| 欧美野外在线刺激在线观看 | 日本午夜一本久久久综合| 国产精品美女午夜视频| 成人精品一区二区三区综合| av一区二区三区天堂| 91日韩欧美在线视频|