一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

大數(shù)據(jù)系列之Hadoop框架

 瓜瓜2uuq7332fe 2018-03-01

Hadoop框架中,有很多優(yōu)秀的工具,幫助我們解決工作中的問(wèn)題。

Hadoop的位置

20150215103059348

從上圖可以看出,越往右,實(shí)時(shí)性越高,越往上,涉及到算法等越多。

越往上,越往右就越火……

 

Hadoop框架中一些簡(jiǎn)介

QQ截圖20150319155514

 

HDFS

HDFS,(Hadoop Distributed File System) hadoop分布式文件系統(tǒng)。在Google開(kāi)源有關(guān)DFS的論文后,由一位大牛開(kāi)發(fā)而成。HDFS的建立在集群之上,適合PB級(jí)大量數(shù)據(jù)的存儲(chǔ),擴(kuò)展性強(qiáng),容錯(cuò)性高。它也是Hadoop集群的基礎(chǔ),大部分內(nèi)容都存在了HDFS上。

 

MapReduce

MapReduce,是Hadoop中的計(jì)算框架,由兩部分構(gòu)成。Map操作以及Reduce操作。MapReduce,會(huì)生成計(jì)算的任務(wù),分配到各個(gè)節(jié)點(diǎn)上,執(zhí)行計(jì)算。這樣就避免了移動(dòng)集群上面的數(shù)據(jù)。而且其內(nèi)部,也有容錯(cuò)的功能。在計(jì)算過(guò)程中,某個(gè)節(jié)點(diǎn)宕掉之后,會(huì)有策略進(jìn)行應(yīng)對(duì)。Hadoop集群,上層的一些工具,比如Hive或者Pig等,都會(huì)轉(zhuǎn)換為基本的MapReduce任務(wù)來(lái)執(zhí)行。

 

HBase

HBase源自谷歌的BigTable。HBase是面向列存儲(chǔ)的數(shù)據(jù)庫(kù),性能高,擴(kuò)展性強(qiáng),可靠性高。HBase的內(nèi)容,存儲(chǔ)在HDFS上,當(dāng)然它也可以使用其他的文件系統(tǒng),如S3等。HBase作為一個(gè)頂級(jí)項(xiàng)目,使用頻率很高。如:我們可以用來(lái)存儲(chǔ),爬蟲(chóng)爬來(lái)的網(wǎng)頁(yè)的信息等。具體的HBase的概念請(qǐng)見(jiàn)后續(xù)詳細(xì)說(shuō)明。延遲較低。

 

Hive

Hive,是一個(gè)查詢的工具,在HBase中,對(duì)于SQL的支持不太好。而Hive解決了這一類的問(wèn)題。以sql形式操作hbase,更爽一些。Hive編寫的一些sql語(yǔ)句,其實(shí)最后也還是會(huì)變成MapReduce程序。當(dāng)然這種查詢,不能與關(guān)系型數(shù)據(jù)庫(kù)mysql等比較,hive查詢時(shí),是秒級(jí)或分鐘級(jí)的,時(shí)間比較長(zhǎng)。

 

Sqoop

Sqoop,也是一個(gè)很神奇的數(shù)據(jù)同步工具。在關(guān)系型數(shù)據(jù)庫(kù)中,我們會(huì)遇到一種情景,將Oracle數(shù)據(jù)導(dǎo)入到Mysql,或者將Mysql數(shù)據(jù),導(dǎo)入到Oracle。那其實(shí)Sqoop也是類似的功能。sqoop可以將Oracle,Mysql等關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),導(dǎo)入到HBase,HDFS上,當(dāng)然也可以從HDFS或HBase導(dǎo)入到Mysql或Oracle上。

 

Flume

Flume,是日志收集工具,是分布式的,可靠的,容錯(cuò)的,可以定制的。應(yīng)用場(chǎng)景如:100臺(tái)服務(wù)器,需要監(jiān)測(cè)各個(gè)服務(wù)器的運(yùn)行情況,這時(shí)可以用flume將各個(gè)服務(wù)器的日志,收集過(guò)來(lái)。Flume也有兩個(gè)版本。Flume OG 和Flume NG?,F(xiàn)在基本都用NG了。

 

Impala

Impala是Cloudera公司主導(dǎo)開(kāi)發(fā)的新型查詢系統(tǒng),它提供SQL語(yǔ)義,能查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語(yǔ)義,但由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個(gè)批處理過(guò)程,難以滿足查詢的交互性。相比之下,Impala的最大特點(diǎn)也是最大賣點(diǎn)就是它的快速。Imapa可以和Phoenix,Spark Sql聯(lián)系起來(lái)了解一下。

 

Spark

Spark是一個(gè)內(nèi)存計(jì)算的框架。目前一個(gè)大的趨勢(shì)。MapReduce會(huì)有很大的IO操作,而Spark是在內(nèi)存中計(jì)算。速度是Hadoop的10倍(官網(wǎng)上這樣說(shuō)的)。Spark是目前一個(gè)趨勢(shì),是需要了解的。

 

Zookeeper

Zookeeper,動(dòng)物管理員。Zookeeper叫分布式協(xié)作服務(wù)。作用主要是,統(tǒng)一命名,狀態(tài)同步,集群管理,配置同步。Zookeeper在HBase,以及Hadoop2.x中,都有用到。

 

Mahout

數(shù)據(jù)挖掘算法庫(kù),里面內(nèi)置了大量的算法。可以用來(lái)做預(yù)測(cè)、分類、聚類等。工具很強(qiáng)大,但是技術(shù)要求能力較高。

 

Pig

和Hive類似。具體區(qū)別自己搜搜。Pig可以構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。可用來(lái)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù),進(jìn)行查詢分析。Pig也有自己的查詢語(yǔ)法,很不幸,不是sql形式,Pig Latin。

 

Ambari

Ambari是一個(gè)管理平臺(tái)。可以對(duì)集群進(jìn)行統(tǒng)一的部署。也是很方便的。

 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日韩精品一区二区一牛| 91欧美激情在线视频| 日本丁香婷婷欧美激情| 婷婷亚洲综合五月天麻豆 | 麻豆精品在线一区二区三区| 日本女优一色一伦一区二区三区| 日韩一区二区三区久久| 久久久精品日韩欧美丰满| 国产精品美女午夜福利| 欧美一区日韩二区亚洲三区| 亚洲一区二区三区三区| 一区二区三区欧美高清| 国产一级片内射视频免费播放| 午夜精品黄片在线播放| 尤物天堂av一区二区| 东北老熟妇全程露脸被内射| 亚洲精品偷拍视频免费观看| 亚洲伦理中文字幕在线观看| 在线观看免费无遮挡大尺度视频 | 能在线看的视频你懂的| 精品人妻av区波多野结依| 国产又色又粗又黄又爽| 日韩蜜桃一区二区三区| 亚洲欧美中文字幕精品| 日本黄色录像韩国黄色录像| 国产日韩久久精品一区| 日本不卡一本二本三区| 国产精品欧美一级免费| 欧美日韩乱一区二区三区| 日本加勒比在线播放一区| 欧美一区二区三区十区| 国产欧美日韩不卡在线视频| 久久综合九色综合欧美| 欧美尤物在线视频91| 这里只有九九热精品视频| 午夜福利视频日本一区| 日本不卡视频在线观看| 又大又长又粗又黄国产| 成人精品一级特黄大片| 色丁香之五月婷婷开心| 最近日韩在线免费黄片|