- 快速
- 靈活
- 整合&開放
- 可伸縮性
- 對 ANSI-92 SQL標準的支持
- 數(shù)據(jù)來源與數(shù)據(jù)格式
- 支持的數(shù)據(jù)訪問接口
Impala之01-基本介紹簡介 Impala是Cloudera公司主導開發(fā)的新型查詢系統(tǒng),是Google Dremel的開源實現(xiàn)。它提供SQL語義,能夠查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義,但是由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性;相比之下,Impala的最大特點也是最大賣點就是它的快速。 性能 Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的開源SQL-on-hadoop方案,能夠實現(xiàn)對海量數(shù)據(jù)的實時查詢分析。
如下圖所示, impala性能超過SparkSQL、 Presto、 Hive。 優(yōu)勢
可以方便地執(zhí)行SQL語句,在數(shù)秒內(nèi)返回查詢分析結(jié)果。 這一點,其實還要依賴于你在HDFS或HBase上存儲的數(shù)據(jù)的規(guī)模,依賴于你對Impala系統(tǒng)的配置調(diào)優(yōu)情況,可能還依賴于你寫的SQL語句的執(zhí)行效率。
可以直接查詢存儲在HDFS上的原生數(shù)據(jù),也可以查詢經(jīng)過優(yōu)化設計而存儲的數(shù)據(jù),只要數(shù)據(jù)的格式它們能夠兼容MapReduce、Hive、Pig等等。
可以非常容易地與Hadoop系統(tǒng)整合,并使用Hadoop生態(tài)系統(tǒng)的資源和優(yōu)勢,也不需要將數(shù)據(jù)遷移到特定的存儲系統(tǒng)就能滿足查詢分析的要求。
可以很好地與一些BI應用系統(tǒng)協(xié)同工作,如Microstrategy、Tableau、Qlikview,等等。 支持特性 Impala支持的特性,主要包括如下幾點:
Impala支持ANSI-92 SQL所有子集,包括CREATE、ALTER、SELECT、INSERT、JOIN、GROUP BY以及子查詢。它還支持分區(qū)JOIN、常用的聚合函數(shù)(SUM、COUNT、MAX、MIN、AVG等等)、topN查詢。你使用這些語句時,可以像使用關(guān)系數(shù)據(jù)庫中使用的SQL語句一樣去設計,很容易上手。
Impala可以操作HDFS、HBase中存儲的數(shù)據(jù),支持如下HDFS的支持文件格式:Text file、SequenceFile、RCFile、Avro file、Parquet,支持的壓縮格式有:Snappy、GZIP、Deflate、BZIP,其中Snappy壓縮格式的性能更好一些。
主要包括Hive所支持的如下接口:JDBC Driver、ODBC Driver、Hue Beeswax、Cloudera Impala Query UI.,另外,還可以通過CLI接口(也就是Impala Shell)訪問。 Reference: 更多文章歡迎關(guān)注微信公眾號:大數(shù)據(jù)學苑(Bigdata-Eden) https://blog.csdn.net/sinat_25059791/article/details/68620549### |
|
來自: jasonbetter > 《Impala》