大數(shù)據(jù)類的公司 1、 大數(shù)據(jù)決策平臺(tái),帆軟。帆軟是商業(yè)智能和數(shù)據(jù)分析平臺(tái)提供商,從報(bào)表工具到商業(yè)智能BI,有十多年的數(shù)據(jù)應(yīng)用的底子,在這個(gè)領(lǐng)域很成熟,但是很低調(diào)。像帆軟的FineBI,可以部署自帶的FineIndex(類cube,數(shù)據(jù)倉庫),有數(shù)據(jù)緩存機(jī)制,可實(shí)現(xiàn)定量更新,定時(shí)更新,減少了數(shù)據(jù)倉庫的建設(shè)維護(hù)。還有FineDirect(直連)可直接連接數(shù)據(jù)倉庫或數(shù)據(jù)庫,主要針對(duì)Hadoop一類的大數(shù)據(jù)平臺(tái)和實(shí)時(shí)數(shù)據(jù)分析的需求。 2、 數(shù)據(jù)庫,大數(shù)據(jù)平臺(tái)類,星環(huán),做Hadoop生態(tài)系列的大數(shù)據(jù)底層平臺(tái)公司。Hadoop是開源的,星環(huán)主要做的是把Hadoop不穩(wěn)定的部分優(yōu)化,功能細(xì)化,為企業(yè)提供Hadoop大數(shù)據(jù)引擎及數(shù)據(jù)庫工具。 3、 云計(jì)算,云端大數(shù)據(jù)類,阿里巴巴,明星產(chǎn)品-阿里云,與亞馬遜AWS抗衡,做公有云、私有云、混合云。實(shí)力不差,符合阿里巴巴的氣質(zhì),很有野心。 4、 大數(shù)據(jù)存儲(chǔ)硬件類,浪潮,很老牌的IT公司,國(guó)資委控股,研究大數(shù)據(jù)方面的存儲(chǔ),在國(guó)內(nèi)比較領(lǐng)先。 BI+Hadoop的案例 Hadoop是個(gè)很流行的分布式計(jì)算解決方案,是Apache的一個(gè)開源項(xiàng)目名稱,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系統(tǒng),MapReduce是分布式計(jì)算引擎。時(shí)至今日,Hadoop在技術(shù)上已經(jīng)得到驗(yàn)證、認(rèn)可甚至到了成熟期,同時(shí)也衍生出了一個(gè)龐大的生態(tài)圈,比較知名的包括HBase、Hive、Spark等。HBase是基于HDFS的分布式列式數(shù)據(jù)庫,HIVE是一個(gè)基于HBase數(shù)據(jù)倉庫系統(tǒng)。Impala為存儲(chǔ)在HDFS和HBase中的數(shù)據(jù)提供了實(shí)時(shí)SQL查詢功能,基于HIVE服務(wù),并可共享HIVE的元數(shù)據(jù)。Spark是一個(gè)類似MapReduce的并行計(jì)算框架,也提供了類似的HIVE的Spark SQL查詢接口,Hive是基于hadoop的數(shù)據(jù)分析工具。 很多企業(yè)比如銀行流水作業(yè)很多,數(shù)據(jù)都是實(shí)時(shí)更新且數(shù)據(jù)量很大。會(huì)采用hadoop作為底層數(shù)據(jù)庫,借由中間商處理底層數(shù)據(jù),然后通過BI系統(tǒng)去連接這些中間數(shù)據(jù)處理廠商的中間表,接入處理數(shù)據(jù),尤其以星環(huán)、華為這類hadoop大數(shù)據(jù)平臺(tái)商居多,使用也較為廣泛。 以星環(huán)大數(shù)據(jù)+帆軟大數(shù)據(jù)BI工具FineBI的結(jié)合為例。 由于星環(huán)也是處理hadoop下的hive數(shù)據(jù)庫,其本質(zhì)都是差不多的,可以使用Hive提供的jdbc驅(qū)動(dòng),這個(gè)驅(qū)動(dòng)同樣可以讓FineBI連接星環(huán)的數(shù)據(jù)庫并進(jìn)行一些類關(guān)系型數(shù)據(jù)庫的sql語句查詢等操作。 將這些驅(qū)動(dòng)拷貝到BI工程下面,然后重啟BI服務(wù)器。重啟后可以建立與星環(huán)數(shù)據(jù)庫的數(shù)據(jù)連接,最后通過連接進(jìn)行數(shù)據(jù)查詢。 關(guān)于FineBI的FineIndex和FineDirect功能 hadoop是底層,hive是數(shù)據(jù)庫,上述案例采用的是FineIndex(cube連)連接,用的是hiveserver的方式進(jìn)行數(shù)據(jù)連接的;數(shù)據(jù)連接成功之后,將hive數(shù)據(jù)庫中的表添加到業(yè)務(wù)包中,也就是將庫中數(shù)據(jù)拿到我們的多維數(shù)據(jù)庫(FineIndex),當(dāng)然抓取的過程中也可以讀取數(shù)據(jù)庫關(guān)聯(lián)和轉(zhuǎn)義,也可以手動(dòng)轉(zhuǎn)義和進(jìn)行關(guān)聯(lián),同時(shí)也可以做一些etl操作如新增公式列/行列轉(zhuǎn)換/join/union/過濾/分組統(tǒng)計(jì)/自循環(huán)列/新增分組列/使用部分字段等,做過處理的這些數(shù)據(jù)表用于前端分析。 也就是說數(shù)據(jù)庫-FineIndex-前端分析,這里的FineIndex相當(dāng)于一個(gè)中間庫的形式,用來存儲(chǔ)數(shù)據(jù)表,關(guān)聯(lián)轉(zhuǎn)義索引等。這些都對(duì)后續(xù)前臺(tái)分析處理數(shù)據(jù)效率有很大的提升(因?yàn)橹苯觭ql取數(shù),效率受數(shù)據(jù)庫本身的限制,數(shù)據(jù)量大時(shí),一般分析工具很容易就卡死升職內(nèi)存溢出導(dǎo)致系統(tǒng)無響應(yīng)),這也是FineIndex方案的初衷。FineIndex存在有兩個(gè)意義,一個(gè)是提升效率,一個(gè)就是對(duì)數(shù)據(jù)進(jìn)行二次整合處理。 FineBI還有一個(gè)連接方式FineDirect(數(shù)據(jù)庫直連),主要是應(yīng)對(duì)如下需求: 1、分析結(jié)果的實(shí)時(shí)性 企業(yè)用戶在使用BI工具的時(shí)候,多數(shù)情況下是對(duì)大量的歷史數(shù)據(jù)進(jìn)行OLAP分析,但是也有部分用戶需要展現(xiàn)結(jié)果的實(shí)時(shí)性。例如金融行業(yè)對(duì)于交易風(fēng)險(xiǎn)的分析,是對(duì)每一筆流水實(shí)時(shí)進(jìn)行分析的,如果需要經(jīng)過構(gòu)建多維數(shù)據(jù)庫的過程,數(shù)據(jù)到來就會(huì)有延遲,影響分析結(jié)果的準(zhǔn)確性。但是因?yàn)橛?jì)算的過程交給了數(shù)據(jù)庫,響應(yīng)速度更多的取決于數(shù)據(jù)庫的性能。 2、大數(shù)據(jù)平臺(tái)的充分利用 隨著各種分布式計(jì)算方案的不斷優(yōu)化,數(shù)據(jù)的計(jì)算性能也有了快速的發(fā)展,計(jì)算能力有了顯著的提高,不少企業(yè)已經(jīng)有了自己的大數(shù)據(jù)計(jì)算平臺(tái),例如hadoop,kylin,greenplum,vertica等,這些平臺(tái)的對(duì)于大數(shù)據(jù)量的處理性能已經(jīng)足以滿足使用需求,不再有建模的需求,因此FineBI直連引擎提供了對(duì)接這些數(shù)據(jù)平臺(tái)的功能。 |
|