一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)中臺(tái),有什么區(qū)別?

 天下小糧倉(cāng) 2020-05-07

隨著大數(shù)據(jù)技術(shù)在各領(lǐng)域大量的運(yùn)用,數(shù)據(jù)管理工具也得到了飛速的發(fā)展,從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉(cāng)庫(kù),然后逐步發(fā)展并出現(xiàn)了功能更強(qiáng)大的數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)。但是對(duì)于這些概念很容易混淆,下面就主要談?wù)勊麄冎g的區(qū)別便于讀者對(duì)數(shù)據(jù)平臺(tái)相關(guān)的概念有全面的認(rèn)識(shí)。

第一數(shù)據(jù)倉(cāng)庫(kù)

說(shuō)到數(shù)據(jù)倉(cāng)庫(kù)就不得不提一下BI系統(tǒng)

BI(Business Intelligence)中文名稱是商業(yè)智能,百度上的解釋是:“用現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、線上分析處理技術(shù)、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術(shù)進(jìn)行數(shù)據(jù)分析以實(shí)現(xiàn)商業(yè)價(jià)值?!焙?jiǎn)單的說(shuō)就是企業(yè)充分利用其數(shù)據(jù)進(jìn)行多維度分析,掌握自己公司的經(jīng)營(yíng)狀況,幫助業(yè)務(wù)人員和高層人員做分析和決策,它起源于決策支持系統(tǒng)(decision support system),其展現(xiàn)形式更多以報(bào)表方式實(shí)現(xiàn)。

一,數(shù)據(jù)倉(cāng)庫(kù)的定義

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨著時(shí)間不斷變化、非易失性的,隨時(shí)間變化的用來(lái)支持管理人員決策的數(shù)據(jù)集合,就是為BI應(yīng)用服務(wù)的。

面相主題:就是進(jìn)行決策分析時(shí)重點(diǎn)關(guān)注的方向,比如某個(gè)分析的主題是收入,和庫(kù)存。那么數(shù)倉(cāng)里的數(shù)據(jù)都是以收入和庫(kù)存在主題組織的。

集成:這個(gè)比較容易理解就是存在數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)都是經(jīng)過(guò)一系列加工、整理和匯總的過(guò)程,因此數(shù)據(jù)倉(cāng)庫(kù)中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

隨著時(shí)間不斷變化:是指數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是一段時(shí)間以來(lái)的數(shù)據(jù)總和隨著時(shí)間的變化數(shù)據(jù)還是會(huì)進(jìn)行更新,通過(guò)這些更新的數(shù)據(jù)信息,才可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。

非易失性:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常是一次載入和訪問(wèn)的,并且數(shù)據(jù)在一定意義上不進(jìn)行更新。這和上面的并不矛盾只是參考的東西不同而已。

二,數(shù)據(jù)倉(cāng)庫(kù)的定位和缺點(diǎn)

傳統(tǒng)的數(shù)倉(cāng)只是滿足領(lǐng)導(dǎo)數(shù)據(jù)決策的需要,因此更多的體現(xiàn)在報(bào)表輸出,使用者以小部分的業(yè)務(wù)人員和決策層為主,新需求的開發(fā)周期以月甚至到年為計(jì)。數(shù)據(jù)處理能力有限,很少有EDW的數(shù)據(jù)容量超過(guò)1TB,因此不能對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行跨域的處理(原因是RMDBS對(duì)大數(shù)據(jù)量的關(guān)聯(lián)join處理耗時(shí)非常長(zhǎng)),因此要對(duì)新的指標(biāo)分析的時(shí)候需要從基礎(chǔ)數(shù)據(jù)重新生成匯總表,耗時(shí)耗力,使用方法上無(wú)法實(shí)現(xiàn)跨數(shù)據(jù)集或數(shù)據(jù)域的處理。

第二,數(shù)據(jù)湖

首次由Dan Woods在2011年7月福布斯上的《Big Data Requires a Big, New Architecture》中提出,它提出CIO們應(yīng)該考慮數(shù)據(jù)湖(“Data lake”)這個(gè)思維方式來(lái)替代數(shù)據(jù)倉(cāng)庫(kù)(“data warehouse”)的思維,它的架構(gòu)和理念是把原先不存儲(chǔ)的基礎(chǔ)數(shù)據(jù)也存儲(chǔ)起來(lái),匯總各個(gè)數(shù)據(jù)源的數(shù)據(jù)方便以后的數(shù)據(jù)分析和查詢,但是數(shù)據(jù)湖只是解決了聚集問(wèn)題,并沒(méi)有替代數(shù)據(jù)倉(cāng)庫(kù),而是發(fā)展成了一個(gè)和數(shù)倉(cāng)相互補(bǔ)充的一個(gè)數(shù)據(jù)管理工具。



目前,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會(huì)覺(jué)得數(shù)據(jù)湖就是Hadoop集群。數(shù)據(jù)湖是一個(gè)概念,而Hadoop是用于實(shí)現(xiàn)這個(gè)概念的技術(shù)。所以數(shù)據(jù)可以存儲(chǔ)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。

結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別

結(jié)構(gòu)化數(shù)據(jù)就是通常數(shù)據(jù)倉(cāng)庫(kù)存的數(shù)據(jù),它們通常以二維表的形勢(shì)或者文檔型存儲(chǔ)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)種類比較多有圖形、網(wǎng)頁(yè)、音頻、視頻等。

第三數(shù)據(jù)中臺(tái)

數(shù)據(jù)中臺(tái)的概念是最早提出的是阿里巴巴,由于阿里巴巴業(yè)務(wù)發(fā)展迅速,比如阿里雙十一等業(yè)務(wù)的數(shù)據(jù)處理事相當(dāng)龐大的,為了保證日常性的多個(gè)業(yè)務(wù)前臺(tái)的數(shù)據(jù)需求,應(yīng)對(duì)大規(guī)模數(shù)據(jù)線性可擴(kuò)展問(wèn)題而在技術(shù)和組織架構(gòu)等方面采取的一些創(chuàng)新。

數(shù)據(jù)中臺(tái)的概念

數(shù)據(jù)中臺(tái)是指通過(guò)企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對(duì)內(nèi)優(yōu)化管理提高業(yè)務(wù),對(duì)外可以數(shù)據(jù)合作價(jià)值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺(tái)建立后,會(huì)形成數(shù)據(jù)API,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。中臺(tái)的戰(zhàn)略核心是數(shù)據(jù)共享,并不只是一個(gè)數(shù)據(jù)平臺(tái),而是讓數(shù)據(jù)在數(shù)據(jù)平臺(tái)和業(yè)務(wù)系統(tǒng)形成一個(gè)良性的閉環(huán),實(shí)現(xiàn)數(shù)據(jù)之間緊密交互。

數(shù)據(jù)中臺(tái)由一系列的工具和產(chǎn)品組成,阿里云數(shù)據(jù)中臺(tái)以智能數(shù)據(jù)構(gòu)建與管理Dataphin產(chǎn)品、商業(yè)智能QuickBI工具和企業(yè)參謀產(chǎn)品為主體等一系列工具組成。

數(shù)據(jù)中臺(tái)定位于計(jì)算后臺(tái)和業(yè)務(wù)前臺(tái)之間,這個(gè)概念也很好理解,前臺(tái)和后臺(tái)之間自然就是中臺(tái)了,如下圖所示:

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的區(qū)別

存儲(chǔ)方式的不同

在儲(chǔ)存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲(chǔ)所有數(shù)據(jù),并且僅在分析時(shí)再進(jìn)行轉(zhuǎn)換。

數(shù)據(jù)處理的不同

數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。在將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)之前,會(huì)對(duì)數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉(cāng)庫(kù)則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。

數(shù)據(jù)處理的目的不同

數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會(huì)用具有預(yù)測(cè)建模和統(tǒng)計(jì)分析等功能的高級(jí)分析工具。而數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)倉(cāng)庫(kù)非常適用于月度報(bào)告等操作用途,因?yàn)樗哂懈叨冉Y(jié)構(gòu)化。 在架構(gòu)中數(shù)據(jù)湖通常,在存儲(chǔ)數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)數(shù)據(jù)之前定義架構(gòu)。

如下圖

數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的區(qū)別

數(shù)據(jù)中臺(tái)與數(shù)據(jù)湖相比,數(shù)據(jù)中臺(tái)強(qiáng)調(diào)方法論,組織和工具的建設(shè)。非常強(qiáng)調(diào)數(shù)據(jù)賦能業(yè)務(wù),衍生出很多的數(shù)據(jù)業(yè)務(wù)產(chǎn)品。比如在阿里面向商家的生意參謀,面向人物屬性的標(biāo)簽服務(wù)、面向行業(yè)小二的行業(yè)洞察…這些都極大的擴(kuò)展了數(shù)據(jù)價(jià)值,其次數(shù)據(jù)中臺(tái)按分析的原子指標(biāo)和派生指標(biāo)方式做計(jì)算并存儲(chǔ)在Maxcompute平臺(tái)上,如有及時(shí)查詢要求會(huì)同步分析結(jié)果數(shù)據(jù)給MPP或其他DB。這塊在數(shù)據(jù)頂層設(shè)計(jì),全域資產(chǎn)、統(tǒng)一技術(shù)、產(chǎn)品業(yè)務(wù)上與Datalke及EDW是不同的。

數(shù)據(jù)中臺(tái)整體技術(shù)架構(gòu)上采用云計(jì)算架構(gòu)模式,將數(shù)據(jù)資源、計(jì)算資源、存儲(chǔ)資源充分云化,并通過(guò)多租戶技術(shù)進(jìn)行資源打包整合,并進(jìn)行開放,為用戶提供“一站式”數(shù)據(jù)服務(wù)。所以和它和數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)還是有很大的區(qū)別的。

數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)中臺(tái),他們并沒(méi)有直接的關(guān)系,只是他們?yōu)闃I(yè)務(wù)產(chǎn)生價(jià)值的形式有不同的側(cè)重。

數(shù)據(jù)湖作為一個(gè)集中的存儲(chǔ)庫(kù),可以在其中存儲(chǔ)任意規(guī)模的所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)湖中,可以存儲(chǔ)數(shù)據(jù)不需要對(duì)其進(jìn)行結(jié)構(gòu)化,就可以運(yùn)行不同類型的分析。

數(shù)據(jù)倉(cāng)庫(kù),也稱為企業(yè)數(shù)據(jù)倉(cāng)庫(kù),是一種數(shù)據(jù)存儲(chǔ)系統(tǒng),它將來(lái)自不同來(lái)源的結(jié)構(gòu)化數(shù)據(jù)聚合起來(lái),用于業(yè)務(wù)智能領(lǐng)域的比較和分析,數(shù)據(jù)倉(cāng)庫(kù)是包含多種數(shù)據(jù)的存儲(chǔ)庫(kù),并且是高度建模的。

數(shù)據(jù)中臺(tái)是一個(gè)承接技術(shù),引領(lǐng)業(yè)務(wù),構(gòu)建規(guī)范定義的、全域可連接萃取的、智慧的數(shù)據(jù)處理平臺(tái),建設(shè)目標(biāo)是為了高效滿足前臺(tái)數(shù)據(jù)分析和應(yīng)用的需求。數(shù)據(jù)中臺(tái)距離業(yè)務(wù)更近,能更快速的相應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)的需求,可追溯,更精準(zhǔn)。

數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)更多地是面向不同對(duì)象的不同形態(tài)的數(shù)據(jù)資產(chǎn)。而數(shù)據(jù)中臺(tái)更多強(qiáng)調(diào)的是服務(wù)于前臺(tái),實(shí)現(xiàn)邏輯、標(biāo)簽、算法、模型的復(fù)用沉淀。

數(shù)據(jù)中臺(tái)像一個(gè)“數(shù)據(jù)工廠”,涵蓋了數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)等存儲(chǔ)組件,隨著數(shù)據(jù)中臺(tái)的發(fā)展,未來(lái)很有可能數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的概念會(huì)被弱化。

小結(jié)

數(shù)據(jù)空間持續(xù)增長(zhǎng),為了更好地發(fā)揮數(shù)據(jù)價(jià)值,未來(lái)數(shù)據(jù)技術(shù)趨于融合,同時(shí)也在不斷創(chuàng)新。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    亚洲欧洲一区二区综合精品| 老富婆找帅哥按摩抠逼视频| 精品香蕉一区二区在线| 中国一区二区三区人妻| 免费人妻精品一区二区三区久久久 | 五月婷婷六月丁香在线观看| 国产成人精品午夜福利av免费| 国产极品粉嫩尤物一区二区| 国产成人精品资源在线观看| 日韩在线视频精品视频| 高潮日韩福利在线观看| 国产欧美一区二区久久| 久久国产亚洲精品赲碰热| 亚洲精品国产第一区二区多人| 亚洲欧美日韩在线中文字幕| 精品偷拍一区二区三区| 色丁香一区二区黑人巨大| 美日韩一区二区精品系列| 欧美一区二区三区视频区| 欧美胖熟妇一区二区三区 | 国产又大又硬又粗又湿| 97人妻精品一区二区三区免| 91欧美日韩精品在线| 成人精品欧美一级乱黄| 国产级别精品一区二区视频| 亚洲日本韩国一区二区三区| 深夜日本福利在线观看| 亚洲午夜av一区二区| 国产精品美女午夜视频| 久久综合日韩精品免费观看| 中字幕一区二区三区久久蜜桃| 中文字幕亚洲精品乱码加勒比| 亚洲中文字幕在线视频频道| 国产成人综合亚洲欧美日韩| 伊人久久五月天综合网| 欧美日韩亚洲国产精品| 91久久国产福利自产拍| 亚洲欧美日韩精品永久| 欧美老太太性生活大片| 成人精品视频一区二区在线观看| 中文字幕人妻综合一区二区 |