一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

基于大數(shù)據(jù)體系構(gòu)建數(shù)據(jù)倉庫

 Sophia_Study 2020-02-26

說明:大數(shù)據(jù)時(shí)代,數(shù)據(jù)倉庫向大數(shù)據(jù)體系升級(jí)換代很常見,也是個(gè)不錯(cuò)的機(jī)會(huì)。如果是想系統(tǒng)研究大數(shù)據(jù)體系的數(shù)據(jù)倉庫設(shè)計(jì),個(gè)人比較推薦滴滴(前)架構(gòu)師的視頻分享課:http:///EJ07vua主要是干貨比較多,有15案例 + 3實(shí)戰(zhàn) + 3項(xiàng)目。

一、什么是數(shù)據(jù)庫?

1.數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲(chǔ)和管理數(shù)據(jù)的建立在計(jì)算機(jī)存儲(chǔ)設(shè)備上的倉庫
2.數(shù)據(jù)庫是長期儲(chǔ)存在計(jì)算機(jī)內(nèi)、有組織的、可共享的數(shù)據(jù)集合。數(shù)據(jù)庫中的數(shù)據(jù)指的是以一定
   的數(shù)據(jù)模型組織、描述和儲(chǔ)存在一起、具有盡可能小的冗余度、較高的數(shù)據(jù)獨(dú)立性和易擴(kuò)展性

   的特點(diǎn)并可在一定范圍內(nèi)為多個(gè)用戶共享

數(shù)據(jù)倉庫定義

面向主題的,集成的,相對(duì)穩(wěn)定的,反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。

數(shù)據(jù)倉庫與數(shù)據(jù)庫對(duì)比:

面向業(yè)務(wù)的數(shù)據(jù)庫常稱作OLTP,面向分析的數(shù)據(jù)倉庫亦稱為OLAP

二、數(shù)據(jù)倉庫的發(fā)展歷程

數(shù)據(jù)倉庫概念最早可追溯到20世紀(jì)70年代,希望提供一種架構(gòu)將業(yè)務(wù)處理系統(tǒng)和分析處理分為不同
的層次
20世紀(jì)80年代,建立TA2(Technical Architecture2)規(guī)范,該明確定義了分析系統(tǒng)的四個(gè)組成部分:數(shù)
據(jù)獲取、數(shù)據(jù)訪問、目錄、用戶服務(wù)
1988年,IBM第一次提出信息倉庫的概念:一個(gè)結(jié)構(gòu)化的環(huán)境,能支持最終用戶管理其全部的業(yè)務(wù),
并支持信息技術(shù)部門保證數(shù)據(jù)質(zhì)量;抽象出基本組件:數(shù)據(jù)抽取、轉(zhuǎn)換、有效性驗(yàn)證、加載、cube
開發(fā)等,基本明確了數(shù)據(jù)倉庫的基本原理、框架結(jié)構(gòu),以及分析系統(tǒng)的主要原則

1991年,Bill Inmon出版《 Building the Data Warehouse 》提出了更具體的數(shù)據(jù)倉庫原則:
1.數(shù)據(jù)倉庫是面向主題的
2.集成的
3.包含歷史的
4.不可更新的
5.面向決策支持的
6.面向全企業(yè)的
7.最明細(xì)的數(shù)據(jù)存儲(chǔ)
8.數(shù)據(jù)快照式的數(shù)據(jù)獲取

盡管有些理論目前仍有爭議,但憑借此書獲得“數(shù)據(jù)倉庫之父”的殊榮

Bill Inmon主張自上而下的建設(shè)企業(yè)數(shù)據(jù)倉庫,認(rèn)為數(shù)據(jù)倉庫是一個(gè)整體的商業(yè)智能系統(tǒng)的一部分。
一家企業(yè)只有一個(gè)數(shù)據(jù)倉庫,數(shù)據(jù)集市的信息來源出自數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中,信息存儲(chǔ)符合第

三范式,大致架構(gòu)

Ralph Kimball 出版《The Data Warehouse Toolkit》,其主張自下而上的建立數(shù)據(jù)倉庫,極力推崇建

立數(shù)據(jù)集市,認(rèn)為數(shù)據(jù)倉庫是企業(yè)內(nèi)所有數(shù)據(jù)集市的集合,信息總是被存儲(chǔ)在多維模型當(dāng)中,其思路:

兩種思路和觀點(diǎn)在實(shí)際的操作中都很難成功的完成項(xiàng)目交付,直至最終Bill Inmon提出了新的BI架構(gòu)CIF(Corporation information factory),把數(shù)據(jù)集市包含了進(jìn)來。CIF的核心是將數(shù)倉架構(gòu)劃分為不同的層次以滿足不同場景的需求,比如常見的ODS、DW、DM等,每層根據(jù)實(shí)際場景采用不同的建設(shè)方案,改思路也是目前數(shù)據(jù)倉庫建設(shè)的架構(gòu)指南,但自上而下還是自下而上的進(jìn)行數(shù)據(jù)倉庫建設(shè),并未統(tǒng)一。

基于大數(shù)據(jù)數(shù)倉構(gòu)建特點(diǎn)

隨著我們從IT時(shí)代步入DT時(shí)代,數(shù)據(jù)從積累量也與日俱增,同時(shí)伴隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的應(yīng)用場景產(chǎn)生,傳統(tǒng)的數(shù)據(jù)處理、存儲(chǔ)方式已經(jīng)不能滿足日益增長的需求。而互聯(lián)網(wǎng)行業(yè)相比傳統(tǒng)行業(yè)對(duì)新生事物的接受度更高、應(yīng)用場景更復(fù)雜,因此基于大數(shù)據(jù)構(gòu)建的數(shù)據(jù)倉庫最先在互聯(lián)網(wǎng)行業(yè)得到了嘗試。

盡管數(shù)據(jù)倉庫建模方法論是一致的,但由于所面臨的行業(yè)、場景的不同,在互聯(lián)網(wǎng)領(lǐng)域,基于大數(shù)據(jù)的數(shù)據(jù)倉庫建設(shè)無法按照原有的項(xiàng)目流程、開發(fā)模式進(jìn)行,更多的是需要結(jié)合新的技術(shù)體系、業(yè)務(wù)場景進(jìn)行靈活的調(diào)整,以快速響應(yīng)需求為導(dǎo)向。

應(yīng)用場景廣泛

1)傳統(tǒng)的數(shù)倉建設(shè)周期長,需求穩(wěn)定,面向DSS、CRM、BI等系統(tǒng),時(shí)效性要求不高。

2)基于大數(shù)據(jù)的數(shù)據(jù)倉庫建設(shè)要求快速響應(yīng)需求,同時(shí)需求靈活、多變,對(duì)實(shí)時(shí)性有不同程度的要求,除了面向DSS、BI等傳統(tǒng)應(yīng)用外,還要響應(yīng)用戶畫像、個(gè)性化推薦、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等各種復(fù)雜的應(yīng)用場景。

技術(shù)棧更全面、復(fù)雜

傳統(tǒng)數(shù)倉建設(shè)更多的基于成熟的商業(yè)數(shù)據(jù)集成平臺(tái),比如Teradata、Oracle、Informatica等,技術(shù)體系比較成熟完善,但相對(duì)比較封閉,對(duì)實(shí)施者技術(shù)面要求也相對(duì)專業(yè)且單一,一般更多應(yīng)用于銀行、保險(xiǎn)、電信等“有錢”行業(yè)。
基于大數(shù)據(jù)的數(shù)倉建設(shè)一般是基于非商業(yè)、開源的技術(shù),常見的是基于hadoop生態(tài)構(gòu)建,涉及技術(shù)較廣泛、復(fù)雜,同時(shí)相對(duì)于商業(yè)產(chǎn)品,穩(wěn)定性、服務(wù)支撐較弱,需要自己維護(hù)更多的技術(shù)框架。

三、技術(shù)棧轉(zhuǎn)變

 

數(shù)倉模型設(shè)計(jì)更靈活
1.傳統(tǒng)數(shù)倉有較為穩(wěn)定的業(yè)務(wù)場景和相對(duì)可靠的數(shù)據(jù)質(zhì)量,同時(shí)也有較為穩(wěn)定的需求,對(duì)數(shù)倉的建設(shè)有較為完善的項(xiàng)目流程管控,數(shù)倉模型設(shè)計(jì)有嚴(yán)格的、穩(wěn)定的建設(shè)標(biāo)準(zhǔn)。
2.在互聯(lián)網(wǎng)行業(yè):
1)行業(yè)變化快、業(yè)務(wù)靈活,同時(shí)互聯(lián)網(wǎng)又是個(gè)靠速度存活的行業(yè)

2)源數(shù)據(jù)種類繁多:數(shù)據(jù)庫、Nginx log、用戶瀏覽軌跡等結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)

3)數(shù)據(jù)質(zhì)量相對(duì)差,層次不齊

所以,在互聯(lián)網(wǎng)領(lǐng)域,數(shù)倉模型的設(shè)計(jì)更關(guān)注靈活、快速響應(yīng)和應(yīng)對(duì)多變的市場環(huán)境,更加以快速解決業(yè)務(wù)、運(yùn)營問題為導(dǎo)向,快速數(shù)據(jù)接入、快速業(yè)務(wù)接入,更不存在一勞永逸。

四、數(shù)據(jù)倉庫的應(yīng)用范圍與前景

數(shù)倉存在的意義

五、基于大數(shù)據(jù)的數(shù)據(jù)倉庫在互聯(lián)網(wǎng)行業(yè)主要的應(yīng)用

 

六、發(fā)展方向與就業(yè)前景

未來更廣泛的應(yīng)用場景

1.數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)、風(fēng)險(xiǎn)控制、無人駕駛
2.數(shù)據(jù)化運(yùn)營、精準(zhǔn)運(yùn)營
3.廣告精準(zhǔn)、智能投放

就業(yè)薪資

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产精品美女午夜福利| 婷婷开心五月亚洲综合| 久久大香蕉一区二区三区| 国产亚洲成av人在线观看| 国产精欧美一区二区三区久久| 91人妻人人澡人人人人精品| 91人妻丝袜一区二区三区| 国产欧美一区二区另类精品| 国产精品久久精品毛片| 国产午夜精品福利免费不| 91人人妻人人爽人人狠狠| 亚洲欧洲精品一区二区三区| 婷婷色网视频在线播放| 好吊妞视频这里有精品| 大屁股肥臀熟女一区二区视频 | 久久亚洲精品中文字幕| 少妇在线一区二区三区| 成人午夜在线视频观看| 国产精品一区二区成人在线| 欧美成人免费夜夜黄啪啪| 在线播放欧美精品一区| 黄色国产精品一区二区三区| 最近最新中文字幕免费| 91欧美亚洲视频在线| 人妻熟女欲求不满一区二区| 欧美不卡高清一区二区三区| 国产欧美一区二区色综合| 国产毛片对白精品看片| 日韩欧美91在线视频| 五月综合婷婷在线伊人| 国产又猛又大又长又粗| 青青操在线视频精品视频| 午夜国产精品国自产拍av| 麻豆视传媒短视频免费观看| 国产成人人人97超碰熟女| 日韩一级一片内射视频4k| 日韩欧美91在线视频| 一区二区三区欧美高清| 一区二区三区四区亚洲专区| 亚洲一区二区三区在线免费| 黄色污污在线免费观看|