最近一直超忙,都沒有時(shí)間上來寫頭條。但并沒有干什么驚天動(dòng)地的大事兒,而僅僅是幫助客戶研究數(shù)據(jù)倉庫的數(shù)據(jù)架構(gòu),這讓我們不得不拿出十幾年前的理論知識(shí)再次訴說未來。
Inmon 的模型從流程上看是自頂向下的,即從分散異構(gòu)的數(shù)據(jù)源 -> 數(shù)據(jù)倉庫 -> 數(shù)據(jù)集市。 1)操作型系統(tǒng)的數(shù)據(jù)和體系外數(shù)據(jù)需要經(jīng)過ETL過程,加載到企業(yè)數(shù)據(jù)倉庫中 2)企業(yè)數(shù)據(jù)倉庫是企業(yè)信息化工廠的樞紐,是原子數(shù)據(jù)的集成倉庫,其目的是將附加的數(shù)據(jù)存儲(chǔ)用于各類分析型系統(tǒng);在數(shù)據(jù)倉庫中會(huì)對(duì)數(shù)據(jù)進(jìn)行清洗,并抽取實(shí)體-關(guān)系。 3)數(shù)據(jù)集市是針對(duì)不同主題的聚集區(qū)域 Kimball 的模型是自底向上的,即從數(shù)據(jù)集市-> 數(shù)據(jù)倉庫 -> 分散異構(gòu)的數(shù)據(jù)源。 1)Kimball 的模型的數(shù)據(jù)源往往是給定的若干個(gè)數(shù)據(jù)庫表,數(shù)據(jù)較為穩(wěn)定但是數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系比較復(fù)雜,需要從這些OLTP中產(chǎn)生的事務(wù)型數(shù)據(jù)結(jié)構(gòu)抽取出分析型數(shù)據(jù)結(jié)構(gòu)。Kimball 是以最終任務(wù)為導(dǎo)向,將數(shù)據(jù)按照目標(biāo)拆分出不同的表需求,通過ETL導(dǎo)入數(shù)據(jù)集市層 2)Kimball模型將分散異構(gòu)的數(shù)據(jù)源經(jīng)ETL轉(zhuǎn)化為事實(shí)表和維度表導(dǎo)入數(shù)據(jù)集市,數(shù)據(jù)集市由若干個(gè)事實(shí)表和維度表組成 3)在數(shù)據(jù)集市將事實(shí)表和維度表根據(jù)分析主題組合后導(dǎo)入數(shù)據(jù)倉庫中,用于數(shù)據(jù)分析 Kimball和Inmon是兩種主流的數(shù)據(jù)倉庫方法論,分別由 Ralph Kimball 和 Bill Inmon 提出,在實(shí)際數(shù)據(jù)倉庫建設(shè)中,業(yè)界往往會(huì)相互借鑒使用兩種開發(fā)模式。簡單說來,Inmon遵循第三范式,關(guān)鍵詞:面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。Inmon理論是自上而下的設(shè)計(jì)理念,數(shù)據(jù)可以通過下鉆到最細(xì)層,或者上卷到匯總層,它是以數(shù)據(jù)驅(qū)動(dòng); 通常,Kimball都是以最終任務(wù)為導(dǎo)向。 首先,在得到數(shù)據(jù)后需要先做數(shù)據(jù)的探索,嘗試將數(shù)據(jù)按照目標(biāo)先拆分出不同的表需求。 其次,在明確數(shù)據(jù)依賴后將各個(gè)任務(wù)再通過ETL由Stage層轉(zhuǎn)化到DM層。這里DM層數(shù)據(jù)則由若干個(gè)事實(shí)表和維度表組成。 接著,在完成DM層的事實(shí)表維度表拆分后,數(shù)據(jù)集市一方面可以直接向BI環(huán)節(jié)輸出數(shù)據(jù)了,另一方面可以先DW層輸出數(shù)據(jù),方便后續(xù)的多維分析 它的優(yōu)勢在于:易于維護(hù),高度集成 它的劣勢在于:結(jié)構(gòu)死板,部署周期較長 Kimball 遵循行星模型,關(guān)鍵詞:面向業(yè)務(wù)流程的、強(qiáng)調(diào)維度建模(并非是采用ER模型)。Kimball理論是自下而上的設(shè)計(jì)理念,各業(yè)務(wù)單元或部門的數(shù)據(jù)集市要先建立,它是以應(yīng)用驅(qū)動(dòng); 它的優(yōu)勢在于:構(gòu)建迅速,最快的看到投資回報(bào)率,敏捷靈活 它的劣勢在于:作為企業(yè)資源不太好維護(hù),結(jié)構(gòu)復(fù)雜 Kimball往往意味著快速交付、敏捷迭代,不會(huì)對(duì)數(shù)據(jù)倉庫架構(gòu)做過多復(fù)雜的設(shè)計(jì),在變換莫測的互聯(lián)網(wǎng)行業(yè),這種架構(gòu)方式似乎也正逐漸成為一種主流范式。 正如我們剛才已經(jīng)看到的,選擇哪種數(shù)據(jù)倉庫設(shè)計(jì)方法取決于組織的業(yè)務(wù)目標(biāo)、業(yè)務(wù)特性、時(shí)間、成本、不同組織單元之間的相互依賴級(jí)別。Inmon 的方法比較適合穩(wěn)定的業(yè)務(wù),這些業(yè)務(wù)能花得起時(shí)間做設(shè)計(jì)也能承擔(dān)相關(guān)的成本。隨著每次業(yè)務(wù)條件的改變,設(shè)計(jì)不用改變;可以將這些變化包括在現(xiàn)有的模型中。然而,如果本地優(yōu)先級(jí)足夠高,而且重點(diǎn)是要快速看到效果,那就建議采用Kimball的方法。記住,讓一些部門/組織單元來討論是選用Inmon方法還是Kimball方法。 在設(shè)計(jì)數(shù)據(jù)倉庫時(shí),首先要先看看業(yè)務(wù)目標(biāo)——短期目標(biāo)和長期目標(biāo)??纯垂δ苤g哪里有聯(lián)系,什么是獨(dú)立的。這兩種方式?jīng)]有對(duì)錯(cuò)之分,他們代表了兩種不同的數(shù)據(jù)倉庫哲學(xué)。在現(xiàn)實(shí)當(dāng)中,大多數(shù)企業(yè)的數(shù)據(jù)倉庫系統(tǒng)更接近Ralph Kimball的方式。這是因?yàn)榇蠖鄶?shù)數(shù)據(jù)倉庫在一開始是企業(yè)其中一個(gè)部門的工作,因此他們起源于數(shù)據(jù)集市。只有當(dāng)許許多多的數(shù)據(jù)集市被建立起來后,他們才會(huì)進(jìn)化成為一個(gè)數(shù)據(jù)倉庫。 分析世界講方案——偶然早7點(diǎn),為您帶來精彩的一頁。感謝閱讀、感謝共鳴。 |
|