一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

關于數(shù)倉建設及數(shù)據(jù)治理的超全概括

 weiwarm 2021-07-28


本文分為兩大節(jié)介紹,第一節(jié)是數(shù)倉建設,第二節(jié)是數(shù)據(jù)治理,內容較長,還請耐心閱讀!

在談數(shù)倉之前,先來看下面幾個問題:

數(shù)倉為什么要分層?

  1. 用空間換時間,通過大量的預處理來提升應用系統(tǒng)的用戶體驗(效率),因此數(shù)據(jù)倉庫會存在大量冗余的數(shù)據(jù);不分層的話,如果源業(yè)務系統(tǒng)的業(yè)務規(guī)則發(fā)生變化將會影響整個數(shù)據(jù)清洗過程,工作量巨大。

  2. 通過數(shù)據(jù)分層管理可以簡化數(shù)據(jù)清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當于把一個復雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每一個步驟的正確性,當數(shù)據(jù)發(fā)生錯誤的時候,往往我們只需要局部調整某個步驟即可。

數(shù)據(jù)倉庫之父 Bill Inmon對數(shù)據(jù)倉庫做了定義——面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。從定義上來看,數(shù)據(jù)倉庫的關鍵詞為面向主題、集成、穩(wěn)定、反映歷史變化、支持管理決策,而這些關鍵詞的實現(xiàn)就體現(xiàn)在分層架構內。

一個好的分層架構,有以下好處:

  1. 清晰數(shù)據(jù)結構:每一個數(shù)據(jù)分層都有對應的作用域,在使用數(shù)據(jù)的時候能更方便的定位和理解。

  2. 數(shù)據(jù)血緣追蹤:提供給業(yè)務人員或下游系統(tǒng)的數(shù)據(jù)服務時都是目標數(shù)據(jù),目標數(shù)據(jù)的數(shù)據(jù)來源一般都來自于多張表數(shù)據(jù)。若出現(xiàn)目標數(shù)據(jù)異常時,清晰的血緣關系可以快速定位問題所在。而且,血緣管理也是元數(shù)據(jù)管理重要的一部分。

  3. 減少重復開發(fā):數(shù)據(jù)的逐層加工原則,下層包含了上層數(shù)據(jù)加工所需要的全量數(shù)據(jù),這樣的加工方式避免了每個數(shù)據(jù)開發(fā)人員都重新從源系統(tǒng)抽取數(shù)據(jù)進行加工。

  4. 數(shù)據(jù)關系條理化:源系統(tǒng)間存在復雜的數(shù)據(jù)關系,比如客戶信息同時存在于核心系統(tǒng)、信貸系統(tǒng)、理財系統(tǒng)、資金系統(tǒng),取數(shù)時該如何決策呢?數(shù)據(jù)倉庫會對相同主題的數(shù)據(jù)進行統(tǒng)一建模,把復雜的數(shù)據(jù)關系梳理成條理清晰的數(shù)據(jù)模型,使用時就可避免上述問題了。

  5. 屏蔽原始數(shù)據(jù)的影響:數(shù)據(jù)的逐層加工原則,上層的數(shù)據(jù)都由下一層的數(shù)據(jù)加工獲取,不允許跳級取數(shù)。而原始數(shù)據(jù)位于數(shù)倉的最底層,離應用層數(shù)據(jù)還有多層的數(shù)據(jù)加工,所以加工應用層數(shù)據(jù)的過程中就會把原始數(shù)據(jù)的變更消除掉,保持應用層的穩(wěn)定性。

數(shù)倉分幾層最好?

目前市場上主流的分層方式眼花繚亂,不過看事情不能只看表面,還要看到內在的規(guī)律,不能為了分層而分層,沒有最好的,只有適合的。

分層是以解決當前業(yè)務快速的數(shù)據(jù)支撐為目的,為未來抽象出共性的框架并能夠賦能給其他業(yè)務線,同時為業(yè)務發(fā)展提供穩(wěn)定、準確的數(shù)據(jù)支撐,并能夠按照已有的模型為新業(yè)務發(fā)展提供方向,也就是數(shù)據(jù)驅動和賦能。

如何搭建一個好的數(shù)倉?

  1. 穩(wěn)定:數(shù)據(jù)產(chǎn)出穩(wěn)定且有保障。

  2. 可信:數(shù)據(jù)干凈、數(shù)據(jù)質量高。

  3. 豐富:數(shù)據(jù)涵蓋的業(yè)務足夠廣泛。

  4. 透明:數(shù)據(jù)構成體系足夠透明。

數(shù)倉設計

數(shù)倉設計的3個維度:

  • 功能架構:結構層次清晰。

  • 數(shù)據(jù)架構:數(shù)據(jù)質量有保障。

  • 技術架構:易擴展、易用。

數(shù)倉架構

按照數(shù)據(jù)流入流出的過程,數(shù)據(jù)倉庫架構可分為:源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用。

圖片
數(shù)據(jù)倉庫

數(shù)據(jù)倉庫的數(shù)據(jù)來源于不同的源數(shù)據(jù),并提供多樣的數(shù)據(jù)應用,數(shù)據(jù)自下而上流入數(shù)據(jù)倉庫后向上層開放應用,而數(shù)據(jù)倉庫只是中間集成化數(shù)據(jù)管理的一個平臺。

源數(shù)據(jù):此層數(shù)據(jù)無任何更改,直接沿用外圍系統(tǒng)數(shù)據(jù)結構和數(shù)據(jù),不對外開放;為臨時存儲層,是接口數(shù)據(jù)的臨時存儲區(qū)域,為后一步的數(shù)據(jù)處理做準備。

數(shù)據(jù)倉庫:也稱為細節(jié)層,DW層的數(shù)據(jù)應該是一致的、準確的、干凈的數(shù)據(jù),即對源系統(tǒng)數(shù)據(jù)進行了清洗(去除了雜質)后的數(shù)據(jù)。

數(shù)據(jù)應用:前端應用直接讀取的數(shù)據(jù)源;根據(jù)報表、專題分析需求而計算生成的數(shù)據(jù)。

數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉庫內的數(shù)據(jù)轉換和流動都可以認為是ETL(抽取Extra, 轉化Transfer, 裝載Load)的過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護工作的大部分精力就是保持ETL的正常和穩(wěn)定。

建設數(shù)據(jù)倉庫猶如創(chuàng)造一條新的生命,分層架構只是這條生命的邏輯骨架而已。想要在骨架上長出血肉,就必須進行合適的數(shù)據(jù)建模,數(shù)據(jù)倉庫的強壯還是孱弱,健美還是丑陋,就取決于建模的結果。

數(shù)倉建模方法

數(shù)據(jù)倉庫的建模方法有很多種,每一種建模方法代表了哲學上的一個觀點,代表了一種歸納、概括世界的一種方法。常見的有 范式建模法、維度建模法、實體建模法等,每種方法從本質上將是從不同的角度看待業(yè)務中的問題。

1. 范式建模法

范式建模法其實是我們在構建數(shù)據(jù)模型常用的一個方法,該方法的主要由 Inmon 所提倡,主要解決關系型數(shù)據(jù)庫的數(shù)據(jù)存儲,利用的一種技術層面上的方法。目前,我們在關系型數(shù)據(jù)庫中的建模方法,大部分采用的是三范式建模法。

范式 是符合某一種級別的關系模式的集合。構造數(shù)據(jù)庫必須遵循一定的規(guī)則,而在關系型數(shù)據(jù)庫中這種規(guī)則就是范式,這一過程也被稱為規(guī)范化。目前關系數(shù)據(jù)庫有六種范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。

在數(shù)據(jù)倉庫的模型設計中,一般采用第三范式。一個符合第三范式的關系必須具有以下三個條件 :

  • 每個屬性值唯一,不具有多義性 ;

  • 每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分 ;

  • 每個非主屬性不能依賴于其他關系中的屬性,因為這樣的話,這種屬性應該歸到其他關系中去。

圖片
范式建模

根據(jù) Inmon 的觀點,數(shù)據(jù)倉庫模型的建設方法和業(yè)務系統(tǒng)的企業(yè)數(shù)據(jù)模型類似。在業(yè)務系統(tǒng)中,企業(yè)數(shù)據(jù)模型決定了數(shù)據(jù)的來源,而企業(yè)數(shù)據(jù)模型也分為兩個層次,即主題域模型和邏輯模型。同樣,主題域模型可以看成是業(yè)務模型的概念模型,而邏輯模型則是域模型在關系型數(shù)據(jù)庫上的實例化。

2. 實體建模法

實體建模法并不是數(shù)據(jù)倉庫建模中常見的一個方法,它來源于哲學的一個流派。從哲學的意義上說,客觀世界應該是可以細分的,客觀世界應該可以分成由一個個實體,以及實體與實體之間的關系組成。那么我們在數(shù)據(jù)倉庫的建模過程中完全可以引入這個抽象的方法,將整個業(yè)務也可以劃分成一個個的實體,而每個實體之間的關系,以及針對這些關系的說明就是我們數(shù)據(jù)建模需要做的工作。

雖然實體法粗看起來好像有一些抽象,其實理解起來很容易。即我們可以將任何一個業(yè)務過程劃分成 3 個部分,實體,事件,說明,如下圖所示:

圖片
實體建模

上圖表述的是一個抽象的含義,如果我們描述一個簡單的事實:“小明開車去學校上學”。以這個業(yè)務事實為例,我們可以把“小明”,“學?!笨闯墒且粋€實體,“上學”描述的是一個業(yè)務過程,我們在這里可以抽象為一個具體“事件”,而“開車去”則可以看成是事件“上學”的一個說明。

3. 維度建模法

維度模型是數(shù)據(jù)倉庫領域另一位大師Ralph Kimall所倡導,他的《數(shù)據(jù)倉庫工具箱》是數(shù)據(jù)倉庫工程領域最流行的數(shù)倉建模經(jīng)典。維度建模以分析決策的需求出發(fā)構建模型,構建的數(shù)據(jù)模型為分析需求服務,因此它重點解決用戶如何更快速完成分析需求,同時還有較好的大規(guī)模復雜查詢的響應性能。

圖片
星形模型

典型的代表是我們比較熟知的星形模型(Star-schema),以及在一些特殊場景下適用的雪花模型(Snow-schema)。

維度建模中比較重要的概念就是 事實表(Fact table)和維度表(Dimension table)。其最簡單的描述就是,按照事實表、維度表來構建數(shù)據(jù)倉庫、數(shù)據(jù)集市。

目前在互聯(lián)網(wǎng)公司最常用的建模方法就是維度建模。

維度建模怎么建:

在實際業(yè)務中,給了我們一堆數(shù)據(jù),我們怎么拿這些數(shù)據(jù)進行數(shù)倉建設呢,數(shù)倉工具箱作者根據(jù)自身60多年的實際業(yè)務經(jīng)驗,給我們總結了如下四步。

數(shù)倉工具箱中的維度建模四步走:

圖片
維度建模四步走

這四步是環(huán)環(huán)相扣,步步相連。下面詳細拆解下每個步驟怎么做

1、選擇業(yè)務過程

  • 維度建模是緊貼業(yè)務的,所以必須以業(yè)務為根基進行建模,那么選擇業(yè)務過程,顧名思義就是在整個業(yè)務流程中選取我們需要建模的業(yè)務,根據(jù)運營提供的需求及日后的易擴展性等進行選擇業(yè)務。比如商城,整個商城流程分為商家端,用戶端,平臺端,運營需求是總訂單量,訂單人數(shù),及用戶的購買情況等,我們選擇業(yè)務過程就選擇用戶端的數(shù)據(jù),商家及平臺端暫不考慮。業(yè)務選擇非常重要,因為后面所有的步驟都是基于此業(yè)務數(shù)據(jù)展開的。

2、聲明粒度

  • 先舉個例子:對于用戶來說,一個用戶有一個身份證號,一個戶籍地址,多個手機號,多張銀行卡,那么與用戶粒度相同的粒度屬性有身份證粒度,戶籍地址粒度,比用戶粒度更細的粒度有手機號粒度,銀行卡粒度,存在一對一的關系就是相同粒度。為什么要提相同粒度呢,因為維度建模中要求我們,在同一事實表中,必須具有相同的粒度,同一事實表中不要混用多種不同的粒度,不同的粒度數(shù)據(jù)建立不同的事實表。并且從給定的業(yè)務過程獲取數(shù)據(jù)時,強烈建議從關注原子粒度開始設計,也就是從最細粒度開始,因為原子粒度能夠承受無法預期的用戶查詢。但是上卷匯總粒度對查詢性能的提升很重要的,所以對于有明確需求的數(shù)據(jù),我們建立針對需求的上卷匯總粒度,對需求不明朗的數(shù)據(jù)我們建立原子粒度。

3、確認維度

  • 維度表是作為業(yè)務分析的入口和描述性標識,所以也被稱為數(shù)據(jù)倉庫的“靈魂”。在一堆的數(shù)據(jù)中怎么確認哪些是維度屬性呢,如果該列是對具體值的描述,是一個文本或常量,某一約束和行標識的參與者,此時該屬性往往是維度屬性,數(shù)倉工具箱中告訴我們牢牢掌握事實表的粒度,就能將所有可能存在的維度區(qū)分開,并且要確保維度表中不能出現(xiàn)重復數(shù)據(jù),應使維度主鍵唯一

4、確認事實

  • 事實表是用來度量的,基本上都以數(shù)量值表示,事實表中的每行對應一個度量,每行中的數(shù)據(jù)是一個特定級別的細節(jié)數(shù)據(jù),稱為粒度。維度建模的核心原則之一是同一事實表中的所有度量必須具有相同的粒度。這樣能確保不會出現(xiàn)重復計算度量的問題。有時候往往不能確定該列數(shù)據(jù)是事實屬性還是維度屬性。記住最實用的事實就是數(shù)值類型和可加類事實。所以可以通過分析該列是否是一種包含多個值并作為計算的參與者的度量,這種情況下該列往往是事實。

其中粒度是非常重要的,粒度用于確定事實表的行表示什么,建議從關注原子級別的粒度數(shù)據(jù)開始設計,因為原子粒度能夠承受無法預估的用戶查詢,而且原子數(shù)據(jù)可以以各種可能的方式進行上卷,而一旦選擇了高粒度,則無法滿足用戶下鉆細節(jié)的需求。

事實是整個維度建模的核心,其中雪花模型或者星型模型都是基于一張事實表通過外健關聯(lián)維表進行擴展,生成一份能夠支撐可預知查詢需求的模型寬表,而且最后的查詢也是落在事實表中進行。

實際業(yè)務中數(shù)倉分層

數(shù)倉分層要結合公司業(yè)務進行,并且需要清晰明確各層職責,要保證數(shù)據(jù)層的穩(wěn)定又要屏蔽對下游影響,一般采用如下分層結構:

圖片
數(shù)據(jù)分層架構

數(shù)據(jù)層具體實現(xiàn)

使用四張圖說明每層的具體實現(xiàn)

  • 數(shù)據(jù)源層ODS
圖片
數(shù)據(jù)源層

數(shù)據(jù)源層主要將各個業(yè)務數(shù)據(jù)導入到大數(shù)據(jù)平臺,作為業(yè)務數(shù)據(jù)的快照存儲。

  • 數(shù)據(jù)明細層DW
圖片
數(shù)據(jù)明細層

事實表中的每行對應一個度量,每行中的數(shù)據(jù)是一個特定級別的細節(jié)數(shù)據(jù),稱為粒度。維度建模的核心原則之一是同一事實表中的所有度量必須具有相同的粒度。這樣能確保不會出現(xiàn)重復計算度量的問題。

維度表一般都是單一主鍵,少數(shù)是聯(lián)合主鍵,注意維度表不要出現(xiàn)重復數(shù)據(jù),否則和事實表關聯(lián)會出現(xiàn)數(shù)據(jù)發(fā)散問題。

有時候往往不能確定該列數(shù)據(jù)是事實屬性還是維度屬性。記住最實用的事實就是數(shù)值類型和可加類事實。所以可以通過分析該列是否是一種包含多個值并作為計算的參與者的度量,這種情況下該列往往是事實;如果該列是對具體值的描述,是一個文本或常量,某一約束和行標識的參與者,此時該屬性往往是維度屬性。但是還是要結合業(yè)務進行最終判斷是維度還是事實。

  • 數(shù)據(jù)輕度匯總層DM
圖片
數(shù)據(jù)輕度匯總層

此層命名為輕匯總層,就代表這一層已經(jīng)開始對數(shù)據(jù)進行匯總,但是不是完全匯總,只是對相同粒度的數(shù)據(jù)進行關聯(lián)匯總,不同粒度但是有關系的數(shù)據(jù)也可進行匯總,此時需要將粒度通過聚合等操作進行統(tǒng)一。

  • 數(shù)據(jù)應用層APP
圖片
數(shù)據(jù)應用層

數(shù)據(jù)應用層的表就是提供給用戶使用的,數(shù)倉建設到此就接近尾聲了,接下來就根據(jù)不同的需求進行不同的取數(shù),如直接進行報表展示,或提供給數(shù)據(jù)分析的同事所需的數(shù)據(jù),或其他的業(yè)務支撐。

一張圖總結下數(shù)據(jù)倉庫的構建整體流程

圖片
數(shù)倉整體流程

數(shù)據(jù)治理

數(shù)倉建設真正的難點不在于數(shù)倉設計,而在于后續(xù)業(yè)務發(fā)展起來,業(yè)務線變的龐大之后的數(shù)據(jù)治理,包括資產(chǎn)治理、數(shù)據(jù)質量監(jiān)控、數(shù)據(jù)指標體系的建設等。

其實數(shù)據(jù)治理的范圍很?,包含數(shù)據(jù)本?的管理、數(shù)據(jù)安全、數(shù)據(jù)質量、數(shù)據(jù)成本等。在DAMA 數(shù)據(jù)管理知識體系指南中,數(shù)據(jù)治理位于數(shù)據(jù)管理“車輪圖”的正中央,是數(shù)據(jù)架構、數(shù)據(jù)建模、數(shù)據(jù)存儲、數(shù)據(jù)安全、數(shù)據(jù)質量、元數(shù)據(jù)管理、主數(shù)據(jù)管理等10大數(shù)據(jù)管理領域的總綱,為各項數(shù)據(jù)管理活動提供總體指導策略。

圖片

數(shù)據(jù)治理之道是什么

1. 數(shù)據(jù)治理需要體系建設

為發(fā)揮數(shù)據(jù)價值需要滿足三個要素:合理的平臺架構、完善的治理服務、體系化的運營手段。

根據(jù)企業(yè)的規(guī)模、所屬行業(yè)、數(shù)據(jù)量等情況選擇合適的平臺架構;治理服務需要貫穿數(shù)據(jù)全生命周期,保證數(shù)據(jù)在采集、加工、共享、存儲、應用整個過程中的完整性、準確性、一致性和實效性;運營手段則應當包括規(guī)范的優(yōu)化、組織的優(yōu)化、平臺的優(yōu)化以及流程的優(yōu)化等等方面。

2. 數(shù)據(jù)治理需要夯實基礎

數(shù)據(jù)治理需要循序漸進,但在建設初期至少需要關注三個方面:數(shù)據(jù)規(guī)范、數(shù)據(jù)質量、數(shù)據(jù)安全。規(guī)范化的模型管理是保障數(shù)據(jù)可以被治理的前提條件,高質量的數(shù)據(jù)是數(shù)據(jù)可用的前提條件,數(shù)據(jù)的安全管控是數(shù)據(jù)可以共享交換的前提條件。

3. 數(shù)據(jù)治理需要IT賦能

數(shù)據(jù)治理不是一堆規(guī)范文檔的堆砌,而是需要將治理過程中所產(chǎn)生的的規(guī)范、流程、標準落地到IT平臺上,在數(shù)據(jù)生產(chǎn)過程中通過“以終為始”前向的方式進行數(shù)據(jù)治理,避免事后稽核帶來各種被動和運維成本的增加。

4. 數(shù)據(jù)治理需要聚焦數(shù)據(jù)

數(shù)據(jù)治理的本質是管理數(shù)據(jù),因此需要加強元數(shù)據(jù)管理和主數(shù)據(jù)管理,從源頭治理數(shù)據(jù),補齊數(shù)據(jù)的相關屬性和信息,比如:元數(shù)據(jù)、質量、安全、業(yè)務邏輯、血緣等,通過元數(shù)據(jù)驅動的方式管理數(shù)據(jù)生產(chǎn)、加工和使用。

5. 數(shù)據(jù)治理需要建管一體化

數(shù)據(jù)模型血緣與任務調度的一致性是建管一體化的關鍵,有助于解決數(shù)據(jù)管理與數(shù)據(jù)生產(chǎn)口徑不一致的問題,避免出現(xiàn)兩張皮的低效管理模式。

淺談數(shù)據(jù)治理方式

如上面所說,數(shù)據(jù)治理的范圍非常廣,其中最重要的是數(shù)據(jù)質量治理,而數(shù)據(jù)質量涉及的范圍也很廣,貫穿數(shù)倉的整個生命周期,從數(shù)據(jù)產(chǎn)生->數(shù)據(jù)接入->數(shù)據(jù)存儲->數(shù)據(jù)處理->數(shù)據(jù)輸出->數(shù)據(jù)展示,每個階段都需要質量治理,評價維度包括完整性、規(guī)范性、一致性、準確性、唯一性、關聯(lián)性等。

在系統(tǒng)建設的各個階段都應該根據(jù)標準進行數(shù)據(jù)質量檢測和規(guī)范,及時進行治理,避免事后的清洗工作。

質量檢測可參考以下維度:

維度衡量標準
完整性業(yè)務指定必須的數(shù)據(jù)是否缺失,不允許為空字符或者空值等。例如,數(shù)據(jù)源是否完整、維度取值是否完整、數(shù)據(jù)取值是否完整等
時效性當需要使用時,數(shù)據(jù)能否反映當前事實。即數(shù)據(jù)必須及時,能夠滿足系統(tǒng)對數(shù)據(jù)時間的要求。例如處理(獲取、整理、清洗、加載等)的及時性
唯一性在指定的數(shù)據(jù)集中數(shù)據(jù)值是否唯一
參照完整性數(shù)據(jù)項是否在父表中有定義
依賴一致性數(shù)據(jù)項取值是否滿足與其他數(shù)據(jù)項之間的依賴關系
正確性數(shù)據(jù)內容和定義是否一致
精確性數(shù)據(jù)精度是否達到業(yè)務規(guī)則要求的位數(shù)
技術有效性數(shù)據(jù)項是否按已定義的格式標準組織
業(yè)務有效性數(shù)據(jù)項是否符合已定義的
可信度根據(jù)客戶調查或客戶主動提供獲得
可用性數(shù)據(jù)可用的時間和數(shù)據(jù)需要被訪問時間的比例
可訪問性數(shù)據(jù)是否便于自動化讀取

下面是根據(jù)美團的技術文章總結的幾點具體治理方式:

1. 規(guī)范治理

規(guī)范是數(shù)倉建設的保障。為了避免出現(xiàn)指標重復建設和數(shù)據(jù)質量差的情況,統(tǒng)一按照最詳細、可落地的方法進行規(guī)范建設。

(1) 詞根

詞根是維度和指標管理的基礎,劃分為普通詞根與專有詞根,提高詞根的易用性和關聯(lián)性。

  • 普通詞根:描述事物的最小單元體,如:交易-trade。

  • 專有詞根:具備約定成俗或行業(yè)專屬的描述體,如:美元-USD。

(2) 表命名規(guī)范

通用規(guī)范

  • 表名、字段名采用一個下劃線分隔詞根(示例:clienttype->client_type)。

  • 每部分使用小寫英文單詞,屬于通用字段的必須滿足通用字段信息的定義。

  • 表名、字段名需以字母為開頭。

  • 表名、字段名最長不超過64個英文字符。

  • 優(yōu)先使用詞根中已有關鍵字(數(shù)倉標準配置中的詞根管理),定期Review新增命名的不合理性。

  • 在表名自定義部分禁止采用非標準的縮寫。

表命名規(guī)則

  • 表名稱 = 類型 + 業(yè)務主題 + 子主題 + 表含義 + 存儲格式 + 更新頻率 +結尾,如下圖所示:
圖片
統(tǒng)一的表命名規(guī)范

(3) 指標命名規(guī)范

結合指標的特性以及詞根管理規(guī)范,將指標進行結構化處理。

  1. 基礎指標詞根,即所有指標必須包含以下基礎詞根:
圖片
  1. 業(yè)務修飾詞,用于描述業(yè)務場景的詞匯,例如trade-交易。

3.日期修飾詞,用于修飾業(yè)務發(fā)生的時間區(qū)間。

圖片

4.聚合修飾詞,對結果進行聚集操作。

圖片

5.基礎指標,單一的業(yè)務修飾詞+基礎指標詞根構建基礎指標 ,例如:交易金額-trade_amt。

6.派生指標,多修飾詞+基礎指標詞根構建派生指標。派生指標繼承基礎指標的特性,例如:安裝門店數(shù)量-install_poi_cnt。

7.普通指標命名規(guī)范,與字段命名規(guī)范一致,由詞匯轉換即可以。圖片

2. 架構治理

(1) 數(shù)據(jù)分層

優(yōu)秀可靠的數(shù)倉體系,往往需要清晰的數(shù)據(jù)分層結構,即要保證數(shù)據(jù)層的穩(wěn)定又要屏蔽對下游的影響,并且要避免鏈路過長,一般的分層架構如下:圖片

(2) 數(shù)據(jù)流向

穩(wěn)定業(yè)務按照標準的數(shù)據(jù)流向進行開發(fā),即ODS-->DWD-->DWA-->APP。非穩(wěn)定業(yè)務或探索性需求,可以遵循ODS->DWD->APP或者ODS->DWD->DWT->APP兩個模型數(shù)據(jù)流。在保障了數(shù)據(jù)鏈路的合理性之后,又在此基礎上確認了模型分層引用原則:

  • 正常流向:ODS>DWD->DWT->DWA->APP,當出現(xiàn)ODS >DWD->DWA->APP這種關系時,說明主題域未覆蓋全。應將DWD數(shù)據(jù)落到DWT中,對于使用頻度非常低的表允許DWD->DWA。

  • 盡量避免出現(xiàn)DWA寬表中使用DWD又使用(該DWD所歸屬主題域)DWT的表。

  • 同一主題域內對于DWT生成DWT的表,原則上要盡量避免,否則會影響ETL的效率。

  • DWT、DWA和APP中禁止直接使用ODS的表, ODS的表只能被DWD引用。

  • 禁止出現(xiàn)反向依賴,例如DWT的表依賴DWA的表。

3. 元數(shù)據(jù)治理

元數(shù)據(jù)可分為技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù):

技術元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT 人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護相關的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權限等。

常見的技術元數(shù)據(jù)有:

  • 存儲元數(shù)據(jù):如表、字段、分區(qū)等信息。

  • 運行元數(shù)據(jù):如大數(shù)據(jù)平臺上所有作業(yè)運行等信息:類似于 Hive Job 日志,包括作業(yè)類型、實例名稱、輸入輸出、 SQL 、運行參數(shù)、執(zhí)行時間,執(zhí)行引擎等。

  • 數(shù)據(jù)開發(fā)平臺中數(shù)據(jù)同步、計算任務、任務調度等信息:包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務本身的節(jié)點信息:計算任務主要有輸入輸出、任務本身的節(jié)點信息 任務調度主要有任務的依賴類型、依賴關系等,以及不同類型調度任務的運行日志等。

  • 數(shù)據(jù)質量和運維相關元數(shù)據(jù):如任務監(jiān)控、運維報警、數(shù)據(jù)質量、故障等信息,包括任務監(jiān)控運行日志、告警配置及運行日志、故障信息等。

業(yè)務元數(shù)據(jù)為管理層和業(yè)務分析人員服務,從業(yè)務角度描述數(shù)據(jù),包括商務術語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。

  • 常見的業(yè)務元數(shù)據(jù)有維度及屬性(包括維度編碼,字段類型,創(chuàng)建人,創(chuàng)建時間,狀態(tài)等)、業(yè)務過程、指標(包含指標名稱,指標編碼,業(yè)務口徑,指標類型,責任人,創(chuàng)建時間,狀態(tài),sql等),安全等級,計算邏輯等的規(guī)范化定義,用于更好地管理和使用數(shù)據(jù)。數(shù)據(jù)應用元數(shù)據(jù),如數(shù)據(jù)報表、數(shù)據(jù)產(chǎn)品等的配置和運行元數(shù)據(jù)。

元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源、抽取和轉換規(guī)則等,而且是整個數(shù)據(jù)倉庫系統(tǒng)運行的基礎,元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中各個松散的組件聯(lián)系起來,組成了一個有機的整體。

元數(shù)據(jù)治理主要解決三個問題

  1. 通過建立相應的組織、流程和工具,推動業(yè)務標準的落地實施,實現(xiàn)指標的規(guī)范定義,消除指標認知的歧義;

  2. 基于業(yè)務現(xiàn)狀和未來的演進方式,對業(yè)務模型進行抽象,制定清晰的主題、業(yè)務過程和分析方向,構建完備的技術元數(shù)據(jù),對物理模型進行準確完善的描述,并打通技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù)的關系,對物理模型進行完備的刻畫;

  3. 通過元數(shù)據(jù)建設,為使用數(shù)據(jù)提效,解決“找數(shù)、理解數(shù)、評估”難題以及“取數(shù)、數(shù)據(jù)可視化”等難題。

4. 安全治理

圍繞數(shù)據(jù)安全標準,首先要有數(shù)據(jù)的分級、分類標準,確保數(shù)據(jù)在上線前有著準確的密級。第二,針對數(shù)據(jù)使用方,要有明確的角色授權標準,通過分級分類和角色授權,來保障重要數(shù)據(jù)拿不走。第三,針對敏感數(shù)據(jù),要有隱私管理標準,保障敏感數(shù)據(jù)的安全存儲,即使未授權用戶繞過權限管理拿到敏感數(shù)據(jù),也要確保其看不懂。第四,通過制定審計標準,為后續(xù)的審計提供審計依據(jù),確保數(shù)據(jù)走不脫。

5. 數(shù)據(jù)生命周期治理

任何事物都具有一定的生命周期,數(shù)據(jù)也不例外。從數(shù)據(jù)的產(chǎn)生、加工、使用乃至消亡都應該有一個科學的管理辦法,將極少或者不再使用的數(shù)據(jù)從系統(tǒng)中剝離出來,并通過核實的存儲設備進行保留,不僅能夠提高系統(tǒng)的運行效率,更好的服務客戶,還能大幅度減少因為數(shù)據(jù)長期保存帶來的儲存成本。數(shù)據(jù)生命周期一般包含在線階段、歸檔階段(有時還會進一步劃分為在線歸檔階段和離線歸檔階段)、銷毀階段三大階段,管理內容包括建立合理的數(shù)據(jù)類別,針對不同類別的數(shù)據(jù)制定各個階段的保留時間、存儲介質、清理規(guī)則和方式、注意事項等。

圖片

從上圖數(shù)據(jù)生命周期中各參數(shù)間的關系中我們可以了解到,數(shù)據(jù)生命周期管理可以使得高價值數(shù)據(jù)的查詢效率大幅提升,而且高價格的存儲介質的采購量也可以減少很多;但是隨著數(shù)據(jù)的使用程度的下降,數(shù)據(jù)被逐漸歸檔,查詢時間也慢慢的變長;最后隨著數(shù)據(jù)的使用頻率和價值基本沒有了之后,就可以逐漸銷毀了。

圖片

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美日韩综合在线第一页| 在线观看免费午夜福利| 日韩一区二区三区18| 国产一区麻豆水好多高潮| 人妻一区二区三区在线 | 国产午夜免费在线视频| 日韩一区二区免费在线观看| 亚洲精品一区二区三区免| 国产欧美日韩精品一区二区| 丝袜诱惑一区二区三区| 国产偷拍精品在线视频| 欧美尤物在线视频91| 丰满人妻熟妇乱又乱精品古代| 91熟女大屁股偷偷对白| 一区二区三区日韩中文| 中文文精品字幕一区二区| 国产不卡在线免费观看视频| 日韩欧美国产精品中文字幕| 国产亚洲精品久久久优势| 免费大片黄在线观看日本| 国产高清精品福利私拍| 精品精品国产欧美在线| 亚洲国产av在线观看一区 | 国产真人无遮挡免费视频一区| 欧美有码黄片免费在线视频| 在线欧美精品二区三区| 国产精品人妻熟女毛片av久| 欧美成人黄色一区二区三区| 久久99热成人网不卡| 色老汉在线视频免费亚欧| 中国一区二区三区不卡| 亚洲综合精品天堂夜夜| 91亚洲国产日韩在线| 日韩精品综合免费视频| 日本午夜福利视频免费观看| 国内欲色一区二区三区| 日本加勒比在线观看一区| 亚洲综合一区二区三区在线| 激情综合网俺也狠狠地| 久久热这里只有精品视频| 欧美人妻少妇精品久久性色|