BI的成功運(yùn)用深度依賴于有效的元數(shù)據(jù)管理,通常被稱作”關(guān)于數(shù)據(jù)的數(shù)據(jù)”。元數(shù)據(jù)為所有BI系統(tǒng)的數(shù)據(jù)充當(dāng)路標(biāo),從而能夠?qū)@些數(shù)據(jù)迚行高效地管理、控制發(fā)更和分發(fā)。全面的元數(shù)據(jù)管理保證了BI系統(tǒng)具有高質(zhì)量的信息,并提供充分的擴(kuò)展性,能滿足新的信息需求和數(shù)據(jù)源增加。元數(shù)據(jù)實(shí)施也是信息集成中的一部分,最重要的工作是將存儲在各種工具中的元數(shù)據(jù)進(jìn)行整合。元數(shù)據(jù)管理是數(shù)據(jù)管理框架的第九個(gè)數(shù)據(jù)管理功能,本篇將介紹一下這個(gè)功能。
DMBOK的元數(shù)據(jù)管理
什么是元數(shù)據(jù)?
元數(shù)據(jù)通帯被稱作”關(guān)于數(shù)據(jù)的數(shù)據(jù)”,即用于描述其它數(shù)據(jù)的數(shù)據(jù)。對于數(shù)據(jù)可以通過多種方式進(jìn)行解釋,例如
當(dāng)我們說元數(shù)據(jù)是”關(guān)于數(shù)據(jù)的數(shù)據(jù)”時(shí),我們需要確保所討論的是數(shù)據(jù)的背景,而不是有關(guān)數(shù)據(jù)的詳細(xì)細(xì)節(jié)或相關(guān)數(shù)據(jù)。元數(shù)據(jù)描述的是數(shù)據(jù)的背景、內(nèi)容、數(shù)據(jù)結(jié)構(gòu)及其生命周期管理。簡而言之,元數(shù)據(jù)是”數(shù)據(jù)的背景”。
元數(shù)據(jù)管理全景包括三個(gè)部分內(nèi)容:1.元數(shù)據(jù)模型 2.元數(shù)據(jù)拓?fù)浣Y(jié)構(gòu) 3.元數(shù)據(jù)管理方法論
元數(shù)據(jù)模型
元數(shù)據(jù)是BI架構(gòu)中的一個(gè)重要組件。在BI環(huán)境中,元數(shù)據(jù)管理最主要是能方便地集成不同數(shù)據(jù)庫、數(shù)據(jù)模型、OLAP 和ETL工具所包含的各式各樣的元數(shù)據(jù)。元數(shù)據(jù)包括業(yè)務(wù)規(guī)則、數(shù)據(jù)源、匯總級別、數(shù)據(jù)別名、數(shù)據(jù)轉(zhuǎn)換規(guī)則、技術(shù)配置、數(shù)據(jù)訪問權(quán)限、數(shù)據(jù)用途等。設(shè)計(jì)良好的元數(shù)據(jù)模型能夠提高管理、變更控制和分發(fā)元數(shù)據(jù)的效率,實(shí)現(xiàn)無縫的、端到端的跟蹤回溯能力。
下面舉個(gè)例子,如果”102250Richard King”是數(shù)據(jù),下面則是元數(shù)據(jù):
- 員工代碼類型為 Number(6)——這告訴我們該數(shù)據(jù)中首 6 位字符是數(shù)字類型,代表員工代碼;
- 員工姓名類型為 Varchar(30)——這告訴我們后面的 30 位字符是發(fā)長字符類型,表示員工姓名。
這些元數(shù)據(jù)可以迚一步抽象為元-元數(shù)據(jù)(Meta-Metadata),表示元數(shù)據(jù)的背景。
企業(yè)數(shù)據(jù)模型
BI元數(shù)據(jù)模型
在 BI 層面, IT/技術(shù)元數(shù)據(jù)被分為兩類,被稱為:BI 技術(shù)元數(shù)據(jù)、數(shù)據(jù)源元數(shù)據(jù)
在最頂層,業(yè)務(wù)的主題域可以直接運(yùn)用于BI技術(shù)元數(shù)據(jù)的報(bào)表和分析,繼而被映射到數(shù)據(jù)源元數(shù)據(jù)反映的源系統(tǒng)中。
業(yè)務(wù)實(shí)體連接到技術(shù)實(shí)體,如數(shù)據(jù)表,立方體和報(bào)表等,它們從可用的源表或數(shù)據(jù)表單直接獲取信息。
最細(xì)節(jié)的元數(shù)據(jù)存在于數(shù)據(jù)元素層。業(yè)務(wù)元數(shù)據(jù)中的業(yè)務(wù)術(shù)語映射到技術(shù)元數(shù)據(jù)的對應(yīng)層,包括數(shù)據(jù)表、報(bào)表及多維立方體的維度/度量。業(yè)務(wù)用戶廣泛使用這層元數(shù)據(jù)。
BI技術(shù)元數(shù)據(jù)
BI 技術(shù)元數(shù)據(jù)包含了 BI 環(huán)境中丌同層級的所有元數(shù)據(jù),迚一步可以細(xì)分為三個(gè)類型:
- 信息整合 – ETL(數(shù)據(jù)抽取,轉(zhuǎn)換和裝載)元數(shù)據(jù)
- 信息存儲 – 數(shù)據(jù)倉庫元數(shù)據(jù)
- 信息發(fā)布 – 報(bào)表元數(shù)據(jù)
BIDS元數(shù)據(jù)管理方法論
一個(gè)定義良好的元數(shù)據(jù)管理產(chǎn)品應(yīng)該保證信息的高質(zhì)量,同時(shí)能夠靈活地?cái)U(kuò)展BI系統(tǒng)新的數(shù)據(jù)需求和數(shù)據(jù)源。BIDS作為元數(shù)據(jù)管理的解決方案之一,提供了一套方法論Business Intelligence for Decision Support (BIDS?),該方法論由6個(gè)模塊組成,如下圖:
元數(shù)據(jù)框架定義
元數(shù)據(jù)管理主要目的在于基于靈活、健壯的架構(gòu)實(shí)現(xiàn)元數(shù)據(jù)的標(biāo)準(zhǔn)化、集中化??蚣芏x涉及分析元數(shù)據(jù)的當(dāng)前狀態(tài)、處理過程,并為元數(shù)據(jù)管理系統(tǒng)提供一個(gè)開發(fā)藍(lán)圖,主要從長遠(yuǎn)目標(biāo)、具體目的和高層需求三個(gè)方面來描述:
- 長遠(yuǎn)目標(biāo)|
元數(shù)據(jù)管理系統(tǒng)的總體目標(biāo)如下:
- 標(biāo)準(zhǔn)化的元數(shù)據(jù)和數(shù)據(jù)處理
- 元數(shù)據(jù)管理的集中化
- 元數(shù)據(jù)信息去重
- 適應(yīng)變化的元數(shù)據(jù)架構(gòu)
- 具體目的
元數(shù)據(jù)管理系統(tǒng)的目的如下:
- 制定元數(shù)據(jù)及數(shù)據(jù)標(biāo)準(zhǔn)化
- 集中化 BI 系統(tǒng)的管理和應(yīng)用
- 通過非冗余、非重復(fù)的元數(shù)據(jù)信息提高數(shù)據(jù)完整性、準(zhǔn)確性
- 減少BI系統(tǒng)組件開發(fā)、實(shí)現(xiàn)、完善及維護(hù)的代價(jià)
- 建立靈活的元數(shù)據(jù)架構(gòu),使BI架構(gòu)順應(yīng)變化
- 高層需求
元數(shù)據(jù)創(chuàng)建及管理的高層需求可以通過下表中的內(nèi)容來加以理解。
序號 |
需求 |
1. |
元數(shù)據(jù)標(biāo)準(zhǔn)化 |
1.1 |
企業(yè)內(nèi)統(tǒng)一術(shù)語及溝通標(biāo)準(zhǔn):使用元數(shù)據(jù)作為用戶的唯一根據(jù),確保所有用戶使用一致的名詞進(jìn)行溝通、理解,以及解釋業(yè)務(wù)問題。同時(shí)可以消除歧義,保證企業(yè)內(nèi)信息一致性,便于知識和經(jīng)驗(yàn)的共享。 |
1.2 |
無縫系統(tǒng)集成:ETL過程,尤其是集成過程,依賴與多種多樣的數(shù)據(jù)源和BI系統(tǒng)。標(biāo)準(zhǔn)化的元數(shù)據(jù)使得不同源系統(tǒng)的數(shù)據(jù)集成到BI系統(tǒng)時(shí),數(shù)據(jù)元素的含義是統(tǒng)一的;此外,只有通過標(biāo)準(zhǔn)方法共享元數(shù)據(jù)的工具或應(yīng)用程序才允許被集成到BI系統(tǒng)。 |
1.3 |
數(shù)據(jù)質(zhì)量提升:定義數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則,是ETL元數(shù)據(jù)的有機(jī)組成部分。 |
2 |
元數(shù)據(jù)集中化 |
2.1 |
提升分析及與BI系統(tǒng)的交互:分析涵蓋一系列技術(shù)手段,包括從簡單的報(bào)表查詢,到OLAP分析,甚至復(fù)雜的數(shù)據(jù)挖掘,用戶在很大程度上通過元數(shù)據(jù)層與這些技術(shù)進(jìn)行交互,所有這些分析都需要由元數(shù)據(jù)驅(qū)動(dòng)。元數(shù)據(jù)需向用戶提供集中化的信息,諸如數(shù)據(jù)含義、名詞術(shù)語和業(yè)務(wù)概念,以及他們和數(shù)據(jù)之間的關(guān)系。因此元數(shù)據(jù)可以支持準(zhǔn)確而直觀的查詢,降低用戶訪問、評估、使用相關(guān)信息的代價(jià)。 |
2.2 |
數(shù)據(jù)完整性和準(zhǔn)確性:集中化的元數(shù)據(jù)應(yīng)該是非冗余、非重復(fù)的。此外,數(shù)據(jù)的回溯性及一致性對高數(shù)據(jù)質(zhì)量是很關(guān)鍵的。ETL過程需通過捕獲數(shù)據(jù)繼承(如:源、調(diào)度信息、時(shí)間戳等)來管理元數(shù)據(jù)回溯性,通過諸如checksum這樣的方法來管理一致性。集中化所有這些信息,有助于及時(shí)地解決數(shù)據(jù)整合問題,及更好的管理數(shù)據(jù)的正確性。 |
3 |
降低BI系統(tǒng)管理代價(jià) |
3.1 |
支持新應(yīng)用開發(fā):元數(shù)據(jù)提供數(shù)據(jù)含義、結(jié)構(gòu)和來源的相關(guān)信息,這有助于需求收集和設(shè)計(jì)階段的產(chǎn)出控制,也能保證應(yīng)用開發(fā)過程的可靠性。 |
3.2 |
自動(dòng)化管理過程:元數(shù)據(jù)應(yīng)當(dāng)驅(qū)動(dòng)多種DW過程(如ETL、批處理報(bào)表),有關(guān)過程執(zhí)行的信息(日志、DW 數(shù)據(jù)加載狀態(tài)等)也應(yīng)存儲在資料庫中,被管理員輕松訪問。這些元數(shù)據(jù)驅(qū)動(dòng)的過程能夠?qū)崿F(xiàn)BI管理自動(dòng)化、減少人工干預(yù),從而降低BI系統(tǒng)維護(hù)量。 |
3.3 |
周密的安全機(jī)制:為了提供周密的安全機(jī)制,應(yīng)該在元數(shù)據(jù)層管理ACL和用戶信息。需要設(shè)計(jì)用戶角色來控制不同部門、不同地域的用戶對不同粒度的數(shù)據(jù)進(jìn)行訪問的權(quán)限,并通過審計(jì)跟蹤過程對數(shù)據(jù)訪問進(jìn)行安全檢測。 |
4 |
靈活的元數(shù)據(jù)架構(gòu) |
|
元數(shù)據(jù)的擴(kuò)展性與適應(yīng)性:為了適應(yīng)變化,元數(shù)據(jù)必須是可擴(kuò)展的。如,頻繁變化的語義層,應(yīng)當(dāng)獨(dú)立于應(yīng)用程序,存儲在元數(shù)據(jù)中,一方面保證系統(tǒng)擴(kuò)展的靈活性,另一方面,可以很輕易的添加新的元數(shù)據(jù)對象。而且,通用元數(shù)據(jù)模型還提供了大量的代碼片段的可重用性。 |
此外,還有必要從產(chǎn)品和項(xiàng)目兩個(gè)層面創(chuàng)建元數(shù)據(jù)管理團(tuán)隊(duì),包括元數(shù)據(jù)管理員、協(xié)調(diào)員、數(shù)據(jù)分析員及DBA等角色。一旦該團(tuán)隊(duì)組建完成,通過跟業(yè)務(wù)和技術(shù)受益者的認(rèn)識,就確立了高層元數(shù)據(jù)需求。
規(guī)格描述
框架定義階段完成后,下一步就是描述元數(shù)據(jù)規(guī)格,主要包括以下活動(dòng)和子活動(dòng):
- 元數(shù)據(jù)現(xiàn)狀清單:建立元數(shù)據(jù)清單,包括:功能性信息需求、數(shù)據(jù)模型、進(jìn)程模型、數(shù)據(jù)字典、業(yè)務(wù)術(shù)語字典、已有元數(shù)據(jù)環(huán)境、系統(tǒng)文檔等
- 元數(shù)據(jù)需求
- 遵循的行業(yè)標(biāo)準(zhǔn)
- 元數(shù)據(jù)模型需求:命名規(guī)范、結(jié)構(gòu)、元素及關(guān)聯(lián)關(guān)系
- 元數(shù)據(jù)接口需求:元數(shù)據(jù)資料庫及其內(nèi)容,橋接器、所有者、系統(tǒng)訪問、元數(shù)據(jù)血緣關(guān)系
- 元數(shù)據(jù)系統(tǒng)需求
- 元數(shù)據(jù)報(bào)表需求
- 安全需求
- 變更管理需求
- 培訓(xùn)需求
- 治理需求
詳細(xì)設(shè)計(jì)
設(shè)計(jì)階段包括確定以下內(nèi)容:
元數(shù)據(jù)管理成熟度發(fā)展階段
參考
- The DAMA Guide to the Data Management Body of Knowledge
- 信息集成:元數(shù)據(jù)管理全景
中文版本電子書下載,僅供學(xué)習(xí)使用,歡迎更多人士學(xué)習(xí)推廣
|