數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量
(一)數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)、好處和問題 數(shù)據(jù)質(zhì)量的好壞是決定一個數(shù)據(jù)倉庫成功的關(guān)鍵,但是需要從那些方面衡量數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量呢? 可以從下列方面衡量系統(tǒng)中的數(shù)據(jù)質(zhì)量: 準(zhǔn)確性:存儲在系統(tǒng)中的關(guān)于一個數(shù)據(jù)元素的值是這個數(shù)據(jù)元素的正確值 ; 域完整性:一個屬性的數(shù)值在合理且預(yù)定義的范圍之內(nèi); 數(shù)據(jù)類型:一個數(shù)據(jù)屬性的值通常是根據(jù)這個屬性所定義的數(shù)據(jù)類型來存儲的; 一致性:一個數(shù)據(jù)字段的形式和內(nèi)容在多個源系統(tǒng)之間是相同的。 冗余性:相同的數(shù)據(jù)在一個系統(tǒng)中不能存儲在超過一個地方; 完整性:系統(tǒng)中的屬性不應(yīng)該有缺失的值; 重復(fù)性:完全解決一個系統(tǒng)中記錄的重復(fù)性的問題; 結(jié)構(gòu)明確:在數(shù)據(jù)項的結(jié)構(gòu)可以分成不同部分的任何地方,這個數(shù)據(jù)項都必須包含定義好的結(jié)構(gòu); 數(shù)據(jù)異常:一個字段必須根據(jù)預(yù)先定義的目的來使用; 清晰:一個數(shù)據(jù)元素必須有正確的定義,也就是需要一個正確的命名; 時效性:用戶決定了數(shù)據(jù)的時效性; 有用性:數(shù)據(jù)倉庫中的每一個數(shù)據(jù)元素必須滿足用戶的一些需求; 符合數(shù)據(jù)完整性的規(guī)則:源系統(tǒng)中的關(guān)系數(shù)據(jù)庫中存儲的數(shù)據(jù)必須符合實體完整性及參考完整性規(guī)則。 既然數(shù)據(jù)質(zhì)量是成功的關(guān)鍵,那么,提高數(shù)據(jù)質(zhì)量有那些好處: 對實時信息的分析:高質(zhì)量的數(shù)據(jù)提供及時的信息,是為用戶創(chuàng)造的一個重要益處; 更好的客戶服務(wù):完整而準(zhǔn)確的信息能夠大大提高客戶服務(wù)的質(zhì)量; 更多的機(jī)會:數(shù)據(jù)倉庫中的高質(zhì)量數(shù)據(jù)是一個巨大的市場機(jī)會,它給產(chǎn)品和部門之間的交叉銷售打開了機(jī)會的大門; 減少成本和風(fēng)險:如果數(shù)據(jù)質(zhì)量不好,明顯的風(fēng)險就是戰(zhàn)略決策可能會導(dǎo)致災(zāi)難性的后果。 提高生產(chǎn)率:用戶可以從真?zhèn)€企業(yè)的角度來看待數(shù)據(jù)倉庫的信息,而全面的信息促使流程和真?zhèn)€操作更順暢, 從而提高生長率; 可靠的戰(zhàn)略決策制定:如果數(shù)據(jù)倉庫的數(shù)據(jù)是可靠而高質(zhì)量的,那么基于這些信息進(jìn)行的決策就是好的決策。 在數(shù)據(jù)處理過程中,會有那些數(shù)據(jù)質(zhì)量問題: 字段中的虛假值 數(shù)據(jù)值缺失 對字段的非正規(guī)使用 晦澀的值 互相沖突的值 違反商業(yè)規(guī)則 主鍵重用 標(biāo)志不唯一 不一致的值 不正確的值 一個字段多種用途 錯誤的集成
(二)數(shù)據(jù)質(zhì)量的挑戰(zhàn) 數(shù)據(jù)的污染是在數(shù)據(jù)倉庫中處理的,但是數(shù)據(jù)的污染卻是在數(shù)據(jù)倉庫之外發(fā)生,所以我們必須要知道數(shù)據(jù)有那些污染源: 系統(tǒng)轉(zhuǎn)換:系統(tǒng)轉(zhuǎn)換和遷移是數(shù)據(jù)污染的重要原因; 數(shù)據(jù)老化: 復(fù)雜的系統(tǒng)集成:源系統(tǒng)種類越繁多,出現(xiàn)污染數(shù)據(jù)的可能性就越大; 拙劣的數(shù)據(jù)庫設(shè)計:堅持實體完整性和參考完整性規(guī)則可以防止一些數(shù)據(jù)污染; 數(shù)據(jù)輸入的不完整信息: 輸入錯誤:錯誤的數(shù)據(jù)輸入是數(shù)據(jù)污染的一個主要來源; 國際化/本地化: 欺詐:有些數(shù)據(jù)是故意輸入錯誤的; 缺乏相關(guān)政策:如果一個公司對數(shù)據(jù)質(zhì)量沒有明確的相關(guān)政策,它的數(shù)據(jù)質(zhì)量就不可能得到保證。
數(shù)據(jù)質(zhì)量問題產(chǎn)生的影響: 根據(jù)常規(guī)分析方法所作出的錯誤決定; 由于“臟”數(shù)據(jù)或數(shù)據(jù)不可用失去商業(yè)機(jī)會; 由于錯誤的數(shù)據(jù)導(dǎo)致要重新運(yùn)行數(shù)據(jù)清洗,造成源系統(tǒng)額外開銷; 由于數(shù)據(jù)不符合規(guī)則二導(dǎo)致政府機(jī)構(gòu)的懲罰; 審查的問題; 不必要的冗余數(shù)據(jù)占用資源; 不一致的報表; 每次發(fā)現(xiàn)并修改數(shù)據(jù)錯誤所耗費(fèi)的時間和精力。
(三)數(shù)據(jù)質(zhì)量工具
現(xiàn)在已經(jīng)清楚數(shù)據(jù)質(zhì)量從那里來,會帶來什么問題,做好數(shù)據(jù)質(zhì)量管理能帶來那些好處,那么,我們可以采用那些方法和工具來保證數(shù)據(jù)的質(zhì)量。 數(shù)據(jù)清洗工具 數(shù)據(jù)錯誤發(fā)現(xiàn)工具用于識別源數(shù)據(jù)的不準(zhǔn)確和不一致;數(shù)據(jù)修正工具幫助修改受污染的數(shù)據(jù)。 數(shù)據(jù)清洗工具的錯誤發(fā)現(xiàn): 方便快捷地識別重復(fù)記錄; 辨認(rèn)出那些超出合法域值范圍地數(shù)據(jù)項; 找到不一致地數(shù)據(jù); 檢查允許值的范圍; 檢測不同來源地數(shù)據(jù)項地不一致性; 允許用戶辨認(rèn)和確定數(shù)據(jù)質(zhì)量問題的數(shù)量; 監(jiān)控數(shù)據(jù)質(zhì)量隨時間變化地趨勢; 面向用戶報告分析所用數(shù)據(jù)地質(zhì)量; 解決關(guān)系數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)參考完整性地問題。 數(shù)據(jù)修正工具的數(shù)據(jù)修正: 規(guī)范不一致地數(shù)據(jù); 改善不同數(shù)據(jù)源中數(shù)據(jù)地合并過程; 對屬于同一個家庭地客戶記錄進(jìn)行分群和關(guān)聯(lián); 提供數(shù)據(jù)質(zhì)量地衡量指標(biāo); 使允許地數(shù)值生效。
(四)確保數(shù)據(jù)質(zhì)量 為保證數(shù)據(jù)倉庫數(shù)據(jù)地質(zhì)量,需要對數(shù)據(jù)進(jìn)行清洗,有兩種清洗方法:一種是只讓干凈地數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫;而是在需要地時候清洗。 進(jìn)行數(shù)據(jù)清洗決策需要解決地基本問題: 需要清洗那些數(shù)據(jù):需要由用戶決定那些數(shù)據(jù)是重要地必須清洗,IT專家只起輔助作用; 在什么地方清洗: 怎樣清洗數(shù)據(jù):這就是怎樣使用供應(yīng)商地工具,如果工具不能滿足則要自己編寫代碼; 如何查明數(shù)據(jù)污染的程度:這個需要操作型系統(tǒng)、數(shù)據(jù)倉庫潛在用戶以及IT人員共同參與地工作; 建立一個數(shù)據(jù)質(zhì)量框架:框架將指導(dǎo)數(shù)據(jù)質(zhì)量地工作。 |
|