常見的數(shù)據(jù)質(zhì)量問題包括 數(shù)據(jù)無法匹配 數(shù)據(jù)不可識別 數(shù)據(jù)不一致 數(shù)據(jù)沉余重復 實效性不強 精度不夠
數(shù)據(jù)質(zhì)量管理的目標通過數(shù)據(jù)分析、數(shù)據(jù)評估、數(shù)據(jù)清洗、數(shù)據(jù)監(jiān)控、錯誤預警等內(nèi)容,解決數(shù)據(jù)質(zhì)量問題,使數(shù)據(jù)的質(zhì)量得以改善,使其滿足數(shù)據(jù)需求方對數(shù)據(jù)質(zhì)量的規(guī)則要求。 數(shù)據(jù)質(zhì)量評估包括但不止以下6個方面 完整性 Completeness:度量哪些數(shù)據(jù)丟失了或者哪些數(shù)據(jù)不可用。 規(guī)范性 Conformity:度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲。 一致性 Consistency:度量哪些數(shù)據(jù)的值在信息含義上是沖突的。 準確性 Accuracy:度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。 唯一性 Uniqueness:度量哪些數(shù)據(jù)是重復數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復的。 關(guān)聯(lián)性 Integration:度量哪些關(guān)聯(lián)的數(shù)據(jù)缺失或者未建立索引。
數(shù)據(jù)質(zhì)量評估模型要素分別為:基礎模型、數(shù)據(jù)質(zhì)量定義模型、數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評價模型、數(shù)據(jù)質(zhì)量輔助模型。 1.基礎模型。 其他模型必須以基礎模型中的計劃和標準為依據(jù)。基礎模型主要是映射、定義數(shù)據(jù)采集標準,上載分單位的采集計劃,同時納入了約束規(guī)則定義規(guī)范、控制規(guī)則定義規(guī)范、模板定義規(guī)范。 數(shù)據(jù)標準:分兩部分,一部分是直接映射應用中的標準,例如源數(shù)據(jù)庫標準;另一部分是針對新增應用庫和項目庫標準的定義規(guī)范,包括代碼定義標準、數(shù)據(jù)項定義標準(例如是取英文還是漢語拼音,取幾個字符)、值域定義標準等等新增表準的建立規(guī)范; 采集計劃:采集單位的每月上載的日度、月度、年度的采集計劃; 約束規(guī)則定義規(guī)范:主要描述質(zhì)量定義模型中的語法構(gòu)成; 控制規(guī)則定義規(guī)范:針對服務器負載和采集表的及時性,要求建立的后臺執(zhí)行過程的控制方式的使用說明; 2.數(shù)據(jù)質(zhì)量定義模型。 以基礎模型為前提對數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義,是數(shù)據(jù)質(zhì)量分析評價的依據(jù)和基礎。數(shù)據(jù)質(zhì)量定義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時性4個關(guān)鍵特性。 (1一致性的量化評價指標:字段一致率、表間字段一致率、表間記錄一致率。 (2準確性的量化評價指標:準確率、差錯率、問題字段個數(shù)、問題記錄覆蓋率 (3)及時性的量化評價指標:采集項目及時率;單位入庫及時率 (4)完整性的量化評價指標:字段缺失數(shù)、缺失記錄覆蓋率、計劃完成率。 3.數(shù)據(jù)質(zhì)量控制模型。 數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎,按照定義的檢查范圍和時間以自動或手工方式完成對數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì)量控制過程中違反了數(shù)據(jù)質(zhì)量定義的,視為數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)質(zhì)量問題直接通過數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標反映出來。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn)在:對數(shù)據(jù)檢查對象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查時間、數(shù)據(jù)檢查方式等方面進行控制。 (1)數(shù)據(jù)檢查對象:是指根據(jù)采集計劃設定需要檢查的用戶、專業(yè)數(shù)據(jù)表、數(shù)據(jù)庫實體。 (2)數(shù)據(jù)檢查頻度;是指根據(jù)數(shù)據(jù)表的采集計劃和實際發(fā)生的頻度,設定存儲過程的檢查執(zhí)行頻率。 (3)數(shù)據(jù)檢查時間:是指根據(jù)每日生產(chǎn)應用的密集時間以及數(shù)據(jù)發(fā)生到采集入庫的密集時間,綜合設定一個檢查開始執(zhí)行的時刻。 (4)數(shù)據(jù)檢查方式:是指執(zhí)行檢查過程的方式可以由后臺過程自動控制,每間隔2小時自動檢查一次;也可以由人工干預手動檢查,任意時刻都可以執(zhí)行檢查(當然盡量選擇數(shù)據(jù)庫流量比較低的時候)。 4.數(shù)據(jù)質(zhì)量評價模型。 數(shù)據(jù)質(zhì)量評價模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標,實現(xiàn)對數(shù)據(jù)質(zhì)量的量化診斷和評價。 數(shù)據(jù)質(zhì)量分析評價模型功能核心是,通過對基礎模型中的采集計劃和質(zhì)量定義模型中的約束規(guī)則的處理,由控制模型調(diào)用可以實現(xiàn)檢查分析的后臺存儲過程在實體庫中執(zhí)行檢查,形成查詢結(jié)果,再由分析程序進行分析、計算、分類、匯總,生成反映采集計劃完成情況和數(shù)據(jù)質(zhì)量量化指標的結(jié)果,存儲到分析結(jié)果表中,從前臺調(diào)用這個分析結(jié)果表,就可以生成一份詳盡的反映數(shù)據(jù)質(zhì)量問題各類量化指標的數(shù)據(jù)質(zhì)量分析評估報告,展現(xiàn)所評估實體庫的數(shù)據(jù)入庫的及時率、數(shù)據(jù)上報的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫的準確率。 5.數(shù)據(jù)質(zhì)量輔助管理模型 數(shù)據(jù)質(zhì)量輔助管理包括報告模版管理、權(quán)限管理、數(shù)據(jù)庫資源占用情況等等。
|