一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)質(zhì)量管理

 rating123 2019-05-23

常見的數(shù)據(jù)質(zhì)量問題包括

  • 數(shù)據(jù)無法匹配

  • 數(shù)據(jù)不可識別

  • 數(shù)據(jù)不一致

  • 數(shù)據(jù)沉余重復

  • 實效性不強

  • 精度不夠

數(shù)據(jù)質(zhì)量管理的目標

通過數(shù)據(jù)分析、數(shù)據(jù)評估、數(shù)據(jù)清洗、數(shù)據(jù)監(jiān)控、錯誤預警等內(nèi)容,解決數(shù)據(jù)質(zhì)量問題,使數(shù)據(jù)的質(zhì)量得以改善,使其滿足數(shù)據(jù)需求方對數(shù)據(jù)質(zhì)量的規(guī)則要求。

數(shù)據(jù)質(zhì)量評估

包括但不止以下6個方面

  • 完整性 Completeness:度量哪些數(shù)據(jù)丟失了或者哪些數(shù)據(jù)不可用。

  • 規(guī)范性 Conformity:度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲。

  • 一致性 Consistency:度量哪些數(shù)據(jù)的值在信息含義上是沖突的。

  • 準確性 Accuracy:度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。

  • 唯一性 Uniqueness:度量哪些數(shù)據(jù)是重復數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復的。

  • 關(guān)聯(lián)性 Integration:度量哪些關(guān)聯(lián)的數(shù)據(jù)缺失或者未建立索引。

數(shù)據(jù)質(zhì)量評估模型

要素分別為:基礎模型、數(shù)據(jù)質(zhì)量定義模型、數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評價模型、數(shù)據(jù)質(zhì)量輔助模型。

1.基礎模型。

其他模型必須以基礎模型中的計劃和標準為依據(jù)。基礎模型主要是映射、定義數(shù)據(jù)采集標準,上載分單位的采集計劃,同時納入了約束規(guī)則定義規(guī)范、控制規(guī)則定義規(guī)范、模板定義規(guī)范。

  數(shù)據(jù)標準:分兩部分,一部分是直接映射應用中的標準,例如源數(shù)據(jù)庫標準;另一部分是針對新增應用庫和項目庫標準的定義規(guī)范,包括代碼定義標準、數(shù)據(jù)項定義標準(例如是取英文還是漢語拼音,取幾個字符)、值域定義標準等等新增表準的建立規(guī)范;
  采集計劃:采集單位的每月上載的日度、月度、年度的采集計劃;
  約束規(guī)則定義規(guī)范:主要描述質(zhì)量定義模型中的語法構(gòu)成;
  控制規(guī)則定義規(guī)范:針對服務器負載和采集表的及時性,要求建立的后臺執(zhí)行過程的控制方式的使用說明;
2.數(shù)據(jù)質(zhì)量定義模型。

以基礎模型為前提對數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義,是數(shù)據(jù)質(zhì)量分析評價的依據(jù)和基礎。數(shù)據(jù)質(zhì)量定義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時性4個關(guān)鍵特性。
  (1一致性的量化評價指標:字段一致率、表間字段一致率、表間記錄一致率。
  (2準確性的量化評價指標:準確率、差錯率、問題字段個數(shù)、問題記錄覆蓋率
  (3)及時性的量化評價指標:采集項目及時率;單位入庫及時率
  (4)完整性的量化評價指標:字段缺失數(shù)、缺失記錄覆蓋率、計劃完成率。
3.數(shù)據(jù)質(zhì)量控制模型。

數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎,按照定義的檢查范圍和時間以自動或手工方式完成對數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì)量控制過程中違反了數(shù)據(jù)質(zhì)量定義的,視為數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)質(zhì)量問題直接通過數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標反映出來。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn)在:對數(shù)據(jù)檢查對象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查時間、數(shù)據(jù)檢查方式等方面進行控制。
  (1)數(shù)據(jù)檢查對象:是指根據(jù)采集計劃設定需要檢查的用戶、專業(yè)數(shù)據(jù)表、數(shù)據(jù)庫實體。
  (2)數(shù)據(jù)檢查頻度;是指根據(jù)數(shù)據(jù)表的采集計劃和實際發(fā)生的頻度,設定存儲過程的檢查執(zhí)行頻率。
  (3)數(shù)據(jù)檢查時間:是指根據(jù)每日生產(chǎn)應用的密集時間以及數(shù)據(jù)發(fā)生到采集入庫的密集時間,綜合設定一個檢查開始執(zhí)行的時刻。
  (4)數(shù)據(jù)檢查方式:是指執(zhí)行檢查過程的方式可以由后臺過程自動控制,每間隔2小時自動檢查一次;也可以由人工干預手動檢查,任意時刻都可以執(zhí)行檢查(當然盡量選擇數(shù)據(jù)庫流量比較低的時候)。
4.數(shù)據(jù)質(zhì)量評價模型。

數(shù)據(jù)質(zhì)量評價模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標,實現(xiàn)對數(shù)據(jù)質(zhì)量的量化診斷和評價。
  數(shù)據(jù)質(zhì)量分析評價模型功能核心是,通過對基礎模型中的采集計劃和質(zhì)量定義模型中的約束規(guī)則的處理,由控制模型調(diào)用可以實現(xiàn)檢查分析的后臺存儲過程在實體庫中執(zhí)行檢查,形成查詢結(jié)果,再由分析程序進行分析、計算、分類、匯總,生成反映采集計劃完成情況和數(shù)據(jù)質(zhì)量量化指標的結(jié)果,存儲到分析結(jié)果表中,從前臺調(diào)用這個分析結(jié)果表,就可以生成一份詳盡的反映數(shù)據(jù)質(zhì)量問題各類量化指標的數(shù)據(jù)質(zhì)量分析評估報告,展現(xiàn)所評估實體庫的數(shù)據(jù)入庫的及時率、數(shù)據(jù)上報的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫的準確率。
  5.數(shù)據(jù)質(zhì)量輔助管理模型
  數(shù)據(jù)質(zhì)量輔助管理包括報告模版管理、權(quán)限管理、數(shù)據(jù)庫資源占用情況等等。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲国产av在线观看一区| 99久只有精品免费视频播放| 很黄很污在线免费观看| 少妇人妻精品一区二区三区| 一区中文字幕人妻少妇| 亚洲二区欧美一区二区| 欧美午夜视频免费观看| 又色又爽又黄的三级视频| 国产欧美日韩精品一区二区| 日本三区不卡高清更新二区| 亚洲午夜av久久久精品| 久久综合九色综合欧美| 精品熟女少妇av免费久久野外| 亚洲欧洲在线一区二区三区| 欧美精品中文字幕亚洲| 国产黑人一区二区三区| 欧美日韩国产成人高潮| 国产精欧美一区二区三区久久| 久久99青青精品免费| 人妻内射精品一区二区| 国产激情一区二区三区不卡| 中文字幕中文字幕在线十八区| 欧美激情一区=区三区| 国产免费操美女逼视频| 久久热在线视频免费观看| 欧美成人免费视频午夜色| 91精品国产综合久久福利| 日本黄色高清视频久久| 国产一区二区三区色噜噜| 在线亚洲成人中文字幕高清| 亚洲欧美国产精品一区二区| 欧美一级日韩中文字幕| 久久精品伊人一区二区| 99久久国产精品成人观看| 黑色丝袜脚足国产一区二区| 日韩人妻一区中文字幕| 国内外免费在线激情视频| 亚洲欧美日韩国产自拍| 久久99一本色道亚洲精品| 欧美不卡一区二区在线视频| 亚洲熟女国产熟女二区三区|