一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量

 天天的藏書館 2011-12-08
數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量
分類: 數(shù)據(jù)倉庫基礎(chǔ)學(xué)習(xí) 23人閱讀 評論(0) 收藏 舉報
 

(一)數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)、好處和問題 

          數(shù)據(jù)質(zhì)量的好壞是決定一個數(shù)據(jù)倉庫成功的關(guān)鍵,但是需要從那些方面衡量數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量呢? 可以從下列方面衡量系統(tǒng)中的數(shù)據(jù)質(zhì)量:

        準(zhǔn)確性:存儲在系統(tǒng)中的關(guān)于一個數(shù)據(jù)元素的值是這個數(shù)據(jù)元素的正確值 ;

        域完整性:一個屬性的數(shù)值在合理且預(yù)定義的范圍之內(nèi);

        數(shù)據(jù)類型:一個數(shù)據(jù)屬性的值通常是根據(jù)這個屬性所定義的數(shù)據(jù)類型來存儲的;

       一致性:一個數(shù)據(jù)字段的形式和內(nèi)容在多個源系統(tǒng)之間是相同的。

        冗余性:相同的數(shù)據(jù)在一個系統(tǒng)中不能存儲在超過一個地方;

        完整性:系統(tǒng)中的屬性不應(yīng)該有缺失的值;

        重復(fù)性:完全解決一個系統(tǒng)中記錄的重復(fù)性的問題;

        結(jié)構(gòu)明確:在數(shù)據(jù)項的結(jié)構(gòu)可以分成不同部分的任何地方,這個數(shù)據(jù)項都必須包含定義好的結(jié)構(gòu);

        數(shù)據(jù)異常:一個字段必須根據(jù)預(yù)先定義的目的來使用;

        清晰:一個數(shù)據(jù)元素必須有正確的定義,也就是需要一個正確的命名;

        時效性:用戶決定了數(shù)據(jù)的時效性;

        有用性:數(shù)據(jù)倉庫中的每一個數(shù)據(jù)元素必須滿足用戶的一些需求;

       符合數(shù)據(jù)完整性的規(guī)則:源系統(tǒng)中的關(guān)系數(shù)據(jù)庫中存儲的數(shù)據(jù)必須符合實體完整性及參考完整性規(guī)則。

既然數(shù)據(jù)質(zhì)量是成功的關(guān)鍵,那么,提高數(shù)據(jù)質(zhì)量有那些好處:

        對實時信息的分析:高質(zhì)量的數(shù)據(jù)提供及時的信息,是為用戶創(chuàng)造的一個重要益處;

        更好的客戶服務(wù):完整而準(zhǔn)確的信息能夠大大提高客戶服務(wù)的質(zhì)量;

       更多的機(jī)會:數(shù)據(jù)倉庫中的高質(zhì)量數(shù)據(jù)是一個巨大的市場機(jī)會,它給產(chǎn)品和部門之間的交叉銷售打開了機(jī)會的大門;

       減少成本和風(fēng)險:如果數(shù)據(jù)質(zhì)量不好,明顯的風(fēng)險就是戰(zhàn)略決策可能會導(dǎo)致災(zāi)難性的后果。

        提高生產(chǎn)率:用戶可以從真?zhèn)€企業(yè)的角度來看待數(shù)據(jù)倉庫的信息,而全面的信息促使流程和真?zhèn)€操作更順暢,

                                從而提高生長率;

       可靠的戰(zhàn)略決策制定:如果數(shù)據(jù)倉庫的數(shù)據(jù)是可靠而高質(zhì)量的,那么基于這些信息進(jìn)行的決策就是好的決策。

在數(shù)據(jù)處理過程中,會有那些數(shù)據(jù)質(zhì)量問題:

          字段中的虛假值

          數(shù)據(jù)值缺失

         對字段的非正規(guī)使用

         晦澀的值

         互相沖突的值

        違反商業(yè)規(guī)則

        主鍵重用

        標(biāo)志不唯一

        不一致的值

        不正確的值

        一個字段多種用途

       錯誤的集成

 

(二)數(shù)據(jù)質(zhì)量的挑戰(zhàn)

        數(shù)據(jù)的污染是在數(shù)據(jù)倉庫中處理的,但是數(shù)據(jù)的污染卻是在數(shù)據(jù)倉庫之外發(fā)生,所以我們必須要知道數(shù)據(jù)有那些污染源:

        系統(tǒng)轉(zhuǎn)換:系統(tǒng)轉(zhuǎn)換和遷移是數(shù)據(jù)污染的重要原因;

        數(shù)據(jù)老化:

       復(fù)雜的系統(tǒng)集成:源系統(tǒng)種類越繁多,出現(xiàn)污染數(shù)據(jù)的可能性就越大;

       拙劣的數(shù)據(jù)庫設(shè)計:堅持實體完整性和參考完整性規(guī)則可以防止一些數(shù)據(jù)污染;

        數(shù)據(jù)輸入的不完整信息:

        輸入錯誤:錯誤的數(shù)據(jù)輸入是數(shù)據(jù)污染的一個主要來源;

       國際化/本地化:

       欺詐:有些數(shù)據(jù)是故意輸入錯誤的;

       缺乏相關(guān)政策:如果一個公司對數(shù)據(jù)質(zhì)量沒有明確的相關(guān)政策,它的數(shù)據(jù)質(zhì)量就不可能得到保證。

 

數(shù)據(jù)質(zhì)量問題產(chǎn)生的影響:

         根據(jù)常規(guī)分析方法所作出的錯誤決定;

         由于“臟”數(shù)據(jù)或數(shù)據(jù)不可用失去商業(yè)機(jī)會;

        由于錯誤的數(shù)據(jù)導(dǎo)致要重新運(yùn)行數(shù)據(jù)清洗,造成源系統(tǒng)額外開銷;

        由于數(shù)據(jù)不符合規(guī)則二導(dǎo)致政府機(jī)構(gòu)的懲罰;

        審查的問題;

       不必要的冗余數(shù)據(jù)占用資源;

        不一致的報表;

        每次發(fā)現(xiàn)并修改數(shù)據(jù)錯誤所耗費(fèi)的時間和精力。

 

(三)數(shù)據(jù)質(zhì)量工具

        現(xiàn)在已經(jīng)清楚數(shù)據(jù)質(zhì)量從那里來,會帶來什么問題,做好數(shù)據(jù)質(zhì)量管理能帶來那些好處,那么,我們可以采用那些方法和工具來保證數(shù)據(jù)的質(zhì)量。 

 數(shù)據(jù)清洗工具

        數(shù)據(jù)錯誤發(fā)現(xiàn)工具用于識別源數(shù)據(jù)的不準(zhǔn)確和不一致;數(shù)據(jù)修正工具幫助修改受污染的數(shù)據(jù)。

 數(shù)據(jù)清洗工具的錯誤發(fā)現(xiàn):

       方便快捷地識別重復(fù)記錄;

       辨認(rèn)出那些超出合法域值范圍地數(shù)據(jù)項;

       找到不一致地數(shù)據(jù);

       檢查允許值的范圍;

       檢測不同來源地數(shù)據(jù)項地不一致性;

       允許用戶辨認(rèn)和確定數(shù)據(jù)質(zhì)量問題的數(shù)量;

       監(jiān)控數(shù)據(jù)質(zhì)量隨時間變化地趨勢;

       面向用戶報告分析所用數(shù)據(jù)地質(zhì)量;

       解決關(guān)系數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)參考完整性地問題。

數(shù)據(jù)修正工具的數(shù)據(jù)修正:

        規(guī)范不一致地數(shù)據(jù);

        改善不同數(shù)據(jù)源中數(shù)據(jù)地合并過程;

        對屬于同一個家庭地客戶記錄進(jìn)行分群和關(guān)聯(lián);

        提供數(shù)據(jù)質(zhì)量地衡量指標(biāo);

        使允許地數(shù)值生效。

 

(四)確保數(shù)據(jù)質(zhì)量

         為保證數(shù)據(jù)倉庫數(shù)據(jù)地質(zhì)量,需要對數(shù)據(jù)進(jìn)行清洗,有兩種清洗方法:一種是只讓干凈地數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫;而是在需要地時候清洗。

進(jìn)行數(shù)據(jù)清洗決策需要解決地基本問題:

        需要清洗那些數(shù)據(jù):需要由用戶決定那些數(shù)據(jù)是重要地必須清洗,IT專家只起輔助作用;

        在什么地方清洗:

        怎樣清洗數(shù)據(jù):這就是怎樣使用供應(yīng)商地工具,如果工具不能滿足則要自己編寫代碼;

        如何查明數(shù)據(jù)污染的程度:這個需要操作型系統(tǒng)、數(shù)據(jù)倉庫潛在用戶以及IT人員共同參與地工作;

        建立一個數(shù)據(jù)質(zhì)量框架:框架將指導(dǎo)數(shù)據(jù)質(zhì)量地工作。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日韩精品在线观看完整版| 少妇在线一区二区三区| 亚洲最新中文字幕一区| 国产精品免费视频专区| 亚洲国产精品久久精品成人| 国产精品熟女在线视频| 亚洲欧美日产综合在线网| 欧美日韩精品久久亚洲区熟妇人 | 东京不热免费观看日本| 91日韩欧美中文字幕| 日韩精品成区中文字幕| 国产女性精品一区二区三区| 少妇熟女精品一区二区三区| 欧美国产在线观看精品| 视频一区日韩经典中文字幕| 丰满少妇高潮一区二区| av免费视屏在线观看| 欧美精品久久一二三区| 蜜桃av人妻精品一区二区三区| 日本美国三级黄色aa| 99久久精品午夜一区二区| 果冻传媒精选麻豆白晶晶| 中文字幕欧美精品人妻一区| 黄色在线免费高清观看| 日本在线不卡高清欧美| 午夜福利网午夜福利网| 九九热国产这里只有精品| 久久99热成人网不卡| 国产二级一级内射视频播放| 日韩国产亚洲一区二区三区| 91福利免费一区二区三区| 亚洲妇女黄色三级视频| 国产精品熟女乱色一区二区| 九九视频通过这里有精品| 日韩人妻欧美一区二区久久| 欧美成人免费夜夜黄啪啪 | 欧美日韩亚洲国产av| 欧美成人免费一级特黄| 精品国产一区二区欧美| 中文字幕精品一区二区三| 欧美日韩国产精品自在自线|