一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

終于有人把數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量講明白了

 新用戶16606013 2023-05-26 發(fā)布于遼寧

主要包括三部分內(nèi)容:

1. 相關(guān)概念和框架

2. 工具和技術(shù)

3. 典型案例

分享嘉賓|謝輝 滴普科技 MO總監(jiān)

編輯整理|李科 浪潮集團(tuán)

出品社區(qū)|DataFun


01
相關(guān)概念和框架
首先來看一下數(shù)據(jù)標(biāo)準(zhǔn)的概念我們可能經(jīng)常聽到這個(gè)詞語,卻并不清楚其定義,不知道其中包含了什么。

圖片

在國際數(shù)據(jù)管理協(xié)會的關(guān)于職能域的車輪圖中,并沒有數(shù)據(jù)標(biāo)準(zhǔn)這一項(xiàng)。國內(nèi)的 DCMM 框架中有數(shù)據(jù)標(biāo)準(zhǔn)一項(xiàng)。

圖片

另外, IBM 的數(shù)據(jù)治理框架,以及 CMMI 的框架中也是沒有數(shù)據(jù)標(biāo)準(zhǔn)的。我們可以去分析一下國內(nèi)的權(quán)威機(jī)構(gòu)關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)的定義,如下圖所示:

圖片

通過總結(jié)國內(nèi)對數(shù)據(jù)標(biāo)準(zhǔn)的定義,再去看 DAMA 框架就會發(fā)現(xiàn),其數(shù)據(jù)治理中是包含了對數(shù)據(jù)標(biāo)準(zhǔn)的定義的。

圖片

國外的企業(yè)一般不會使用 Data Standards 這個(gè)詞,它會具體映射到左邊的,比如 Glossary,就是業(yè)務(wù)術(shù)語,或者說 Data Dictionary、數(shù)據(jù)字典,還有 Data Elements 就是數(shù)據(jù)元或數(shù)據(jù)項(xiàng)。在他們的語境當(dāng)中業(yè)務(wù)術(shù)語是面向公司所有受眾的,需要確保在一個(gè)組織中大家都使用正確的術(shù)語。數(shù)據(jù)字典更多的是給技術(shù)員工在管理數(shù)據(jù)的時(shí)候用的,它定義描述數(shù)據(jù)集,還有數(shù)據(jù)字段相關(guān)的屬性。

圖片

對于業(yè)務(wù)術(shù)語而言,它的業(yè)務(wù)屬性就是這個(gè)詞語代表了業(yè)務(wù)含義,在技術(shù)層面就是數(shù)據(jù)的表現(xiàn)形式、取值范圍等。管理屬性是這個(gè)術(shù)語對應(yīng)在組織內(nèi)的一個(gè)歸屬。

圖片

下面是業(yè)務(wù)術(shù)語的數(shù)據(jù)標(biāo)準(zhǔn)的舉例,比如企業(yè)法人,我們對它有一個(gè)定義和分類,它里面的這個(gè)數(shù)據(jù)元會有對應(yīng)的描述,我們對這個(gè)描述會有很多的約定。當(dāng)我們?nèi)ナ崂硪粋€(gè)企業(yè)內(nèi)部的所有數(shù)據(jù)的時(shí)候,從上往下去看會把它分成多個(gè) level,第一個(gè)就是企業(yè)所有數(shù)據(jù)主題域的分組,它體現(xiàn)的是從數(shù)據(jù)的視角去看企業(yè)所有數(shù)據(jù),它真正在業(yè)務(wù)層面映射的相關(guān)大領(lǐng)域?qū)?yīng)的主題域是互不重疊的。

圖片

再舉個(gè)例子,比如貨品管理,它可以分為訂貨、庫存,這兩個(gè)是可以去分析的主題域或者業(yè)務(wù)上關(guān)心的主題域,對應(yīng)的業(yè)務(wù)對象是訂貨,相關(guān)的訂單就是它的業(yè)務(wù)對象。再下層去拆解的話,會有業(yè)務(wù)關(guān)系和邏輯實(shí)體,那邏輯實(shí)體是真正具有邏輯關(guān)系的一些屬性組合,比如訂單表本身是一個(gè)實(shí)體,然后表中的對應(yīng)的字段是這個(gè)實(shí)體所干預(yù)的業(yè)務(wù)中定義的一些屬性。最后的屬性是我們經(jīng)常提到的這個(gè)數(shù)據(jù)元或者數(shù)據(jù)項(xiàng)。

圖片

從業(yè)務(wù)角度對這些屬性進(jìn)行分辨。比如業(yè)務(wù)規(guī)則就是基礎(chǔ)元數(shù)據(jù),包括主數(shù)據(jù)、參考數(shù)據(jù)、計(jì)算方法、統(tǒng)計(jì)口徑等。從技術(shù)角度來看,字段類別、字段格式長度屬于來源,統(tǒng)計(jì)粒度還有統(tǒng)計(jì)周期,就是指標(biāo)類樹立標(biāo)準(zhǔn)所必須的。相關(guān)的管理屬性,包括標(biāo)準(zhǔn)本身的版本、標(biāo)準(zhǔn)的創(chuàng)建日期,還有標(biāo)準(zhǔn)的管理部門等。

圖片

下面是主數(shù)據(jù)和參考數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)舉例,比如北京、上海、廣州,它所屬的省份的簡稱可以對它進(jìn)行定義為對應(yīng)的中文名稱的拼音第一個(gè)字母,城市的類別把它定義為一線城市、二線城市。這個(gè)是對所有的主數(shù)據(jù)當(dāng)中的字段的一個(gè)描述,也就是元數(shù)據(jù)。這是指標(biāo)的梳理標(biāo)準(zhǔn)。

圖片

下面有一個(gè)具體的例子,比如撥備覆蓋率就是指標(biāo)的名稱,把它歸類為基本屬性,然后對指標(biāo)的業(yè)務(wù)含義進(jìn)行定義,指的就是貸款損失準(zhǔn)備對不良貸款的一個(gè)比率。指標(biāo)的類型屬于比率類。從技術(shù)角度來看,它在底層占有的長度是 8,精度是 4。管理屬性就是它的第一部門是誰,這個(gè)指標(biāo)的版本是多少號。對于指標(biāo)的數(shù)據(jù)標(biāo)準(zhǔn),要從下面的 5 個(gè)角度去考量它,需要能夠比較準(zhǔn)確地去表達(dá)業(yè)務(wù)含義。

圖片

指標(biāo)必須要有非??尚诺膩碓?,所以來源也是重要的考量指標(biāo)可信度的維度。

圖片

下面看下數(shù)據(jù)標(biāo)準(zhǔn)的成熟度評估,第一個(gè)是數(shù)據(jù)標(biāo)準(zhǔn)有沒有被完全解讀,大家有沒有充分的理解?標(biāo)準(zhǔn)本身夠不夠完整,夠不夠清晰?標(biāo)準(zhǔn)在組織內(nèi)部的發(fā)布還有傳播有沒有到位,有沒有貫徹,標(biāo)準(zhǔn)的管理變更流程夠不夠全面,執(zhí)行是不是夠徹底?我們可以從這幾個(gè)角度去看一個(gè)企業(yè)內(nèi)部的標(biāo)準(zhǔn)當(dāng)前建設(shè)的成熟度到了什么樣的程度。

圖片

數(shù)據(jù)質(zhì)量指的是在特定的業(yè)務(wù)環(huán)境下,數(shù)據(jù)滿足業(yè)務(wù)運(yùn)行、管理與決策的程度,是保障數(shù)據(jù)應(yīng)用效果的一個(gè)基礎(chǔ)。數(shù)據(jù)質(zhì)量管理指的是運(yùn)用相關(guān)的技術(shù)來衡量、提高和確保數(shù)據(jù)質(zhì)量的規(guī)劃、實(shí)施與控制的一系列活動(dòng)。所以從這里面可以看出數(shù)據(jù)質(zhì)量也是一個(gè)非常龐大的系統(tǒng)工程。數(shù)據(jù)質(zhì)量真正要去落地的時(shí)候,有以下幾點(diǎn)需要注意:
(1)真正去落地是需要和具體的企業(yè)當(dāng)中的經(jīng)營管理痛點(diǎn)相結(jié)合,需要企業(yè)內(nèi)部的 IT 數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)一起解決問題。
(2)PDCA 的循環(huán)要做起來,走通一個(gè)閉環(huán)之后,后面要持續(xù)去迭代。
(3)不能夠期望僅僅依靠一個(gè)工具或者多個(gè)工具就能夠解決數(shù)據(jù)質(zhì)量的問題,它只能夠解決一部分的通用問題。

圖片

數(shù)據(jù)質(zhì)量的考量維度有很多分法,最重要的一個(gè)就是數(shù)據(jù)的真實(shí)性,它必須真實(shí)地去表達(dá)客觀實(shí)體或者真實(shí)的業(yè)務(wù)。其次還有準(zhǔn)確性或者叫可靠性,它適用于分析和識別那些不準(zhǔn)確無效數(shù)據(jù)的一些方法。
唯一性就需要我們?nèi)プR別,還有度量重復(fù)數(shù)據(jù),去掉冗余的數(shù)據(jù),重復(fù)的數(shù)據(jù)會導(dǎo)致業(yè)務(wù)很難協(xié)同。還有數(shù)據(jù)的完整性,如果說模型設(shè)計(jì)不完整,那數(shù)據(jù)會有很多缺失或者很難使用。一致性其實(shí)是現(xiàn)在數(shù)據(jù)質(zhì)量建設(shè)的重點(diǎn),因?yàn)閮?nèi)部的多源系統(tǒng),它的數(shù)據(jù)模型不統(tǒng)一,那它代表的各種約束也不一致,實(shí)體代表的含義也不一致。
數(shù)據(jù)的關(guān)聯(lián)性指的是比如有主外間關(guān)系,那兩者的分析結(jié)果也會有對應(yīng)的關(guān)聯(lián),然后及時(shí)性也是現(xiàn)在大家比較關(guān)心的數(shù)據(jù)質(zhì)量的問題,實(shí)時(shí)地能夠去反映我們的業(yè)務(wù)的狀況,然后對應(yīng)的快速?zèng)Q策實(shí)現(xiàn)在企業(yè)的一個(gè)非常重要的競爭力。

圖片

數(shù)據(jù)質(zhì)量出現(xiàn)問題的原因非常多。從技術(shù)角度來看,有可能會出現(xiàn)數(shù)據(jù)的不完整。數(shù)據(jù)源本身如果沒有做質(zhì)量的控制,數(shù)據(jù)就會比較雜亂。還有采集的過程當(dāng)中,如果對于采集數(shù)據(jù)的定義沒有理清楚,采集的數(shù)據(jù)可能和我們想要的不太一樣,傳輸過程當(dāng)中可能會有網(wǎng)絡(luò)閃斷,或者中間出現(xiàn)傳輸問題,數(shù)據(jù)有可能會丟失。
在業(yè)務(wù)方面最大的問題是業(yè)務(wù)團(tuán)隊(duì)和數(shù)據(jù)團(tuán)隊(duì)交流的時(shí)候,對于需求沒有互相對齊,或者需求不太明確,理解不一致。另外需求變更很頻繁也會導(dǎo)致質(zhì)量問題。在管理方面最大的難題是缺少管理的機(jī)構(gòu)和目標(biāo)機(jī)制。

圖片

下面舉個(gè)例子,比較適合于大型集團(tuán)。制度規(guī)范有數(shù)據(jù)質(zhì)量管理的規(guī)范,管理的辦法有考核辦法,有事中的監(jiān)控管理、事后的處理、事前的防范等相應(yīng)的方法。技術(shù)的規(guī)范和模板包括數(shù)據(jù)質(zhì)量的檢查規(guī)則。

圖片

數(shù)據(jù)質(zhì)量的考量維度可以根據(jù)不同的需求去評估,最重要的是我們能夠去解決具體的經(jīng)營管理的問題,從這個(gè)導(dǎo)向來出發(fā),把它轉(zhuǎn)變成對于數(shù)據(jù)的需求,從解決具體的某一個(gè)小問題出發(fā)去形成一個(gè)閉環(huán)。如果數(shù)據(jù)質(zhì)量的管控想要真正落地的話,KPI 績效是一個(gè)非常重要的點(diǎn)。
下面舉一個(gè)例子是如何去評估數(shù)據(jù)質(zhì)量管理的牽頭團(tuán)隊(duì),可以把它分成兩個(gè)方向。質(zhì)量問題本身可以有如下的這個(gè)角度,第一個(gè)是問題的個(gè)數(shù)、影響的范圍和嚴(yán)重的程度,考核對象可以是問題的個(gè)數(shù),考核對象就是數(shù)據(jù)管理團(tuán)隊(duì)的這個(gè)負(fù)責(zé)人。

圖片

質(zhì)量問題的處理可以根據(jù)問題的及時(shí)性來進(jìn)行評估,可以從事后治理、事中監(jiān)控還有事前防范三個(gè)方面進(jìn)行管理。

圖片

歷史數(shù)據(jù)是大多數(shù)企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量項(xiàng)目的第一步,數(shù)據(jù)質(zhì)量的事后治理可以從這個(gè)問題的發(fā)起,發(fā)現(xiàn)問題提交給相關(guān)方,然后制定解決問題的規(guī)則,去思考問題出現(xiàn)的基本原因和相關(guān)的影響范圍,最后制定出相關(guān)的方案進(jìn)行實(shí)施。

圖片

事中監(jiān)控最好是通過工具來執(zhí)行,它的輸入是根據(jù)過往經(jīng)驗(yàn)得到的梳理標(biāo)準(zhǔn)和業(yè)務(wù)的需求,把它轉(zhuǎn)變成 PDCA 自動(dòng)化的流程,對應(yīng)的標(biāo)準(zhǔn)轉(zhuǎn)變成數(shù)據(jù)質(zhì)量的監(jiān)控規(guī)則,在工具中進(jìn)行配置落地,并進(jìn)行實(shí)時(shí)的執(zhí)行,最終輸出數(shù)據(jù)質(zhì)量報(bào)告。

圖片

事前防范是最難的一項(xiàng),它是為了總結(jié)業(yè)務(wù)需求,編成經(jīng)過思考的一些模板。

圖片

對于數(shù)據(jù)質(zhì)量解決效果的評估可以從四個(gè)方面進(jìn)行評估,第一個(gè)是管理流程是不是夠完善,相應(yīng)的組織夠不夠健全。第二個(gè)是質(zhì)量規(guī)則的落地和識別。 

圖片

當(dāng)我們?nèi)ス芾頂?shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量時(shí),對應(yīng)的組織保障把它分成了 3 個(gè)類別,分別適用于不同的機(jī)構(gòu)。
第一種是集中式的,它的特點(diǎn)是數(shù)據(jù)管理的負(fù)責(zé)人和數(shù)據(jù)管理團(tuán)隊(duì)是專職的、永久的,他們對所有數(shù)據(jù)的產(chǎn)生、演變、維護(hù)進(jìn)行集中式的管控。這一種管控方式的優(yōu)勢是它有一個(gè)強(qiáng)有力的數(shù)據(jù)管理的專業(yè)組織,負(fù)責(zé)企業(yè)級的數(shù)據(jù)管理,職責(zé)明確,目標(biāo)清晰。組織是固定的,組織內(nèi)可以做專業(yè)化的分工,整個(gè)匯報(bào)條線清晰,自上而下的執(zhí)行具有驅(qū)動(dòng)力。
他的問題是對于數(shù)據(jù)管理人員的能力要求非常高,整個(gè)組織比較龐大,成本也比較高,其他部門可能沒有數(shù)據(jù)管理的能力,所以需要跨部門的溝通,成本比較高,對協(xié)作的要求也比較高。因?yàn)楸容^集中,所以容易僵化,會影響工作效率,所以這個(gè)集中式的方式非常適合于集團(tuán)企業(yè),比如大型的央企、大型的集團(tuán)。

圖片

第二種是聯(lián)邦方式,它的特點(diǎn)是在總部設(shè)立一個(gè)數(shù)據(jù)管理的負(fù)責(zé)人,對數(shù)據(jù)管理整體的活動(dòng)進(jìn)行協(xié)調(diào)管控,在各個(gè)業(yè)務(wù)單元設(shè)立專門的組織或者角色,他負(fù)責(zé)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管理工作。整個(gè)組織的成員可以是專人專崗,也可以是兼職。
它的優(yōu)勢是數(shù)據(jù)管理和業(yè)務(wù)管理可以更好地融合,可以根據(jù)職責(zé)的需要設(shè)置崗位,執(zhí)行效率比較高,同時(shí)它能夠比較好地實(shí)現(xiàn)橫向的協(xié)調(diào)和拉通。另外就是專業(yè)化的分工也具備,所以有助于團(tuán)隊(duì)對應(yīng)的能力的提升。它的挑戰(zhàn)是縱向需要加強(qiáng)組織影響力,還有協(xié)調(diào)能力,驅(qū)動(dòng)企業(yè)數(shù)據(jù)管理的工作。還有一個(gè)挑戰(zhàn)是數(shù)據(jù)管控的力度相對于集中式會弱一些,所以需要通過其他手段,比如評價(jià)進(jìn)行監(jiān)督。
第三種是分散式的,它的特點(diǎn)是不存在一個(gè)企業(yè)級的數(shù)據(jù)管理負(fù)責(zé)人,數(shù)據(jù)相關(guān)的活動(dòng)分散在各個(gè)部門,的成員也是以監(jiān)管為主,它的優(yōu)勢是每個(gè)業(yè)務(wù)單元能夠比較好地去理解自己的業(yè)務(wù),每個(gè)業(yè)務(wù)單元容易在單個(gè)的業(yè)務(wù)領(lǐng)域上和系統(tǒng)上實(shí)現(xiàn)數(shù)據(jù)管理的工作。
另外在應(yīng)用需求的基礎(chǔ)上樹立的問題可以在單部門中快速被解決,所以一般服務(wù)滿意度會相對比較高。挑戰(zhàn)是缺乏一個(gè)企業(yè)級的管理視角,跨業(yè)務(wù)部門的協(xié)作會比較困難。所以對于聯(lián)邦式比較適合于大部分的中小企業(yè)。

圖片

這個(gè)是對于集中式管理的組織保障的拆解,首先應(yīng)該有個(gè)決策組織,這決策組織可以是數(shù)據(jù)治理的委員會,然后在下面去做管理的應(yīng)該有一個(gè)數(shù)據(jù)治理的辦公室。對于每一個(gè)職能域都有對應(yīng)的負(fù)責(zé)人,在每個(gè)業(yè)務(wù)單元有對應(yīng)的數(shù)據(jù)的責(zé)任人,在 IT 層面也有對應(yīng)的比較明細(xì)的分工,去解決我們梳理當(dāng)中出現(xiàn)的問題。
02
工具和技術(shù)
接下來分享第二部分是數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量相關(guān)的工具。

圖片

首先去采集數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)部的信息模型,還有標(biāo)準(zhǔn)相關(guān)的文檔,把它轉(zhuǎn)變成標(biāo)準(zhǔn)管理系統(tǒng)中的一些內(nèi)容。然后標(biāo)準(zhǔn)當(dāng)中有些內(nèi)容可以轉(zhuǎn)變成質(zhì)量中的檢查規(guī)則,有些業(yè)務(wù)需求也可以變成數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則。他們會不斷調(diào)用統(tǒng)一的元數(shù)據(jù)管理內(nèi)容去進(jìn)行檢查。

圖片

這是系統(tǒng)管理數(shù)據(jù)元的演示。對于數(shù)據(jù)元可以去約束它的名稱、狀態(tài)、類型、數(shù)據(jù)格式、來源、關(guān)系等,這個(gè)標(biāo)準(zhǔn)可以映射到具體的表中字段進(jìn)行審核處理。

圖片

對于結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)比較好理解,那非結(jié)化數(shù)據(jù)標(biāo)準(zhǔn)有哪些方法進(jìn)行管理?
第一種方法是在業(yè)務(wù)場景中進(jìn)行治理,海量的非結(jié)構(gòu)化數(shù)據(jù)治理的成本非常高,所以必須在業(yè)務(wù)流程當(dāng)中識別出其中業(yè)務(wù)價(jià)值比較大的數(shù)據(jù)進(jìn)行治理,獲取最大的投資回報(bào)。在業(yè)務(wù)場景當(dāng)中提煉出關(guān)鍵數(shù)據(jù)和客戶現(xiàn)在系統(tǒng)中的數(shù)據(jù)進(jìn)行融合,通過數(shù)據(jù)服務(wù)的方式供業(yè)務(wù)去調(diào)用。
第二種是把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成結(jié)構(gòu)化數(shù)據(jù),用結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行管理。
第三種是映射結(jié)構(gòu)化的元數(shù)據(jù),簡化元數(shù)據(jù)模型。第四種方法是構(gòu)建一個(gè)非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)體系,把數(shù)據(jù)融合到數(shù)據(jù)資產(chǎn)管理當(dāng)中,通過對廢棄化數(shù)據(jù)資產(chǎn)進(jìn)行智能化的標(biāo)簽識別管理。

圖片

數(shù)據(jù)標(biāo)準(zhǔn)的映射在承接數(shù)據(jù)標(biāo)準(zhǔn)之后,很容易把它映射到具體的數(shù)據(jù)項(xiàng)當(dāng)中。

圖片

在過往的很多數(shù)據(jù)類的項(xiàng)目當(dāng)中,很多企業(yè)都進(jìn)行過數(shù)據(jù)質(zhì)量的相關(guān)管控,其中的重點(diǎn)是能夠把 PDCA 的整個(gè)閉環(huán)做好,從需求開始到最終形成規(guī)則去檢查,然后自動(dòng)化地去調(diào)度執(zhí)行,形成對應(yīng)的知識庫。

圖片

另外管理標(biāo)準(zhǔn)和質(zhì)量現(xiàn)在比較火的一個(gè)方向是主動(dòng)的數(shù)據(jù)治理,首先在數(shù)據(jù)進(jìn)入的時(shí)候,可以自動(dòng)把數(shù)據(jù)標(biāo)準(zhǔn)和具體的數(shù)據(jù)做關(guān)聯(lián),這個(gè)標(biāo)準(zhǔn)可以和建立數(shù)據(jù)模型的對應(yīng)的數(shù)據(jù)項(xiàng)關(guān)聯(lián)起來,之后在數(shù)據(jù)開發(fā)過程當(dāng)中可以去執(zhí)行,執(zhí)行完之后在生產(chǎn)調(diào)度過程當(dāng)中產(chǎn)生的新的數(shù)據(jù),對應(yīng)的標(biāo)準(zhǔn)規(guī)則會自動(dòng)執(zhí)行對它進(jìn)行評估。

圖片

另外一個(gè)能夠提升標(biāo)準(zhǔn)和質(zhì)量的比較新的一個(gè)方式是提供企業(yè)級的數(shù)據(jù)目錄,通過數(shù)據(jù)目錄形成數(shù)據(jù)資產(chǎn)的整個(gè)的詳細(xì)清單,清單的底層依賴元數(shù)據(jù)去管理數(shù)據(jù),它可以幫助分析師、科學(xué)家還有工程師快速找到他需要的數(shù)據(jù)。
03
典型案例
第三部分是典型案例??蛻舯旧砥谕軌蜃龅綌?shù)據(jù)資產(chǎn)化,數(shù)據(jù)能夠大集中,能夠統(tǒng)一的存儲和計(jì)算,能夠有一套先進(jìn)的數(shù)據(jù)架構(gòu),能夠有統(tǒng)一的規(guī)范打通各個(gè)業(yè)務(wù)單元,使用的時(shí)候能夠進(jìn)行數(shù)據(jù)化的運(yùn)營,能夠快速地讓數(shù)據(jù)為業(yè)務(wù)所用。整個(gè)項(xiàng)目分成幾個(gè)階段。

圖片

首先是滿足業(yè)務(wù)用戶的需要,對應(yīng)的是需要數(shù)據(jù)模型自助地讓業(yè)務(wù)去使用,同時(shí)有數(shù)據(jù)標(biāo)準(zhǔn)能夠去規(guī)范數(shù)據(jù)本身。主數(shù)據(jù)對應(yīng)的內(nèi)容能夠讓業(yè)務(wù)人員快速使用,并且業(yè)務(wù)之間、業(yè)務(wù)系統(tǒng)之間主數(shù)據(jù)能夠打通,形成統(tǒng)一的標(biāo)準(zhǔn)。

圖片

在這個(gè)項(xiàng)目當(dāng)中我們?yōu)榭蛻糇龅氖虑槭菢?gòu)建了數(shù)據(jù)治理體系。 

圖片

第二個(gè)典型案例是數(shù)據(jù)質(zhì)量的提升項(xiàng)目。客戶要求是希望能夠讓數(shù)據(jù)可知、可管、可視,希望能夠提升數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則覆蓋的業(yè)務(wù)領(lǐng)域,實(shí)現(xiàn)覆蓋各類營銷等業(yè)務(wù)系統(tǒng),讓集團(tuán)知道數(shù)據(jù)質(zhì)量的情況,有系統(tǒng)進(jìn)行自動(dòng)化的檢查,數(shù)據(jù)質(zhì)量對應(yīng)的指標(biāo)能夠可以及時(shí)感知,數(shù)據(jù)指標(biāo)本身能夠洞察業(yè)務(wù)驅(qū)動(dòng)數(shù)據(jù)價(jià)值的變現(xiàn)。
我們細(xì)分之后會發(fā)現(xiàn)可以分成這么幾類,第一個(gè)是對于單表質(zhì)量的檢測,這是針對 Hive code、 Oracle 等數(shù)據(jù)源類型的數(shù)據(jù)質(zhì)量的監(jiān)控。第二個(gè)是對流式數(shù)據(jù)質(zhì)量的檢測,針對 Kafka 類型的數(shù)據(jù)進(jìn)行檢查。第三個(gè)希望能夠進(jìn)行多表的數(shù)據(jù)比對分析,能夠設(shè)定各種規(guī)則。第四個(gè)能夠進(jìn)行數(shù)據(jù)指標(biāo)的分析。第五個(gè)是質(zhì)量的規(guī)則能夠關(guān)聯(lián)內(nèi)置的客戶已有模板,能夠自定義 SQL 的規(guī)則。最后是能夠進(jìn)行質(zhì)量規(guī)則的合規(guī)校驗(yàn),可以通過固定的閾值周期性統(tǒng)計(jì)波動(dòng)的方式來判定目標(biāo)是不是合規(guī)。

圖片

我們提供的數(shù)據(jù)質(zhì)量的監(jiān)控工具,可以提供多表的對比,所以可以針對這個(gè)源表和目標(biāo)表的記錄條數(shù),還有具體的數(shù)據(jù)進(jìn)行比對,可以及時(shí)告警發(fā)現(xiàn)問題。第二個(gè)具體的問題是數(shù)據(jù)質(zhì)量問題的紅綠燈機(jī)制,它的場景是每天都會進(jìn)行任務(wù)的加工過程,當(dāng)中可能會出現(xiàn)數(shù)據(jù)異常,比如異常如果影響業(yè)務(wù)的話,希望能夠阻斷并告知相關(guān)的責(zé)任人。

圖片

同時(shí)這個(gè)問題的處理希望能夠指派給不同等級的工單,給不同崗位的人去處理,面對這樣的需求,首先我們的工具里面可以設(shè)置強(qiáng)弱規(guī)則,工單系統(tǒng)可以設(shè)定不同的規(guī)則,給不同的人進(jìn)行處理。
04

問答環(huán)節(jié)

Q1:數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的規(guī)則是什么?
A1:我覺得有好幾個(gè)層面,第一個(gè)是純粹技術(shù)層面的評估,技術(shù)層面的評估可以去看,比如在這個(gè)工具上有了數(shù)據(jù)質(zhì)量的一些要求,這個(gè)要求在我們檢查實(shí)現(xiàn)的時(shí)候,實(shí)現(xiàn)的程度是不是滿足了業(yè)務(wù)的需要?第二個(gè)是現(xiàn)在圖中展示的,就是當(dāng)一個(gè)企業(yè)從組織層面想看一下數(shù)據(jù)質(zhì)量的整個(gè)執(zhí)行怎么樣?那它不僅僅是包括技術(shù)內(nèi)容本身,它還包含數(shù)據(jù)質(zhì)量的整個(gè)管理有沒有執(zhí)行到位。
Q2:數(shù)據(jù)模型是否屬于數(shù)據(jù)標(biāo)準(zhǔn)的范疇?
A2:是屬于的,我們可以看一下前面的數(shù)據(jù)治理的理論框架,就是數(shù)據(jù)標(biāo)準(zhǔn),它是一個(gè)典型的大詞,和建模相關(guān)、和架構(gòu)相關(guān)、和質(zhì)量相關(guān)。當(dāng)我們?nèi)タ磸V義的數(shù)據(jù)標(biāo)準(zhǔn)的時(shí)候,它有一些和數(shù)據(jù)治理相似的地方,比如它會要求組織保障上有對應(yīng)的人員,然后還有制度流程有沒有對應(yīng)的規(guī)范。那數(shù)據(jù)模型其實(shí)當(dāng)我們把它拆解開來的時(shí)候,會發(fā)現(xiàn)這個(gè)模型里面,比如主數(shù)據(jù)的,還有因?yàn)槟P瓦@個(gè)概念比較大,主數(shù)據(jù)本身是數(shù)據(jù)標(biāo)準(zhǔn)管理的一個(gè)范疇,那主數(shù)據(jù)管理我們對它還會有標(biāo)準(zhǔn)的要求。
Q3:現(xiàn)在有哪些數(shù)據(jù)標(biāo)準(zhǔn)?
A3:數(shù)據(jù)標(biāo)準(zhǔn)這邊有一個(gè)分類,如果是一個(gè)廣義的數(shù)據(jù)標(biāo)準(zhǔn)的話,會包含很多方面。但是我們看到我們?nèi)ビ懻摷?xì)而微的事情的時(shí)候,數(shù)據(jù)標(biāo)準(zhǔn)可以看里面的分類包含我們要對業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的管理,對主數(shù)據(jù)、參考數(shù)據(jù)還有指標(biāo)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的管理。
Q4:如何對歷史留存的建模或者指標(biāo)進(jìn)行統(tǒng)一的梳理標(biāo)準(zhǔn)?
A4:剛才我們?nèi)ブv數(shù)據(jù)質(zhì)量的時(shí)候,有一個(gè)事后管控,就是對存量數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的管理,最佳的實(shí)踐根據(jù)我們過往的經(jīng)驗(yàn),其實(shí)是我們先選擇。首先我們應(yīng)該有一個(gè)對應(yīng)的經(jīng)營管理當(dāng)中的痛點(diǎn),以這個(gè)痛點(diǎn)為抓手,然后我們?nèi)ふ疫@個(gè)數(shù)據(jù)所屬的那個(gè)主題域,我們可以拿一個(gè)小小的主題域作為其中的一個(gè)試點(diǎn),那這樣一種方式是相對而言比較容易落地的方式。
Q5:在啟動(dòng)數(shù)據(jù)治理項(xiàng)目后如何解決甲方信息部門無法協(xié)調(diào)各業(yè)務(wù)部門,導(dǎo)致各類組織架構(gòu)流程無法落地,只能停留在紙面上的問題?對乙方來說,如果要陪甲方無限度的持續(xù)治理,那項(xiàng)目的周期和成本如何處理?
A5:這個(gè)問題是作為乙方經(jīng)常遇到的很常見的問題,我個(gè)人的建議最好的解決方式還是甲方自己需要有一個(gè)組織的保障。我前面有一部分就是講我們的對于數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量,如果要落地的話,組織保障相應(yīng)的一些類別,我覺得可以參考這里面的內(nèi)容。
首先組織保障是第一位的,是最重要的,那有了這個(gè)組織保障我們要選擇,如果說是那種特別大的企業(yè)的話,其實(shí)需要有個(gè)強(qiáng)有力的數(shù)據(jù)治理的部門,他們需要有非常高的權(quán)威去推動(dòng)這件事情執(zhí)行落地。然后如果是相對中小型的話,可以選擇聯(lián)邦的這種方式。對于乙方如果要陪甲方無限度地持續(xù)治理項(xiàng)目的周期和成本如何處理?這個(gè)問題比較難以回答,我覺得最關(guān)鍵的其實(shí)是把我們的數(shù)據(jù)治理的范圍確定好,甲方是做無限期的持續(xù)數(shù)據(jù)治理的時(shí)候,如果出現(xiàn)這樣的問題,那是不是我們在做這個(gè)項(xiàng)目的前期沒有把這個(gè)邊界梳理得足夠清楚?然后它應(yīng)該是分階段的,然后數(shù)據(jù)治理應(yīng)該伴隨著一個(gè)企業(yè)的整個(gè)生命周期,所以每個(gè)階段只能做每個(gè)階段的事情,我覺得最關(guān)鍵應(yīng)該是把我們的整個(gè)的每個(gè)項(xiàng)目的這個(gè)邊界理清楚。
Q6:后續(xù)如果因?yàn)闃I(yè)務(wù)的變更,數(shù)據(jù)的口徑需要更改,是否可以低代碼完成維護(hù)操作?
A6:像這類問題的話其實(shí)是可以解決,有一類工具它可以做到數(shù)據(jù)指標(biāo)的可視化的管理。然后在這個(gè)數(shù)據(jù)指標(biāo)的定義過程當(dāng)中去設(shè)定口徑的時(shí)候,如果說需要更改,那可以在這類工具上進(jìn)行更改,更改之后他會把所有歷史數(shù)據(jù)進(jìn)行一個(gè)重算,通過這種方式就可以實(shí)現(xiàn)低代碼的方式完成工作。
Q7:從整個(gè)數(shù)據(jù)治理的理論,所謂治理的工作無法界定工作邊界,比如一個(gè)系統(tǒng)有 1000 張表,對其中關(guān)鍵表做數(shù)據(jù)質(zhì)量的治理,或者對所有表進(jìn)行治理,其工作量是完全不同的。而一個(gè)項(xiàng)目的預(yù)算是有邊界的,如何去界定數(shù)據(jù)的項(xiàng)目在界定數(shù)據(jù)治理范圍后,如何在項(xiàng)目結(jié)束時(shí)給需求方展示數(shù)據(jù)治理的實(shí)際價(jià)值?
A7:您問的這個(gè)問題非常好,治理一張表和千張表確實(shí)工作量是完全不一樣的,所以我們真正去落地?cái)?shù)據(jù)治理項(xiàng)目的時(shí)候,需要在確定邊界的時(shí)候,最好的一個(gè)邊界的點(diǎn)就是如何給需求方展示數(shù)據(jù)治理的這個(gè)價(jià)值。所以我們?nèi)?dòng)一個(gè)數(shù)據(jù)治理的項(xiàng)目,第一個(gè)就是要找到這個(gè)經(jīng)營管理當(dāng)中的痛點(diǎn),可以尋找其中的一個(gè)主題域,甚至說找到一個(gè)主題域當(dāng)中的一部分的關(guān)心的業(yè)務(wù)問題,先解決這一部分?jǐn)?shù)據(jù)的這個(gè)問題。所以這個(gè)是一個(gè)關(guān)鍵,就是我們從主題域的角度出發(fā)這個(gè)數(shù)據(jù)這個(gè)項(xiàng)目,還有要解決這個(gè)具體的經(jīng)營管理當(dāng)中的一些痛點(diǎn)問題。
Q8:數(shù)據(jù)質(zhì)量管理的效果如何評估?
A8:管理的效果的話,這邊有一個(gè)給大家的一個(gè)示例可以看一下,比如我們?nèi)ピu估這個(gè)數(shù)據(jù)質(zhì)量的管理效果的話,這四個(gè)維度偏向于管理維度,那我們可以增加一個(gè)維度,就是數(shù)據(jù)質(zhì)量真正解決了問題業(yè)務(wù)問題的不是業(yè)務(wù)痛點(diǎn)的個(gè)數(shù),所以這些結(jié)合起來的話就可以去評估管理的效果。
Q9:數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量有什么技術(shù)壁壘嗎?
A9:我覺得數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量最關(guān)鍵的點(diǎn)可能不是技術(shù)壁壘,最關(guān)鍵點(diǎn)應(yīng)該是我們經(jīng)營管理當(dāng)中對于標(biāo)準(zhǔn)和質(zhì)量的一個(gè)要求,找到這個(gè)突破點(diǎn)。然后另外的關(guān)鍵就是對應(yīng)的執(zhí)行過程當(dāng)中要把它形成一個(gè)閉環(huán),那這個(gè)閉環(huán)其中對標(biāo)準(zhǔn)和質(zhì)量的這個(gè)工具會有大量的這個(gè)定制化的一個(gè)要求。那這個(gè)定制化的要求怎么實(shí)現(xiàn)?我覺得可能是一個(gè)甲方企業(yè)需要去考慮的問題,因?yàn)樗鼱砍兜焦?yīng)商提供的一定是一個(gè)標(biāo)準(zhǔn)化的工具,所以我們這個(gè)甲方企業(yè)如何去把這一些我們的個(gè)性化的一些規(guī)則變成通用工具,在上面可以運(yùn)轉(zhuǎn)的這個(gè)規(guī)則盡量覆蓋質(zhì)量的問題。我覺得是我們這數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)量這兩個(gè)主題最關(guān)鍵需要解決的問題。

Q10:元數(shù)據(jù)能否自動(dòng)抽取和管理?

A10:其實(shí)這個(gè)是可以的,就是所有的數(shù)據(jù)的集成工具要能夠從源端去抽取數(shù)據(jù),首先要識別它的源數(shù)據(jù),所以元數(shù)據(jù)本身也是可以使用同類的工具去識別、抽取和管理的。
今天的分享就到這里,謝謝大家。

<END>

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日韩和欧美的一区二区三区| 免费高清欧美一区二区视频| 麻豆视频传媒入口在线看| 亚洲精品国男人在线视频| 亚洲一区二区三区三区| 熟女乱一区二区三区丝袜| 日本在线不卡高清欧美| 国产一区二区三区成人精品| 日韩欧美国产精品自拍| 免费大片黄在线观看国语| 久久精品国产亚洲av麻豆尤物| 欧美精品二区中文乱码字幕高清| 在线播放欧美精品一区| 亚洲中文字幕剧情在线播放| 国产日韩综合一区在线观看| 九九九热在线免费视频| 国产黄色高清内射熟女视频| 色老汉在线视频免费亚欧| 国产欧美高清精品一区| 亚洲av日韩一区二区三区四区| 一区二区福利在线视频| 99久久精品午夜一区| 国产亚洲不卡一区二区| 国产小青蛙全集免费看| 亚洲av又爽又色又色| 久久人妻人人澡人人妻| 免费黄片视频美女一区| 蜜桃传媒视频麻豆第一区| 黑鬼糟蹋少妇资源在线观看| 熟女白浆精品一区二区| 日韩中文高清在线专区| 久久99夜色精品噜噜亚洲av| 日韩中文字幕有码午夜美女| 国产av天堂一区二区三区粉嫩| 风间中文字幕亚洲一区| 偷拍洗澡一区二区三区| 青青操精品视频在线观看| 色婷婷视频免费在线观看| 久久99青青精品免费| 国产成人亚洲综合色就色| 国产精品视频第一第二区|