ETLETL,是Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換及加載,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對(duì)象并不限于數(shù)據(jù)倉庫。 ETL所描述的數(shù)據(jù)操作過程,一般常見的作法包含ETL或是ELT(Extract-Load-Transform),并且混合使用。通常越大量的數(shù)據(jù)、復(fù)雜的轉(zhuǎn)換邏輯、目的端為較強(qiáng)運(yùn)算能力的數(shù)據(jù)庫,越偏向使用ELT,以便運(yùn)用目的端數(shù)據(jù)庫的平行處理能力。 ODS ODS是Operational Data Store的縮寫,即操作性數(shù)據(jù)庫。 ODS是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個(gè)可選部分。ODS操作性數(shù)據(jù),是作為數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡,ODS的數(shù)據(jù)結(jié)構(gòu)一般與數(shù)據(jù)來源保持一致,便于減少ETL的工作復(fù)雜性,而且ODS的數(shù)據(jù)周期一般比較短。 ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征。數(shù)據(jù)倉庫隨著時(shí)間和業(yè)務(wù)的變化,會(huì)不斷往里追加數(shù)據(jù)內(nèi)容,也會(huì)不斷刪掉舊的數(shù)據(jù)內(nèi)容。數(shù)倉中的每個(gè)表格,都會(huì)有對(duì)應(yīng)的“生命周期”。 ODS在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個(gè)隔離層。ODS為了考慮后續(xù)可能需要追溯數(shù)據(jù)問題,因此對(duì)于這一層就不建議做過多的數(shù)據(jù)清洗工作,原封不動(dòng)地接入原始數(shù)據(jù)即可,至于數(shù)據(jù)的去噪、去重、異常值處理等過程可以放在后面的DWD層來做。 inmon贊成使用高度范式化的數(shù)據(jù)模型來為ODS建模,而kimball提倡使用維度建模來實(shí)現(xiàn)ODS,和后面的DW、DM使用統(tǒng)一的維表。? DWD ? |
|