“石老師,Data Fabric(數(shù)據(jù)編織)你聽過嗎?據(jù)說在數(shù)據(jù)領(lǐng)域很火???”這是一個“談數(shù)據(jù)”讀者,去年10月份的時候在微信公眾號給我的留言。說來比較慚愧,當(dāng)時Data Fabric這個詞對我來說當(dāng)時雖然聽過,但也僅限于“聽過”!因為當(dāng)時我也只知道 'Data Fabric '是 Gartner 2021年十大數(shù)據(jù)和分析技術(shù)趨勢之一,但其具體工作原理、應(yīng)用場景卻知之甚少了……“Data Fabric”在國內(nèi)談?wù)摰谋容^少,但據(jù)說在國外已經(jīng)很火了,就如同2019年國內(nèi)的“數(shù)據(jù)中臺”一樣火!“Data Fabric”究竟是什么?這又是一場概念的炒作,還是真正的技術(shù)革新?這些問題一直困擾著我。于是,帶著這些問題,通過翻閱大量材料,終于發(fā)現(xiàn)了“Data Fabric”的“真相”!當(dāng)下,數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型重要驅(qū)動因素,而企業(yè)的數(shù)據(jù)環(huán)境日趨復(fù)雜:內(nèi)部數(shù)據(jù)/外部數(shù)據(jù),實時數(shù)據(jù)/批處理數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)/半結(jié)構(gòu)化數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù),本地數(shù)據(jù)/云端數(shù)據(jù),單機(jī)數(shù)據(jù)/分布式數(shù)據(jù)……,在更高程度數(shù)字化要求下,企業(yè)必須使用一種新型的數(shù)據(jù)結(jié)構(gòu)來應(yīng)對企業(yè)數(shù)據(jù)資產(chǎn)日益加劇的多樣化、分布式、規(guī)模、復(fù)雜性等問題。在這樣的背景下,一種新興的數(shù)據(jù)管理和處理方法——數(shù)據(jù)編織(Data Fabric)誕生了。Gartner認(rèn)為數(shù)據(jù)編織是一種跨平臺的數(shù)據(jù)整合方式,它不僅可以集合所有業(yè)務(wù)用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數(shù)據(jù)。 圖片來源:gartner 作為一種新興的數(shù)據(jù)管理和處理方法,數(shù)據(jù)編織改進(jìn)了數(shù)據(jù)倉庫和數(shù)據(jù)湖的概念,引入了一個新的架構(gòu)(網(wǎng)絡(luò)狀),使整個企業(yè)能夠統(tǒng)一利用數(shù)據(jù)。數(shù)據(jù)編織使用基于網(wǎng)絡(luò)的架構(gòu)而不是點對點的連接來處理數(shù)據(jù),實現(xiàn)了從數(shù)據(jù)源層面到分析、洞察力生成、協(xié)調(diào)和應(yīng)用的一體化數(shù)據(jù)結(jié)構(gòu)。據(jù)Gartner預(yù)測:數(shù)據(jù)編制利用分析功能來持續(xù)監(jiān)控數(shù)據(jù)管道,通過對數(shù)據(jù)資產(chǎn)的持續(xù)分析,支持各種數(shù)據(jù)的設(shè)計、部署和使用,縮短集成時間30%,縮短部署時間30%,縮短維護(hù)時間70%。數(shù)據(jù)編織的結(jié)構(gòu)和特點Gartner 將數(shù)據(jù)編織定義為一種設(shè)計概念,它充當(dāng)數(shù)據(jù)和連接過程的集成層(結(jié)構(gòu))。數(shù)據(jù)編織利用對現(xiàn)有、可發(fā)現(xiàn)的元數(shù)據(jù)資產(chǎn)的持續(xù)分析,以支持跨所有環(huán)境(包括混合云和多云平臺)設(shè)計、部署和利用集成和可重用數(shù)據(jù)。數(shù)據(jù)編織利用人和機(jī)器的能力來訪問數(shù)據(jù)或在適當(dāng)?shù)那闆r下支持其整合。它不斷地識別和連接來自不同應(yīng)用程序的數(shù)據(jù),以發(fā)現(xiàn)可用數(shù)據(jù)之間獨特的、與業(yè)務(wù)相關(guān)的關(guān)系,并通過分析獲得數(shù)據(jù)洞察力;通過快速訪問和基于圖譜的元數(shù)據(jù)理解提供比傳統(tǒng)數(shù)據(jù)管理更多的價值。下圖是Gartner給出的數(shù)據(jù)編織的典型結(jié)構(gòu),至下而上分為5個層次:數(shù)據(jù)源層:數(shù)據(jù)編織可以連接各種數(shù)據(jù)源。這些資源可能存在于企業(yè)內(nèi)部,例如企業(yè)的ERP系統(tǒng)、CRM系統(tǒng)或人力資源系統(tǒng) 。還可以連接到非結(jié)構(gòu)化數(shù)據(jù)源,例如,支持 PDF 和屏幕截圖等文件提交系統(tǒng),支持物聯(lián)網(wǎng)傳感器的接入。數(shù)據(jù)編織還可以從公共可用數(shù)據(jù)(如社交媒體)等外部系統(tǒng)中提取數(shù)據(jù)。數(shù)據(jù)目錄層:與傳統(tǒng)人工編目不同,數(shù)據(jù)編織強(qiáng)調(diào)采用新技術(shù),例如:語義知識圖、主動元數(shù)據(jù)管理和嵌入式機(jī)器學(xué)習(xí) (ML),自動識別元數(shù)據(jù),持續(xù)分析關(guān)鍵指標(biāo)和統(tǒng)計數(shù)據(jù)的可用元數(shù)據(jù),然后構(gòu)建圖譜模型,形成基于元數(shù)據(jù)的獨特和業(yè)務(wù)相關(guān)關(guān)系,以易于理解的圖譜方式描述元數(shù)據(jù)。 知識圖譜層:數(shù)據(jù)編織必須構(gòu)建和管理知識圖譜。知識圖譜的語義層使用 AI/ML 算法簡化數(shù)據(jù)集成設(shè)計,使其更加直觀和易于解釋,使數(shù)字化領(lǐng)導(dǎo)者的分析變得容易。 基于知識圖譜的數(shù)據(jù)應(yīng)用,將合適的數(shù)據(jù)在合適的時機(jī)自動化推送給數(shù)據(jù)集成專家和數(shù)據(jù)工程師,讓他們能夠輕松訪問數(shù)據(jù)并進(jìn)行數(shù)據(jù)共享和使用。數(shù)據(jù)集成層:數(shù)據(jù)編織提供自動編織、動態(tài)集成的能力,兼容各種數(shù)據(jù)集成方式,包括但不限于 ETL、流式傳輸、復(fù)制、消息傳遞和數(shù)據(jù)虛擬化或數(shù)據(jù)微服務(wù)等。同時,支持通過 API 支持與內(nèi)部和外部利益相關(guān)者共享數(shù)據(jù)。數(shù)據(jù)消費層:數(shù)據(jù)編織面向所有類型的數(shù)據(jù)用戶,提供數(shù)據(jù)和服務(wù),包括:數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)集成專家、數(shù)據(jù)工程師等,既能夠面向?qū)I(yè)的IT 用戶的復(fù)雜集成需求處理,也可以支持業(yè)務(wù)人員的自助式數(shù)據(jù)準(zhǔn)備和分析。數(shù)據(jù)編織與數(shù)據(jù)中臺數(shù)據(jù)編織,乍一看是不是很眼熟,是不是有種“似曾相識”的趕腳,是不是與我們的“數(shù)據(jù)中臺”的概念有點像?在主流的數(shù)據(jù)中臺概念中,也強(qiáng)調(diào)支持各種數(shù)據(jù)源(結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的),提供數(shù)據(jù)目錄、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)分析等服務(wù),提供數(shù)據(jù)資產(chǎn)的動態(tài)化管理,支持為不同數(shù)據(jù)用戶提供數(shù)據(jù)服務(wù),解決企業(yè)的數(shù)據(jù)孤島,讓數(shù)據(jù)用起來。這些特點都與數(shù)據(jù)編織很相似,只不過數(shù)據(jù)編織更強(qiáng)調(diào)人工智能和知識圖譜的應(yīng)用。因此,也有專家提出“數(shù)據(jù)編織是數(shù)據(jù)中臺的一下站!”。筆者認(rèn)為數(shù)據(jù)中臺與數(shù)據(jù)編織還并不是一個概念,更不像是數(shù)據(jù)中臺的高級版本,以下是筆者理解的數(shù)據(jù)中臺與數(shù)據(jù)編織之間的關(guān)系和差異,如有偏頗,還請斧正。第一,數(shù)據(jù)中臺并不是全新的技術(shù)和產(chǎn)品,更多是由一些技術(shù)組件組合而形成的一個綜合性的數(shù)據(jù)應(yīng)用解決方案,例如:基于數(shù)據(jù)湖的數(shù)據(jù)存儲服務(wù)、基于各種數(shù)據(jù)管理組件的數(shù)據(jù)治理服務(wù),基于大數(shù)據(jù)平臺的數(shù)據(jù)計算和處理服務(wù),以及提供面向應(yīng)用的數(shù)據(jù)標(biāo)簽、數(shù)據(jù)目錄、數(shù)據(jù)分析、模型算法服務(wù)等。而數(shù)據(jù)編織是側(cè)重于統(tǒng)一多樣化和分布式數(shù)據(jù)資產(chǎn)的功能,為應(yīng)對復(fù)雜的混合數(shù)據(jù)環(huán)境所面臨的挑戰(zhàn)而設(shè)計,是一種架構(gòu)設(shè)計方式,強(qiáng)調(diào)自動化的數(shù)據(jù)集成、整合和治理。第二,數(shù)據(jù)中臺是一個“讓數(shù)據(jù)用起來”的方法論,不僅包含數(shù)據(jù)管理和使用的相關(guān)技術(shù)組件,還包括與之相適應(yīng)的企業(yè)組織機(jī)構(gòu)、管理制度和流程、運營機(jī)制和考核辦法等。而數(shù)據(jù)編織一開始就強(qiáng)調(diào)新技術(shù)的應(yīng)用,例如:機(jī)器學(xué)習(xí)、人工智能、知識圖譜的等,且構(gòu)建和管理知識圖譜是其核心支持從數(shù)據(jù)源級別到分析、洞察力生成、編排和應(yīng)用程序的集成數(shù)據(jù)層(結(jié)構(gòu)),數(shù)據(jù)編織的技術(shù)色彩更濃一些。第三,數(shù)據(jù)中臺需要有專業(yè)的管理和運營團(tuán)隊才能發(fā)揮作用,這個團(tuán)隊往往是由IT部門承擔(dān)。而數(shù)據(jù)編織則強(qiáng)調(diào)更少的IT干預(yù),數(shù)據(jù)編織的重要特征依賴于一組預(yù)建和預(yù)配置的組件,從原始數(shù)據(jù)到經(jīng)過處理和可操作的信息,這些信息或系統(tǒng)通常托管在云端,由經(jīng)驗豐富的服務(wù)提供商管理。這意味著,數(shù)據(jù)編織的實施和維護(hù)數(shù)據(jù)中,不需要太多的IT部門參與。基于以上幾點,可見數(shù)據(jù)中臺與數(shù)據(jù)編織是兩個概念,如果硬要和數(shù)據(jù)中臺比較的話,我倒是認(rèn)為數(shù)據(jù)編織可以作為數(shù)據(jù)中臺的一部分,畢竟數(shù)據(jù)中臺爭議頗多,至今也沒有一個標(biāo)準(zhǔn)的定義,多增加一些內(nèi)容倒也無妨,哈哈~數(shù)據(jù)編織與數(shù)據(jù)治理大家都知道,數(shù)據(jù)治理是對數(shù)據(jù)管理的管理,它是基于內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)、策略和規(guī)則,管理企業(yè)數(shù)據(jù)的可用性、完整性和安全性,從而將數(shù)據(jù)轉(zhuǎn)化為企業(yè)資產(chǎn)。數(shù)據(jù)治理涵蓋了數(shù)據(jù)管理的各種主題,例如:數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模、數(shù)據(jù)存儲和操作、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)集成和互操作性、文檔和內(nèi)容、參考數(shù)據(jù)和主數(shù)據(jù)、數(shù)據(jù)倉庫和商業(yè)智能等。 在傳統(tǒng)的數(shù)據(jù)治理體系中是沒有包含數(shù)據(jù)編織的,但Data Fabric是一種數(shù)據(jù)管理的全新架構(gòu),筆者認(rèn)為數(shù)據(jù)編織將是自動化、智能化數(shù)據(jù)治理的一個理想解決方案,從數(shù)據(jù)架構(gòu)層面增強(qiáng)了企業(yè)數(shù)據(jù)管理的能力。數(shù)據(jù)編織提供了基于知識圖譜的統(tǒng)一語義描述層,使業(yè)務(wù)用戶能夠輕松發(fā)現(xiàn)和訪問相關(guān)的數(shù)據(jù);數(shù)據(jù)編織使用先進(jìn)的人工智能、機(jī)器學(xué)習(xí)算法連接不同數(shù)據(jù)源的數(shù)據(jù)以及數(shù)據(jù)之間的業(yè)務(wù)關(guān)系,建立知識圖譜,提供持續(xù)分析能力,以衡量和識別與數(shù)據(jù)相關(guān)的各種業(yè)務(wù)價值和風(fēng)險。數(shù)據(jù)編織支持各種數(shù)據(jù)源的連接,本地化管理企業(yè)內(nèi)部、外部、云端的數(shù)據(jù)資產(chǎn)的元數(shù)據(jù);通過AI/ML技術(shù),自動化應(yīng)用策略、使得審計合規(guī)性和識別系統(tǒng)中的潛在數(shù)據(jù)漏洞變得更加容易;自動化和人工智能的應(yīng)用增強(qiáng)了數(shù)據(jù)跟蹤和路線查詢能力;通過整合所有數(shù)據(jù)環(huán)境,落地整體數(shù)據(jù)治理和安全流程集中且一致的治理體系。數(shù)據(jù)編制的設(shè)計和部署天然具備跨分布式的多種基礎(chǔ)設(shè)施環(huán)境的數(shù)據(jù)進(jìn)行集成能力,提供為孤立的數(shù)據(jù)源自動創(chuàng)建數(shù)據(jù)集成管道,支持ETL、流式傳輸、復(fù)制、消息集成、web服務(wù)、API接口等多種集成管道。通過預(yù)定義的數(shù)據(jù)集成策略自助、動態(tài)獲取最新的數(shù)據(jù)資產(chǎn),讓企業(yè)的數(shù)據(jù)資產(chǎn)可見、可查、可管、可用!數(shù)據(jù)編織是一個先進(jìn)的數(shù)據(jù)管理架構(gòu),采用人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)湖以及其他平臺和技術(shù)對不同數(shù)據(jù)源進(jìn)行自助編排,確保企業(yè)全面了解所有數(shù)據(jù)環(huán)境中的數(shù)據(jù)管道。數(shù)據(jù)編織支持?jǐn)?shù)據(jù)的統(tǒng)一生命周期管理,用于配置和管理數(shù)據(jù)的各個方面,包括數(shù)據(jù)驅(qū)動應(yīng)用的開發(fā)、運營、測試和生產(chǎn)發(fā)布。 不得不承認(rèn),在科技創(chuàng)新方面,我們與美國還是有很大差距的。就拿數(shù)據(jù)編織這個全新的數(shù)據(jù)架構(gòu)來講,在國內(nèi)還未見到應(yīng)用案例,但在國外已經(jīng)形成了最佳實踐。以下內(nèi)容是根據(jù)國內(nèi)的一些公開材料,整理出來的5個數(shù)據(jù)編織應(yīng)用實踐。我們先來回顧一下什么是DataOps。DataOps是一種工程方法論和一套實踐方法,旨在快速、可靠、可重復(fù)、持續(xù)地交付生產(chǎn)就緒數(shù)據(jù)以及運營就緒分析和數(shù)據(jù)科學(xué)模型。DataOps 通過支持?jǐn)?shù)據(jù)版本控制、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)血緣和分析模型的工程學(xué)科來增強(qiáng)和推進(jìn)數(shù)據(jù)治理。雖然Data Fabric和DataOps不是相同的概念,但DataOps是將Data Fabric真正落地一個重要的推動者。DataOps 流程模型,數(shù)據(jù)流程、工具和數(shù)據(jù)洞察與用戶之間存在密切的聯(lián)系。用戶可以持續(xù)依賴數(shù)據(jù),有意義地利用可用工具,并通過數(shù)據(jù)洞察力來優(yōu)化業(yè)務(wù)運營。該模型與數(shù)據(jù)編織的架構(gòu)具有共生關(guān)系。如果沒有 DataOps 流程模型和思維模式,用戶將難以充分利用數(shù)據(jù)編織。構(gòu)建數(shù)據(jù)編織時的一個常見問題是它可能最終變成另一個數(shù)據(jù)湖。如果企業(yè)擁有所有架構(gòu)組件——數(shù)據(jù)源、分析、BI 算法、數(shù)據(jù)傳輸和數(shù)據(jù)消費——但沒有 API 和 SDK,那么結(jié)果就不是真正的數(shù)據(jù)編織。 數(shù)據(jù)編織是一種架構(gòu)設(shè)計方式,而不是單一技術(shù)。組件之間的互操作性和集成準(zhǔn)備是該設(shè)計的定義特征。這就是為什么企業(yè)需要特別關(guān)注集成層、無縫數(shù)據(jù)傳輸以及自動洞察的獲得,通過API和SDK實現(xiàn)。云供應(yīng)商傾向于將客戶綁定在他們的服務(wù)中,這使得數(shù)據(jù)遷移、集成、整合對企業(yè)來說是一項成本高昂且具有挑戰(zhàn)性的工作。數(shù)據(jù)編織必須面向企業(yè)復(fù)雜的數(shù)據(jù)環(huán)境提供集成整合能力,克服在維護(hù)多樣化的數(shù)據(jù)存儲和基礎(chǔ)設(shè)施部署組合方面的技術(shù)挑戰(zhàn)。企業(yè)可以根據(jù)不斷變化的技術(shù)和業(yè)務(wù)需求,自由地從一系列混合 IT 基礎(chǔ)架構(gòu)資源中運行關(guān)鍵任務(wù)數(shù)據(jù)驅(qū)動的 IT 服務(wù)、應(yīng)用程序、存儲和訪問。邊緣計算專為支持物聯(lián)網(wǎng)實施而構(gòu)建,它是將與數(shù)據(jù)相關(guān)的關(guān)鍵任務(wù)從集中式應(yīng)用程序轉(zhuǎn)移到一個單獨的邊緣層,該邊緣層是分布式的,但與數(shù)據(jù)編織緊密相連。通過使數(shù)據(jù)編織適配邊緣計算,企業(yè)可以從其物聯(lián)網(wǎng)設(shè)備中獲得更多數(shù)據(jù)價值。 例如,智能工廠可以使用數(shù)據(jù)編織與邊緣數(shù)據(jù)深度融合,可自動計算貨物集裝箱的重量,并自動啟動揀貨流程。通過邊緣數(shù)據(jù)編織加速業(yè)務(wù)決策并實現(xiàn)自動化操作,這是傳統(tǒng)集中式數(shù)據(jù)倉庫無法做到的。圖數(shù)據(jù)庫是關(guān)系數(shù)據(jù)庫的一種更智能的替代方案,它有助于使用知識圖譜來可視化元數(shù)據(jù)和數(shù)據(jù)關(guān)系。圖數(shù)據(jù)庫使用語義上下文豐富數(shù)據(jù),以了解信息的含義,而不僅僅是文本字符串。 由圖分析提供支持的知識圖譜是數(shù)據(jù)編織的理想解決方案——數(shù)據(jù)編織架構(gòu)的主要目的是實現(xiàn)對不同數(shù)據(jù)源的整體使用而不是重復(fù)使用。知識圖譜可以通過分析數(shù)據(jù)源之間的關(guān)系來提供業(yè)務(wù)和運營洞察力。與關(guān)系數(shù)據(jù)庫方法相比,它更擅長集成不同的數(shù)據(jù),并且挖掘出業(yè)務(wù)人員更關(guān)心的“洞見”。參考文獻(xiàn): 奇拉迪普·巴蘇馬利克《What Is Data Fabric?》 Gartner 《Gartner 2022年12大戰(zhàn)略技術(shù)趨勢》
|