企業(yè)的數(shù)據(jù)分析能力金字塔前面解析作者:餅干君 寫在前面 我寫這篇文章的初衷源于兩個故事: 故事一:一位在互聯(lián)網(wǎng)行業(yè)做數(shù)據(jù)庫架構(gòu)多年的同事一起吃飯,問起我現(xiàn)在在說什么,我說自己在做醫(yī)療方面的數(shù)據(jù)分析,同事笑,說:你有很多資源啊,只要你能拿到電子病例的數(shù)據(jù),就能分析很多東西了……我臉上的微笑表情瞬間僵化! 故事二:當時為內(nèi)蒙一個企業(yè)做上游原材料供應(yīng)商的數(shù)據(jù)管理項目,當時我們拿到的只是該企業(yè)小部分供應(yīng)商的數(shù)據(jù),下一階段計劃拿到其全國供應(yīng)商的相關(guān)數(shù)據(jù)給該企業(yè)進行管理支持。有一天,我們的項目負責人很興奮,高興地對我說:后面我們拿到所有供應(yīng)商的數(shù)據(jù)后,我們做的就是“真正的大數(shù)據(jù)”了,你要考慮一下后面的大數(shù)據(jù)分析如何做啊……我臉上的微笑再一次僵化! 大家覺得以上兩個故事如何?我當時內(nèi)心是有一萬頭羊駝奔騰而過的~~ 我寫這篇文章的目的很簡單,就是希望向不了解數(shù)據(jù)分析體系建設(shè)的朋友們解釋一下:數(shù)據(jù)分析到底都包括些什么?從完成數(shù)據(jù)采集到做出數(shù)據(jù)產(chǎn)品,到底有多遠的路程要走?我在工作的過程中碰到過很多企業(yè)老板、客戶以及我的領(lǐng)導(dǎo),他們對數(shù)據(jù)分析的理解之淺薄,讓我覺得難以置信。和他們交流之后的感觸,促使我寫了這篇文章。 正文 1.數(shù)據(jù)分析本身是一個過程數(shù)據(jù)分析是企業(yè)的一種能力;數(shù)據(jù)分析本身是一個過程;數(shù)據(jù)分析的本質(zhì)是一種思想。 數(shù)據(jù)分析是一個過程——企業(yè)利用這一過程將數(shù)據(jù)中的信息提取出來,進行處理、識別、加工、呈現(xiàn),最后成為指導(dǎo)企業(yè)經(jīng)營管理的知識和智慧。因而,企業(yè)利用這一過程的成熟程度,決定了企業(yè)使用數(shù)據(jù)的有效程度。 影響這一過程的因素有四個:(如果有不同意見,還請大家補充) 1、技術(shù)和方法:我們的信息采集技術(shù)、數(shù)據(jù)庫架構(gòu)、數(shù)據(jù)處理技術(shù)、算法、可視化等都會在很大程度上對這一過程產(chǎn)生根本性的限制或改變,這就是為什么分布式存儲、運算等技術(shù)成熟后,大數(shù)據(jù)這一概念被熱捧的一個原因; 2、數(shù)據(jù)的應(yīng)用:更準確的說數(shù)據(jù)應(yīng)用在一個企業(yè)、一個行業(yè)甚至全社會中被理解的程度有多深、使用范圍有多廣,決定了你的數(shù)據(jù)影響力能夠達到的程度; 3、商務(wù)模式:這是一個當數(shù)據(jù)能力在市場中體現(xiàn)時才會發(fā)揮作用的因素,好的商務(wù)模式可以為行業(yè)內(nèi)、跨行業(yè)的數(shù)據(jù)應(yīng)用、數(shù)據(jù)產(chǎn)品提供好的商業(yè)環(huán)境,幫助其成長;而壞的商務(wù)模式也可能毀掉一個好的數(shù)據(jù)產(chǎn)品; 4、制度和規(guī)則:制度和規(guī)則既有國家層面的,例如數(shù)據(jù)安全保障方面的法規(guī);也有行規(guī)、企業(yè)內(nèi)部制度等。這些制度和規(guī)則保障了數(shù)據(jù)能夠被人們用在需要且正確的地方,而不是被濫用(某種程度上,制度和規(guī)則的缺失也是造成數(shù)據(jù)安全問題、行業(yè)數(shù)據(jù)標準混亂的主要原因)。 在我看來,從拿到數(shù)據(jù)到將數(shù)據(jù)中的知識提煉成人類的智慧,這是一個很長的過程,有可能一年甚至幾年(但是很多人把這個過程想得太短了)。 首先,想要分析數(shù)據(jù)你要獲取數(shù)據(jù)。獲取數(shù)據(jù)這個過程如果是線上還相對容易,如果是線下就非常復(fù)雜,這也是為什么現(xiàn)在實體行業(yè)推進“互聯(lián)網(wǎng)+”如此緩慢的一個原因。 其次,得到數(shù)據(jù)之后,如何整理才能讓數(shù)據(jù)變成信息,也是個“技術(shù)活”。這里涉及到數(shù)據(jù)的清洗、整理、關(guān)聯(lián)等等問題,最麻煩的還不是做這些工作,而是隨著我們對數(shù)據(jù)認識的加深,這些工作總是不定時地就要返工修繕一遍——這也是沒有辦法的事情! 再次,數(shù)據(jù)整理得到的信息是海量的,需要經(jīng)過加工、提取、抽象等操作,提煉成為各項知識被人腦理解、吸收,這個過程就涉及到各種分析方法的使用,而且這也是個隨著對業(yè)務(wù)認識的加深而逐漸復(fù)雜的過程,金融領(lǐng)域的風控模型、宏觀經(jīng)濟領(lǐng)域的福利模型等等,都是發(fā)展多年并逐步演進的例子。 最后,人們在各個業(yè)務(wù)領(lǐng)域通過數(shù)據(jù)得到知識,在很多情況下可以重復(fù)應(yīng)用在不同的領(lǐng)域,并與其他領(lǐng)域的知識相融合,形成新的生產(chǎn)生活方式。每個領(lǐng)域的知識內(nèi)容如何相互融合,也是一個需要長期實踐和探索的過程,“產(chǎn)品”這一概念從誕生到現(xiàn)在的發(fā)展過程,就是一個很好的例子。 我把上述過程做了一個簡單的比喻幫助大家理解: 采集到的原始數(shù)據(jù)就像是一個一個的沙礫,在沒有任何整合的情況下都是“一堆一堆的”; 數(shù)據(jù)處理的過程就是把沙堆中的雜質(zhì)去掉,把每種顏色的沙礫區(qū)分開,再通過不同的工藝使其成為不同的磚塊; 每個磚塊在建造數(shù)據(jù)大廈的過程中都有不同的用處,我們會按照圖紙(就是數(shù)據(jù)分析體系)將不同的磚塊用在適當?shù)慕ㄖ恢蒙希?/span> 數(shù)據(jù)大廈構(gòu)建完成后,每個房間里面要完成的工作都各不相同,到底如何運用,就要看大廈使用者的安排了。 那么,我們就來看看企業(yè)到底要做些什么,才能完成從數(shù)據(jù)采集到智慧積累的這一過程。 2.企業(yè)的數(shù)據(jù)能力層級個人認為,企業(yè)的數(shù)據(jù)分析能力層級大概可以分為七級(這里列出七個能力層級是強調(diào)底層基礎(chǔ)數(shù)據(jù)采集的意思):基礎(chǔ)IT系統(tǒng)的搭建、數(shù)據(jù)集中與標準化處理、數(shù)據(jù)報表及可視化的實現(xiàn)、日常產(chǎn)品和運營分析、精細化運營管理的實現(xiàn)、數(shù)據(jù)產(chǎn)品的輸出和變現(xiàn)、數(shù)據(jù)戰(zhàn)略的形成。 個人水平有限,最后的數(shù)據(jù)戰(zhàn)略從沒接觸過,所以這里不做闡述。 可能有同行會對這個金字塔的層級不認同,而且大部分專家也認為這幾個部分是平級關(guān)系,不存在高低關(guān)系……我這里這樣列出來只是為了說明“要做到每個層級的水平,該層級以下的內(nèi)容都是支撐這些層級的必要條件”而已,實際中的確是存在諸如“數(shù)據(jù)產(chǎn)品已經(jīng)完成上線,但是數(shù)據(jù)可視化還停留在需要人工完成報表的階段”這樣的情況。 (在互聯(lián)網(wǎng)行業(yè)中,往往數(shù)據(jù)產(chǎn)品是最先出現(xiàn)的,而后才產(chǎn)生數(shù)據(jù)采集及后續(xù)內(nèi)容,因為有了產(chǎn)品之后才會有業(yè)務(wù)流程;但是在實體行業(yè)中,線下業(yè)務(wù)流程是已有的,不需要等數(shù)據(jù)產(chǎn)品產(chǎn)生后才有業(yè)務(wù)流程,所以二者的數(shù)據(jù)分析構(gòu)建過程完全不同。我這里對互聯(lián)網(wǎng)產(chǎn)品領(lǐng)域不做考慮。)
2.1.基礎(chǔ)IT系統(tǒng)最底層的“基礎(chǔ)IT系統(tǒng)”是一切數(shù)據(jù)分析的基礎(chǔ),因為它最重要的作用就是完成“數(shù)據(jù)采集”。 “基礎(chǔ)IT系統(tǒng)”,這里主要指的就是我們各個企業(yè)在實際生產(chǎn)中使用的軟件系統(tǒng)及其配套的硬件設(shè)備,如:網(wǎng)絡(luò)世界中的一串串抓取代碼,真實世界中的諸如醫(yī)院里的醫(yī)學(xué)影像設(shè)備和其他傳感器、探測器,財務(wù)使用的財務(wù)管理軟件等等,這些系統(tǒng)解決了我們口中的“數(shù)據(jù)采集”問題,正是因為有了這些基礎(chǔ)的IT系統(tǒng)(包括軟件和硬件),我們才能將生活中的所有一切數(shù)字化、可度量。 解決了最基本的“數(shù)據(jù)采集”問題之后,是不是意味這我們就有數(shù)據(jù)了呢?NO!從數(shù)據(jù)采集系統(tǒng)中拿到的信息有這樣幾個特點:割裂的、碎片化的、無序的,它們必須經(jīng)過處理之后才能用于使用,因而我們需要進入到下一個階段“數(shù)據(jù)集中與標準化”。 2.2.數(shù)據(jù)集中與標準化在“數(shù)據(jù)集中與標準化”這一層級中,我們要實現(xiàn)的是數(shù)據(jù)的集中管理與相互融合,打破數(shù)據(jù)壁壘,讓數(shù)據(jù)能夠正常地在企業(yè)內(nèi)流動。如果把數(shù)據(jù)比作企業(yè)運營的血液,那么我們要做的就是打通所有的血管,讓血液自由地流動。 因而,這一階段的工作并不只是“數(shù)據(jù)集中”和“數(shù)據(jù)標準化”兩件事情,需要做的內(nèi)容大概包括:(如有缺少的部分還請大家補充) 1、數(shù)據(jù)清理: 這個步驟解決的問題是將系統(tǒng)采集到的內(nèi)容轉(zhuǎn)化為人類能夠理解的數(shù)據(jù)內(nèi)容,主要有兩個方面:一是清理原始數(shù)據(jù),使之完整、干凈無雜質(zhì);二是將采集到的一些編碼信息轉(zhuǎn)化為人能看懂的文字、數(shù)字等數(shù)據(jù)。 2、數(shù)據(jù)邏輯和數(shù)據(jù)結(jié)構(gòu)的搭建: 每個系統(tǒng)中的數(shù)據(jù)描述的都只是企業(yè)業(yè)務(wù)流程中的一部分,因此梳理業(yè)務(wù)流程,按照業(yè)務(wù)流程找到各個系統(tǒng)之間數(shù)據(jù)的銜接點,從而實現(xiàn)多領(lǐng)域數(shù)據(jù)的關(guān)聯(lián)。 第一步,根據(jù)業(yè)務(wù)邏輯,需要將數(shù)據(jù)分別劃分為多少類?每一類的字段、緯度、統(tǒng)計周期等都是什么樣的?每一類數(shù)據(jù)需要多少層匯總?……這些問題首先將數(shù)據(jù)從采集的清單分離出來,成為一個個數(shù)據(jù)體系; 第二步,在考慮數(shù)據(jù)關(guān)聯(lián)邏輯方面,需要考慮三個方面: 1)關(guān)聯(lián)使用的“主鍵”需要在各個系統(tǒng)中實現(xiàn)統(tǒng)一,即在各個相關(guān)的系統(tǒng)中,對于同一內(nèi)容的同一主鍵是相同的,例如:在電信系統(tǒng)中,用戶ID是個在所有相關(guān)系統(tǒng)中可以唯一標識用戶的主鍵,而非手機號碼; 2)各個系統(tǒng)中數(shù)據(jù)的時間顆粒度統(tǒng)一才能保證主鍵關(guān)聯(lián)的有效使用,例如表格A是每日最新數(shù)據(jù),表格B是每日數(shù)據(jù),則使用時就要在時間上進行限制:表格A中的日期=表格B中最大日期,而且這種情況下,要想查詢A表中的歷史數(shù)據(jù)就無法查到; 3)各類數(shù)據(jù)在業(yè)務(wù)上存在相互制約、相互影響的關(guān)系,這種關(guān)系也要在多系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)中體現(xiàn)出來,例如營銷活動中的活動商品數(shù)量受到庫存商品數(shù)量的限制,在營銷活動執(zhí)行過程中,每增加一單活動商品銷售量,庫存商品數(shù)就要進行相應(yīng)的減少,若不做相應(yīng)的觸發(fā)變更,多系統(tǒng)數(shù)據(jù)融合也會意義大減。 這里我要特別強調(diào)一下數(shù)據(jù)關(guān)聯(lián)的意義。在行業(yè)內(nèi),我們經(jīng)常把每一個包含了大量數(shù)據(jù)、卻又與其他系統(tǒng)無任何連通的數(shù)據(jù)系統(tǒng)稱之為“數(shù)據(jù)孤島”。在多數(shù)實體行業(yè)中,一個企業(yè)內(nèi)部也不同程度地存在數(shù)據(jù)孤島問題。有些數(shù)據(jù)孤島本身因為包含的數(shù)據(jù)內(nèi)容較多,足以支撐一定的數(shù)據(jù)分析應(yīng)用的建設(shè);但是有些數(shù)據(jù)孤島中的數(shù)據(jù)若想發(fā)揮價值,就必須實現(xiàn)與其他系統(tǒng)數(shù)據(jù)的有效融合使用,即數(shù)據(jù)關(guān)聯(lián)。 2.3.數(shù)據(jù)報表與可視化解決了數(shù)據(jù)關(guān)聯(lián)和標準化的問題之后,我們下一步要解決的問題是:如何能讓大家看到數(shù)據(jù)? 最簡單直接的方法是“數(shù)據(jù)報表”。對,就是按照日常業(yè)務(wù)使用習(xí)慣,構(gòu)建各種表格,在表格中填寫大量的數(shù)據(jù)。有的企業(yè)是手工制作報表,有的企業(yè)使用IT工具制作報表,有的企業(yè)則進入到了數(shù)據(jù)可視化的階段,什么方式實現(xiàn)的不重要,重要的是將數(shù)據(jù)報表做出來呈現(xiàn)給用戶進行使用。 數(shù)據(jù)可視化是隨著數(shù)據(jù)圖形化展現(xiàn)技術(shù)發(fā)展起來的,它的功能不僅僅是展示數(shù)據(jù),它還將很多數(shù)據(jù)分析的方法、維度、樣式與基礎(chǔ)數(shù)據(jù)相結(jié)合,以更加形象和貼近業(yè)務(wù)應(yīng)用場景的方式向用戶展示數(shù)據(jù)要表達的內(nèi)容或問題。 要實現(xiàn)數(shù)據(jù)可視化,不是只有可視化工具就可以了,這背后也要求使用者對需要數(shù)據(jù)展示的業(yè)務(wù)邏輯、圖形效果等內(nèi)容有深入的理解。 從“基礎(chǔ)IT系統(tǒng)”到“數(shù)據(jù)報表及可視化”,前三個層級從某些方面而言,都是完成數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用工作的基礎(chǔ)。對于一個企業(yè)來說,完成這三個層級的方式可以是手工形式的,也可以是本地系統(tǒng)化的,更可以是云端化的,但是無論如何只有在一定程度上具備了上述三個層級的能力,才能說企業(yè)具有了使用數(shù)據(jù)指導(dǎo)運營、決策、管理等進行數(shù)據(jù)應(yīng)用的基礎(chǔ)。 2.4.產(chǎn)品與運營分析在我的理解中,所有的分析都是從日常的產(chǎn)品和運營分析開始的。這一層級的主要作用有三個: 1、解決日常運營和監(jiān)控需求; 2、深入分析用戶、市場、產(chǎn)品; 3、以分析結(jié)果指導(dǎo)產(chǎn)品和運營工作。 下面我們分別解釋: 產(chǎn)品和運營分析,首先要滿足的就是日常數(shù)據(jù)的監(jiān)控:高了?低了?為什么高?為什么低?數(shù)據(jù)的變動能否說明我們的產(chǎn)品和運營在往好的方向變化?如果變化是好的,我們?nèi)绾卫^續(xù)保持?如果是不好的,那是什么原因造成的?如何改正?——這些是日常數(shù)據(jù)監(jiān)控過程中,業(yè)務(wù)人員最常問的一些問題,解決這些問題是日常分析報告最主要的工作。 其次,當日常分析已經(jīng)成為例行工作的一部分之后,企業(yè)的產(chǎn)品和業(yè)務(wù)人員就會發(fā)現(xiàn)簡單的日常分析無法解釋很多復(fù)雜的現(xiàn)象和問題,這就需要對用戶、產(chǎn)品、渠道、市場、需求等等方面進行深入的分析和研究。在這個過程中,很多針對具體業(yè)務(wù)情況的分析專題和數(shù)據(jù)模型應(yīng)運而生,這些專題和模型幫助企業(yè)更好地認識我們的市場,撲捉客戶和潛在的商機。這其中最具代表性的例子就是“用戶畫像”(有關(guān)用戶畫像的內(nèi)容網(wǎng)絡(luò)上有很多文章,這里不再細說)。 最后,根據(jù)日常分析和各種深入分析的結(jié)論,我們能知道諸如:這個營業(yè)廳發(fā)展的用戶質(zhì)量很差,需要核實這些用戶行為的真實性;在XX環(huán)節(jié)中,耗費的人工工時較長,需要看看是改進該環(huán)節(jié)的人員配置還是存在其他問題……如此種種從數(shù)據(jù)中反映的問題,最后都會歸結(jié)為各種管理、運營、營銷等方面的問題。如何應(yīng)用數(shù)據(jù)結(jié)論去解決問題,則需要依靠業(yè)務(wù)人員的經(jīng)驗了。 2.5.精細化運營在“產(chǎn)品和運營分析”層級中積累的分析思路和分析方法,大多是分散的、點狀的。在“精細化運營”這一層級,所有的分析不再相互孤立,而是更多地以一個實際業(yè)務(wù)場景為基礎(chǔ),在該業(yè)務(wù)場景下從“如何感知識別”,到“如何篩選用戶”,再到“如何營銷配合”,從而實現(xiàn)該場景下全部過程的統(tǒng)籌管理。 在這個過程中,數(shù)據(jù)分析不再只是分析報告、數(shù)據(jù)圖表,它成為人們構(gòu)建這個流程的一種貫穿始終的思想,流程中的每個環(huán)節(jié)都會有數(shù)據(jù)分析甚至數(shù)據(jù)挖掘的內(nèi)容存在,以數(shù)據(jù)的結(jié)果驅(qū)動產(chǎn)品、渠道、投入資源等等內(nèi)容的配合,共同構(gòu)成該業(yè)務(wù)場景下的完整業(yè)務(wù)流程。當然,這一流程不能是靠手工來完成,一定是自動化的,人只是這一流程中起決策作用的節(jié)點而已。 更有甚者,將多個業(yè)務(wù)場景下的數(shù)據(jù)驅(qū)動過程進行組合,就形成了諸如“用戶生命周期管理”、“會員運營體系”這樣的數(shù)據(jù)應(yīng)用集合(我這里暫且把它們成為數(shù)據(jù)應(yīng)用集合,其實這些內(nèi)容每個都可以形成一個單獨的數(shù)據(jù)應(yīng)用產(chǎn)品)。 如果企業(yè)中每個領(lǐng)域都能建設(shè)起來多個數(shù)據(jù)應(yīng)用集合,那么這些集合就基本能夠支撐其企業(yè)的主要運行管理工作。 2.6.數(shù)據(jù)產(chǎn)品數(shù)據(jù)產(chǎn)品在我看來不是企業(yè)數(shù)據(jù)能力建設(shè)最終要實現(xiàn)的目標,它只是企業(yè)將內(nèi)部數(shù)據(jù)價值變現(xiàn)的眾多方式中的一種。 實體行業(yè)的數(shù)據(jù)產(chǎn)品很多時候是因為企業(yè)內(nèi)部的數(shù)據(jù)能力成長到一定階段,企業(yè)某些內(nèi)部數(shù)據(jù)及分析方法已經(jīng)具備了獨立變現(xiàn)的條件,因而被企業(yè)單獨拿出來作為一類產(chǎn)品提供到市場,從而形成我們所理解的數(shù)據(jù)產(chǎn)品。當然實體行業(yè)中出現(xiàn)的數(shù)據(jù)產(chǎn)品實例并不多(此觀點僅是我的理解,如有異議歡迎大家溝通討論)。 按照我的理解,企業(yè)內(nèi)部某一數(shù)據(jù)應(yīng)用足夠成熟的時候,便具備了與其縱向上下游產(chǎn)業(yè)鏈之間及橫向市場中其他企業(yè)數(shù)據(jù)相互融合使用的可能。這種縱向、橫向的合作可以有很多形式,諸如:以具體數(shù)據(jù)內(nèi)容為形式的數(shù)據(jù)交易,以體系化的分析方法為形式的分析工具,以產(chǎn)業(yè)內(nèi)數(shù)據(jù)共享為形式的數(shù)據(jù)聯(lián)盟等等,甚至當企業(yè)數(shù)據(jù)逐漸得到行業(yè)和市場的認可后,跨行業(yè)的數(shù)據(jù)產(chǎn)品交易和數(shù)據(jù)合作也是可以預(yù)見的。 個人認為,無論哪種產(chǎn)品形式,都必然離不開適當?shù)纳虅?wù)模式,而必要的商務(wù)模式也是保證數(shù)據(jù)市場安全、高效運轉(zhuǎn)的必備條件。 寫在最后 我接觸的很多實體行業(yè)中的企業(yè),有些可能剛剛完成數(shù)據(jù)采集和數(shù)據(jù)中心的建設(shè)工作,有些則連數(shù)據(jù)采集問題都沒有解決。但是我在接觸這些公司的企業(yè)負責人時,每個人都雄心勃勃地說自己的企業(yè)要在未來的一兩年內(nèi)做出數(shù)據(jù)產(chǎn)品,完成數(shù)據(jù)價值的變現(xiàn)~~而當我問到:您知不知道從貴公司現(xiàn)在的數(shù)據(jù)情況做到數(shù)據(jù)產(chǎn)品,需要走過多少階段從而支撐您做成數(shù)據(jù)產(chǎn)品嗎?對方的回答也出奇地相似:所以我們需要找一個懂這方面的人來啊……! 這就是我寫這篇文章的初衷~~ 這是一篇講述企業(yè)數(shù)據(jù)能力成長路徑的文章,其中的部分觀點借鑒了很多行業(yè)內(nèi)大神的思想,如有作者認為涉嫌侵權(quán),請及時與我的郵箱mrcookies@qq.com聯(lián)系,謝謝! 因本人水平有限,文中所說的很多觀點可能更多針對的是實體行業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)的理解范疇,若與各位讀者有觀點不一致的地方,歡迎大家指出并與我溝通討論. 在此文編寫過程中,得到了很多朋友的指點和幫助,在此一并謝過! |
|