“數(shù)據(jù)可視化” 是一種使用技術(shù)手段表達(dá)數(shù)據(jù)結(jié)果的一種方式,但是大部分?jǐn)?shù)據(jù)可視化=各種圖表,這是十分外行的想法。
數(shù)據(jù)可視化是一個需要理解業(yè)務(wù)需求、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)交互原理、數(shù)據(jù)表達(dá)邏輯以及考察審美的復(fù)雜工作。
數(shù)據(jù)可視化一般是整個數(shù)據(jù)分析鏈路的最后一個環(huán)節(jié)。在數(shù)據(jù)可視化之前,我們需要對原始數(shù)據(jù)進(jìn)行大量的整理和清洗處理,這一環(huán)節(jié)首選數(shù)據(jù)庫SQL,數(shù)據(jù)處理之后才是分析和可視化。數(shù)據(jù)可視化有兩個方向很值得去嘗試:商業(yè)智能BI與動態(tài)交互圖表。
所以,這里推薦一個數(shù)據(jù)可視化技能的進(jìn)階路線:SQL+BI+Echarts
接下來以分析一個電商銷售數(shù)據(jù)的實操案例,來演示如何用SQL、BI商業(yè)智和Echarts制作數(shù)據(jù)可視化。
為什么數(shù)據(jù)分析一定要具備SQL技能?
首先,互聯(lián)網(wǎng)公司每天都需要處理大量數(shù)據(jù),這些數(shù)據(jù)不可能都存儲在某個人的PC上。在這種情況下,一般用數(shù)據(jù)庫來存儲數(shù)據(jù),數(shù)據(jù)都在數(shù)據(jù)庫里,SQL又是數(shù)據(jù)庫語言,所以當(dāng)然必備了。
其次,Excel對十萬條以內(nèi)的數(shù)據(jù)處理起來一點不虛,但是資深的數(shù)據(jù)分析師還是笑摸狗頭,Too Young Too Sample,爺搞得都是百萬數(shù)據(jù)。要百萬數(shù)據(jù),就得上數(shù)據(jù)庫。
SQL是數(shù)據(jù)分析師的核心技能之一。有些公司并不給數(shù)據(jù)庫權(quán)限,需要分析師寫郵件提需求,這非常不好。數(shù)據(jù)分析師經(jīng)常有各類假設(shè)需要驗證,很多時候?qū)懯畮仔蠸QL就能得到的答案,還得麻煩其他部門導(dǎo)出數(shù)據(jù)。
在數(shù)據(jù)可視化之前,我們需要對數(shù)據(jù)進(jìn)行大量的處理工作,以“某電商訂單”為例。其數(shù)據(jù)量為37000+,包括7個原始字段:
下圖演示的是使用最強(qiáng)大的開源數(shù)據(jù)庫PostgreSQL處理數(shù)據(jù)的流程,當(dāng)然MySQL也用的很多:
- 創(chuàng)建數(shù)據(jù)庫并導(dǎo)入csv數(shù)據(jù)
- 查看并刪除相關(guān)缺失值
- 列明修改及計算商品打折折扣力度
以上數(shù)據(jù)整理工作也可以在excel中完成,步驟包括:數(shù)據(jù)篩選、數(shù)據(jù)透視、Vlookup連接數(shù)據(jù)等。但是由于數(shù)據(jù)量較大,期間你有可能面臨灰屏、死機(jī)、程序跳出未保存等各種風(fēng)險??偨Y(jié)來說,在企業(yè)級的數(shù)據(jù)量處理中,excel是不行的。一般10W以上的數(shù)據(jù)量都要借助數(shù)據(jù)庫。
對于SQL(數(shù)據(jù)庫語言),處理幾萬條乃至更大體量的數(shù)據(jù),效率都是非常高,并且SQL語言應(yīng)該是最容易理解的語言了。
回到可視化,SQL作為數(shù)據(jù)可視化工作的第一步,完成了數(shù)據(jù)管理及清洗工作。
接下來我們來看看另外兩條路:用商業(yè)智能BI做數(shù)據(jù)商業(yè)價值挖掘,或者用交互式圖表表達(dá)數(shù)據(jù)內(nèi)容。
FineBI —— 值得推薦的商業(yè)智能分析平臺!
如果你是一名用戶研究分析師:需要了解客戶畫像、用戶組成、用戶習(xí)慣。
或者你是一名市場數(shù)據(jù)分析師:需要分析產(chǎn)品銷量、地區(qū)排名、供需關(guān)系。
亦或是一名財務(wù)數(shù)據(jù)分析師:關(guān)注企業(yè)資產(chǎn)負(fù)債率、現(xiàn)金流動負(fù)債率、應(yīng)收款項周轉(zhuǎn)率、應(yīng)收款項周轉(zhuǎn)率。
你都經(jīng)常要做一件事——向你的同事、老板、甲方表達(dá)你的研究成果,并且用數(shù)據(jù)、圖表、表格來展示。那這個時候商業(yè)智能BI是最好的選擇。
商業(yè)智能BI是目前各大公司常用的數(shù)據(jù)工作和數(shù)據(jù)可視化平臺。它可以將數(shù)據(jù)進(jìn)行快速準(zhǔn)確的整合,計算,并提供出結(jié)果圖表及決策依據(jù),輔助決策。
而對于BI,目前最主流的工具平臺有Tableau、PowerBI、FineBI,成熟商用的有Tableau、Qlik、FineBI。這里推薦的FineBI,部署速度快,可視化庫豐富,能支持R/Python/等,還有一些數(shù)據(jù)挖掘模型。商用性價比高于其他,能對接各類大數(shù)據(jù)平臺方案。關(guān)鍵個人版免費,不限功能,且均支持WIN、OS和Lunix系統(tǒng)。
接著上面的“"電商銷售數(shù)據(jù)案例”,該數(shù)據(jù)在清洗后,一共有21個品牌4398個商品,那么如果想了解不同品牌的銷售情況,如“最大打折力度”、“銷售相關(guān)KPI指數(shù)”),可以通過FineBI來創(chuàng)建以下儀表盤:
(以下因為并列了其他數(shù)據(jù)做分析,數(shù)據(jù)會對不上,理解其操作過程即可)
- 核心指標(biāo)及KPI框架設(shè)計
- 數(shù)據(jù)圖表制作
- 可視化儀表盤設(shè)計及結(jié)果呈現(xiàn)
BI可以解決大部分可視化分析需求,但它始終是既定好的圖表,只能優(yōu)化組合,無法自由創(chuàng)作。數(shù)據(jù)可視化作為一種表達(dá)藝術(shù),自然有更自由更專業(yè)的工具和方式,比如用Echarts制作復(fù)雜交互圖表!
Echarts —— 一張圖,一個故事
復(fù)雜交互圖表是一種蘊(yùn)含更大體量數(shù)據(jù)及更復(fù)雜數(shù)據(jù)結(jié)構(gòu)的可視化,可以使讀者和可視化圖表之間有更好的互動。其形式包括地理空間可視化、層次關(guān)系網(wǎng)絡(luò)可視化、基于時間的多圖表可視化等等。
使用Echarts的工作流可以簡單概括為:使用SQL將數(shù)據(jù)處理成合適的格式(這個格式稱為JSON),再讀懂echarts圖表中的JS參數(shù),修改對應(yīng)參數(shù)并加載JSON數(shù)據(jù),實現(xiàn)可視化效果。
還是以"電商銷售數(shù)據(jù)"為例,我們通過修改現(xiàn)有案例的參數(shù)來繪制一個交互式圖表:
- 找模板及參數(shù)查閱
- SQL處理數(shù)據(jù)
- 代碼配置及可視化圖表呈現(xiàn)
最終的圖表內(nèi)容中,橫坐標(biāo)是雙十一前后10天的日期節(jié)點,我們選擇了三個品牌來展示不同商品的價格變化趨勢,通過圖表互動,也可以看到三個品牌在雙十一期的打折率、價格和營銷策略的區(qū)別:
- 打折思路:雙十一當(dāng)天最低價,之后漲價但少于雙十一前價格
- 妮維雅產(chǎn)品價格區(qū)間主要在100-200元之間;相宜本草產(chǎn)品價格區(qū)80-400之間;自然堂產(chǎn)品價格區(qū)間較分散
看到這兒,可能很多小伙伴兒會有疑問,以上的兩種可視化途徑,優(yōu)劣勢如何,上手難度又怎樣?
其實,上面的工具都很好學(xué),SQL是一種數(shù)據(jù)庫語言,前面說過了必須掌握,可視化FineBI基本就是拖拽操作,上手非常簡單,除了復(fù)雜的數(shù)據(jù)處理工作需要寫公式來新增數(shù)據(jù)字段,條件語句。Echarts需要掌握一點JS語句,熟練了也很容易上手,復(fù)雜的需求就不評價了。
應(yīng)對大部分業(yè)務(wù)場景的可視化分析,F(xiàn)ineBI就足夠了,自身可視化效果也有數(shù)十種,多了也未必會用。畢竟用起來最簡單。
專業(yè)的可視化,比如新聞可視化,科學(xué)研究,海量數(shù)據(jù)洞察等,結(jié)合Echarts使用的較多,因為開源,而且可以隨意個性化自定義。
最后,多讀多看不如快上手,趕緊學(xué)起來嘗試吧!
有什么不收費的報表工具不?
findbi個人版免費?在哪里?
這三階段,特別是第一和第三,有沒有合適的自學(xué)課程可以推薦?謝謝
挺好
kibana grafana