最近有很多人在問數(shù)據(jù)分析的一些問題。關(guān)于數(shù)據(jù)分析到底應(yīng)該怎么學(xué)?如何快速入門,以及技術(shù)和業(yè)務(wù)之間的瓶頸如何突破? 其實,要學(xué)數(shù)據(jù)分析之前,至少要了解一下數(shù)據(jù)分析師,到底需要哪些技能。有的同學(xué)看到數(shù)據(jù)分析幾個字,就馬上開始Python函數(shù) 控制語句、R語言和ggplot庫……上來一頓騷操作,還沒入門就放棄了。 這就是需求不明確導(dǎo)致的,當(dāng)然學(xué)習(xí)方式也值得商榷,那到底數(shù)據(jù)分析需要什么樣的技能呢? 這里作為例子,從招聘網(wǎng)站上找了幾個數(shù)據(jù)分析的崗位,我們來看看具體的要求是怎樣的。 其實企業(yè)對數(shù)據(jù)分析師的基礎(chǔ)技能需求差別不大,可總結(jié)如下:
看上去很簡單呀,對吧,但其實你把每個技能拆分開來,都是一個不小的知識體系。如果我們按照數(shù)據(jù)分析的流程來細(xì)分的話,每個部分應(yīng)該掌握的技能,大概是這樣的: 那對于這個技能體系,應(yīng)該如何進(jìn)行技能的訓(xùn)練呢?先后順序是什么?哪些地方可能出現(xiàn)困難和瓶頸? 這可能是初學(xué)者最困惑的地方,我們可以看看數(shù)據(jù)分析的不同層次: 一、初級階段:懂基本操作這個要求真的不高,如果是用Excel,也就是畫個分布圖、用用場函數(shù)和Vlookup的事情,當(dāng)然對于專業(yè)數(shù)據(jù)分析師而言,僅會Excel是遠(yuǎn)遠(yuǎn)不夠的,特別是對于擁有海量數(shù)據(jù)的巨頭。 用Python來做的話,也就是numpy、pandas和matplotlib的一些基本操作,簡單來說,你需要掌握基本的數(shù)據(jù)分析處理和可視化,進(jìn)行探索性的數(shù)據(jù)分析,觀察數(shù)據(jù)分布、計算各種統(tǒng)計量,得出一些基本的結(jié)論。 FineBI自助式分析工具 當(dāng)然你還需要補補基本的統(tǒng)計知識。 所以開始上手的話,就兩個部分,Python庫和統(tǒng)計學(xué)知識,當(dāng)然你可以找一些數(shù)據(jù)集來進(jìn)行這些操作。 在這個時候你已經(jīng)可以做一些基本的數(shù)據(jù)清洗、數(shù)據(jù)分析工作了,像數(shù)據(jù)專員這樣的職位都可以嘗試,如果懂一些業(yè)務(wù),初級數(shù)據(jù)分析的工作也可以著手了。 這個階段的工作主要進(jìn)行基本數(shù)據(jù)處理,對于明確的分析任務(wù)能夠進(jìn)行技術(shù)上的基本實現(xiàn),能夠正常推進(jìn)具體的分析計劃落地實施。 而處于這個階段,欠缺的能力在于技術(shù)的熟練度、全面性以及整體業(yè)務(wù)分析的規(guī)劃。 一方面是對于實際的項目缺乏多重技術(shù)的對比,對于復(fù)雜項目缺乏有效實施手段; 二是對于整體的業(yè)務(wù)缺乏清晰的拆解方向,對于用什么指標(biāo),需要構(gòu)建什么模型等問題的缺乏系統(tǒng)性思考。 二、中級階段:深入技術(shù),做全方位的數(shù)據(jù)分析能夠做基本的操作之后,接下來你應(yīng)該可以更深入下去了,掌握更多的技巧,以滿足不同的數(shù)據(jù)和場景。 所以這應(yīng)該是一個連續(xù)的、循序漸進(jìn)的過程。 當(dāng)然這個時候你更多的是要通過具體的數(shù)據(jù)集,去進(jìn)行真實場景的分析,盡可能多的從不同的角度進(jìn)行探索,得出更多的結(jié)論。 考慮到更多的場景,你可能還需要數(shù)據(jù)庫(SQL or NoSQL)的技能,至少能夠順利提取、查詢公司的數(shù)據(jù)庫,能夠通過數(shù)據(jù)庫的管理實現(xiàn)基本的數(shù)據(jù)清洗和分析。 還有就是爬蟲的技術(shù),如果你有獲取網(wǎng)絡(luò)數(shù)據(jù)的需求,你需要掌握另外的Python包(比如BeautifulSoup、Requests等)。當(dāng)然這些可能并不是當(dāng)下必須的技術(shù),可以等到有需求的時候再去學(xué)習(xí)。 總的來說,這個部分,是數(shù)據(jù)分析工具深入和全面實戰(zhàn)的部分。 確定你能夠熟練完成項目并輸出結(jié)果后,就完全可以去嘗試初級數(shù)據(jù)分析師相關(guān)的職位了。 當(dāng)然在此之前,你需要去大量進(jìn)行項目練習(xí),一來為熟悉流程和工具,二來培養(yǎng)分析思維,這些項目經(jīng)驗也是求職的優(yōu)質(zhì)資源。 三、高級階段:數(shù)據(jù)挖掘別慌,并不是要去真正地系統(tǒng)學(xué)習(xí)數(shù)據(jù)挖掘。只是在做數(shù)據(jù)分析的時候,通常會涉及到預(yù)測型的數(shù)據(jù)分析,比如預(yù)測廣告的點擊、出行需要的時間、未來某個時間的銷售額……這些對未來情況的預(yù)測是做決策的重要依據(jù)。 那其實就是要掌握一些數(shù)據(jù)挖掘的方法,比如邏輯回歸、樸素貝葉斯方法、決策樹等等。當(dāng)然你需要用到Python庫scikit-learn,scikit-learn里都可以直接調(diào)用這些算法,知道怎么調(diào)用就可以了。 但隨著深入,你會有了解算法原理的需求,那可以幫助你去調(diào)參,提升算法效果。當(dāng)然特征選擇也是提升預(yù)測效果不可忽視的部分,如果算法應(yīng)用沒問題了,可以嘗試做特征工程提升效果。 數(shù)據(jù)挖掘技能(或者說算法能力)并不是分析師的必修項目,但你去看招聘JD就會發(fā)現(xiàn),這是一個很好的加分項,優(yōu)秀的分析師應(yīng)該具有一定的構(gòu)建算法模型的能力。 四、終極階段:從數(shù)據(jù)分析到商業(yè)決策老實說,這個步驟并不是最后來訓(xùn)練的,而是貫穿在整個數(shù)據(jù)分析的過程中。因為數(shù)據(jù)分析的本質(zhì),或者說終極追求是為商業(yè)目的服務(wù)的,比如提供用戶增長的策略,為銷售提升提供解決辦法,通過數(shù)據(jù)分析提供更人性化的用戶體驗…… 方法、技巧皆為工具,你將會總結(jié)出自己的一些方法論,如何通過一個完整的分析得出一個高價值的商業(yè)報告,甚至是一套自動化分析決策的商業(yè)系統(tǒng)(比如推薦系統(tǒng),用戶畫像系統(tǒng),風(fēng)險模型)。 這些才是更高層次的數(shù)據(jù)分析工作應(yīng)該去做的事情,在任何項目推進(jìn)之前明確目標(biāo),并系統(tǒng)地解決數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)建模和可視化呈現(xiàn)的問題,推動整個項目的進(jìn)度。 我們的終極目的不是去獲取幾個數(shù)據(jù),也不是呈現(xiàn)幾張炫酷的圖表,而是去探索一個問題的解決方案,尋找一個市場的突破口,以技術(shù)的方式去降低策略制定的風(fēng)險。 所以當(dāng)你不再聚焦于具體的技術(shù)點、工作流程,而是重于不同業(yè)務(wù)指標(biāo)的選取,解決問題的模型的構(gòu)建,高效和低成本的決策輔助等時候,你就真正上升到比較高的層次了。 |
|