Python的眾多優(yōu)點讓它成為最受歡迎的程序設(shè)計語言之一,國內(nèi)外許多公司也已經(jīng)在使用Python,例YouTube,Google,阿里云等等。 Python里的這些庫, 學(xué)會了你的工作至少翻一倍! 學(xué)Python的同學(xué)里估計有30%以上是為了做數(shù)據(jù)分析師或者數(shù)據(jù)挖掘,所以數(shù)據(jù)分析相關(guān)的庫,你一定要知道。 假如你掌握了Python的編程基礎(chǔ)后,就可以逐漸進入數(shù)據(jù)分析的奇妙世界。Python有滿足各種數(shù)據(jù)分析需求的強大而易用的標準庫,大部分時間,你主要是在和它們打交道。如何快速了解并應(yīng)用它們?CDA數(shù)據(jù)分析師認為一個完整的數(shù)據(jù)分析項目大致可分為以下五個流程: 01 數(shù)據(jù)獲取 一般有數(shù)據(jù)分析師崗位需求的公司都會有自己的數(shù)據(jù)庫,數(shù)據(jù)分析師可以通過SQL查詢語句來獲取數(shù)據(jù)庫中想要數(shù)據(jù)。Python已經(jīng)具有連接sql server、mysql、orcale等主流數(shù)據(jù)庫的接口包,比如pymssql、pymysql、cx_Oracle等。 而獲取外部數(shù)據(jù)主要有兩種獲取方式,一種是獲取國內(nèi)一些網(wǎng)站上公開的數(shù)據(jù)資料,例如國家統(tǒng)計局;一種是通過編寫爬蟲代碼自動爬取數(shù)據(jù)。如果希望使用Python爬蟲來獲取數(shù)據(jù),我們可以使用以下Python工具:
02 數(shù)據(jù)存儲 對于數(shù)據(jù)量不大的項目,可以使用Excel來進行存儲和處理,但對于數(shù)據(jù)量過萬的項目,使用數(shù)據(jù)庫如Mysql來存儲與管理會更高效便捷,對于非結(jié)構(gòu)化數(shù)據(jù)的存儲可以使用MongoDB。對于使用Python進行網(wǎng)絡(luò)抓取的數(shù)據(jù),我們也可以使用pymysql包快速地將其存儲到Mysql中去。
03 數(shù)據(jù)預(yù)處理/數(shù)據(jù)清洗 數(shù)據(jù)科學(xué)家花了大量的時間清洗數(shù)據(jù)集,并將這些數(shù)據(jù)轉(zhuǎn)換為他們可以處理的格式。事實上,很多數(shù)據(jù)科學(xué)家聲稱開始獲取和清洗數(shù)據(jù)的工作量要占整個工作的80%。 大多數(shù)情況下,我們拿到手的數(shù)據(jù)是格式不一致,存在異常值、缺失值等問題的,而不同項目數(shù)據(jù)預(yù)處理步驟的方法也不一樣。如果選擇Python作為數(shù)據(jù)清洗的工具的話,我們可以使用Numpy和Pandas這兩個工具庫:
04 建模與分析 這一階段首先要清楚數(shù)據(jù)的結(jié)構(gòu),結(jié)合項目需求來選取模型。 常見的數(shù)據(jù)挖掘模型有: 在這一階段,Python也具有很好的工具庫支持我們的建模工作:
05 可視化分析 數(shù)據(jù)分析最后一步是撰寫數(shù)據(jù)分析報告,這也是數(shù)據(jù)可視化的一個過程。在數(shù)據(jù)可視化方面,Python目前主流的可視化工具有:
從上圖我們也可以得知,在整個數(shù)據(jù)分析流程,無論是數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模和分析,還是數(shù)據(jù)可視化,Python目前已經(jīng)可以很好地支持我們的數(shù)據(jù)分析工作。 如何系統(tǒng)學(xué)習(xí)使用Python |
|