一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

《Python數(shù)據(jù)分析常用手冊》一、NumPy和Pandas篇

 yespon 2017-11-27

一、常用鏈接:

1.Python官網(wǎng):https://www./
2.各種庫的whl離線安裝包:http://www.lfd./~gohlke/pythonlibs/#scikit-learn
3.數(shù)據(jù)分析常用庫的離線安裝包(pip+wheels)(百度云):http://pan.baidu.com/s/1dEMXbfN 密碼:bbs2


二、常用庫

1.NumPy

  NumPy是高性能科學(xué)計算和數(shù)據(jù)分析的基礎(chǔ)包。部分功能如下:
    • ndarray, 具有矢量算術(shù)運算和復(fù)雜廣播能力的快速且節(jié)省空間的多維數(shù)組。
    • 用于對整組數(shù)據(jù)進行快速運算的標(biāo)準(zhǔn)數(shù)學(xué)函數(shù)(無需編寫循環(huán))。
    • 用于讀寫磁盤數(shù)據(jù)的工具以及用于操作內(nèi)存映射文件的工具。
    • 線性代數(shù)、隨機數(shù)生成以及傅里葉變換功能。
    • 用于集成C、C++、Fortran等語言編寫的代碼的工具。

  首先要導(dǎo)入numpy庫:import numpy as np

  A NumPy函數(shù)和屬性:

類型類型代碼說明
int8、uint8i1、u1有符號和無符號8位整型(1字節(jié))
int16、uint16i2、u2有符號和無符號16位整型(2字節(jié))
int32、uint32i4、u4有符號和無符號32位整型(4字節(jié))
int64、uint64i8、u8有符號和無符號64位整型(8字節(jié))
float16f2半精度浮點數(shù)
float32f4、f單精度浮點數(shù)
float64f8、d雙精度浮點數(shù)
float128f16、g擴展精度浮點數(shù)
complex64c8分別用兩個32位表示的復(fù)數(shù)
complex128c16分別用兩個64位表示的復(fù)數(shù)
complex256c32分別用兩個128位表示的復(fù)數(shù)
bool?布爾型
objectOpython對象
stringSn固定長度字符串,每個字符1字節(jié),如S10
unicodeUn固定長度Unicode,字節(jié)數(shù)由系統(tǒng)決定,如U10

表2.1.A.1 NumPy類型

 

生成函數(shù)作用

np.array( x)

np.array( x, dtype)

將輸入數(shù)據(jù)轉(zhuǎn)化為一個ndarray

將輸入數(shù)據(jù)轉(zhuǎn)化為一個類型為type的ndarray

np.asarray( array )將輸入數(shù)據(jù)轉(zhuǎn)化為一個新的(copy)ndarray

np.ones( N )

np.ones( N, dtype)

np.ones_like( ndarray )

生成一個N長度的一維全一ndarray

生成一個N長度類型是dtype的一維全一ndarray

生成一個形狀與參數(shù)相同的全一ndarray

np.zeros( N)

np.zeros( N, dtype)

np.zeros_like(ndarray)

生成一個N長度的一維全零ndarray

生成一個N長度類型位dtype的一維全零ndarray

類似np.ones_like( ndarray )

np.empty( N )

np.empty( N, dtype)

np.empty(ndarray)

生成一個N長度的未初始化一維ndarray

生成一個N長度類型是dtype的未初始化一維ndarray

類似np.ones_like( ndarray )

np.eye( N )

np.identity( N )

創(chuàng)建一個N * N的單位矩陣(對角線為1,其余為0)

np.arange( num)

np.arange( begin, end)

np.arange( begin, end, step)

生成一個從0到num-1步數(shù)為1的一維ndarray

生成一個從begin到end-1步數(shù)為1的一維ndarray

生成一個從begin到end-step的步數(shù)為step的一維ndarray

np.mershgrid(ndarray, ndarray,...)

生成一個ndarray * ndarray * ...的多維ndarray

np.where(cond, ndarray1, ndarray2)

根據(jù)條件cond,選取ndarray1或者ndarray2,返回一個新的ndarray

np.in1d(ndarray, [x,y,...])

檢查ndarray中的元素是否等于[x,y,...]中的一個,返回bool數(shù)組

  
矩陣函數(shù)說明

np.diag( ndarray)

np.diag( [x,y,...])

以一維數(shù)組的形式返回方陣的對角線(或非對角線)元素

將一維數(shù)組轉(zhuǎn)化為方陣(非對角線元素為0)

np.dot(ndarray, ndarray)矩陣乘法
np.trace( ndarray)計算對角線元素的和
  
  

排序函數(shù)

說明

np.sort( ndarray)

排序,返回副本

np.unique(ndarray)

返回ndarray中的元素,排除重復(fù)元素之后,并進行排序

np.intersect1d( ndarray1, ndarray2)

np.union1d( ndarray1, ndarray2)

np.setdiff1d( ndarray1, ndarray2)

np.setxor1d( ndarray1, ndarray2)

返回二者的交集并排序。

返回二者的并集并排序。

返回二者的差。

返回二者的對稱差

  
一元計算函數(shù)說明

np.abs(ndarray)

np.fabs(ndarray)

計算絕對值

計算絕對值(非復(fù)數(shù))

np.mean(ndarray)

求平均值

np.sqrt(ndarray)

計算x^0.5

np.square(ndarray)

計算x^2

np.exp(ndarray)

計算e^x

log、log10、log2、log1p

計算自然對數(shù)、底為10的log、底為2的log、底為(1+x)的log

np.sign(ndarray)

計算正負號:1(正)、0(0)、-1(負)

np.ceil(ndarray)

np.floor(ndarray)

np.rint(ndarray)

計算大于等于改值的最小整數(shù)

計算小于等于該值的最大整數(shù)

四舍五入到最近的整數(shù),保留dtype

np.modf(ndarray)

將數(shù)組的小數(shù)和整數(shù)部分以兩個獨立的數(shù)組方式返回

np.isnan(ndarray)

返回一個判斷是否是NaN的bool型數(shù)組

np.isfinite(ndarray)

np.isinf(ndarray)

返回一個判斷是否是有窮(非inf,非NaN)的bool型數(shù)組

返回一個判斷是否是無窮的bool型數(shù)組

cos、cosh、sin、sinh、tan、tanh

普通型和雙曲型三角函數(shù)

arccos、arccosh、arcsin、arcsinh、arctan、arctanh

反三角函數(shù)和雙曲型反三角函數(shù)

np.logical_not(ndarray)

計算各元素not x的真值,相當(dāng)于-ndarray

多元計算函數(shù)

說明

np.add(ndarray, ndarray)

np.subtract(ndarray, ndarray)

np.multiply(ndarray, ndarray)

np.divide(ndarray, ndarray)

np.floor_divide(ndarray, ndarray)

np.power(ndarray, ndarray)

np.mod(ndarray, ndarray)

相加

相減

乘法

除法

圓整除法(丟棄余數(shù))

次方

求模

np.maximum(ndarray, ndarray)

np.fmax(ndarray, ndarray)

np.minimun(ndarray, ndarray)

np.fmin(ndarray, ndarray)

求最大值

求最大值(忽略NaN)

求最小值

求最小值(忽略NaN)

np.copysign(ndarray, ndarray)

將參數(shù)2中的符號賦予參數(shù)1

np.greater(ndarray, ndarray)

np.greater_equal(ndarray, ndarray)

np.less(ndarray, ndarray)

np.less_equal(ndarray, ndarray)

np.equal(ndarray, ndarray)

np.not_equal(ndarray, ndarray)

>

>=

<

<=

==

!=

logical_and(ndarray, ndarray)

logical_or(ndarray, ndarray)

logical_xor(ndarray, ndarray)

&

|

^

np.dot( ndarray, ndarray)計算兩個ndarray的矩陣內(nèi)積
np.ix_([x,y,m,n],...)生成一個索引器,用于Fancy indexing(花式索引)
  
文件讀寫說明
np.save(string, ndarray)將ndarray保存到文件名為 [string].npy 的文件中(無壓縮)
np.savez(string, ndarray1, ndarray2, ...)將所有的ndarray壓縮保存到文件名為[string].npy的文件中
np.savetxt(sring, ndarray, fmt, newline='\n')將ndarray寫入文件,格式為fmt
np.load(string)讀取文件名string的文件內(nèi)容并轉(zhuǎn)化為ndarray對象(或字典對象)
np.loadtxt(string, delimiter)讀取文件名string的文件內(nèi)容,以delimiter為分隔符轉(zhuǎn)化為ndarray
表2.1.A.2 np常用函數(shù)

  B NumPy.ndarray函數(shù)和屬性:

ndarray.ndim獲取ndarray的維數(shù)
ndarray.shape獲取ndarray各個維度的長度
ndarray.dtype獲取ndarray中元素的數(shù)據(jù)類型
ndarray.T簡單轉(zhuǎn)置矩陣ndarray
表2.1.B.1 ndarray屬性
函數(shù)說明
ndarray.astype(dtype)轉(zhuǎn)換類型,若轉(zhuǎn)換失敗則會出現(xiàn)TypeError
ndarray.copy()復(fù)制一份ndarray(新的內(nèi)存空間)
ndarray.reshape((N,M,...))將ndarray轉(zhuǎn)化為N*M*...的多維ndarray(非copy)
ndarray.transpose((xIndex,yIndex,...))根據(jù)維索引xIndex,yIndex...進行矩陣轉(zhuǎn)置,依賴于shape,不能用于一維矩陣(非copy)
ndarray.swapaxes(xIndex,yIndex)交換維度(非copy)
  
計算函數(shù)說明
ndarray.mean( axis=0 )求平均值 
ndarray.sum( axis= 0)求和 

ndarray.cumsum( axis=0)

ndarray.cumprod( axis=0)

累加 

累乘

ndarray.std()

ndarray.var()

方差

標(biāo)準(zhǔn)差

ndarray.max()

ndarray.min()

最大值

最小值

ndarray.argmax()

ndarray.argmin()

最大值索引

最小值索引

ndarray.any()

ndarray.all()

是否至少有一個True

是否全部為True

ndarray.dot( ndarray)

計算矩陣內(nèi)積

排序函數(shù)

說明

ndarray.sort(axis=0)

排序,返回源數(shù)據(jù)

表2.1.B.2 ndarray函數(shù)
ndarray[n]選取第n+1個元素
ndarray[n:m]選取第n+1到第m個元素
ndarray[:]選取全部元素
ndarray[n:]選取第n+1到最后一個元素
ndarray[:n]選取第0到第n個元素

ndarray[ bool_ndarray ]

注:bool_ndarray表示bool類型的ndarray

選取為true的元素

ndarray[[x,y,m,n]]...

選取順序和序列為x、y、m、n的ndarray

ndarray[n,m]

ndarray[n][m]

選取第n+1行第m+1個元素

ndarray[n,m,...]

ndarray[n][m]....

選取n行n列....的元素
表2.1.B.3 ndarray索引/切片方式

  C NumPy.random函數(shù)和屬性:

函數(shù)說明

seed()

seed(int)

seed(ndarray)

確定隨機數(shù)生成種子

permutation(int)

permutation(ndarray)

返回一個一維從0~9的序列的隨機排列

返回一個序列的隨機排列

shuffle(ndarray)對一個序列就地隨機排列

rand(int)

randint(begin,end,num=1)

產(chǎn)生int個均勻分布的樣本值

從給定的begin和end隨機選取num個整數(shù)

randn(N, M, ...)生成一個N*M*...的正態(tài)分布(平均值為0,標(biāo)準(zhǔn)差為1)的ndarray
normal(size=(N,M,...))生成一個N*M*...的正態(tài)(高斯)分布的ndarray 
beta(ndarray1,ndarray2)產(chǎn)生beta分布的樣本值,參數(shù)必須大于0 
 chisquare()產(chǎn)生卡方分布的樣本值 
 gamma()產(chǎn)生gamma分布的樣本值 
 uniform()產(chǎn)生在[0,1)中均勻分布的樣本值 

 2.1.C.1 random常用函數(shù)

  D NumPy.linalg函數(shù)和屬性:

函數(shù)說明
det(ndarray)計算矩陣列式
eig(ndarray)計算方陣的本征值和本征向量

inv(ndarray)

pinv(ndarray)

計算方陣的逆

計算方陣的Moore-Penrose偽逆

qr(ndarray)計算qr分解 
svd(ndarray)計算奇異值分解svd
solve(ndarray)解線性方程組Ax = b,其中A為方陣 
lstsq(ndarray)計算Ax=b的最小二乘解 

 2.1.D.1 linalg常用函數(shù)

2.Pandas

    pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。

  >>> from pandas import Series, DataFrame

  >>> import pandas as pd

  A.pandas

函數(shù)說明

pd.isnull(series)

pd.notnull(series)

判斷是否為空(NaN)

判斷是否不為空(not NaN)

  
  

2.2.A.1 pandas常用函數(shù)

  B.Series

    Series可以運用ndarray或字典的幾乎所有索引操作和函數(shù),融合了字典和ndarray的優(yōu)點。
屬性說明
values獲取數(shù)組
index獲取索引
namevalues的name
index.name索引的name
2.2.B.1 Series常用屬性
函數(shù)說明
Series([x,y,...])Series({'a':x,'b':y,...}, index=param1)生成一個Series
Series.copy()復(fù)制一個Series 

Series.reindex([x,y,...], fill_value=NaN)

Series.reindex([x,y,...], method=NaN)

Series.reindex(columns=[x,y,...])

重返回一個適應(yīng)新索引的新對象,將缺失值填充為fill_value

返回適應(yīng)新索引的新對象,填充方式為method

對列進行重新索引

Series.drop(index)丟棄指定項
Series.map(f)應(yīng)用元素級函數(shù) 
  
排序函數(shù)說明
Series.sort_index(ascending=True)根據(jù)索引返回已排序的新對象
Series.order(ascending=True)根據(jù)值返回已排序的對象,NaN值在末尾
Series.rank(method='average', ascending=True, axis=0)為各組分配一個平均排名

df.argmax()

df.argmin()

返回含有最大值的索引位置

返回含有最小值的索引位置

2.2.B.2 Series常用函數(shù)

    reindex的method選項:
      ffill, bfill     向前填充/向后填充
      pad, backfill   向前搬運,向后搬運
    rank的method選項
      'average'    在相等分組中,為各個值分配平均排名
      'max','min'   使用整個分組中的最小排名
      'first'      按值在原始數(shù)據(jù)中出現(xiàn)的順序排名

  C.DataFrame

    DataFrame是一個表格型的數(shù)據(jù)結(jié)構(gòu),它含有一組有序的列,每列可以是不同的值類型(數(shù)值、字符串、布爾值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個索引)。

    DataFrame可以通過類似字典的方式或者.columnname的方式將列獲取為一個Series。行也可以通過位置或名稱的方式進行獲取。

    為不存在的列賦值會創(chuàng)建新列。

    >>> del frame['xxx']  # 刪除列

屬性說明
valuesDataFrame的值
index行索引
index.name行索引的名字
columns列索引
columns.name列索引的名字
ix返回行的DataFrame
ix[[x,y,...], [x,y,...]]對行重新索引,然后對列重新索引
Tframe行列轉(zhuǎn)置
  

2.2.C.1 DataFrame常用屬性

 

函數(shù)說明

DataFrame(dict, columns=dict.index, index=[dict.columnnum])

DataFrame(二維ndarray)

DataFrame(由數(shù)組、列表或元組組成的字典)

DataFrame(NumPy的結(jié)構(gòu)化/記錄數(shù)組)

DataFrame(由Series組成的字典)

DataFrame(由字典組成的字典)

DataFrame(字典或Series的列表)

DataFrame(由列表或元組組成的列表)

DataFrame(DataFrame)

DataFrame(NumPy的MaskedArray)

構(gòu)建DataFrame

數(shù)據(jù)矩陣,還可以傳入行標(biāo)和列標(biāo)

每個序列會變成DataFrame的一列。所有序列的長度必須相同

類似于“由數(shù)組組成的字典”

每個Series會成為一列。如果沒有顯式制定索引,則各Series的索引會被合并成結(jié)果的行索引

各內(nèi)層字典會成為一列。鍵會被合并成結(jié)果的行索引。

各項將會成為DataFrame的一行。索引的并集會成為DataFrame的列標(biāo)。

類似于二維ndarray

沿用DataFrame

類似于二維ndarray,但掩碼結(jié)果會變成NA/缺失值

 

df.reindex([x,y,...], fill_value=NaN, limit)

df.reindex([x,y,...], method=NaN)

df.reindex([x,y,...], columns=[x,y,...],copy=True)

返回一個適應(yīng)新索引的新對象,將缺失值填充為fill_value,最大填充量為limit

返回適應(yīng)新索引的新對象,填充方式為method

同時對行和列進行重新索引,默認復(fù)制新對象。

df.drop(index, axis=0)丟棄指定軸上的指定項。
  
排序函數(shù)說明

df.sort_index(axis=0, ascending=True)

df.sort_index(by=[a,b,...])

根據(jù)索引排序
  
匯總統(tǒng)計函數(shù)說明
df.count()非NaN的數(shù)量
df.describe()一次性產(chǎn)生多個匯總統(tǒng)計

df.min()

df.min()

最小值

最大值

df.idxmax(axis=0, skipna=True)

df.idxmin(axis=0, skipna=True)

返回含有最大值的index的Series

返回含有最小值的index的Series

df.quantile(axis=0)計算樣本的分位數(shù)

df.sum(axis=0, skipna=True, level=NaN)

df.mean(axis=0, skipna=True, level=NaN)

df.median(axis=0, skipna=True, level=NaN)

df.mad(axis=0, skipna=True, level=NaN)

df.var(axis=0, skipna=True, level=NaN)

df.std(axis=0, skipna=True, level=NaN)

df.skew(axis=0, skipna=True, level=NaN)

df.kurt(axis=0, skipna=True, level=NaN)

df.cumsum(axis=0, skipna=True, level=NaN)

df.cummin(axis=0, skipna=True, level=NaN)

df.cummax(axis=0, skipna=True, level=NaN)

df.cumprod(axis=0, skipna=True, level=NaN)

df.diff(axis=0)

df.pct_change(axis=0)

返回一個含有求和小計的Series

返回一個含有平均值的Series

返回一個含有算術(shù)中位數(shù)的Series

返回一個根據(jù)平均值計算平均絕對離差的Series

返回一個方差的Series

返回一個標(biāo)準(zhǔn)差的Series

返回樣本值的偏度(三階距)

返回樣本值的峰度(四階距)

返回樣本的累計和

返回樣本的累計最大值

返回樣本的累計最小值

返回樣本的累計積

返回樣本的一階差分

返回樣本的百分比數(shù)變化

  
  
計算函數(shù)說明 

df.add(df2, fill_value=NaN, axist=1)

df.sub(df2, fill_value=NaN, axist=1)

df.div(df2, fill_value=NaN, axist=1)

df.mul(df2, fill_value=NaN, axist=1)

元素級相加,對齊時找不到元素默認用fill_value 

元素級相減,對齊時找不到元素默認用fill_value 

元素級相除,對齊時找不到元素默認用fill_value 

元素級相乘,對齊時找不到元素默認用fill_value 

df.apply(f, axis=0)將f函數(shù)應(yīng)用到由各行各列所形成的一維數(shù)組上
df.applymap(f)將f函數(shù)應(yīng)用到各個元素上
df.cumsum(axis=0, skipna=True)累加,返回累加后的dataframe

2.2.C.2 Dataframe常用函數(shù)

索引方式說明
df[val]選取DataFrame的單個列或一組列
df.ix[val]選取Dataframe的單個行或一組行
df.ix[:,val]選取單個列或列子集
df.ix[val1,val2]將一個或多個軸匹配到新索引
reindex方法將一個或多個軸匹配到新索引
xs方法根據(jù)標(biāo)簽選取單行或者單列,返回一個Series
icol、irow方法根據(jù)整數(shù)位置選取單列或單行,并返回一個Series
get_value、set_value根據(jù)行標(biāo)簽和列標(biāo)簽選取單個值

2.2.C.3 Dataframe常用索引方式

    運算:

      默認情況下,Dataframe和Series之間的算術(shù)運算會將Series的索引匹配到的Dataframe的列,沿著列一直向下傳播。若索引找不到,則會重新索引產(chǎn)生并集。

  D.Index

    pandas的索引對象負責(zé)管理軸標(biāo)簽和其他元數(shù)據(jù)(比如軸名稱等)。構(gòu)建Series或DataFrame時,所用到的任何數(shù)組或其他序列的標(biāo)簽都會被轉(zhuǎn)換成一個Index。Index對象不可修改,從而在多個數(shù)據(jù)結(jié)構(gòu)之間安全共享。


主要的Index對象說明
Index最廣泛的Index對象,將軸標(biāo)簽表示為一個由Python對象組成的NumPy數(shù)組
Int64Index針對整數(shù)的特殊Index
MultiIndex“層次化”索引對象,表示單個軸上的多層索引??梢钥醋鲇稍M組成的數(shù)組
DatetimeIndex存儲納秒級時間戳(用NumPy的Datetime64類型表示)
PeriodIndex針對Period數(shù)據(jù)(時間間隔)的特殊Index

2.2.D.1 主要的Index屬性

函數(shù)說明
Index([x,y,...])創(chuàng)建索引
append(Index)連接另一個Index對象,產(chǎn)生一個新的Index
diff(Index)計算差集,產(chǎn)生一個新的Index
intersection(Index)計算交集
union(Index)計算并集
isin(Index)檢查是否存在與參數(shù)索引中,返回bool型數(shù)組
delete(i)刪除索引i處元素,得到新的Index
drop(str)刪除傳入的值,得到新Index
insert(i,str)將元素插入到索引i處,得到新Index
is_monotonic()當(dāng)各元素大于前一個元素時,返回true
is_unique()當(dāng)Index沒有重復(fù)值時,返回true
unique()計算Index中唯一值的數(shù)組

2.2.D.2 常用Index函數(shù)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美激情一区=区三区| 沐浴偷拍一区二区视频| 欧美区一区二区在线观看| 粉嫩国产一区二区三区在线| 日韩精品少妇人妻一区二区| 在线免费观看黄色美女| 亚洲一区二区福利在线| 国产日韩中文视频一区| 国产精品久久男人的天堂| 国内欲色一区二区三区| 黑丝国产精品一区二区| 日韩一本不卡在线观看| 亚洲一区二区欧美在线| 综合久综合久综合久久| 成人免费观看视频免费| 高清一区二区三区不卡免费| 九九热在线免费在线观看| 99精品国产一区二区青青| 欧美三级不卡在线观线看| 久七久精品视频黄色的| 91欧美日韩中在线视频| 日本精品理论在线观看| 区一区二区三中文字幕| 久久精品亚洲精品国产欧美| 九九热精品视频免费观看| 色一情一乱一区二区三区码| 日本高清二区视频久二区| 成人国产激情在线视频| 午夜国产福利在线播放| 亚洲专区一区中文字幕| 欧美尤物在线观看西比尔| 日韩精品一区二区三区射精| 国产精品福利精品福利| 我的性感妹妹在线观看| 男人和女人草逼免费视频| 福利视频一区二区三区| 暴力性生活在线免费视频| 少妇在线一区二区三区| 国产精品亚洲二区三区| 久久热九九这里只有精品| 大伊香蕉一区二区三区|