pandas中的兩種數(shù)據(jù)類型Series和DataFrame區(qū)別

Veecoylb85u7u6 2019-08-24

展開全文

1. Series相當(dāng)于數(shù)組numpy.array類似

s1=pd.Series([1,2,4,6,7,2])s2=pd.Series([4,3,1,57,8],index=['a','b','c','d','e'])print s2obj1=s2.values# print obj1obj2=s2.index# print obj2# print s2[s2>4]# print s2['b']


1.Series 它是有索引，如果我們未指定索引，則是以數(shù)字自動(dòng)生成。
下面是一些例子：
obj=Series([4,7,-5,3])
print obj
#輸出結(jié)果如下：
# 0    4
# 1    7
# 2   -5
# 3    3
print obj.values #取出它的值
#[ 4  7 -5  3]
print obj.index #取出索引值
#輸出結(jié)果如下：
# RangeIndex(start=0, stop=4, step=1)
obj2=Series([4,7,-5,3],index=['d','b','a','c'])
print obj2
#輸出結(jié)果如下：
# d    4
# b    7
# a   -5
# c    3
#可以通過索引的方式選擇Series中的單個(gè)或一組值
print obj2['a'] #輸出結(jié)果：-5
print obj2['d'] #輸出結(jié)是：4

2. Series的一些操作

Series.order()進(jìn)行排序，而DataFrame則用sort或者sort_index

print ratings_by_title.order(ascending=False)[:10]

（1）Numpy數(shù)組運(yùn)算(根據(jù)布爾型數(shù)組進(jìn)行過濾、標(biāo)量乘法、應(yīng)用數(shù)學(xué)函數(shù)等)都會保留索引和值之間的鏈接


print obj2[obj2>0]  #取出>0的值
#輸出結(jié)果如下：
# d    4
# b    7
# c    3
print obj2*2
#輸出結(jié)果如下：
# d     8
# b    14
# a   -10
# c     6

（2）還可以將Series看成是一個(gè)定長的有序字典，因?yàn)樗撬饕档綌?shù)據(jù)值的一個(gè)映射。它可以用在許多原來需要字典參數(shù)的函數(shù)中。

print 'b' in obj2 #obj2中有索引'b'?若有就返回'True'

（3）如果數(shù)據(jù)被存在一個(gè)python字典中，也可以直接通過這個(gè)字典來創(chuàng)建Series.


sdata={'Ohio':35000,'Texax':71000,'Oregon':16000,'Utah':5000}
obj3=Series(sdata)
print obj3
#輸出結(jié)果如下：
# Ohio      35000
# Oregon    16000
# Texax     71000
# Utah       5000
#注：如果只傳入一個(gè)字典，則結(jié)果Series中的索引就是原字典的鍵(有序排列)
states=['California','Ohio','Oregon','Texax']
obj4=Series(sdata,index=states) #將sdata字典創(chuàng)建Series,索引用states來創(chuàng)建
print obj4
#California在sdata中沒有相應(yīng)的值，故是NaN缺省值
# California        NaN
# Ohio          35000.0
# Oregon        16000.0
# Texax         71000.0

（4）pandas中的isnull和notnull函數(shù)可以用于檢測缺失數(shù)據(jù)，

Series也有類似的方法


print pd.isnull(obj4)
#輸出結(jié)果如下：
# California     True
# Ohio          False
# Oregon        False
# Texax         False
# dtype: bool
print pd.notnull(obj4)
#輸出結(jié)果如下：
# California    False
# Ohio           True
# Oregon         True
# Texax          True
# dtype: bool
print obj4.isnull() #Series的isnull方法
#輸出結(jié)果如下：
# California     True
# Ohio          False
# Oregon        False
# Texax         False
# dtype: bool

（5）Series最重要的一個(gè)功能是：它在算術(shù)運(yùn)算中會自動(dòng)對齊不同索引的數(shù)據(jù)。


print obj3,obj4
# Ohio      35000
# Oregon    16000
# Texax     71000
# Utah       5000
# dtype: int64
#
# California        NaN
# Ohio          35000.0
# Oregon        16000.0
# Texax         71000.0
# dtype: float64
print  obj3+obj4
# California         NaN
# Ohio           70000.0
# Oregon         32000.0
# Texax         142000.0
# Utah               NaN
# dtype: float64

（6）Series對象本身及其索引都有一個(gè)name屬性，該屬性跟pandas其他的關(guān)鍵功能關(guān)系非常密切


obj4.name='population'
obj4.index.name='state'
print obj4
#輸出如下：加上state和name
# state
# California        NaN
# Ohio          35000.0
# Oregon        16000.0
# Texax         71000.0
# Name: population, dtype: float64

（7）Series的索引可以通過賦值的方式就地修改


obj2.index=['Bob','Steven','Jeff','Ryan']
print obj2
#輸出結(jié)果如下：
# Bob       4
# Steven    7
# Jeff     -5
# Ryan      3
# dtype: int64
obj2['Bob']=15
print obj2
#輸出結(jié)果如下：
# Bob       15
# Steven     7
# Jeff      -5
# Ryan       3
# dtype: int64
print obj2['Bob'].values #沒有這種表示法，報(bào)錯(cuò)。因?yàn)轭愃谱值淙≈?，直接取鍵值即可
print obj2.values #查看所有值

3. DataFrame相當(dāng)于有表格，有行表頭和列表頭

a=pd.DataFrame(np.random.rand(4,5),index=list('ABCD'),columns=list('abcde'))print a

4.DataFrame的一些操作

#增加列或修改列a['f']=[1,2,3,4]a['e']=10print aprint '======================='#增加行或修改行a.ix['D']=10# print aS=pd.DataFrame(np.random.rand(4,6),index=list('EFGH'),columns=list('abcdef'))a=a.append(S)print aprint '======================='#切片print (a[['b','e']]) #取'b','e'列print a.loc['A':'D',['a','c','f']] #取'A'-'D'行'a','c','f'列print '======================='#減少行或減少列a=a.drop(['C','D']) #刪除'C'行和'D'print aa=a.drop('a',axis=1) #刪除'a'列,axis=0表示行，axis=1表示列print aprint '======================='#缺省值處理a.iloc[2,3]=None #取第三行第4列值設(shè)為Nonea.iloc[4,0]=None #取第五行第1列值設(shè)為Noneprint aa=a.fillna(5) #缺省值處(即NaN處填充為5)print a#缺省值去行即有缺省值的把這一行都去掉a.iloc[2,3]=Nonea.iloc[4,0]=Noneprint aa=a.dropna() #刪除缺省值為NaN的行print aprint '======================='#讀取excel,適當(dāng)改動(dòng)后，保存到excel中e1=pd.read_excel('test.xlsx',sheetname='Sheet1')e1.columns=['class','no','name','sex','dormitory','phonenumber']print(e1)print(e1.ix[2])print(e1['class'])print(e1.sex)#可將取出的數(shù)據(jù)處理，處理完后再保存到excel中去e2=pd.read_excel('test_copy.xlsx',sheetname='Sheet1',names='table1',header=None)e2.columns=['a','b','c','d']print(e2)e2.to_excel('test_write.xlsx',header=False,index=False)

(1)構(gòu)建DataFrame 的方法很多，最常用的一種是直接傳入一個(gè)由等長列表或者Numpy數(shù)組組成的字典


import numpy as np
from numpy import random
import matplotlib.pyplot as plt
from numpy.linalg import inv,qr
from pandas import Series,DataFrame
import pandas as pd


data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
      'year':[2000,2001,2002,2001,2002],
      'pop':[1.5,1.7,3.6,2.4,2.9]}
frame=DataFrame(data)
print frame
#輸出的結(jié)果如下：
#    pop   state  year
# 0  1.5    Ohio  2000
# 1  1.7    Ohio  2001
# 2  3.6    Ohio  2002
# 3  2.4  Nevada  2001
# 4  2.9  Nevada  2002

（2）如果指定了列序列，則DataFrame的列就會按照指定的順序進(jìn)行排序


frame1=DataFrame(data,columns=['year','state','pop'])
print frame1
#輸出的結(jié)果如下：
#    year   state  pop
# 0  2000    Ohio  1.5
# 1  2001    Ohio  1.7
# 2  2002    Ohio  3.6
# 3  2001  Nevada  2.4
# 4  2002  Nevada  2.9

（3）跟Series一樣，如果傳入的列在數(shù)據(jù)中找不到，就會產(chǎn)生NA值


frame2=DataFrame(data,columns=['year','state','pop','debt'],
                 index=['one','two','three','four','five'])  #column列的索引，index是行的索引
print frame2
#輸出的結(jié)果如下：
#        year   state  pop debt
# one    2000    Ohio  1.5  NaN
# two    2001    Ohio  1.7  NaN
# three  2002    Ohio  3.6  NaN
# four   2001  Nevada  2.4  NaN
# five   2002  Nevada  2.9  NaN
print frame2.columns #輸出列的索引
#輸出結(jié)果如下：
# Index([u'year', u'state', u'pop', u'debt'], dtype='object')

（4）類似字典標(biāo)記的方式或?qū)傩缘姆绞?，可以將DataFrame的列獲取為一個(gè)Series.


print frame2['state'] #取出列索引為state的列的數(shù)據(jù)
#輸出結(jié)果如下：
# one        Ohio
# two        Ohio
# three      Ohio
# four     Nevada
# five     Nevada
# Name: state, dtype: object
print frame2.year
#輸出結(jié)果如下：
# one      2000
# two      2001
# three    2002
# four     2001
# five     2002
# Name: year, dtype: int64

（5）返回的Series擁有原DataFrame相同的索引，且其name屬性也已經(jīng)被相應(yīng)地設(shè)置好了。行也可以通過位置或名稱的方式進(jìn)行獲取

比如用索引字段ix,ix是取行的索引


print frame2.ix['three']
#輸出的結(jié)果如下：
# year     2002
# state    Ohio
# pop       3.6
# debt      NaN
# Name: three, dtype: object

（6）可以通過賦值的方式進(jìn)行修改。


# frame2['debt']=16.5  #debt列全為16.5
# print frame2
#輸出結(jié)果如下：
#        year   state  pop  debt
# one    2000    Ohio  1.5  16.5
# two    2001    Ohio  1.7  16.5
# three  2002    Ohio  3.6  16.5
# four   2001  Nevada  2.4  16.5
# five   2002  Nevada  2.9  16.5
#將列表或數(shù)組賦值給某個(gè)列時(shí)，其長度必須跟DataFrame的長度相匹配。
#如果賦值的是一個(gè)Series,就會精確匹配DataFrame的索引，所有的空位都將被填上缺失值。
frame2['debt']=np.arange(5.)
print frame2
#輸出結(jié)果如下：
#        year   state  pop  debt
# one    2000    Ohio  1.5   0.0
# two    2001    Ohio  1.7   1.0
# three  2002    Ohio  3.6   2.0
# four   2001  Nevada  2.4   3.0
# five   2002  Nevada  2.9   4.0
#賦值一個(gè)Series
val=Series([-1.2,-1.5,-1.7],index=['two','four','five'])
frame2['debt']=val
print frame2
#輸出結(jié)果如下：不在index中的索引的值都賦了Nan
#        year   state  pop  debt
# one    2000    Ohio  1.5   NaN
# two    2001    Ohio  1.7  -1.2
# three  2002    Ohio  3.6   NaN
# four   2001  Nevada  2.4  -1.5
# five   2002  Nevada  2.9  -1.7
#為不存在的列賦值會創(chuàng)建出一個(gè)新列。關(guān)鍵字del用于刪除列。
frame2['eastern']=frame2.state=='Ohio' #沒有eastern列，固會自動(dòng)增加一列
#frame2.state=='Ohio'如果等于則返回True,否則返回False
print frame2
#        year   state  pop  debt  eastern
# one    2000    Ohio  1.5   NaN     True
# two    2001    Ohio  1.7  -1.2     True
# three  2002    Ohio  3.6   NaN     True
# four   2001  Nevada  2.4  -1.5    False
# five   2002  Nevada  2.9  -1.7    False
del frame2['eastern'] #刪除eastern列
print frame2
#返回結(jié)果如下：
#        year   state  pop  debt
# one    2000    Ohio  1.5   NaN
# two    2001    Ohio  1.7  -1.2
# three  2002    Ohio  3.6   NaN
# four   2001  Nevada  2.4  -1.5
# five   2002  Nevada  2.9  -1.7
print frame2.columns  #查看frame2的列
#輸出結(jié)果如下：Index([u'year', u'state', u'pop', u'debt'], dtype='object')

（7）另一種常見的數(shù)據(jù)形式是嵌套字典(也就是字典的字典)


pop={'Nevada':{2001:2.4,2002:2.9},
     'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame3=DataFrame(pop)
print frame3
#輸出的結(jié)果如下：
#       Nevada  Ohio
# 2000     NaN   1.5
# 2001     2.4   1.7
# 2002     2.9   3.6
#可以對frame進(jìn)行轉(zhuǎn)置
print frame3.T
#輸出結(jié)果如下：
#         2000  2001  2002
# Nevada   NaN   2.4   2.9
# Ohio     1.5   1.7   3.6
print DataFrame(pop,index=[2001,2002,2003])
#輸出結(jié)果如下：
#       Nevada  Ohio
# 2001     2.4   1.7
# 2002     2.9   3.6
# 2003     NaN   NaN
pdata={'Ohio':frame3['Ohio'][:-1],
       'Nevada':frame3['Nevada'][:2]}
print DataFrame(pdata)
#輸出結(jié)果如下：
#       Nevada  Ohio
# 2000     NaN   1.5
# 2001     2.4   1.7

可以輸入給DataFrame構(gòu)造器的數(shù)據(jù)：


二維ndarray 		                 數(shù)據(jù)矩陣，還可以傳入行標(biāo)和列標(biāo)
由數(shù)組、列表或元組組成的字典		 每個(gè)序列會變成DataFrame的一列，所有序列的長度必須相同
Numpy的結(jié)構(gòu)化/記錄數(shù)組				 類似于“由數(shù)組組成的字典”
由Series組成的字典				 每個(gè)Series會成為一列。如果沒顯式指定索引，由各Series的索引會被合
								 并成結(jié)果的行索引
由字典組成的字典					 各內(nèi)層字典會成為一列。鍵會被合并成結(jié)果的行索引，跟“由Series組成的字典”
								 的情況一樣
字典或Series的列表				 各項(xiàng)將會成為DataFrame的一行。字典鍵或Series索引的并集將會成為DataFrame
								 的列標(biāo)
由列表或元組組成的列表				 類似于“二維ndarray”
另一個(gè)DataFrame					 該DataFrame的索引將會被沿用，除非顯式指定了其它索引
Numpy的MaskedArray			 	 類似于'二維ndarray'的情況，只是掩碼值在結(jié)果DataFrame會變成NA/缺失值


#如果設(shè)置了DataFrame的index和columns的name屬性，則這些信息也會被顯示出來：
frame3.index.name='year';
frame3.columns.name='state'
print frame3
#輸出結(jié)果如下：
# state  Nevada  Ohio
# year
# 2000      NaN   1.5
# 2001      2.4   1.7
# 2002      2.9   3.6
#跟Series一樣，values屬性也會以二維ndarray的形式返回DataFrame中的數(shù)據(jù)：
print frame3.values
# [[ nan  1.5]
#  [ 2.4  1.7]
#  [ 2.9  3.6]]
#如果DataFrame各列的數(shù)據(jù)類型不同，則值數(shù)組的數(shù)據(jù)類型就會選用能兼容所有列的數(shù)據(jù)類型
print frame2.values
# [[2000 'Ohio' 1.5 nan]
#  [2001 'Ohio' 1.7 -1.2]
#  [2002 'Ohio' 3.6 nan]
#  [2001 'Nevada' 2.4 -1.5]
#  [2002 'Nevada' 2.9 -1.7]]

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： Veecoylb85u7u6 > 《pandas》

舉報(bào)/認(rèn)領(lǐng)