一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

九道門丨pandas的18個(gè)重要函數(shù),你會(huì)用哪些?(上)

 禁忌石 2022-05-10 發(fā)布于浙江省

數(shù)據(jù)處理是數(shù)據(jù)分析的重要組成部分,包括了各種任務(wù),如清理、重組、合并、刪除重復(fù)項(xiàng)、刪除 Null 或 NaN 值等。Pandas 提供了大量的函數(shù)集來(lái)執(zhí)行各種數(shù)據(jù)預(yù)處理任務(wù)。

Pandas 提供了兩種類型的數(shù)據(jù)結(jié)構(gòu)來(lái)處理數(shù)據(jù),包括 Series 和 DataFrame。在這篇文章中,我整理了 18 個(gè)我在數(shù)據(jù)預(yù)處理任務(wù)中最常用的函數(shù)。

1)DataFrame.select_dtypes( ):

基于列 dtypes 返回 DataFrame 列的子集。

當(dāng)你想只選擇具有特定數(shù)據(jù)類型的列或具有特定數(shù)據(jù)類型的值時(shí),例如:“object”,“int64”,np.number 等。

語(yǔ)法:

DataFrame.select_dtypes(include = “reqd dtype”, exclude = “reqd dtype”)

例:

#create DataFrame-----------------df = pd.DataFrame({'points': [25, 12, 15, 14, 19],                   'Player': ['A','B' , 'C', 'D', 'E'],                   'rebounds': [11, 8, 10, 6, 6]})#checks column datatype--------------------df.info()#selecting reqd datatype----------------------df.select_dtypes(include = 'int64')

輸出:

文章圖片2

2)DataFrame.drop_duplicates( ):

從 DataFrame 中刪除重復(fù)的行,通常用于數(shù)據(jù)清理任務(wù)。在數(shù)據(jù)集中保留重復(fù)值會(huì)影響分析結(jié)果,因此數(shù)據(jù)清理對(duì)于避免誤判非常重要。

語(yǔ)法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

參數(shù):

  1. subset:僅考慮用于標(biāo)識(shí)重復(fù)項(xiàng)的特定列,默認(rèn)情況下使用所有列。

  2. keep:可以被認(rèn)為是 {'first', 'last',F(xiàn)alse},默認(rèn)情況下會(huì)被認(rèn)為是 False。此參數(shù)用于決定應(yīng)考慮哪些重復(fù)項(xiàng)。如果要保留第一個(gè)出現(xiàn)的值,則 keep='first'或'last',默認(rèn)情況下,如果保留所有重復(fù)項(xiàng),則為 False。

  3. inplace:它決定是處理 DataFrame 中的更改還是返回副本。表示在當(dāng)前 DataFrame 中進(jìn)行更改,并返回副本并保持當(dāng)前 DataFrame 不變。.inplace = True inplace = FalseBy default false

  4. ignore_index: 如果為 True,則生成的軸將標(biāo)記為 0,1, ...,n-1。默認(rèn)情況下 ignore_index = False。

例:

#create DataFrame----------------------------df = pd.DataFrame({'points': [25, 12, 15, 14, 19,25,12,14],                   'Player': ['A','B' , 'C', 'D', 'E','A','B','D'],                   'rebounds': [11, 8, 10, 6, 6,11,8,6]})#drop duplicates-----------------------------------df = df.drop_duplicates(subset = ['Player'],                        keep ='first',                        ignore_index = False)df

輸出:

文章圖片3

3)DataFrame.str.lower( ):

將 Series/Index 中的字符串轉(zhuǎn)換為小寫(xiě)。同樣,對(duì)于大寫(xiě),我們可以使用 DataFrame.str.upper() 。

語(yǔ)法:

Series.str.lower()

例:

#create DataFrame--------------------------------df = pd.DataFrame({'points': [25, 12, 15, 14, 19],            'Player': ['ADam','BOB' , 'COT', 'DerrICK','EtHan'],                           'Team' : ['a','B','C','d','e'],            'rebounds': [11, 8, 10, 6, 6]})#converting column values of Player and Team into lowercase---------columns = df.select_dtypes(include = 'object')columns = list(columns.columns)for i in columns:    df[i] = df[i].str.lower()df

輸出:

文章圖片4

4)Series.str.match() :

Series.str.match() 函數(shù)用于確定給定序列對(duì)象中的數(shù)據(jù)是否與正則表達(dá)式匹配。

語(yǔ)法:

Series.str.match(pat, case=True, flags=0, na=None)

參數(shù):

  1. pat:字符序列或正則表達(dá)式。

  2. case:如果為 True,則區(qū)分大小寫(xiě)。默認(rèn)情況下為 True。

  3. flags:int,默認(rèn)值為 0。

  4. na:填充缺失值的值。默認(rèn)值取決于數(shù)組的數(shù)據(jù)類型。對(duì)于對(duì)象 dtype,使用 numpy.nan。

例:

city = pd.Series(['Kolkata','Delhi','Mumbai', 'Sikkim','Bangalore'])index = ['City_1','City_2','City_3','City_4','City_5']city.index = indexcity
文章圖片5
res = city.str.match(pat = '(Ranchi)|(Mumbai)')res
文章圖片6
res = city.str.match(pat = '([A-Z]a.)')res
文章圖片7

5)pd.set_option( ):

例:

data = {'Score' : [10, 15, 2, 31, 4, 51, 26, 17, 28, 29], 'Player' : ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']}df = pd.DataFrame(data)df
文章圖片8
pd.set_option('display.max_rows', 5)df
文章圖片9
pd.set_option( ) can also be used to format high number decimal points/scientific notation to normal notation.

例 :

import numpy as npimport pandas as pddf = pd.DataFrame({    'Name': ['a', 'b', 'c','d','e','f','g'],    'Value': np.random.rand(7)**3})df
文章圖片10
#formatting upto 2 decimal placespd.set_option('display.float_format', lambda x: '%0.2f' % x)df

輸出:

文章圖片11

6)df.iteritems( ):

用于迭代(列名、系列)。循環(huán)訪問(wèn) DataFrame 列,返回一個(gè)元組,其中列名和內(nèi)容是一個(gè)序列。該方法生成 DataFrame 的迭代器對(duì)象,允許我們迭代 DataFrame 的每一列。

例:

#create DataFramedf = pd.DataFrame({'points': [25, 12, 15, 14, 19],                   'Player': ['Adam','Bob','Cot','Derrick','Ethan'],                   'Team' : ['a','B','C','d','e'],                   'rebounds': [11, 8, 10, 6, 6]})

迭代列 :

for x, y in df.iteritems(): print(x) print(y)

輸出:

文章圖片12

7)df.iterrows( ):

有時(shí)我們需要在不使用循環(huán)的情況下迭代 DataFrame 的行和列,在這種情況 df.iterrows( ) 下非常有用。

以(索引、序列)對(duì)的形式迭代數(shù)據(jù)幀行。

例:

#create DataFramedf = pd.DataFrame({'points': [25, 12, 15, 14, 19],                   'Player': ['Adam','Bob','Cot','Derrick','Ethan'],                   'Team' : ['a','B','C','d','e'],                   'rebounds': [11, 8, 10, 6, 6]})#Iterating over DataFrame rowsfor i in df.iterrows():    print(i)

輸出:

文章圖片13

8)df.itertuples( ):

語(yǔ)法:

DataFrame.itertuples(index=True, name='Pandas')

Index = True 默認(rèn)情況下為 name = 'Pandas’

對(duì)于 DataFrame 中的每一行,要在 namedtuples 上迭代的對(duì)象,第一個(gè)字段可能是索引,后面的字段可能是列值。

例:

#create DataFramedf = pd.DataFrame({'points': [25, 12, 15, 14, 19],                   'Player': ['Adam','Bob','Cot','Derrick','Ethan'],                   'Team' : ['a','B','C','d','e'],                   'rebounds': [11, 8, 10, 6, 6]})for row in df.itertuples():    print(row)

輸出:

文章圖片14

9)df.reset_index( ):

Pandas 中用于重置 DataFrame 的索引。reset_index() 將從 0 到數(shù)據(jù)長(zhǎng)度的整數(shù)列表設(shè)置為索引。

例:

df = pd.read_csv('customer_data.csv')

將列“Name”設(shè)置為索引:

df.set_index(['Name'], inplace = True)df
文章圖片15

重置索引:

df.reset_index()
文章圖片16

pandas函數(shù)還有哪些?下期我們繼續(xù)!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产成人一区二区三区久久| 91国内视频一区二区三区| 日本黄色高清视频久久| 99日韩在线视频精品免费| 激情国产白嫩美女在线观看| 在线日韩中文字幕一区| 又黄又爽禁片视频在线观看| 欧美日韩一区二区三区色拉拉| 国产又粗又长又大高潮视频| 欧美精品日韩精品一区| 一区二区三区亚洲国产| 日韩人妻免费视频一专区| 亚洲黄色在线观看免费高清| 欧美色婷婷综合狠狠爱| 东京干男人都知道的天堂| 黄色片一区二区在线观看| 一级片二级片欧美日韩| 国产a天堂一区二区专区| 日韩欧美高清国内精品| 亚洲三级视频在线观看免费| 91亚洲国产成人久久精品麻豆| 久久综合九色综合欧美| 久久99青青精品免费观看| 亚洲中文字幕综合网在线| 免费特黄欧美亚洲黄片| 91精品欧美综合在ⅹ| 麻豆视传媒短视频免费观看| 99热中文字幕在线精品| 欧美人妻少妇精品久久性色| 国产超薄黑色肉色丝袜| 午夜亚洲精品理论片在线观看| 久久精品伊人一区二区| 嫩呦国产一区二区三区av| 三级理论午夜福利在线看| 黄色av尤物白丝在线播放网址| 国产午夜免费在线视频| 国产对白老熟女正在播放| 亚洲综合伊人五月天中文| 成人国产激情福利久久| 成人午夜在线视频观看| 日韩成人高清免费在线|