您的位置:

从多个方面详解pandas查询

一、基础查询

pandas作为Python数据分析的重要库,提供了丰富的数据操作和查询功能,但需要一定的基础和经验。pandas最基础的查询功能是根据索引号或者列名进行查询。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

# 按照索引号查询,输出第2行(索引号为1)到第4行(索引号为3)
print(df.iloc[1:4])

# 按照列名查询,输出“name”列和“score”列
print(df[['name','score']])

可以看到,基础查询可以根据行索引号和列名进行数据的切片和筛选,但是如果需要进行更为复杂的数据筛选和过滤,则需要使用更高级的查询方法。

二、布尔索引

布尔索引是一种通过真假值进行数据筛选和过滤的方法,在pandas中使用较为普遍。通过布尔索引,可以根据某些条件来选取数据,比如选择所有大于某个值的数据,或者根据多重条件选择数据。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

# 选择age大于等于30的行
print(df[df['age'] >= 30])

# 选择age大于等于30且score大于等于80的行
print(df[(df['age'] >= 30) & (df['score'] >= 80)])

可以看到,在使用布尔索引时,需要使用[]来包裹筛选条件,多个条件之间使用&(与)或|(或)进行连接。布尔索引有很强的灵活性,可以通过不同的条件组合筛选出复杂的数据。

三、apply查询

apply是pandas中一个非常重要的数据查询和转换函数,它可以对数据进行自定义操作,比如对一列数据进行字符串拼接、转换成大写或小写、计算列和等。apply主要有两种用法,一种是对一列数据进行apply操作,另一种是对整个数据进行apply操作。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

# 将score值大于80的行的"score"列和"age"列相加作为新列"sum"存储
df['sum'] = df.apply(lambda x: x['score'] + x['age'] if x['score'] > 80 else 0, axis=1)
print(df)

# 将"name"列的值全部转化为小写字母
df['name'] = df['name'].apply(lambda x: x.lower())
print(df)

可以看到,在apply中,需要使用lambda表达式对数据进行处理,axis参数表示对数据进行apply操作的方向,0表示列,1表示行。

四、Groupby查询

Groupby是pandas中一个非常常用的数据分组和查询函数,它可以对数据进行分组后进行聚合和操作,比如统计不同类别的数量、计算某个指标的平均值。Groupby函数需要将数据进行分组,分成多个子集,然后对每个子集进行聚合。

import pandas as pd

df = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'gender':['F','M','F','M','M'],
    'score':[80,95,85,75,70]
})

# 按照gender分组,统计各个分组中的平均分数
grouped = df.groupby('gender')['score'].mean()
print(grouped)

# 按照多个列进行分组,统计各个分组中的平均分数和数量
grouped = df.groupby(['gender','name'])['score'].agg(['mean','count'])
print(grouped)

可以看到,Groupby函数的用法较为简单,但是具有很强的统计和计算能力,可以对数据进行高效地分组、聚合和统计。需要注意的是,Groupby函数需要先进行数据分组,然后才能对每个子集进行聚合和操作,需要根据具体需求进行合理的操作。

五、Merging和Join查询

Merging和Join是pandas中常用的将两个或多个数据集合并和连接的函数,可以将两个不同数据源的数据进行合并。Merging和Join的主要区别在于,Merging是根据两个数据集中的某个列的值进行合并,而Join则是根据索引进行连接。

import pandas as pd

data1 = pd.DataFrame({
    'name':['Amy','Bob','Cathy','David','Eric'],
    'age':[22,35,28,30,25],
    'score':[80,95,85,75,70]
})

data2 = pd.DataFrame({
    'name':['Amy','Bob','Cathy','Michael','Tom'],
    'income':[5000,8000,6000,6500,7000],
    'address':['Beijing','Shanghai','Guangzhou','Beijing','Shanghai']
})

# Merging函数,以"name"列的值为键值,合并两个数据集,相同的键值列合并在一个行中
merged = pd.merge(data1,data2,on='name')
print(merged)

data1.set_index('name',inplace=True)
data2.set_index('name',inplace=True)

# Join函数,以索引为键值,按照列名进行连接,将两个数据集中的列合并在一起
joined = data1.join(data2)
print(joined)

可以看到,在数据集合并和连接方面,pandas提供了两种常见的函数,可根据不同的需求选用合适的函数。

六、Conclusion

pandas是Python数据分析非常重要的库之一,具有丰富的数据查询和操作功能。本文从多个方面对pandas的查询进行了详细阐述,包括基础查询、布尔索引、apply查询、Groupby查询和Merging和Join查询。不同的查询方法可以根据具体的数据分析需求进行灵活的运用,为数据分析工作提供有效的帮助。