一、基础查询
pandas作为Python数据分析的重要库,提供了丰富的数据操作和查询功能,但需要一定的基础和经验。pandas最基础的查询功能是根据索引号或者列名进行查询。
import pandas as pd df = pd.DataFrame({ 'name':['Amy','Bob','Cathy','David','Eric'], 'age':[22,35,28,30,25], 'score':[80,95,85,75,70] }) # 按照索引号查询,输出第2行(索引号为1)到第4行(索引号为3) print(df.iloc[1:4]) # 按照列名查询,输出“name”列和“score”列 print(df[['name','score']])
可以看到,基础查询可以根据行索引号和列名进行数据的切片和筛选,但是如果需要进行更为复杂的数据筛选和过滤,则需要使用更高级的查询方法。
二、布尔索引
布尔索引是一种通过真假值进行数据筛选和过滤的方法,在pandas中使用较为普遍。通过布尔索引,可以根据某些条件来选取数据,比如选择所有大于某个值的数据,或者根据多重条件选择数据。
import pandas as pd df = pd.DataFrame({ 'name':['Amy','Bob','Cathy','David','Eric'], 'age':[22,35,28,30,25], 'score':[80,95,85,75,70] }) # 选择age大于等于30的行 print(df[df['age'] >= 30]) # 选择age大于等于30且score大于等于80的行 print(df[(df['age'] >= 30) & (df['score'] >= 80)])
可以看到,在使用布尔索引时,需要使用[]来包裹筛选条件,多个条件之间使用&(与)或|(或)进行连接。布尔索引有很强的灵活性,可以通过不同的条件组合筛选出复杂的数据。
三、apply查询
apply是pandas中一个非常重要的数据查询和转换函数,它可以对数据进行自定义操作,比如对一列数据进行字符串拼接、转换成大写或小写、计算列和等。apply主要有两种用法,一种是对一列数据进行apply操作,另一种是对整个数据进行apply操作。
import pandas as pd df = pd.DataFrame({ 'name':['Amy','Bob','Cathy','David','Eric'], 'age':[22,35,28,30,25], 'score':[80,95,85,75,70] }) # 将score值大于80的行的"score"列和"age"列相加作为新列"sum"存储 df['sum'] = df.apply(lambda x: x['score'] + x['age'] if x['score'] > 80 else 0, axis=1) print(df) # 将"name"列的值全部转化为小写字母 df['name'] = df['name'].apply(lambda x: x.lower()) print(df)
可以看到,在apply中,需要使用lambda表达式对数据进行处理,axis参数表示对数据进行apply操作的方向,0表示列,1表示行。
四、Groupby查询
Groupby是pandas中一个非常常用的数据分组和查询函数,它可以对数据进行分组后进行聚合和操作,比如统计不同类别的数量、计算某个指标的平均值。Groupby函数需要将数据进行分组,分成多个子集,然后对每个子集进行聚合。
import pandas as pd df = pd.DataFrame({ 'name':['Amy','Bob','Cathy','David','Eric'], 'gender':['F','M','F','M','M'], 'score':[80,95,85,75,70] }) # 按照gender分组,统计各个分组中的平均分数 grouped = df.groupby('gender')['score'].mean() print(grouped) # 按照多个列进行分组,统计各个分组中的平均分数和数量 grouped = df.groupby(['gender','name'])['score'].agg(['mean','count']) print(grouped)
可以看到,Groupby函数的用法较为简单,但是具有很强的统计和计算能力,可以对数据进行高效地分组、聚合和统计。需要注意的是,Groupby函数需要先进行数据分组,然后才能对每个子集进行聚合和操作,需要根据具体需求进行合理的操作。
五、Merging和Join查询
Merging和Join是pandas中常用的将两个或多个数据集合并和连接的函数,可以将两个不同数据源的数据进行合并。Merging和Join的主要区别在于,Merging是根据两个数据集中的某个列的值进行合并,而Join则是根据索引进行连接。
import pandas as pd data1 = pd.DataFrame({ 'name':['Amy','Bob','Cathy','David','Eric'], 'age':[22,35,28,30,25], 'score':[80,95,85,75,70] }) data2 = pd.DataFrame({ 'name':['Amy','Bob','Cathy','Michael','Tom'], 'income':[5000,8000,6000,6500,7000], 'address':['Beijing','Shanghai','Guangzhou','Beijing','Shanghai'] }) # Merging函数,以"name"列的值为键值,合并两个数据集,相同的键值列合并在一个行中 merged = pd.merge(data1,data2,on='name') print(merged) data1.set_index('name',inplace=True) data2.set_index('name',inplace=True) # Join函数,以索引为键值,按照列名进行连接,将两个数据集中的列合并在一起 joined = data1.join(data2) print(joined)
可以看到,在数据集合并和连接方面,pandas提供了两种常见的函数,可根据不同的需求选用合适的函数。
六、Conclusion
pandas是Python数据分析非常重要的库之一,具有丰富的数据查询和操作功能。本文从多个方面对pandas的查询进行了详细阐述,包括基础查询、布尔索引、apply查询、Groupby查询和Merging和Join查询。不同的查询方法可以根据具体的数据分析需求进行灵活的运用,为数据分析工作提供有效的帮助。