Pandas Pivot_table详解

发布时间:2023-05-18

一、列层互换

在pandas数据分析时,往往需要对数据进行信息汇总和重组以便分析,提高分析效率。其中,Pivot_table是一个方便快速的透视表函数,允许使用类似Excel透视表的操作进行数据汇总。 首先,我们需要知道如何使用pandas pivot_table库来实现列层互换,即行列之间的关系互换。例如,我们有以下的一个数据集:

import pandas as pd
data = {
    'class': ['A', 'A', 'B', 'B', 'C', 'C'],
    'subject': ['math', 'Chinese', 'math', 'English', 'math', 'Chinese'],
    'score': [90, 85, 92, 78, 80, 88]
}
df = pd.DataFrame(data)

这个数据集包含了学生的成绩信息,class代表班级,subject代表科目,score代表成绩。如果我们想要按照班级来分析每个科目的平均成绩,我们可以使用 pivot_table 这个函数:

table = pd.pivot_table(data=df, index='subject', columns='class', values='score', aggfunc='mean')
print(table)

这样,我们就完成了数据的透视,其中,index代表行信息,columns代表列信息,values代表数值信息,aggfunc代表统计方式。 在这个例子中,我们使用subject作为行信息,class作为列信息,score作为数值信息,并且使用平均值作为统计方式。 输出的表格中,每一列代表一个班级,每一行代表一个科目,对应的学生成绩被放在了对应的位置中。 通过列层互换,我们可以通过轻松转换,将原先看似无法统计的信息变成可视化信息,方便我们进行制定决策和定制策略。

二、聚合操作

在pandas数据分析中,聚合操作是非常重要的操作,是数据分析的中心。而在pandas pivot_table中,聚合操作同样也是一项核心的功能,我们需要掌握它的使用方法和注意事项。 聚合操作基本上是指对数据集中特定的列进行统计分析操作:

table = pd.pivot_table(data=df, index='class', values='score', aggfunc=[np.min, np.max, np.mean, np.median])

其中,amin、amax、mean、median是常用的聚合函数,表达了我们需要实现的统计方式,对应于聚合函数名称:

  • amin:返回最小值
  • amax:返回最大值
  • mean:返回平均值
  • median:返回中位数 默认情况下,pandas pivot_table会将特定的列作为行信息,我们可以设定其他的行信息,使得返回的表格更加丰富。这样,我们更容易生成可视化图形,并对数据进行更加深刻的分析和洞察。

三、多级分组

在pandas数据分析中,往往需要同时使用多个列作为分类变量,进行分组分析。在pandas pivot_table中,我们可以非常方便地实现多级分组,以对数据进行进一步的分析。 以本文一开始的数据集为例,我们可以将class和subject作为多级分组的信息,来获取分组统计表:

table = pd.pivot_table(data=df, index=['class', 'subject'], values='score', aggfunc='mean')

这样,我们就生成了一个两级分组的统计表。 需要注意的是,在多级分组中,多级索引的行的名称会采用元素组成的tuple表示,如('A', 'Chinese')

四、填充缺失值

在实际的数据处理过程中,数据集中通常存在着缺失数据的情况。在pandas pivot_table中,我们同样可以通过分析功能和缺失值填充操作,对缺失数据进行有效的处理。 在进行分组操作时,通过使用fill_value关键字来对缺失值进行填充:

table = pd.pivot_table(data=df, index='class', columns='subject', values='score', fill_value=0)

这样,我们就可以填充缺失值,避免对数据分析产生负面的影响。

五、离散化以及自定义聚合

在pandas pivot_table中,我们可以通过使用cut库函数,将连续数据离散化,转化为类别数据,用于划分区间分组。具体来说,可以按照如下方式定义区间,并使用pd.cut函数来实现数据的离散化:

bins = [0, 60, 70, 80, 90, 100]
df['score_cut'] = pd.cut(df['score'], bins=bins, labels=['<60', '60-70', '70-80', '80-90', '90-100'])

接下来,我们可以使用pivot_table对score_cut数据列进行聚合操作,得到分组后的汇总结果,如下所示:

table = pd.pivot_table(df, index=['class', 'subject'], columns=['score_cut'], values='score', aggfunc='count', fill_value=0)

在自定义聚合函数时,可以使用lambda函数,进行操作内容的自定义设置:

table = pd.pivot_table(df, index=['class', 'subject'], columns=['score_cut'], values='score', aggfunc=lambda x: len(x.unique()))

六、总结

以上是pandas pivot_table的基本使用方法和技巧,它可以帮助我们更容易地实现数据透视化,并进行更加深入的分析。 该库提供了丰富的分析功能,可以非常方便地解决数据分析时面临的各种问题。通过对pandas pivot_table的深入学习和理解,我们可以更加高效地处理和分析数据,为我们的决策提供有力支持。