您的位置:

Pandas 行列转换的完全指南

一、基础概念

在介绍 Pandas 行列转换的各种方法之前,我们需要了解一些基础概念。Pandas 中最重要的两个数据结构是 Series 和 DataFrame。Series 是一维数组,它由值和索引组成。DataFrame 是二维表格,它由多个列和行组成。

在 DataFrame 中,我们通常会遇到两种类型的转换:行转列和列转行。行转列指的是将 DataFrame 中的一些行数据转换成新的列,而列转行则相反,将多列数据转换成一些新的行。

二、行转列

1. stack()

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [9, 10, 11, 12, 13, 14, 15, 16]})
stacked = df.set_index(['A', 'B']).stack()
print(stacked)

使用 stack() 方法可以将 DataFrame 中的列转换成多层索引的 Series。在上面的例子中,我们首先使用 set_index() 方法将 A 和 B 列设置为索引,然后使用 stack() 方法将 C 和 D 列转换成多层索引的 Series。

2. melt()

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [9, 10, 11, 12, 13, 14, 15, 16]})
melted = df.melt(id_vars=['A', 'B'], value_vars=['C', 'D'])
print(melted)

使用 melt() 方法可以将 DataFrame 中的多列数据转换成一些新的行,其中需要指定 value_vars 和 id_vars 两个参数。value_vars 代表要转换的列,id_vars 代表保持不变的列。在上面的例子中,我们将 C 和 D 列转换成了新的一列,并保留了 A 和 B 列。

三、列转行

1. transpose()

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [9, 10, 11, 12, 13, 14, 15, 16]})
transposed = df.transpose()
print(transposed)

使用 transpose() 方法可以将 DataFrame 中的行和列交换。在上面的例子中,我们将原来的列转换成了新的行。

2. pivot()

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [9, 10, 11, 12, 13, 14, 15, 16]})
pivoted = df.pivot(index='A', columns='B', values='C')
print(pivoted)

使用 pivot() 方法可以将 DataFrame 中的某些列转换成新的行和列。其中,index 参数代表新 DataFrame 的行索引,columns 参数代表新 DataFrame 的列索引,values 参数代表填充新 DataFrame 的值。在上面的例子中,我们将原 DataFrame 中的 A 列作为新 DataFrame 的行索引,B 列作为新 DataFrame 的列索引,C 列作为新 DataFrame 的值。

四、其他方法

1. wide_to_long()

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C_1': [1, 2, 3, 4, 5, 6, 7, 8],
                   'C_2': [9, 10, 11, 12, 13, 14, 15, 16]})
long = pd.wide_to_long(df, stubnames='C', i=['A', 'B'], j='number')
print(long)

使用 wide_to_long() 方法可以将 DataFrame 中的宽格式数据转换成长格式数据。其中,stubnames 参数代表列名中的前缀,i 参数代表保留的列,j 参数代表新生成的列名。在上面的例子中,我们将原 DataFrame 中的 C_1 和 C_2 列转换成了新的一列,用 number 作为列名。

2. pivot_table()

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [9, 10, 11, 12, 13, 14, 15, 16]})
pivoted_table = df.pivot_table(values='C', index='A', columns='B', aggfunc=np.sum)
print(pivoted_table)

使用 pivot_table() 方法可以对 DataFrame 进行聚合,并将结果以新的行列形式返回。其中,values 参数代表需要聚合的列,index 参数代表行索引,columns 参数代表列索引,aggfunc 参数代表聚合函数。在上面的例子中,我们对列 C 进行了 sum 聚合,以 A 列作为行索引,B 列作为列索引。

五、总结

本篇文章介绍了 Pandas 行列转换的常见方法,包括 stack、melt、transpose、pivot、wide_to_long 和 pivot_table。行列转换是数据分析和数据清洗中的常见操作,熟练掌握这些方法可以帮助我们更加高效地处理数据。希望本文能够帮助到大家。