您的位置:

pandas计数技巧介绍

pandas是Python数据处理的常用模块之一,提供了非常方便的操作方式,许多人都用过pandas计数功能,但是它的使用技巧却不为人所知。本文将从多个方面介绍pandas计数技巧。

一、pandas计数un

在进行数据分析时,我们需要计算某一个字段的唯一值数量,这时候就需要使用pandas计数un方法来进行计算。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名称'].nunique())

以上代码使用nunique()方法来计算某一个字段的唯一值数量。

二、pandas分类计数

经常需要把一个数据集按照某个特征分组,然后看看每个特征包含多少个数据。pandas的value_counts方法可以非常方便的进行计数分类。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名称'].value_counts())

以上代码使用value_counts()方法对某一个字段进行计数分类。

三、pandas计数某列不重复

有时候我们需要得到某一列不重复的数据统计,亦称为去重计数。pandas提供了drop_duplicates()方法来进行操作。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(len(df['字段名称'].drop_duplicates()))

以上代码使用drop_duplicates()方法对某一个字段进行去重计数。

四、pandas计数函数

如果要对多个字段进行计数统计,可以使用apply()方法。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df[['字段1','字段2']].apply(pd.value_counts))

以上代码使用apply()方法统计了字段1和字段2的数据出现次数。

五、pandas计数符合条件

有时候我们需要对数据进行条件筛选后再计数,可以使用pandas的query()方法。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.query('字段1 == "条件1"')['字段2'].value_counts())

以上代码使用query()方法对字段1为条件1的数据,统计取出字段2的数量。

六、pandas取消科学计数

在进行数据处理时,输出的数字可能会出现科学计数法的形式。使用set_option()方法可以取消科学计数法,并显示完整的数字。


import pandas as pd
pd.set_option('display.float_format', lambda x: '%.6f' % x)
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名称'])

以上代码通过set_option()方法取消了科学计数法,并输出了完整的数字。

七、pandas技术介绍

在pandas中,有很多方法可以进行计数操作。比如:crosstab(),groupby(),pivot_table(),stack()等等。通过学习这些方法,可以更好地完成数据分析和处理工作。

八、pandas去重计数

在进行数据分析时,经常需要对数据集合进行去重操作,可以使用pandas的drop_duplicates()方法。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.drop_duplicates())

以上代码使用drop_duplicates()方法对整个数据集进行了去重操作。

九、pandas计算相关系数

在进行数据分析时,有时需要计算不同列之间的相关系数。可以使用pandas的corr()方法来得到相关系数矩阵。


import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.corr())

以上代码使用corr()方法计算不同列之间的相关系数矩阵。