pandas是Python数据处理的常用模块之一,提供了非常方便的操作方式,许多人都用过pandas计数功能,但是它的使用技巧却不为人所知。本文将从多个方面介绍pandas计数技巧。
一、pandas计数un
在进行数据分析时,我们需要计算某一个字段的唯一值数量,这时候就需要使用pandas计数un方法来进行计算。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名称'].nunique())
以上代码使用nunique()方法来计算某一个字段的唯一值数量。
二、pandas分类计数
经常需要把一个数据集按照某个特征分组,然后看看每个特征包含多少个数据。pandas的value_counts方法可以非常方便的进行计数分类。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名称'].value_counts())
以上代码使用value_counts()方法对某一个字段进行计数分类。
三、pandas计数某列不重复
有时候我们需要得到某一列不重复的数据统计,亦称为去重计数。pandas提供了drop_duplicates()方法来进行操作。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(len(df['字段名称'].drop_duplicates()))
以上代码使用drop_duplicates()方法对某一个字段进行去重计数。
四、pandas计数函数
如果要对多个字段进行计数统计,可以使用apply()方法。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df[['字段1','字段2']].apply(pd.value_counts))
以上代码使用apply()方法统计了字段1和字段2的数据出现次数。
五、pandas计数符合条件
有时候我们需要对数据进行条件筛选后再计数,可以使用pandas的query()方法。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.query('字段1 == "条件1"')['字段2'].value_counts())
以上代码使用query()方法对字段1为条件1的数据,统计取出字段2的数量。
六、pandas取消科学计数
在进行数据处理时,输出的数字可能会出现科学计数法的形式。使用set_option()方法可以取消科学计数法,并显示完整的数字。
import pandas as pd
pd.set_option('display.float_format', lambda x: '%.6f' % x)
df = pd.read_csv('data.csv',encoding='gbk')
print(df['字段名称'])
以上代码通过set_option()方法取消了科学计数法,并输出了完整的数字。
七、pandas技术介绍
在pandas中,有很多方法可以进行计数操作。比如:crosstab(),groupby(),pivot_table(),stack()等等。通过学习这些方法,可以更好地完成数据分析和处理工作。
八、pandas去重计数
在进行数据分析时,经常需要对数据集合进行去重操作,可以使用pandas的drop_duplicates()方法。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.drop_duplicates())
以上代码使用drop_duplicates()方法对整个数据集进行了去重操作。
九、pandas计算相关系数
在进行数据分析时,有时需要计算不同列之间的相关系数。可以使用pandas的corr()方法来得到相关系数矩阵。
import pandas as pd
df = pd.read_csv('data.csv',encoding='gbk')
print(df.corr())
以上代码使用corr()方法计算不同列之间的相关系数矩阵。