详解summarystatistics

发布时间:2023-05-21

一、summarystatistics的定义

summarystatistics是R语言中一个非常常用的函数。这个函数能够方便地计算一个数据集的基本描述统计量,如均值、中位数、标准差、最小值和最大值等。该函数返回的结果是一个包含基本描述统计量的大量信息的数据框。这个函数用起来非常简单,只需引入一个数据集,然后调用该函数即可。

二、基本用法

summarystatistics的基本用法如下:

# 引入数据集
data(mtcars)
# 使用summarystatistics计算基本描述统计量
summary(mtcars)

上述代码将返回以下结果:

     mpg             cyl             disp             hp       
 Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
 1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
 Median :19.20   Median :6.000   Median :196.3   Median :123.0  
 Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
 3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
 Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
     drat             wt             qsec             vs        
 Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
 1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
 Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
 Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
 3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
 Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
       am              gear            carb      
 Min.   :0.0000   Min.   :3.000   Min.   :1.000  
 1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
 Median :0.0000   Median :4.000   Median :2.000  
 Mean   :0.4062   Mean   :3.688   Mean   :2.812  
 3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
 Max.   :1.0000   Max.   :5.000   Max.   :8.000  

三、参数介绍

1. na.rm参数

summarystatistics中有一个非常常用的参数是na.rm,它主要用来在计算描述统计量时忽略含有缺失值的观测值。例如,在以下代码中,对于含有NA值的变量hpqsecna.rm参数被设置为TRUE,这意味着在计算基本描述统计量时不考虑这些含NA值的观测值。

# 引入数据集
data(mtcars)
# 使用summarystatistics计算基本描述统计量
summary(mtcars$hp, na.rm = T)
summary(mtcars$qsec, na.rm = T)

2. 精度控制参数digits

在默认情况下,summarystatistics函数的输出精度是较高的,如小数点后有3到4个数字。如果需要控制精度,可以使用参数digitsdigits指定要在输出中使用多少位数字。例如:

# 引入数据集
data(mtcars)
# 使用summarystatistics计算基本描述统计量,控制精度为2
summary(mtcars, digits = 2)

四、分组summaries

summarystatistics还可以非常方便地生成按组分组的描述统计信息。通过构建分组变量,可以对数据进行分组,并根据每个组计算描述统计量。例如,我们可以按挡位(am)和汽车品牌(cyl)两个变量分组计算基本描述统计量:

# 引入数据集
data(mtcars)
# 转换am变量为Categorical变量
mtcars$am <- as.factor(mtcars$am)
# 按am和cyl分组计算基本描述统计量
library(dplyr)
mtcars %>% group_by(am, cyl) %>% summarise(mean = mean(mpg), sd = sd(mpg), min = min(mpg), max = max(mpg), n = n())

五、迭代器(apply)应用

summarystatistics可以非常方便地与迭代器(apply)功能结合使用。例如,我们可以使用lapply函数在多列数据上生成描述统计信息:

# 引入数据集
data(mtcars)
# 使用lapply函数在多列上生成描述统计量
lapply(mtcars[c('mpg', 'disp', 'drat')], summary)

六、结语

通过本文,我们详细阐述了summarystatistics函数的定义、基本用法和参数介绍。我们还向你展示了如何按组生成描述统计信息以及如何将summarystatistics与迭代器功能结合使用。相信通过这篇文章,你已经对summarystatistics函数有了深入的理解。