一、数值变量的summary结果
当我们在R语言中处理数值变量时,summary()函数通常是一个必不可少的分析工具。它可以给我们展示数据的基本统计信息,如最大值、最小值、平均值、中位数等等。下面是一个例子:
data(mtcars)
summary(mtcars)
这个例子中,我们使用了自带的mtcars数据集。运行这段代码之后,控制台会输出整个数据集的summary结果。其中,"Min", "1st Qu.", "Median", "Mean", "3rd Qu.", "Max"这七项是最基本的统计信息。他们的含义分别是数据的最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。而"NA's",则表示有多少个缺失值。
此外,summary()返回的结果还包括了一个五数概括图(Five Number Summary),它用于描述数据的中心位置和散布情况。这个图表的五个参数依次为:最小值、第一四分位数、中位数、第三四分位数和最大值。这五个参数被用来绘制一条盒形图,从而直观地展示出数据的统计特征。可以通过添加参数“plot=TRUE”来绘制五数概括图。
summary(mtcars, plot = TRUE)
二、因子变量的summary结果
在R语言中,因子变量在实际数据分析中也是非常常见的。与数值变量相比,因子变量的summary()结果输出的信息更为简洁。下面是一个例子:
data(iris)
summary(iris$Species)
这个例子中,我们使用了自带的iris数据集,并对其中的一个因子变量进行了summary()函数的调用。在结果中,R语言给出了该变量的不同取值及其出现的频数。对于因子变量的summary()结果,我们一般不需要关心中位数之类的统计值。
三、矩阵和数组的summary结果
当我们用R语言处理矩阵和数组时,summary()函数的输出结果与前两种情况有所不同。下面是一个例子:
mat <- matrix(rnorm(50), ncol = 5)
dimnames(mat) <- list(paste0("Row", 1:10), paste0("Col", 1:5))
summary(mat)
在这个例子中,我们创建了一个大小为10x5的矩阵,并给它的行、列分别起了命名。运行summary()之后,我们可以看到结果中输出的是每一列的基本统计信息,包括了每一列的最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。
需要注意的是,当我们使用summary()处理的是多维数组时,summary()函数会展示出每个数组元素在所有维度上的最小值、最大值以及中位数等信息。
四、总结
总的来说,summary()函数是一款非常实用的分析工具,特别是对于初学者来说。通过阅读summary结果,我们能够快速了解一个变量的取值分布、基本统计信息和特征值等等。但是需要注意的是,summary()函数展示的仅仅是基本的统计信息。如果需要更全面的分析,就需要使用其他更强大的分析工具了。