一、UCI数据集
UCI是R语言自带的一个数据集包,里面包含了多个数据集,每个数据集都赋予了它的任务和数据类型,下面选取其中两个数据集进行介绍:Iris和Wine。通过这两个数据集,可以体验到使用R语言进行数据处理和可视化的乐趣。
1、Iris数据集
Iris数据集包含三种不同的鸢尾花(Iris setosa,Iris virginica和Iris versicolor)的150个样本的花萼和花瓣的长度和宽度的测量值。这是一个经典的分类问题,我们可以使用各种机器学习算法来尝试对不同种类的鸢尾花进行分类。以下是如何在R中读取和可视化Iris数据集:
library(datasets)
head(iris) #展示前几行
plot(iris$Sepal.Length, iris$Petal.Length, col = iris$Species, pch = 19) # 根据品种绘制花萼和花瓣长度
2、Wine数据集
Wine数据集包含三种不同来源的意大利葡萄酒(Class 1,Class 2和Class 3),每个类别有13个不同的属性(包括Alcohol,Malic酸和Ash数量等)。以下是如何在R中读取和可视化Wine数据集:
library(datasets)
head(wine) #展示前几行
pairs(wine[,1:3], #根据来源为不同的类别赋予颜色
col=as.numeric(factor(wine$Class)),
pch=19, cex=1.2)
二、MASS数据集
MASS是另一个R语言自带的数据集包,包含了多个数据集,其中的一些数据集,如Boston和BostonHousing,是我们可以在房地产和金融方面使用的有用数据。以下是如何使用这些数据集:
1、Boston数据集
Boston数据集包含1970年代波士顿市25个城市区的一些详细信息(例如,犯罪率,空气质量,学生教师比例等)以及每个区域的房价中位数。以下是如何在R中读取和可视化Boston数据集:
library(MASS)
head(Boston) #展示前几行
pairs(Boston[,1:3],col=as.numeric(factor(Boston$rad)),pch=19, cex=1.2) #只展示前三列,并以rad为颜色分段
2、BostonHousing数据集
BostonHousing数据集是一种用于研究回归分析和预测建模的数据集。它是由公开互联网上的美国麻塞诸塞州Housing评估的城市区域得出的数据。数据集包含506个样本,13个输入变量以及每个城市区域的房价中位数。可以使用该数据集进行回归分析和建模工作,以预测不同城市区域的房价中位数。以下是如何在R中读取和可视化BostonHousing数据集:
library(MASS)
head(BostonHousing) #展示前几行
pairs(BostonHousing[,1:3],col=as.numeric(factor(BostonHousing$chas)),pch=19, cex=1.2) #只展示前三列,并以chas为颜色分段
三、总结
R语言自带的数据集为我们分析和展示数据提供了非常便捷的工具,我们可以通过数据集了解各种学科和领域的数据特征,同时可以将这些数据应用于数据挖掘、机器学习和统计分析等实践项目中。