一、基本概念
机器学习中要实现对数据的预测能力,需要将原始数据集分成训练集和测试集。训练集用于训练模型,测试集用于评估模型的预测能力。在R语言中,使用caTools包的sample.split函数可以将数据集划分成训练集和测试集。
二、划分比例
训练集和测试集的划分比例决定了模型的性能,典型的比例是70:30或80:20。我们需要根据数据集的大小和特征选择合适的比例。对于小样本数据集,典型的比例为50:50。在R语言中,sample.split函数可以指定划分比例。
#划分比例为70%
library(caTools)
split_ratio <- 0.7
split <- sample.split(data$target, SplitRatio = split_ratio)
train_data <- subset(data, split == TRUE)
test_data <- subset(data, split == FALSE)
三、随机分层抽样
在划分训练集和测试集时,需要考虑一个因素:如果数据集中某个特征的取值分布不均匀,那么在划分训练集和测试集的时候,每个集合中这个特征的分布也会不均匀。要解决这个问题,可以使用随机分层抽样。在R语言中,可以通过caret包进行分层抽样。
#随机分层抽样
library(caret)
split_ratio <- 0.7
strata <- data$group #根据group进行分层
split <- createDataPartition(strata, p = split_ratio, list = FALSE,
times = 1)
train_data <- data[split, ]
test_data <- data[-split, ]
四、交叉验证
交叉验证是一种评估模型性能的方法,可以用于选择最佳超参数或比较不同算法的性能。R语言中可以使用caret包的trainControl函数实现交叉验证。trainControl函数中的method参数可以指定交叉验证的方法。
#10折交叉验证
library(caret)
control <- trainControl(method = "cv", number = 10)
model <- train(y ~ ., data = train_data, method = "glm",
trControl = control)
五、分层k折交叉验证
分层k折交叉验证是在k折交叉验证基础上加入分层抽样的方法,可以更好地控制测试集和训练集中特征的分布。在R语言中可以使用caret包的trainControl函数实现分层k折交叉验证。
#分层5折交叉验证
library(caret)
control <- trainControl(method = "repeatedcv",
number = 5, repeats = 3,
classProbs = TRUE,
summaryFunction = twoClassSummary)
model <- train(y ~ ., data = train_data, method = "glm",
trControl = control)
六、总结
划分训练集和测试集是机器学习中非常重要的步骤,可以有效评估模型的性能。在R语言中,可以使用不同的方法进行划分,包括简单分割、随机分层抽样、交叉验证、分层k折交叉验证等。我们需要根据数据集的大小和特征选择合适的方法和参数,以获得更好的预测能力。