您的位置:

详解model_selection

一、交叉验证

模型的性能指标和泛化能力是一个模型是否好坏的重要标志,但是为了确保模型可以拟合和处理数据,我们需要将数据拆分成训练集和测试集,但是这样仍然存在一个问题:如何保证模型不会受到数据集的噪音干扰?交叉验证可以解决这个问题。

交叉验证是一种将数据拆分成几个子集的技术,并使用一些子集来训练模型,而另外的子集用来验证模型的方法。最常见的交叉验证方法是K折交叉验证。K折意味着将数据分成K个子集,其中每个子集都用来一次验证模型,并使用其他K-1个子集来训练模型。


from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LinearRegression

# 读取数据
data = pd.read_csv('data.csv')

# 准备数据
X = data.drop('target', axis=1).values
y = data['target'].values

# 定义交叉验证折数
kfolds = KFold(n_splits=5, shuffle=True, random_state=1234)

# 创建模型
model = LinearRegression()

# 使用交叉验证评估模型
scores = cross_val_score(model, X, y, cv=kfolds)

# 输出交叉验证的得分
print("交叉验证得分: ", scores.mean())

二、网格搜索调优

调整参数是机器学习中必须的一步,网格搜索技术可以帮助我们找到最好的参数组合。在网格搜索中,我们可以为每个参数定义一个列表,并计算所得的模型对配对参数的得分。

一个实际的例子是使用 SVM 来分类鸢尾花数据集。我们可以使用网格搜索调整 SVM 模型的内核和参数。首先,定义一个参数字典和一个评分器对象:


from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV

# 加载鸢尾花数据集
iris = datasets.load_iris()

# 准备数据
X = iris.data
y = iris.target

# 定义参数字典
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}

# 创建分类器对象
svc = svm.SVC()

# 创建 GridSearchCV 对象,设置参数和折数
clf = GridSearchCV(svc, parameters, cv=5)

# 以数据进行训练
clf.fit(X, y)

# 输出最佳得分和最佳参数
print("最佳得分:", clf.best_score_)
print("最佳参数:", clf.best_params_)

三、Pipeline

在机器学习中,我们通常需要多次进行转换或建模操作。Pipeline 是一个可以使这些步骤更容易处理的工具。Pipeline 提供并行的特征提取和模型训练,可以节省大量代码行。

Pipeline 对象是一个操作序列,它可以容纳估计器对象和用于转换数据的处理器对象。该序列定义了执行数据操作和机器学习任务的顺序。


from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import PCA

# 定义 PCA 和 RandomForestClassifier 对象
pca = PCA()
rf = RandomForestClassifier()

# 多个步骤的 Pipeline 对象定义
pipeline = Pipeline(steps=[('pca', pca), ('randomforestclassifier', rf)])

# GridSearch 的参数
param_grid = {
    'pca__n_components': [5, 15, 30, 45, 64],
    'randomforestclassifier__n_estimators': [10, 50, 100, 200],
    'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']
}

# 运行 GridSearch 交叉验证以查找最佳参数
search = GridSearchCV(pipeline, param_grid, iid=False, cv=5)
search.fit(X, y)

# 输出最佳得分和最佳参数
print("最佳得分:", search.best_score_)
print("最佳参数:", search.best_params_)

四、数据预处理

数据预处理是一个机器学习流程中必不可少的一环,它对于数据的质量和可用性起着至关重要的作用。虽然 Scikit-learn 能够处理缺失值和数值数据,但对于非数值数据,如类别数据,通常需要进行编码,否则模型无法处理。处理数据缺失问题的方法有很多,包括删除、替换和插补等。

为了更好地处理数据,Scikit-learn 提供了一些预处理工具,例如:标准化、正则化、二值化和独热编码。这些方法可以帮助我们更好地预处理数据。


from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# 构建输入数据,包含缺失数据和类别数据
X = np.array([[1, 2], [np.nan, 3], [7, 6], [4, np.nan], [5, 5]])
y = np.array(['a', 'b', 'a', 'b', 'c'])

# 缺失数据处理
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)

# 类别数据处理
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
y_encoded = labelencoder.fit_transform(y)

# 正态分布标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)

# 独热编码
ohe = OneHotEncoder()
y_ohe = ohe.fit_transform(y_encoded.reshape(-1, 1)).toarray()

五、模型评估

评估模型是机器学习实践中非常重要的环节,它能够帮助我们了解模型的性能和预测效果。Scikit-learn 提供了多种评估模型的方法,例如:精度、召回率、F1 得分和ROC曲线等。


from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

# 读取数据
iris = load_iris()
X = iris.data
y = iris.target

# 将数据分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)

# 创建逻辑回归模型对象
clf = LogisticRegression()

# 训练逻辑回归模型
clf.fit(X_train, y_train)

# 进行预测
y_pred = clf.predict(X_test)

# 精度、召回率和F1得分
print("精度:{}".format(accuracy_score(y_test, y_pred)))
print("召回率:{}".format(recall_score(y_test, y_pred, average='macro')))
print("F1得分:{}".format(f1_score(y_test, y_pred, average='macro')))