一、交叉验证
模型的性能指标和泛化能力是一个模型是否好坏的重要标志,但是为了确保模型可以拟合和处理数据,我们需要将数据拆分成训练集和测试集,但是这样仍然存在一个问题:如何保证模型不会受到数据集的噪音干扰?交叉验证可以解决这个问题。
交叉验证是一种将数据拆分成几个子集的技术,并使用一些子集来训练模型,而另外的子集用来验证模型的方法。最常见的交叉验证方法是K折交叉验证。K折意味着将数据分成K个子集,其中每个子集都用来一次验证模型,并使用其他K-1个子集来训练模型。
from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LinearRegression
# 读取数据
data = pd.read_csv('data.csv')
# 准备数据
X = data.drop('target', axis=1).values
y = data['target'].values
# 定义交叉验证折数
kfolds = KFold(n_splits=5, shuffle=True, random_state=1234)
# 创建模型
model = LinearRegression()
# 使用交叉验证评估模型
scores = cross_val_score(model, X, y, cv=kfolds)
# 输出交叉验证的得分
print("交叉验证得分: ", scores.mean())
二、网格搜索调优
调整参数是机器学习中必须的一步,网格搜索技术可以帮助我们找到最好的参数组合。在网格搜索中,我们可以为每个参数定义一个列表,并计算所得的模型对配对参数的得分。
一个实际的例子是使用 SVM 来分类鸢尾花数据集。我们可以使用网格搜索调整 SVM 模型的内核和参数。首先,定义一个参数字典和一个评分器对象:
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
# 加载鸢尾花数据集
iris = datasets.load_iris()
# 准备数据
X = iris.data
y = iris.target
# 定义参数字典
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}
# 创建分类器对象
svc = svm.SVC()
# 创建 GridSearchCV 对象,设置参数和折数
clf = GridSearchCV(svc, parameters, cv=5)
# 以数据进行训练
clf.fit(X, y)
# 输出最佳得分和最佳参数
print("最佳得分:", clf.best_score_)
print("最佳参数:", clf.best_params_)
三、Pipeline
在机器学习中,我们通常需要多次进行转换或建模操作。Pipeline 是一个可以使这些步骤更容易处理的工具。Pipeline 提供并行的特征提取和模型训练,可以节省大量代码行。
Pipeline 对象是一个操作序列,它可以容纳估计器对象和用于转换数据的处理器对象。该序列定义了执行数据操作和机器学习任务的顺序。
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import PCA
# 定义 PCA 和 RandomForestClassifier 对象
pca = PCA()
rf = RandomForestClassifier()
# 多个步骤的 Pipeline 对象定义
pipeline = Pipeline(steps=[('pca', pca), ('randomforestclassifier', rf)])
# GridSearch 的参数
param_grid = {
'pca__n_components': [5, 15, 30, 45, 64],
'randomforestclassifier__n_estimators': [10, 50, 100, 200],
'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']
}
# 运行 GridSearch 交叉验证以查找最佳参数
search = GridSearchCV(pipeline, param_grid, iid=False, cv=5)
search.fit(X, y)
# 输出最佳得分和最佳参数
print("最佳得分:", search.best_score_)
print("最佳参数:", search.best_params_)
四、数据预处理
数据预处理是一个机器学习流程中必不可少的一环,它对于数据的质量和可用性起着至关重要的作用。虽然 Scikit-learn 能够处理缺失值和数值数据,但对于非数值数据,如类别数据,通常需要进行编码,否则模型无法处理。处理数据缺失问题的方法有很多,包括删除、替换和插补等。
为了更好地处理数据,Scikit-learn 提供了一些预处理工具,例如:标准化、正则化、二值化和独热编码。这些方法可以帮助我们更好地预处理数据。
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
# 构建输入数据,包含缺失数据和类别数据
X = np.array([[1, 2], [np.nan, 3], [7, 6], [4, np.nan], [5, 5]])
y = np.array(['a', 'b', 'a', 'b', 'c'])
# 缺失数据处理
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)
# 类别数据处理
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
y_encoded = labelencoder.fit_transform(y)
# 正态分布标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)
# 独热编码
ohe = OneHotEncoder()
y_ohe = ohe.fit_transform(y_encoded.reshape(-1, 1)).toarray()
五、模型评估
评估模型是机器学习实践中非常重要的环节,它能够帮助我们了解模型的性能和预测效果。Scikit-learn 提供了多种评估模型的方法,例如:精度、召回率、F1 得分和ROC曲线等。
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
# 读取数据
iris = load_iris()
X = iris.data
y = iris.target
# 将数据分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
# 创建逻辑回归模型对象
clf = LogisticRegression()
# 训练逻辑回归模型
clf.fit(X_train, y_train)
# 进行预测
y_pred = clf.predict(X_test)
# 精度、召回率和F1得分
print("精度:{}".format(accuracy_score(y_test, y_pred)))
print("召回率:{}".format(recall_score(y_test, y_pred, average='macro')))
print("F1得分:{}".format(f1_score(y_test, y_pred, average='macro')))