您的位置:

python中训练数据,python培训总结

本文目录一览:

python中什么是测试数据和训练数据

当数据量特别大的时候,有几千几万条,为了验证模型的好坏,取出一部分用于训练,另一部分用作测试。当模型训练好的时候,其必定是符合训练数据的分布,为了验证模型的泛化能力,就利用没有参与训练的测试集,放入模型计算出结果,和真实值比较,就可以看出回归模型预测得准不准了

从代码来看你这个做的是一个简单的线性回归模型,数据很简单就是研发成本对应产品质量,利用线性回归拟合一条直线,由于你的数据特别少只有8个点,所以完全没有必要区分训练数据和测试数据,尤其你设置测试集比例为0.1,其实就只有一条,用处不大,所以没有区分的必要

希望我的回答能帮助到你,祝你学习顺利

python怎么从一个文件中读取训练集

在读取文件之前,我们先创建一个文本文件resource.txt作为源文件。

resource.txt

my name is joker,

I am 18 years old,

How about you?

如何读取文件全部内容,我们编写到reader.py文件中。

reader.py

1 with open('resource.txt') as file_obj:2     content = file_obj.read()3     print(content)4        

需要注意的是需要将resource.txt文件与read.py 放在同一目录下。

运行后的结果如下:

解释:open函数接收一个参数,此参数为将被读取内容的文件名,在调用之后返回表示这个文件的对象,Python将之存储在后面的变量(file_obj)中,关键字 with 在我们不再需要使用文件的时候将其关闭。

上面的代码中open() 函数中传入的是一个相对路径,相对路径会从当前文件(reader.py)所在文件夹下查找指定文件(resource.txt),如果文件不在当前文件夹下,可以使用绝对路径。Linux系统绝对路径如:

/home/joker/dic这样的,Windows系统的绝对路径如:C:/pyhton_workspace/dic 这样的。

python svm 怎么训练模型

支持向量机SVM(Support Vector Machine)是有监督的分类预测模型,本篇文章使用机器学习库scikit-learn中的手写数字数据集介绍使用Python对SVM模型进行训练并对手写数字进行识别的过程。

准备工作

手写数字识别的原理是将数字的图片分割为8X8的灰度值矩阵,将这64个灰度值作为每个数字的训练集对模型进行训练。手写数字所对应的真实数字作为分类结果。在机器学习sklearn库中已经包含了不同数字的8X8灰度值矩阵,因此我们首先导入sklearn库自带的datasets数据集。然后是交叉验证库,SVM分类算法库,绘制图表库等。

12345678910

#导入自带数据集from sklearn import datasets#导入交叉验证库from sklearn import cross_validation#导入SVM分类算法库from sklearn import svm#导入图表库import matplotlib.pyplot as plt#生成预测结果准确率的混淆矩阵from sklearn import metrics

读取并查看数字矩阵

从sklearn库自带的datasets数据集中读取数字的8X8矩阵信息并赋值给digits。

12

#读取自带数据集并赋值给digitsdigits = datasets.load_digits()

查看其中的数字9可以发现,手写的数字9以64个灰度值保存。从下面的8×8矩阵中很难看出这是数字9。

12

#查看数据集中数字9的矩阵digits.data[9]

以灰度值的方式输出手写数字9的图像,可以看出个大概轮廓。这就是经过切割并以灰度保存的手写数字9。它所对应的64个灰度值就是模型的训练集,而真实的数字9是目标分类。我们的模型所要做的就是在已知64个灰度值与每个数字对应关系的情况下,通过对模型进行训练来对新的手写数字对应的真实数字进行分类。

1234

#绘制图表查看数据集中数字9的图像plt.imshow(digits.images[9], cmap=plt.cm.gray_r, interpolation='nearest')plt.title('digits.target[9]')plt.show()

设置模型的特征X和预测目标Y

查看数据集中的分类目标,可以看到一共有10个分类,分布为0-9。我们将这个分类目标赋值给Y,作为模型的预测目标。

12

#数据集中的目标分类digits.target

12

#将数据集中的目标赋给YY=digits.target

手写数字的64个灰度值作为特征赋值给X,这里需要说明的是64个灰度值是以8×8矩阵的形式保持的,因此我们需要使用reshape函数重新调整矩阵的行列数。这里也就是将8×8的两维数据转换为64×1的一维数据。

123

#使用reshape函数对矩阵进行转换,并赋值给Xn_samples = len(digits.images)X = digits.images.reshape((n_samples, 64))

查看特征值X和预测目标Y的行数,共有1797行,也就是说数据集中共有1797个手写数字的图像,64列是经过我们转化后的灰度值。

12

#查看X和Y的行数X.shape,Y.shape

将数据分割为训练集和测试集

将1797个手写数字的灰度值采用随机抽样的方法分割为训练集和测试集,其中训练集为60%,测试集为40%。

12

#随机抽取生成训练集和测试集,其中训练集的比例为60%,测试集40%X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, Y, test_size=0.4, random_state=0)

查看分割后的测试集数据,共有1078条数据。这些数据将用来训练SVM模型。

12

#查看训练集的行数X_train.shape,y_train.shape

对SVM模型进行训练

将训练集数据X_train和y_train代入到SVM模型中,对模型进行训练。下面是具体的代码和结果。

12

#生成SVM分类模型clf = svm.SVC(gamma=0.001)

12

#使用训练集对svm分类模型进行训练clf.fit(X_train, y_train)

使用测试集测对模型进行测试

使用测试集数据X_test和y_test对训练后的SVM模型进行检验,模型对手写数字分类的准确率为99.3%。这是非常高的准确率。那么是否真的这么靠谱吗?下面我们来单独测试下。

12

#使用测试集衡量分类模型准确率clf.score(X_test, y_test)

我们使用测试集的特征X,也就是每个手写数字的64个灰度值代入到模型中,让SVM模型进行分类。

12

#对测试集数据进行预测predicted=clf.predict(X_test)

然后查看前20个手写数字的分类结果,也就是手写数字所对应的真实数字。下面是具体的分类结果。

12

#查看前20个测试集的预测结果predicted[:20]

再查看训练集中前20个分类结果,也就是真实数字的情况,并将之前的分类结果与测试集的真实结果进行对比。

12

#查看测试集中的真实结果expected=y_test

以下是测试集中前20个真实数字的结果,与前面SVM模型的分类结果对比,前20个结果是一致的。

12

#查看测试集中前20个真实结果expected[:20]

使用混淆矩阵来看下SVM模型对所有测试集数据的预测与真实结果的准确率情况,下面是一个10X10的矩阵,左上角第一行第一个数字60表示实际为0,SVM模型也预测为0的个数,第一行第二个数字表示实际为0,SVM模型预测为1的数字。第二行第二个数字73表示实际为1,SVM模型也预测为1的个数。

12

#生成准确率的混淆矩阵(Confusion matrix)metrics.confusion_matrix(expected, predicted)

从混淆矩阵中可以看到,大部分的数字SVM的分类和预测都是正确的,但也有个别的数字分类错误,例如真实的数字2,SVM模型有一次错误的分类为1,还有一次错误分类为7。

python机器学习训练的数据存在mysql可以吗

当然可以了, mysql是一种很常用的数据存储的工具, 当你需要使用这些训练数据时, 只需要通过python的mysql的包连接到数据库, 执行查询sql,将数据导入到python的变量就可以拿来用, 十分方便.如果不知道怎么用python读写mysql数据库, 请追问.