您的位置:

libsvm使用教程

一、安装libsvm

1、官网下载libsvm: https://www.csie.ntu.edu.tw/~cjlin/libsvm/ ,下载完成后解压至本地

2、打开终端,cd进入libsvm目录下,执行以下操作:

> make clean
> make
> cd python
> make

这样就安装好了libsvm。

二、使用libsvm进行分类

1、 准备数据集

为了演示方便,我们使用libsvm自带的Iris数据集。下载链接:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass/iris.scale

2、 分割数据集

> ./svm-scale -l 0 -u 1 iris.scale > iris.scale.scale
> ./svm-train -s 0 iris.scale.scale iris.model
> ./svm-predict iris.scale.scale iris.model iris.out

第一行中,我们进行了数据标准化。-l和-u表示最小值和最大值,这里分别设置为0和1。第二行中,我们训练了一个模型iris.model。svm-train的-s参数表示要使用的分类器类型,0表示使用C-SVC分类器。第三行中,我们在训练好的模型上进行了验证,结果保存在iris.out中。

三、使用libsvm进行回归

1、 准备数据集

为了演示方便,我们使用libsvm自带的sinusoidal数据集。下载链接:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/regression/sinusoidal-1000.scale

2、 分割数据集

> ./svm-scale -l -1 -u 1 sinusoidal-1000.scale > sinusoidal-1000.scale.scale
> ./svm-train -s 3 -t 2 -g 0.5 -c 1000 sinusoidal-1000.scale.scale sinusoidal.model
> ./svm-predict sinusoidal-1000.scale.scale sinusoidal.model sinusoidal.out

第一行中,我们进行了数据标准化。这次的-l和-u参数分别设置为-1和1。第二行中,我们训练了一个模型sinusoidal.model。svm-train的-s参数表示要使用的回归类型,3表示使用epsilon-SVR回归器。用-t控制核函数的类型,这里使用的是径向基核函数。-g控制径向基核函数的带宽,-c表示惩罚系数。第三行中,我们在训练好的模型上进行了验证,结果保存在sinusoidal.out中。

四、使用libsvm进行特征选择

特征选择是指从原始特征集中选出一些最具预测能力的特征子集。使用libsvm提供的工具svm-feature选择进行特征选择。

1、 准备数据集

为了演示方便,我们使用libsvm自带的breast-cancer数据集。下载链接:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/breast-cancer

2、 进行特征选择

> ./svm-scale -l 0 -u 1 breast-cancer > breast-cancer.scale
> ./svm-feature-select -c 10 -t 0 -w -1 -r -v 0 breast-cancer.scale

在svm-feature-select中,-c表示使用分类器C-SVC,-t表示核函数类型,这里使用的是线性核函数。-w表示是否使用权重,我们这里选择使用。-r表示是否随机选择特征,我们选择不随机选择。最后的-v 0表示在特征选择中不需要进行十折交叉验证。

五、使用libsvm调优

libsvm提供了一个工具svm-train,可以用来训练模型。我们可以通过调整其参数来优化模型的性能。

1、 准备数据集

为了演示方便,我们使用libsvm自带的heart_scale数据集。下载链接:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/heart_scale

2、 调优参数

> ./svm-scale -l -1 -u 1 heart_scale > heart_scale.scale
> ./svm-train -s 0 -t 0 -v 5 -c 1 -g 0.1 heart_scale.scale

在svm-train中,-v参数表示进行n折交叉验证。我们这里使用5折交叉验证。-s参数表示使用分类器类型C-SVC,-t参数表示核函数类型,这里我们使用的是线性核函数。-c参数表示惩罚因子,-g参数表示径向基核函数的波长。

六、总结

本文介绍了libsvm的基本用法,包括安装、分类、回归、特征选择和调优。希望对读者有所帮助。