回归是一种统计学习方法,用于预测数值型的数据,如房价、销量等。回归算法首先通过数据分析建立一个拟合函数,然后将未知样本带入该函数计算得到预测结果。
一、线性回归
线性回归是回归分析中最简单和最流行的方法,基本思想是通过一条直线来拟合数据点的趋势。例如,我们需要预测房价,我们可以通过分析房屋的面积、位置、年代等因素来建立一个拟合函数,用于预测未知的房价。
1、最小二乘法
import numpy as np
from sklearn.linear_model import LinearRegression
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.dot(X, np.array([3, 4])) + 5
reg = LinearRegression().fit(X, y)
reg.score(X, y)
reg.coef_
reg.intercept_
2、岭回归
from sklearn import linear_model
reg = linear_model.Ridge(alpha=.5)
reg.fit([[0, 0], [0, 0], [1, 1], [1, 1]], [0, .1, 1, 1])
reg.coef_
reg.intercept_
3、Lasso回归
from sklearn import linear_model
reg = linear_model.Lasso(alpha=0.1)
reg.fit([[0, 0], [1, 1]], [0, 1])
reg.predict([[1, 1]])
二、多项式回归
多项式回归是在线性回归的基础上,通过加入高次项来拟合非线性数据。例如,我们需要预测某家餐馆的人流量,我们可以通过分析餐馆的位置、周边环境、天气等因素来建立一个拟合函数,用于预测未来的人流量。
1、多项式特征处理
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X_poly = PolynomialFeatures(degree=2, include_bias=False).fit_transform(X)
X
X_poly
2、多项式回归
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
# 生成样本数据
x = np.linspace(0, 2, 100)
y = 1 + 2*x + np.random.randn(100)*0.5
# 多项式回归
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(x.reshape(-1, 1))
poly_reg = LinearRegression().fit(X_poly, y)
# 可视化结果
plt.scatter(x, y)
plt.plot(x, poly_reg.predict(X_poly), color='r')
plt.show()
三、决策树回归
决策树回归是一种通过树状结构来预测数值型数据的方法。例如,我们需要预测电影票房,我们可以通过分析电影的导演、演员、类型、上映时间等因素来建立一个决策树,用于预测未来电影的票房。
1、构建决策树
from sklearn.tree import DecisionTreeRegressor
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
regressor = DecisionTreeRegressor(max_depth=2)
regressor.fit(X, y)
2、可视化决策树
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn import tree
import graphviz
iris = load_iris()
clf = tree.DecisionTreeClassifier()
clf = clf.fit(iris.data, iris.target)
dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph
四、支持向量机回归
支持向量机回归是一种通过构建超平面来预测数值型数据的方法。例如,我们需要预测某公司的利润,我们可以通过分析公司的历史数据、行业数据等因素来建立一个超平面,用于预测未来的利润。
1、线性支持向量机回归
from sklearn.svm import SVR
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
regressor = SVR(kernel='linear', C=1.0, epsilon=0.2)
regressor.fit(X, y)
2、非线性支持向量机回归
from sklearn.svm import SVR
import numpy as np
import matplotlib.pyplot as plt
# 创建样本数据
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(X).ravel()
# 添加噪声
y[::5] += 3 * (0.5 - np.random.rand(16))
# 训练非线性SVR
svr_rbf = SVR(kernel='rbf', C=1e3, gamma=0.1)
svr_lin = SVR(kernel='linear', C=1e3)
svr_poly = SVR(kernel='poly', C=1e3, degree=2)
y_rbf = svr_rbf.fit(X, y).predict(X)
y_lin = svr_lin.fit(X, y).predict(X)
y_poly = svr_poly.fit(X, y).predict(X)
# 可视化结果
plt.scatter(X, y, color='black', label='data')
plt.plot(X, y_rbf, color='red', label='RBF model')
plt.plot(X, y_lin, color='green', label='Linear model')
plt.plot(X, y_poly, color='blue', label='Polynomial model')
plt.xlabel('data')
plt.ylabel('target')
plt.title('Support Vector Regression')
plt.legend()
plt.show()