Python逐步回归

一、Python逐步回归法

Python逐步回归法是一种针对高维数据选择最优变量子集的算法。该算法通过反复地调整模型中自变量的数量，然后利用交叉验证来确定最优模型。

使用Python进行逐步回归，通常使用statsmodels库中的OLS函数。下面是一个简单的例子：

from statsmodels.formula.api import ols

model = ols('y ~ x1 + x2', data=df).fit()

print(model.summary())

在以上代码中，y代表因变量，x1和x2代表自变量，df代表数据集。这个模型只考虑了两个自变量，还可以通过加号添加更多自变量。

Python逐步回归还可以利用step函数逐步选择最优模型：

import statsmodels.api as sm

results = sm.OLS(y, X).fit()

print(results.summary())

print(results.params)

selected, remaining = step(X, y)
print(selected.model.formula)

其中step函数可以通过指定如下的一些参数进行调节：

method：可以是“backward”、“forward”、“both”中的任何一个值，表示逐步回归的方法。
criterion：可以是“AIC”或“BIC”，表示评估模型的准则。
alpha：调节的参数变化大小。

二、Python回归问题

Python中的回归问题通常包括线性回归、多项式回归、岭回归、Lasso回归等。Python中可以使用多个库进行回归分析，包括numpy、pandas、scikit-learn、statsmodels等。

Python的线性回归可以使用numpy库实现，下面是一个简单的例子：

import numpy as np

x1 = np.array([1, 2, 3, 4, 5])
x2 = np.array([2, 4, 6, 8, 10])
y = np.array([2.1, 4.2, 6.3, 8.4, 10.5])

X = np.column_stack((np.ones(5), x1, x2))

w = np.linalg.lstsq(X, y)[0]

print(w)

以上代码实现了一个最小二乘线性回归的例子。其中，x1和x2代表自变量，y代表因变量。

三、Python逐步回归包

Python中有许多可以用于逐步回归的包。其中，较为著名的包有statsmodels和scikit-learn。

statsmodels的逐步回归包使用起来比较简单。下面是一个简单的例子：

import statsmodels
import statsmodels.api as sm

X = np.column_stack((np.ones(5), x1, x2))

y = np.array([2.1, 4.2, 6.3, 8.4, 10.5])

results = sm.OLS(y, X).fit()

print(results.summary())

selected, remaining = statsmodels.regression.linear_model.OLS(y, X).\
    fit().model.exog[:, 1:], statsmodels.regression.linear_model.OLS(y, X).\
    fit().model.exog[:, 1:]

while remaining.shape[1] > 0:
    scores = []
    model = sm.OLS(y, selected).fit()
    for col in remaining.T:
        test_X = np.column_stack((selected, col))
        test_model = sm.OLS(y, test_X).fit()
        scores.append((test_model.rsquared_adj, col))
    best_new_score, best_new_col = max(scores)
    if best_new_score > model.rsquared_adj:
        selected = np.column_stack((selected, best_new_col))
        remaining = np.delete(remaining, np.argwhere(
            remaining == best_new_col)[0][0], 1)
        print('Add  x%d with R-squared %.2f' %
              (np.argwhere(X == best_new_col)[1][0], best_new_score))
    else:
        print('Model is complete.')
        break

以上代码使用了statsmodels中自带的逐步回归方法，并可以分步进行调节，包括添加新变量等等。

scikit-learn也提供了类似的逐步回归方法，称为RFE（Recursive Feature Elimination），使用起来也比较简单：

from sklearn.feature_selection import RFE

lr = LinearRegression()

rfe = RFE(lr, 1)

rfe = rfe.fit(X, y)

print(rfe.support_)
print(rfe.ranking_)

以上代码将会输出一个bool类型的数组，代表哪些变量被选择，以及一个int类型的数组，代表每个变量的排名。

四、Python逐步回归代码

Python逐步回归的代码其实就是逐步添加自变量的代码。下面是一个简单的例子，用于说明如何进行逐步回归：

import pandas as pd
import numpy as np
import statsmodels.api as sm

data = pd.read_csv('data.csv')

X = data[['x1', 'x2']]
y = data['y']

def stepwise_selection(X, y, 
                       initial_list=[], 
                       threshold_in=0.01, 
                       threshold_out = 0.05, 
                       verbose=True):
    included = list(initial_list)
    while True:
        changed=False
        excluded = list(set(X.columns)-set(included))
        new_pval = pd.Series(index=excluded,dtype='float64')
        for new_column in excluded:
            model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included+[new_column]]))).fit()
            new_pval[new_column] = model.pvalues[new_column]
        best_pval = new_pval.min()
        if best_pval < threshold_in:
            best_feature = new_pval.argmin()
            included.append(best_feature)
            changed=True
            if verbose:
                print('Add  %s with p-value %.6f' % (best_feature, best_pval))
        model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included]))).fit()
        pvalues = model.pvalues.iloc[1:]
        worst_pval = pvalues.max()
        if worst_pval > threshold_out:
            changed=True
            worst_feature = pvalues.argmax()
            included.remove(worst_feature)
            if verbose:
                print('Drop %s with p-value %.6f' % (worst_feature, worst_pval))
        if not changed:
            break
    return included

result = stepwise_selection(X, y)

print(result)

以上代码使用了statsmodels库中的OLS函数进行逐步回归，并可以调节新增变量的阈值、剔除变量的阈值、初始列表等参数。

五、Python做回归分析

Python做回归分析可以使用多种库。本文中已经涉及到了numpy、pandas、statsmodels和scikit-learn等库。

对于多元回归分析，可以使用statsmodels库实现，下面是一个简单的例子：

import statsmodels.api as sm

X = df[['x1', 'x2', 'x3']]
y = df['y']

model = sm.OLS(y, X).fit()

print(model.summary())
print(model.predict(df_new[['x1', 'x2', 'x3']]))

以上代码使用OLS函数对三个自变量进行回归分析，并可以通过predict函数预测新的结果。

对于岭回归和Lasso回归，可以使用scikit-learn库进行实现，下面是一个简单的例子：

from sklearn.linear_model import Ridge, Lasso

ridge = Ridge(alpha=1.0)
ridge.fit(X, y)

lasso = Lasso(alpha=0.1)
lasso.fit(X, y)

print(ridge.coef_)
print(lasso.coef_)

以上代码分别实现了岭回归和Lasso回归，并输出结果。

六、Python逐步回归分析

Python逐步回归分析是指通过逐步回归的方式来确定最优模型。逐步回归可以分为前向逐步回归和后向逐步回归两种。

对于前向逐步回归，可以使用statsmodels库中的step函数进行实现，下面是一个简单的例子：

import statsmodels.api as sm

X = df[['x1', 'x2', 'x3']]
y = df['y']

selected = []
for i in range(3):
    remaining = [x for x in X.columns if x not in selected]
    scores = {}
    for candidate in remaining:
        formula = "{} ~ {} + 1".format('y', ' + '.join(selected + [candidate]))
        score = smf.ols(formula, data).fit().rsquared_adj
        scores[candidate] = score
    bestvar, bestscore = sorted(scores.items(), key=lambda x: x[1], reverse=True)[0]
    selected.append(bestvar)

print(selected)

以上代码使用了OLS函数和step函数实现了前向逐步回归。具体来说，该代码一开始没有变量，然后在每次循环中，选择最优变量子集中的变量，并在已选择的自变量中添加以后的变量。

对于后向逐步回归，可以使用和前向逐步回归类似的方法。下面是一个简单的例子：

import statsmodels.api as sm

X = df[['x1', 'x2', 'x3']]
y = df['y']

included_vars = list(X.columns)
while True:
    changed = False
    best_pval = float('inf')
    for var in included_vars:
        formula = "y ~ " + ' + '.join(list(set(included_vars) - set([var])))
        ols_result = smf.ols(formula=formula, data=df).fit()
        p = ols_result.pvalues[var]
        if p < best_pval:
            best_pval = p
            best_var = var
    if best_pval < 0.05:
        included_vars.remove(best_var)
        changed = True
    if not changed:
        break

print(included_vars)

以上代码实现了后向逐步回归。该代码一开始考虑全部变量，然后在每次循环中，剔除P值过大的自变量，直到不再有变化。

七、Python逐步回归库选取

Python中有众多可以用于逐步回归的库，包括：statsmodels、scikit-learn、mlxtend等。这些库各有优缺点，可以根据需要选择使用。

statsmodels是一个常用的处理统计问题的库，综合性较强，逐步回归的功能也比较全面。scikit-learn是一个全面性较强的机器学习库，在回归问题中表现出色，而且可以很方便地实现交叉验证、正则化等功能。mlxtend则是一个相对较新的库，但是对于特征选择和逐步回归，实现方式比较简单，也比较易于理解。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Python逐步回归

一、Python逐步回归法

二、Python回归问题

三、Python逐步回归包

四、Python逐步回归代码

五、Python做回归分析

六、Python逐步回归分析

七、Python逐步回归库选取

Python逐步回归

python基础学习整理笔记,Python课堂笔记

R语言逐步回归详解

最新python学习笔记3,python基础笔记

印象笔记记录java学习（Java成长笔记）

python学习之笔记（python的笔记）

重拾python笔记三的简单介绍

java方法整理笔记（java总结）

我的python学习基础笔记,python自学笔记

python方法笔记,python基础教程笔记

python学习日记day4（大学python笔记整理）

阿平的python小笔记吖,python 阿里巴巴

python学习笔记一之,python入门笔记

python笔记第六天,python第六周笔记

python学习笔记0（0基础Python）

java学习笔记（java初学笔记）

关于python学习笔记十三的信息

python个人学习笔记1（python笔记总结）

python的用法笔记本（笔记本学python）

java笔记,大学java笔记

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Python逐步回归

一、Python逐步回归法

二、Python回归问题

三、Python逐步回归包

四、Python逐步回归代码

五、Python做回归分析

六、Python逐步回归分析

七、Python逐步回归库选取

Python逐步回归

python基础学习整理笔记,Python课堂笔记

R语言逐步回归详解

最新python学习笔记3,python基础笔记

印象笔记记录java学习（Java成长笔记）

python学习之笔记（python的笔记）

重拾python笔记三的简单介绍

java方法整理笔记（java总结）

我的python学习基础笔记,python自学笔记

python方法笔记,python基础教程笔记

python学习日记day4（大学python笔记整理）

阿平的python小笔记吖,python 阿里巴巴

python学习笔记一之,python入门笔记

python笔记第六天,python第六周笔记

python学习笔记0（0基础Python）

java学习笔记（java初学笔记）

关于python学习笔记十三的信息

python个人学习笔记1（python笔记总结）

python的用法笔记本（笔记本学python）

java笔记,大学java笔记

人机检测，请谅解