使用python怎么实现逐步回归-编程学习网

本篇文章为大家展示了使用python怎么实现逐步回归，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

算法介绍

逐步回归是一种线性回归模型自变量选择方法；
逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
这里我们选择赤池信息量(Akaike Information Criterion)来作为自变量选择的准则，赤池信息量（AIC）达到最小：基于最大似然估计原理的模型选择准则。

数据情况

案例

在现实生活中，影响一个地区居民消费的因素有很多，例如一个地区的人均生产总值、收入水平等等，本案例选取了9个解释变量研究城镇居民家庭平均每人全年的消费新支出y，解释变量为：
x1——居民的食品花费
x2——居民的衣着消费
x3——居民的居住花费
x4——居民的医疗保健花费
x5——居民的文教娱乐花费
x6——地区的职工平均工资
x7——地区的人均GDP
x8——地区的消费价格指数
x9——地区的失业率（%）

数据

使用python怎么实现逐步回归

代码

# -*- coding: UTF-8 -*-import numpy as npimport statsmodels.api as smimport statsmodels.formula.api as smffrom statsmodels.stats.api import anova_lmimport matplotlib.pyplot as pltimport pandas as pdfrom patsy import dmatricesimport itertools as itimport random# Load data 读取数据df = pd.read_csv('data3.1.csv',encoding='gbk')print(df)target = 'y'variate = set(df.columns) #获取列名variate.remove(target) #去除无关列variate.remove('地区')#定义多个数组，用来分别用来添加变量，删除变量x = []variate_add = []variate_del = variate.copy()# print(variate_del)y = random.sample(variate,3) #随机生成一个选模型，3为变量的个数print(y)#将随机生成的三个变量分别输入到 添加变量和删除变量的数组for i in y: variate_add.append(i) x.append(i) variate_del.remove(i)global aic #设置全局变量 这里选择AIC值作为指标formula="{}~{}".format("y","+".join(variate_add)) #将自变量名连接起来aic=smf.ols(formula=formula,data=df).fit().aic #获取随机函数的AIC值，与后面的进行对比print("随机化选模型为：{}~{}，对应的AIC值为：{}".format("y","+".join(variate_add), aic))print("\n")#添加变量def forwark(): score_add = [] global best_add_score global best_add_c print("添加变量") for c in variate_del:  formula = "{}~{}".format("y", "+".join(variate_add+[c]))  score = smf.ols(formula = formula, data = df).fit().aic  score_add.append((score, c)) #将添加的变量，以及新的AIC值一起存储在数组中    print('自变量为{}，对应的AIC值为：{}'.format("+".join(variate_add+[c]), score)) score_add.sort(reverse=True) #对数组内的数据进行排序，选择出AIC值最小的 best_add_score, best_add_c = score_add.pop()  print("最小AIC值为：{}".format(best_add_score)) print("\n")#删除变量def back(): score_del = [] global best_del_score global best_del_c print("剔除变量") for i in x:  select = x.copy() #copy一个集合，避免重复修改到原集合  select.remove(i)  formula = "{}~{}".format("y","+".join(select))  score = smf.ols(formula = formula, data = df).fit().aic  print('自变量为{}，对应的AIC值为：{}'.format("+".join(select), score))  score_del.append((score, i)) score_del.sort(reverse=True) #排序，方便将最小值输出 best_del_score, best_del_c = score_del.pop() #将最小的AIC值以及对应剔除的变量分别赋值 print("最小AIC值为：{}".format(best_del_score)) print("\n")print("剩余变量为：{}".format(variate_del))forwark()back()while variate:  #  forwark()#  back() if(aic < best_add_score < best_del_score or aic < best_del_score < best_add_score):  print("当前回归方程为最优回归方程，为{}~{}，AIC值为：{}".format("y","+".join(variate_add), aic))  break elif(best_add_score < best_del_score < aic or best_add_score < aic < best_del_score):  print("目前最小的aic值为{}".format(best_add_score))  print('选择自变量：{}'.format("+".join(variate_add + [best_add_c])))   print('\n')  variate_del.remove(best_add_c)  variate_add.append(best_add_c)  print("剩余变量为：{}".format(variate_del))  aic = best_add_score  forwark() else:  print('当前最小AIC值为：{}'.format(best_del_score))  print('需要剔除的变量为：{}'.format(best_del_c))  aic = best_del_score #将AIC值较小的选模型AIC值赋给aic再接着下一轮的对比  x.remove(best_del_c) #在原集合上剔除选模型所对应剔除的变量  back()

结果

使用python怎么实现逐步回归

上述内容就是使用python怎么实现逐步回归，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网行业资讯频道。

文章详情

使用python怎么实现逐步回归

算法介绍

数据情况

案例

数据

代码

结果

软考中级精品资料免费领

相关文章

猜你喜欢

使用python怎么实现逐步回归

如何用python做逐步回归

R语言如何实现前向逐步回归

Python怎么实现线性回归

详解R语言实现前向逐步回归(前向选择模型)

python一元线性回归怎么实现

python多元线性回归怎么实现

python异步回调怎么实现

怎么使用Python线性回归方法

使用pytorch实现线性回归

手动以及使用torch.nn实现logistic回归和softmax回归

使用R语言怎么实现一个线性回归

python实现线性回归的代码怎么写

pytorch使用nn.Moudle实现逻辑回归

python中怎么使用Keras进行回归运算

python异步回调模式怎么实现

python中怎么实现一个抽样回归算法

python怎么实现递归

JS怎么使用window.requestAnimationFrame()实现逐帧动画

python怎么实现梯度下降求解逻辑回归