基于python的房价多元线性回归分析

1.导入必要的库

import pandas as pd  
import numpy as np  
import statsmodels.api as sm  
from sklearn.model_selection import train_test_split  
from sklearn.metrics import r2_score  
import matplotlib.pyplot as plt 
# 忽略Matplotlib的警告(可选)  
import warnings  
warnings.filterwarnings("ignore") 

2.加载数据

df = pd.read_excel('BostonHousing.xlsx')  
df  

        数据结果如图2-1所示:

图2-1 数据情况

        从图2-1来看自变量与因变量的关系感觉都挺线性的。这里以“medv”为因变量,其余为自变量。

3.查看数据分布

plt.style.use('grayscale')  
sns.pairplot(df.select_dtypes(include='number'), diag_kind='kde', markers='.')

        运行结果如图3-1所示:

图3-1 数据分布

4.确定变量与缺失值处理

# 确定变量  
y = df['medv']  # 因变量  
X = df.drop(['medv'], axis=1)  # 自变量,排除时间和无关列  
  
# 处理缺失值 - 这里直接删除包含缺失值的行  
df_cleaned = df.dropna()  
y_cleaned = df_cleaned['medv']  
X_cleaned = df_cleaned.drop(['medv'], axis=1)  
  

5.模型构建与参数估计

# 添加截距项  
X_cleaned_with_intercept = sm.add_constant(X_cleaned)   
# 使用statsmodels进行多元线性回归  
model = sm.OLS(y_cleaned, X_cleaned_with_intercept).fit()    
# 输出参数估计结果  
print(model.summary())  

        参数估计结果如图5-1所示:

图5-1 参数估计结果

        根据图5-1所提供的OLS回归分析结果,我们可以从以下几个方面评价模型的参数估计:

1. R-squared和调整R-squared值:

  • R-squared(方差比)为0.749,表明模型解释的变异比例较高,即模型的拟合度较好。
  • 调整R-squared(调整方差比)为0.741,虽然略低于R-squared,但仍然说明模型有较好的解释力,考虑到模型中自变量的数量,这个调整后的值仍然令人满意。

2. F-statistic和P值:

  • F-statistic值为95.38,表明模型整体上是统计显著的。
  • P值(Prob(F-statistic))为1.91e-124,远小于0.05的常用显著性水平,这强烈地拒绝了解释变量整体上对被解释变量没有影响的零假设。

3. t值和P值:

  • 大多数自变量的t值都远大于2,说明它们在统计上是显著的。
  • P值普遍较低,除了indus和age,它们的P值分别为0.711和0.976,不具有统计显著性。

4. 标准误差:

  • 标准误差假设误差项的协方差矩阵正确设定。大多数自变量的标准误差在合理范围内,但部分自变量的标准误差较大,如tax和ptratio。

5. 共线性检验(Condition Number):

  • 条件数为1.61e+04,这个数值较大,表明可能存在多重共线性问题。当条件数大于30时,一般认为存在较强的多重共线性。在这种情况下,可能需要进一步分析或对模型进行变量选择。

6. Omnibus和Jarque-Bera检验:

  • Omnibus值为151.628,Prob(Omnibus)远小于0.05,表明残差序列不是白噪声。
  • Jarque-Bera值为593.144,Prob(JB)非常小,表明分布拟合度很好,残差符合正态分布。

7. 偏度和峰度:

  • 偏度为1.438,表明残差分布略微偏向右侧。
  • 峰度为7.748,说明残差分布比正态分布更尖锐。

        综上所述,模型整体上具有较好的拟合度和统计显著性。然而,条件数较大暗示存在多重共线性问题,可能需要进一步处理。此外,indus和age这两个自变量不具有统计显著性,可能需要从模型中移除。

6.模型检验

#模型检验  
print(f'R²: {model.rsquared}')  
print(f'Adjusted R²: {model.rsquared_adj}')  
# 共线性检验(使用VIF) 
from statsmodels.stats.outliers_influence import variance_inflation_factor 
vif = pd.DataFrame()  
vif["VIF Factor"] = [variance_inflation_factor(X_cleaned.values, i) for i in range(X_cleaned.shape[1])]  
vif["features"] = X_cleaned.columns  
print(vif)   
# 残差分析 
plt.hist(model.resid, bins=20, density=True, alpha=0.6, color='g')  
plt.title('Residual Histogram')  
plt.xlabel('Residuals')  
plt.ylabel('Frequency')  
plt.show() 

运行结果:

R²: 0.7491949962047857
Adjusted R²: 0.7413398059293204
VIF Factor features
0     9.646693   number
1     2.126445     crim
2     3.210785       zn
3    14.866827    indus
4     1.157936     chas
5    78.262811      nox
6    74.955636       rm
7    25.195526      age
8    14.227085      dis
9    26.248236      rad
10   84.976647      tax
11   80.088106  ptratio
12   18.574102        b
13   10.891514    lstat

图6-1

        该模型的R²值为0.7491949962047857,这表明该模型解释了数据的大部分变异。Adjusted R²值为0.7413398059293204,它考虑了自相关和异方差,提供了更准确的模型性能评估。

        VIF(变量互异性)因子分析显示,大多数变量的VIF值都在1到5之间,这意味着这些变量之间存在一定的相关性,但这种相关性相对较低。其中,'number'、'crim'、'zn'、'indus'、'chas'、'nox'、'rm'、'age'、'dis'、'rad'、'tax'、'ptratio'、'b'和'lstat'的VIF值超过了5,可能需要进一步审查以确定它们是否是共线性问题。

        总体而言,这个模型似乎是一个良好的拟合模型,能够解释大部分的数据变异,并且没有明显的共线性问题。然而,为了确保模型的准确性和泛化能力,建议对模型进行交叉验证,并检查所有显著的变量,特别是那些VIF值较高的变量。

7.模型优化与解释

7.1 模型优化

        对于indus和age这两个自变量不具有统计显著性,本文从模型中移除,并且移除VIF值大于10的变量。

import statsmodels.api as sm  
import pandas as pd  
from statsmodels.stats.outliers_influence import variance_inflation_factor  
# 'indus'和'age'的p值较高  
X_cleaned_dropped = X_cleaned.drop(['indus', 'age'], axis=1)  
  
# 添加截距项  
X_cleaned_dropped_with_intercept = sm.add_constant(X_cleaned_dropped)  
  
# 使用statsmodels进行多元线性回归  
model_dropped = sm.OLS(y_cleaned, X_cleaned_dropped_with_intercept).fit()  
  
# 打印模型的摘要以查看结果  
print(model_dropped.summary())  
  
# 计算VIF值  
def calculate_vif(X):  
    vif = pd.DataFrame()  
    vif["variables"] = X.columns  
    vif["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]  
    return vif  
  
# 计算VIF值  
vif = calculate_vif(X_cleaned_dropped)  
print(vif)  
  
# 如果某个变量的VIF值过高(例如 > 10),考虑移除它   
high_vif_variables = vif[vif['VIF'] > 10]['variables']  
X_cleaned_dropped_more = X_cleaned_dropped.drop(high_vif_variables, axis=1)  
print(X_cleaned_dropped_more)

        运行结果为:

                           OLS Regression Results                            
==============================================================================
Dep. Variable:                   medv   R-squared:                       0.749
Model:                            OLS   Adj. R-squared:                  0.742
Method:                 Least Squares   F-statistic:                     111.7
Date:                Sun, 30 Jun 2024   Prob (F-statistic):          1.83e-126
Time:                        19:44:39   Log-Likelihood:                -1377.5
No. Observations:                 462   AIC:                             2781.
Df Residuals:                     449   BIC:                             2835.
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         39.2083      5.291      7.411      0.000      28.811      49.606
number        -0.0067      0.003     -2.579      0.010      -0.012      -0.002
crim          -0.1032      0.034     -3.056      0.002      -0.170      -0.037
zn             0.0467      0.015      3.200      0.001       0.018       0.075
chas           2.6211      0.875      2.995      0.003       0.901       4.341
nox          -18.2075      3.805     -4.785      0.000     -25.685     -10.730
rm             3.8067      0.421      9.039      0.000       2.979       4.634
dis           -1.5033      0.194     -7.736      0.000      -1.885      -1.121
rad            0.4274      0.088      4.856      0.000       0.254       0.600
tax           -0.0141      0.004     -3.177      0.002      -0.023      -0.005
ptratio       -0.9733      0.134     -7.263      0.000      -1.237      -0.710
b              0.0088      0.003      3.180      0.002       0.003       0.014
lstat         -0.5556      0.050    -11.157      0.000      -0.653      -0.458
==============================================================================
Omnibus:                      151.857   Durbin-Watson:                   1.114
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              594.735
Skew:                           1.440   Prob(JB):                    7.16e-130
Kurtosis:                       7.754   Cond. No.                     1.57e+04
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The condition number is large, 1.57e+04. This might indicate that there are
strong multicollinearity or other numerical problems.
   variables        VIF
0     number   9.510289
1       crim   2.124646
2         zn   3.049448
3       chas   1.144224
4        nox  66.215712
5         rm  68.448443
6        dis  11.748160
7        rad  24.987022
8        tax  74.810680
9    ptratio  78.683129
10         b  18.425315
11     lstat   9.690092
     number     crim    zn  chas  lstat
0         1  0.00632  18.0     0   4.98
1         2  0.02731   0.0     0   9.14
2         3  0.02729   0.0     0   4.03
3         4  0.03237   0.0     0   2.94
4         5  0.06905   0.0     0   5.33
..      ...      ...   ...   ...    ...
457     458  0.06263   0.0     0   9.67
458     459  0.04527   0.0     0   9.08
459     460  0.06076   0.0     0   5.64
460     461  0.10959   0.0     0   6.48
461     462  0.04741   0.0     0   7.88

[462 rows x 5 columns]
7.2 模型解释
import statsmodels.api as sm  
import pandas as pd  
from statsmodels.stats.outliers_influence import variance_inflation_factor  
  
# 假设 X_cleaned_dropped_more 已经通过之前的步骤定义,并移除了高VIF变量  
# 并且 y_cleaned 已经包含了响应变量  
  
# 添加截距项  
X_cleaned_dropped_more_with_intercept = sm.add_constant(X_cleaned_dropped_more)  
  
# 使用statsmodels进行多元线性回归  
model_dropped_more = sm.OLS(y_cleaned, X_cleaned_dropped_more_with_intercept).fit()  
  
# 打印模型的摘要以查看结果  
print(model_dropped_more.summary())  
  
# 标准化回归系数(beta系数)  
beta_coeffs = model_dropped_more.params[:-1]  # 排除截距项  
  
# 解释标准化回归系数(beta系数)  
print("\n标准化回归系数(beta系数):")  
print("Beta系数表示在其他变量保持不变的情况下,一个变量单位标准差的变化对应响应变量单位标准差的变化量。")  
print("正的beta值表示正相关,负的beta值表示负相关。")  
for var, beta in zip(X_cleaned_dropped_more.columns, beta_coeffs):  
    print(f"{var}: β = {beta:.3f}")  
  
# 非标准化回归系数(原始的回归系数)  
# 这些系数可以直接从模型的params属性中获取  
unstandardized_coeffs = model_dropped_more.params  
print("\n非标准化回归系数(beta系数):") 
print(unstandardized_coeffs)  
# 使用非标准化回归系数构建模型公式以便预测   
X_cols = X_cleaned_dropped_more.columns[1:]  # 排除截距项  

        运行结果为:

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                   medv   R-squared:                       0.578
Model:                            OLS   Adj. R-squared:                  0.573
Method:                 Least Squares   F-statistic:                     124.7
Date:                Sun, 30 Jun 2024   Prob (F-statistic):           5.18e-83
Time:                        20:12:47   Log-Likelihood:                -1497.8
No. Observations:                 462   AIC:                             3008.
Df Residuals:                     456   BIC:                             3032.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         34.0781      0.873     39.052      0.000      32.363      35.793
number        -0.0021      0.002     -0.860      0.390      -0.007       0.003
crim          -0.0542      0.040     -1.362      0.174      -0.132       0.024
zn             0.0247      0.013      1.840      0.066      -0.002       0.051
chas           4.7407      1.104      4.295      0.000       2.572       6.910
lstat         -0.8882      0.049    -18.170      0.000      -0.984      -0.792
==============================================================================
Omnibus:                      119.128   Durbin-Watson:                   0.973
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              242.530
Skew:                           1.395   Prob(JB):                     2.16e-53
Kurtosis:                       5.195   Cond. No.                     1.04e+03
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The condition number is large, 1.04e+03. This might indicate that there are
strong multicollinearity or other numerical problems.

标准化回归系数(beta系数):
Beta系数表示在其他变量保持不变的情况下,一个变量单位标准差的变化对应响应变量单位标准差的变化量。
正的beta值表示正相关,负的beta值表示负相关。
number: β = 34.078
crim: β = -0.002
zn: β = -0.054
chas: β = 0.025
lstat: β = 4.741

非标准化回归系数(beta系数):
const     34.078150
number    -0.002092
crim      -0.054215
zn         0.024711
chas       4.740712
lstat     -0.888204
dtype: float64

8.构建预测公式

# 构建预测公式  
prediction_formula = f"y_pred = {unstandardized_coeffs[0]:.3f}"  # 截距项  
for var, coeff in zip(X_cols, unstandardized_coeffs[1:]):  
    if coeff >= 0:  
        prediction_formula += f" + {coeff:.3f} * {var}"  
    else:  
        prediction_formula += f" - {-coeff:.3f} * {var}"  # 使用括号来表示负系数,并取反  
  
print("\n模型预测公式(使用非标准化回归系数,始终显示+符号):")  
print(prediction_formula)

        运行结果为:

模型预测公式(使用非标准化回归系数,始终显示+符号):
y_pred = 34.078 - 0.002 * crim - 0.054 * zn + 0.025 * chas + 4.741 * lstat

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/760287.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot实现文章点赞功能

提示:今日是2024年的6月30日,未来的你看到这篇文章,希望你依旧快乐 文章目录 前言 首先在这里前缀部分我就不做要求了,比如说登录信息什么的 数据库表格 这里实现点赞功能,主要是围绕论坛项目完成的 user_info代表用户信息表 for…

20240630每日一题-组合数学-平均分组问题

更多资源请关注纽扣编程微信公众号 将6个小球,其中1个红球,2个黑球,3个白球拍成一列,相同颜色的球没区别,那么有多少种排法? 答案 60种 分析 相同颜色的小球可以看作平均分组,去除对应排序的…

Zookeeper:Zookeeper JavaAPI操作与分布式锁

文章目录 一、Zookeeper JavaAPI操作1、Curator介绍2、创建、查询、修改、删除节点3、Watch事件监听 二、Zookeeper分布式锁原理 一、Zookeeper JavaAPI操作 1、Curator介绍 Curator是Apache Zookeeper的Java客户端。常见的Zookeeper Java API: 原生Java API。ZkC…

基于PHP的酒店管理系统(改进版)

有需要请加文章底部Q哦 可远程调试 基于PHP的酒店管理系统(改进版) 一 介绍 此酒店管理系统(改进版)基于原生PHP开发,数据库mysql,前端jquery插件美化。系统角色分为用户和管理员。系统在原有基础上增加了注册登录注销功能,增加预订房间图片…

临时文件上传系统Plik

什么是 Plik ? Plik 是一个基于 Go 语言的可扩展且用户友好的临时文件上传系统(类似于 Wetransfer)。 软件主要特点: 强大的命令行客户端易于使用的 Web 用户界面多个数据后端:文件、OpenStack Swift、S3、Google Clo…

Swift中的二分查找:全面指南

Swift中的二分查找:全面指南 简介 二分查找是计算机科学中的经典算法,被广泛用于在已排序的数组中高效地搜索目标值。与线性查找逐个检查每个元素不同,二分查找不断将搜索区间减半,因此在处理大数据集时要快得多。 在这篇博客中…

java基于ssm+jsp 固定资产管理系统

1前台首页功能模块 固定资产管理系统,在系统首页可以查看首页、设备信息、论坛信息、我的、跳转到后台等内容,如图1所示。 图1前台首页功能界面图 注册,在注册页面可以填写用户名、密码、姓名、性别、头像、身份证、手机等详细内容&#xff…

基于Ollama Python的本地多模态大模型

0,背景 最近测试Ollama,发现之前直接下载开源模型在我电脑上都跑不动的模型,居然也能运行了(AMD 7840HS核显/32GB内存),突发奇想那些多模态大模型能不能基于Python接口使用,所以决定尝试一下。…

Qt之Pdb生成及Dump崩溃文件生成与调试(含注释和源码)

文章目录 一、Pdb生成及Dump文件使用示例图1.Pdb文件生成2.Dump文件调试3.参数不全Pdb生成的Dump文件调试 二、个人理解1.生成Pdb文件的方式2.Dump文件不生产的情况 三、源码Pro文件mian.cppMainWindowUi文件 总结 一、Pdb生成及Dump文件使用示例图 1.Pdb文件生成 下图先通过…

Springboot+vue电商平台

管理员权限操作的功能包括管理商家,管理商家星级信息,管理用户,管理商品等。 商家权限操作的功能包括管理商品,回复商品评价,管理商品订单等。 用户权限操作的功能包括查看商家,购买商品,提交…

Django之邮箱注册

目录 一、邮箱验证-环境搭建 1.1、注册流程 1.2、环境搭建 二、封装工具类 三、发送邮件接口开发 四、用户调用发送邮件接口 4.1、Fetch API 4.1.1、GET请求 4.1.2、POST请求 五、完成注册功能 一、邮箱验证-环境搭建 1.1、注册流程 1.2、环境搭建 创建项目 django-a…

Variables Reference for vscode

Predefined variables Visual Studio Code 支持在调试、任务配置文件以及一些特定的设置中使用变量替换。这些变量可以使用 ${variableName} 语法在 launch.json 和 tasks.json 文件的某些键和值字符串中使用。 Predefined variables Visual Studio Code 支持以下预定义变量…

【分布式计算框架 MapReduce】高级编程—多任务数据分析

目录 一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。 1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。 ① 运行截图 ② 源代码 二、改造 WordCount 程序,使得结果的排序规则为按…

APP逆向 day7 JAVA基础2

一.前言 昨天我们讲了点java基础,大家是不是觉得就特别简单,今天讲点稍微难一丢丢的基础,也就是java基础2.0,今天我要和大家说的内容十分的重要,直接关乎到下一节的内容,所以,好好学&#xff0…

React 打包时如何关闭源代码混淆

React 开发中,使用 npm build 命令进行生产代码打包,为了压缩代码并尽量保证代码的安全性,React 打包时会代码进行压缩和混淆,但是有时我们需要 debug 生产环境的源代码,例如当我们调试 SSR 的项目时,需要禁…

<电力行业> - 《第10课:变电》

1 变电 变电环节,顾名思义就是改变电压的环节,主要是在变电站和变电所完成的。变电站和变电所主要区别在于:变电站比变电所更大。 发电厂的变压器和配电变压器也属于“变电”,但我们在说电网环节时,变电特指电网公司…

Android常用加解密算法总结

Android开发中对于数据的传输和保存一定会使用加密技术,加密算法是最普遍的安保手段,多数情况数据加密后在需要使用源数据时需要再进行解密,但凡是都有例外。下面从可逆加密、不可逆、不纯粹加密三种方式记录一下常见的加解密算法。 加密技术…

计算机毕业设计Thinkphp/Laravel校园体育器材管理系统

校园体育器材管理系统在流畅性,续航能力,等方方面面都有着很大的优势。这就意味着校园体育器材管理系统的设计可以比其他系统更为出色的能力,可以更高效的完成最新的体育器材、器材借用、器材归还、器材损坏、采购入库、器材报废、维修记录等…

局域网必备文件传输神器,吾爱再出精品,支持电脑、手机无缝对接!

今天给大家带来的不是一般的干货,而是一款让阿星我爱不释手的局域网文件传输神器,而且是吾爱大佬出品。无论是工作还是生活,它都能给你带来极大的便利。这年头,谁还没个跨设备传输文件的需求呢? 手机、电脑、平板&…

AI agent是什么,什么技术栈

AI agent,也称为会话代理或聊天机器人, 是一种通过文本或语音模拟人类对话的计算机程序。 它们旨在以自然且引人入胜的方式理解和响应用户输入。 AI agent 被广泛用于各种应用中,包括客户服务、营销、 销售和教育。 有两种主要类型的 AI agen…
最新文章