当前位置: 首页 > news >正文

多元回归的假设检验

本文是实验设计与分析(第6版,Montgomery著傅珏生译)第10章拟合回归模型第10.4节的python解决方案。本文尽量避免重复书中的理论,着于提供python解决方案,并与原书的运算结果进行对比。您可以从Detail 下载实验设计与分析(第6版,Montgomery著傅珏生译)电子版。本文假定您已具备python基础,如果您还没有python的基础,可以从Detail 下载相关资料进行学习。

在多元线性回归问题中,对模型参数的假设检验有助于度量模型的有效性,本节将介绍几种重要的假设检验方法。这些方法要求模型误差εi服从均值为零,方差为σ2的独立的正态分布,简记为ε~NID(0,σ2)。由此可知,观测yi服从均值为,方差为σ2的独立的正态分布。

10.4.1回归的显著性检验(略)

10.4.2 回归系数的个别检验和分组检验

大多数回归的计算机程序对每个模型参数给出t检验。例如,考虑表10.4,它是例10.1的Minitab输出。输出的上面部分给出了每个参数的最小二乘估计、标准误、t统计量以及对应的P值。对此模型,我门的结论是两个变量(温度和进料速率)都是显著的。

例10.6 考虑例10.1中的黏度数据。假定要研究变量x2(进料速率)对模型的作用。即所要检验的假设是

Ho:β2=0,H1: β2≠0

这需要求出β2的附加平方和

由检验了回归显著性的表10.4,我们有

在表中它被称为模型平方和。这个平方和有2个自由度

简化模型是

此模型的最小二乘拟合为

其(自由度为1的)回归平方和是

注意,这个SSR(β1|β0)显示在表10.4中Mintab输出的底部的“Seq SS项中。因此,

其自由度为2一1=1。这是向已包含了x1的模型中添加x2而引起的回归平方和的增加量,己显示在表10.4中Mintab输出的底部。为了检验H0: β2=0,由检验统计量可得

注意,F0的分母为全模型中的MSE(表10.4)。由F0.05,1,13=4.67,我们拒绝H0: β2=0,并认为x2(进料速率)对模型有显著影响。

这个偏F检验仅涉及单一回归变量,此时它等价于t检验,因为自由度为ν的t统计量的平方就是自由度为1和ν的F统计量。为了理解这一点,查看表10.4中对H0: β2=0检验的t统计量t0=3.5203,因此t02=(3.5203)2=12.3925F0

# P324例10.1

Viscosity=[2256,2340,2426,2293,2330,2368,2250,2409,2364,2379,2440,2364,2404,2317,2309,2328]

Temperature =[80,93,100,82,90,99,81,96,94,93,97,95,100,85,86,87]

Catalyst =[8,9,10,12,11,8,8,10,12,11,13,11,8,12,9,12]

data= {"Viscosity":Viscosity,"Temperature":Temperature,"Catalyst":Catalyst}

df =pd.DataFrame(data)

#model = smf.ols('df.Viscosity ~ C(df.Temperature) + C(df.Rate)', data=df).fit()

model = smf.ols('df.Viscosity ~df.Temperature +df.Catalyst', data=df).fit()

#model = smf.ols('df.Yield ~pd.get_dummies(df.Temperature) +pd.get_dummies(df.Pressure)+pd.get_dummies(df.Conc)', data=df).fit()

#model = smf.ols('df.Viscosity ~ df.Temperature + df.Rate + df.Temperature:df.Rate', data=df).fit()

print(model.summary2())

print(model.params)

anovatable=sm.stats.anova_lm(model)

  

ax = sns.residplot(x=model.predict(df.Temperature), y=df.Viscosity, lowess=False, color='black')

ax.set_xlabel('Fitted value')

ax.set_ylabel('Residuals')

plt.show()

ax = sns.residplot(x=model.predict(df.Rate), y=df.Viscosity, lowess=False, color='black')

ax.set_xlabel('Fitted value')

ax.set_ylabel('Residuals')

plt.show()

>>> print(model.summary2())

C:\Users\Administrator\AppData\Local\Programs\Python\Python311\Lib\site-packages\scipy\stats\_stats_py.py:1736: UserWarning: kurtosistest only valid for n>=20 ... continuing anyway, n=16

  warnings.warn("kurtosistest only valid for n>=20 ... continuing "

                  Results: Ordinary least squares

====================================================================

Model:               OLS               Adj. R-squared:      0.916

Dependent Variable:  df.Viscosity      AIC:                 137.5159

Date:                2024-03-14 10:31  BIC:                 139.8337

No. Observations:    16                Log-Likelihood:      -65.758

Df Model:            2                 F-statistic:         82.50

Df Residuals:        13                Prob (F-statistic):  4.10e-08

R-squared:           0.927             Scale:               267.60

--------------------------------------------------------------------

                 Coef.   Std.Err.    t    P>|t|    [0.025    0.975]

--------------------------------------------------------------------

Intercept      1566.0778  61.5918 25.4267 0.0000 1433.0167 1699.1388

df.Temperature    7.6213   0.6184 12.3236 0.0000    6.2853    8.9573

df.Catalyst       8.5848   2.4387  3.5203 0.0038    3.3164   13.8533

--------------------------------------------------------------------

Omnibus:                1.215         Durbin-Watson:           2.607

Prob(Omnibus):          0.545         Jarque-Bera (JB):        0.779

Skew:                   -0.004        Prob(JB):                0.677

Kurtosis:               1.919         Condition No.:           1385

====================================================================

Notes:

[1] Standard Errors assume that the covariance matrix of the errors

is correctly specified.

[2] The condition number is large, 1.38e+03. This might indicate

that there are strong multicollinearity or other numerical

problems.

>>> print(model.params)

Intercept         1566.077771

df.Temperature       7.621290

df.Catalyst          8.584846

dtype: float64

>>> anovatable=sm.stats.anova_lm(model)

>>> anovatable

                  df        sum_sq       mean_sq           F        PR(>F)

df.Temperature   1.0  40840.842466  40840.842466  152.616757  1.473645e-08

df.Catalyst      1.0   3316.244074   3316.244074   12.392360  3.764806e-03

Residual        13.0   3478.850960    267.603920         NaN           NaN

http://www.xdnf.cn/news/591517.html

相关文章:

  • Linux中 I/O 多路复用机制的边缘触发与水平触发
  • 鸿蒙运动开发:计算户外运动步频与步幅,与地图路线绘制
  • 链表-环形链表||
  • 3.8.2 利用RDD计算总分与平均分
  • Java 多线程编程:解锁高性能应用开发的密钥
  • RAG系统实战:文档切割与转换核心技术解析
  • Golang 访问 map 中的结构体字段时如何避免拷贝
  • 无anaconda搭建yolo11环境
  • 鸿蒙进阶——CMakelist、GN语法简介及三方库通用移植指南
  • 技术篇-2.3.Golang应用场景及开发工具安装
  • 晶振选型三大陷阱:工作温度、电压与负载电容的隐藏矛盾
  • 【AT32】 at32 软复位
  • mssql查询历史执行过的语句日志
  • 提示词工程驱动Mermaid图表生成:技术原理与实战案例
  • 力扣面试150题-- 二叉树展开为链表
  • MYSQL备份与恢复
  • 【灵动Mini-F5265-OB】环境搭建以及按键串口驱动
  • ganache-ui使用
  • OminiScenes代码阅读
  • PyQt学习系列03-动画与过渡效果
  • 【部署】如何离线环境创建docker容器执行python命令行程序
  • 在 LangChain 中集成 Mem0 记忆系统教程
  • 向量数据库及ChromaDB的使用
  • SQL基础概念以及SQL的执行方式
  • YOLO篇-3.1.YOLO服务器运行
  • const修饰指针
  • 【信息系统项目管理师】第15章:项目风险管理 - 55个经典题目及详解
  • 参数化建模(二):避免踩坑!优劣分析与选择诀窍
  • 禅道隐藏版权信息
  • 安装openresty使用nginx+lua,openresty使用jwt解密