R软件做线性回归分析

做回归的一般步骤为:

1、确定回归方程中的解释变量和被解释变量

2、确定回归模型

通过观察散点图确定是建立线性回归模型还是非线性回归模型

3、建立回归模型

4、对回归方程进行各种检验

5、利用回归方程进行预测

下面就对线性回归模型的建立进行详细的阐述

一、获取数据
R软件里面有很内置的数据集,用data()函数可以查看到各种数据集
这里我们使用的是R软件自带的swiss数据集,这个数据集记录了瑞典1888年的生产力和其他各个社会经济指标的数据

 

R软件做线性回归分析 R软件做线性回归分析

结果显示该数据集中没有缺失值,原因是因为该数据集是R自带的数据集,现实生活中我们的数据肯定是含有很多缺失值和异常值的,这时我们应该先对数据集有一个大致的了解,之后选择相应的处理办法。

(2)异常值分析:查看各个变量是否存在异常值,这里采用的是画箱型图的方式
box=boxplot(swiss)

R软件做线性回归分析

上图展示了各变量的密度图和各变量之间的散点图,有上图可知,Fertility和其他变量有相关性。

(2)计算相关系数: 这里用到的是psych包里面的 corr.test函数

R软件做线性回归分析

上图显示Examination的系数通不过显著性检验,

所以用逐步回归

lm.step=step(lmswiss)
summary(lm.step)

R软件做线性回归分析

上图显示,我们不能拒绝残差服从正态分布的假设

(2)异方差检验:残差的方差不能随着Y值的变化而变化

   —-画残差和拟合值的散点图

lm.res=resid(lm.step)  #计算残差
lm.fit=predict(lm.step)  #计算拟合值

R软件做线性回归分析

    —-得分检验

R软件做线性回归分析

上图表明残差之间不存在自相关

在存在自相关的情况下,我们可以使用广义差分法消除自相关

5.变量之间无多重共线性

首先计算出自变量之间的相关系数:x=cor(swiss[2:6])

—-求出变量相关系数x的特征值,如果某个特征值很小,或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性

R软件做线性回归分析

kappa值小于100,说明不存在多重共线性

逐步回归可以消除多重共线性的现象

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34067 人正在系统学习中

来源:季莹

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年7月15日
下一篇 2016年7月15日

相关推荐