回归分析的基本思想及其初步应用

2024-05-05 21:21

1. 回归分析的基本思想及其初步应用


回归分析的基本思想及其初步应用

2. 回归分析的基本思想及其初步应用6


3. 常见的回归分析方法有哪些?

1/6分步阅读
1.线性回归方法:通常因变量和一个(或者多个)自变量之间拟合出来是一条直线(回归线),通常可以用一个普遍的公式来表示:Y(因变量)=a*X(自变量)+b+c,其中b表示截距,a表示直线的斜率,c是误差项。如下图所示。

2/6
2.逻辑回归方法:通常是用来计算“一个事件成功或者失败”的概率,此时的因变量一般是属于二元型的(1 或0,真或假,有或无等)变量。以样本极大似然估计值来选取参数,而不采用最小化平方和误差来选择参数,所以通常要用log等对数函数去拟合。如下图。

3/6
3.多项式回归方法:通常指自变量的指数存在超过1的项,这时候最佳拟合的结果不再是一条直线而是一条曲线。比如:抛物线拟合函数Y=a+b*X^2,如下图所示。

4/6
4.岭回归方法:通常用于自变量数据具有高度相关性的拟合中,这种回归方法可以在原来的偏差基础上再增加一个偏差度来减小总体的标准偏差。如下图是其收缩参数的最小误差公式。

5/6
5.套索回归方法:通常也是用来二次修正回归系数的大小,能够减小参量变化程度以提高线性回归模型的精度。如下图是其惩罚函数,注意这里的惩罚函数用的是绝对值,而不是绝对值的平方。

6/6
6.ElasticNet回归方法:是Lasso和Ridge回归方法的融合体,使用L1来训练,使用L2优先作为正则化矩阵。当相关的特征有很多个时,ElasticNet不同于Lasso,会选择两个。如下图是其常用的理论公式。


常见的回归分析方法有哪些?

4. 回归分析的基本步骤是什么?

回归分析:
1、确定变量:明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
2、建立预测模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3、进行相关分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义。
因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
4、计算预测误差:回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5、确定预测值:利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

Logistic Regression逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,应该使用逻辑回归。这里,Y的值为0或1,它可以用下方程表示。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk
在这里使用的是的二项分布(因变量),需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。
以上内容参考:百度百科-回归分析

5. 回归的回归分析的应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的散点图,可以建立下面的线性关系:Y=A+BX+§式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项。在SPSS软件里可以很容易地实现线性回归,回归方程如下:y=0.857+0.836x回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。表8-2 线性回归方程检验  指标  值  显著性水平  意义R  0.89    “质量”解释了89%的“用户满意度”的变化程度  F  276.82  0.001  回归方程的线性关系显著  T  16.64  0.001  回归方程的系数显著

回归的回归分析的应用

6. 相关与回归分析应用中的应注意哪些问题????

•因果关系
–r2 =0.8,并不能说明Y的变动中有80%是由X引起的,X与Y之间的高度相关可能是第三个原因引起的。因此,我们只能说,Y的变动中有80%可由X的变动来解释。
•数据范围以外的外推
–估计方程是以一组特定观测值为基础的。如果发根据观测数据范围以外的某些自变量的值来推算应变量的值,那就必须十分谨慎。因为在缺少其他信息的情况下,我们根本不知道在观察数据范围以外,该估计方程的函数形式是否还同样有效。

7. 回归分析法的应用

社会经济现象之间的相关关系往往难以用确定性的函数关系来描述,它们大多是随机性的,要通过统计观察才能找出其中规律。回归分析是利用统计学原理描述随机变量间相关关系的一种重要方法。在物流的计算中,回归分析法的公式如下:y=a+bx;

回归分析法的应用

8. 回归分析的应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的散点图,可以建立下面的线性关系: Y=A+BX+§式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项。对于经验回归方程: y=0.857+0.836x回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以上,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。线性回归方程检验  指标  显著性水平  意义   R2  0.89   “质量”解释了89%的“用户满意度”的变化程度  F  276.82  0.001  回归方程的线性关系显著  T  16.64  0.001  回归方程的系数显著  示例 SIM手机用户满意度与相关变量线性回归分析我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:用户满意度=0.008×形象+0.645×质量+0.221×价格对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。方程各检验指标及含义如下:  指标  显著性水平  意义   R2  0.89   “质量”和“价格”解释了89%的“用户满意度”的变化程度  F  248.53  0.001  回归方程的线性关系显著  T(形象)  0.00  1.000  “形象”变量对回归方程几乎没有贡献  T(质量)  13.93  0.001  “质量”对回归方程有很大贡献  T(价格)  5.00  0.001  “价格”对回归方程有很大贡献  从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下: 满意度=0.645×质量+0.221×价格用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。方程各检验指标及含义如下:  指标  显著性水平  意义   R  0.89   “质量”和“价格”解释了89%的“用户满意度”的变化程度  F  374.69  0.001  回归方程的线性关系显著  T(质量)  15.15  0.001  “质量”对回归方程有很大贡献  T(价格)  5.06  0.001  “价格”对回归方程有很大贡献