回归分析

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

本词条由趣木木进行编写,未经过专家审校。

回归分析是一种利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。目的在于了解两个或多个变量间是否相关、其相关的方向与强度,观察特定变量,预测研究者感兴趣的变量。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。通过回归分析我们可以由给出的自变量估计因变量的条件期望。

回归分析是建立因变量[math]\displaystyle{ Y }[/math](或称依变数,反应变数)与自变量[math]\displaystyle{ X }[/math](或称独变数,解释变数)之间关系的模型。简单线性回归使用一个自变量[math]\displaystyle{ X }[/math],复回归使用超过一个自变量([math]\displaystyle{ X_1, X_2 ... X_i }[/math])。

起源

回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)提出[2]。勒让德和高斯都将该方法应用于从天文观测中,来确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3]

”回归“一词最早由法兰西斯·高尔顿(Francis Galton)所使用[4][5]。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐回归到中等(即人的平均值)的现象。不过当时的回归和现在的回归在意义上已不尽相同。

在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]

回归模型基础知识

回归模型主要包括以下变量:

  • 未知参数,记为[math]\displaystyle{ \beta }[/math],可以代表一个标量或一个向量
  • 自变量[math]\displaystyle{ \mathbf {X} }[/math]
  • 因变量[math]\displaystyle{ Y }[/math]

回归模型将[math]\displaystyle{ Y }[/math]和一个关于[math]\displaystyle{ \mathbf {X} }[/math][math]\displaystyle{ \beta }[/math]的函数关联起来。

在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。

[math]\displaystyle{ Y \approx f (\mathbf {X}, \boldsymbol{\beta} ) }[/math]

这个估计值通常写作:[math]\displaystyle{ E(X|Y) = f (\mathbf {X}, \boldsymbol{\beta} ) }[/math]

在进行回归分析时,函数[math]\displaystyle{ f }[/math]的形式必须预先指定。有时函数[math]\displaystyle{ f }[/math]的形式是在对[math]\displaystyle{ Y }[/math][math]\displaystyle{ \mathbf {X} }[/math]关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的[math]\displaystyle{ f }[/math]的形式。

假设现在未知向量[math]\displaystyle{ \beta }[/math]的维数为k。为了进行回归分析,必须要先有关于[math]\displaystyle{ Y }[/math]的信息:

  • 如果以[math]\displaystyle{ (Y,\mathbf {X}) }[/math]的形式给出了[math]\displaystyle{ N }[/math]个数据点,当[math]\displaystyle{ N\lt k }[/math]时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定[math]\displaystyle{ \beta }[/math]
  • 如果恰好有[math]\displaystyle{ N=k }[/math]个数据点,并且函数[math]\displaystyle{ f }[/math]的形式是线性的,那么方程[math]\displaystyle{ Y = f (\mathbf {X}, \boldsymbol{\beta} ) }[/math]能精确求解。这相当于解一个有[math]\displaystyle{ N }[/math]个未知量和[math]\displaystyle{ N }[/math]个方程的方程组。在[math]\displaystyle{ \mathbf{X} }[/math]线性无关的情况下,这个方程组有唯一解。但如果[math]\displaystyle{ f }[/math]是非线性形式的,解可能有多个或不存在。
  • 实际中[math]\displaystyle{ N\gt k }[/math]的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的[math]\displaystyle{ \beta }[/math]值,这时当回归分析应用于这些数据时,可以看作是解一个关于[math]\displaystyle{ \beta }[/math]超定方程

在最后一种情况下,回归分析提供了一种完成以下任务的工具:

⒈找出一个未知量[math]\displaystyle{ \beta }[/math]的解使因变量[math]\displaystyle{ Y }[/math]的预测值和实际值差别最小(又称最小二乘法)。

⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量[math]\displaystyle{ Y }[/math]和未知量[math]\displaystyle{ \beta }[/math]之间的关系。

原理

由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。信息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。当然,还可以对回归方程进行有效控制。

  • 目的在于找出一条最能够代表所有观测资料的函数曲线(回归估计式)。
  • 用此函数代表因变数和自变数之间的关系。

回归分析步骤

  1. 根据自变量与因变量的现有数据以及关系,初步设定回归方程
  2. 求出合理的回归系数
  3. 进行相关性检验,确定相关系数
  4. 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间

回归分析的分类

简单线性回归

  • 应用时机
  1. 以单一变数预测
  2. 判断两变数之间相关的方向和程度

复回归(或多变量回归)

复回归分析是简单线性回归的一种延伸应用,用以了解一个依变项与两组以上自变项的函数关系。

对数线性回归

对数线性回归,是将解释变项(实验设计中的自变项)和反应变项(实验设计中的依变项)都取对数值之后再进行线性回归,所以依据解释变项的数量,可能是对数简单线性回归,也可能是对数复回归。

非线性回归

对数几率回归

偏回归

自回归

自回归滑动平均模型

差分自回归滑动平均模型

向量自回归模型

回归分析主要解决的问题

  • 确定变量之间是否存在相关关系,若存在,则找出数学表达式
  • 根据一个或几个变量的值,预测或控制另一个或几个变量的值,且估计这种控制或预测可以达到何种精确度

回归分析的有效性和注意事项

有效性

用回归分析法进行预测首先要对各个自变量做出预测。若各个自变量可以由人工控制或易于预测,而且回归方程也较为符合实际,则应用回归预测是有效的,否则就很难应用。

注意事项

为使回归方程较能符合实际,首先应尽可能定性判断自变量的可能种类和个数,并在观察事物发展规律的基础上定性判断回归方程的可能类型;其次,力求掌握较充分的高质量统计数据,再运用统计方法,利用数学工具和相关软件从定量方面计算或改进性判断。

参阅

参考资料

  1. A.M. Legendre. 'Nouvelles méthodes pour la détermination des orbites des comètes' 模板:Wayback, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
  2. C.F. Gauss. 'Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum'. (1809)
  3. C.F. Gauss. 'Theoria combinationis observationum erroribus minimis obnoxiae' 模板:Wayback. (1821/1823)
  4. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 0-7575-1181-3. 
  5. Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. Institute of Mathematical Statistics. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
  6. Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? 模板:Wayback March 2006. Accessed 2011-12-03.

外部链接

  1. 解读回归分析的原理及结构