回归分析
本词条由趣木木进行编写,未经过专家审校。
回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、其相关的方向与强度,建立数学模型以便观察特定变量,来预测研究者感兴趣的变量。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。通过回归分析我们可以由给出的自变量估计因变量的条件期望。
回归分析是建立因变量[math]\displaystyle{ Y }[/math](或称依变数,反应变数)与自变量[math]\displaystyle{ X }[/math](或称独变数,解释变数)之间关系的模型。简单线性回归使用一个自变量[math]\displaystyle{ X }[/math],复回归使用超过一个自变量([math]\displaystyle{ X_1, X_2 ... X_i }[/math])。
起源
回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)提出[2]。勒让德和高斯都将该方法应用于从天文观测中,来确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。
「回归」一词最早由法兰西斯·高尔顿(Francis Galton)所使用[4][5]。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐回归到中等(即人的平均值)」的现象。不过当时的回归和现在的回归在意义上已不尽相同。
在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]。
迴归分析原理
- 目的在于找出一条最能够代表所有观测资料的函数曲线(回归估计式)。
- 用此函数代表因变数和自变数之间的关系。
参数估计
- 矩估计(Method of Moment、MOM)
- 最小二乘法(Ordinary Least Square Estimation, OLSE)
- 最大似然估计(Maximum Likelihood Estimation, MLE)
回归模型
回归模型主要包括以下变量:
- 未知参数,记为[math]\displaystyle{ \beta }[/math],可以代表一个标量或一个向量。
- 自变量,[math]\displaystyle{ \mathbf {X} }[/math]。
- 因变量,[math]\displaystyle{ Y }[/math]。
回归模型将[math]\displaystyle{ Y }[/math]和一个关于[math]\displaystyle{ \mathbf {X} }[/math]和[math]\displaystyle{ \beta }[/math]的函数关联起来。
在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。
- [math]\displaystyle{ Y \approx f (\mathbf {X}, \boldsymbol{\beta} ) }[/math]
这个估计值通常写作:[math]\displaystyle{ E(X|Y) = f (\mathbf {X}, \boldsymbol{\beta} ) }[/math]。
在进行回归分析时,函数[math]\displaystyle{ f }[/math]的形式必须预先指定。有时函数[math]\displaystyle{ f }[/math]的形式是在对[math]\displaystyle{ Y }[/math]和[math]\displaystyle{ \mathbf {X} }[/math]关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的[math]\displaystyle{ f }[/math]的形式。
假设现在未知向量[math]\displaystyle{ \beta }[/math]的维数为k。为了进行回归分析,必须要先有关于[math]\displaystyle{ Y }[/math]的信息:
- 如果以[math]\displaystyle{ (Y,\mathbf {X}) }[/math]的形式给出了[math]\displaystyle{ N }[/math]个数据点,当[math]\displaystyle{ N\lt k }[/math]时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定[math]\displaystyle{ \beta }[/math]。
- 如果恰好有[math]\displaystyle{ N=k }[/math]个数据点,并且函数[math]\displaystyle{ f }[/math]的形式是线性的,那么方程[math]\displaystyle{ Y = f (\mathbf {X}, \boldsymbol{\beta} ) }[/math]能精确求解。这相当于解一个有[math]\displaystyle{ N }[/math]个未知量和[math]\displaystyle{ N }[/math]个方程的方程组。在[math]\displaystyle{ \mathbf{X} }[/math]线性无关的情况下,这个方程组有唯一解。但如果[math]\displaystyle{ f }[/math]是非线性形式的,解可能有多个或不存在。
- 实际中[math]\displaystyle{ N\gt k }[/math]的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的[math]\displaystyle{ \beta }[/math]值,这时当回归分析应用于这些数据时,可以看作是解一个关于[math]\displaystyle{ \beta }[/math]的超定方程。
在最后一种情况下,回归分析提供了一种完成以下任务的工具:
⒈找出一个未知量[math]\displaystyle{ \beta }[/math]的解使因变量[math]\displaystyle{ Y }[/math]的预测值和实际值差别最小(又称最小二乘法)。
⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量[math]\displaystyle{ Y }[/math]和未知量[math]\displaystyle{ \beta }[/math]之间的关系。
迴归分析的种类
简单线性回归
- 应用时机
- 以单一变数预测
- 判断两变数之间相关的方向和程度
复回归(或多变量回归)
复回归分析'是简单线性回归的一种延伸应用,用以了解一个依变项与两组以上自变项的函数关系。
对数线性回归
,是将解释变项(实验设计中的自变项)和反应变项(实验设计中的依变项)都取对数值之后再进行线性回归,所以依据解释变项的数量,可能是对数简单线性回归,也可能是对数复回归。
非线性回归
对数几率回归
偏回归
自回归
自回归滑动平均模型
差分自回归滑动平均模型
向量自回归模型
参阅
参考资料
- ↑ A.M. Legendre. 'Nouvelles méthodes pour la détermination des orbites des comètes' 模板:Wayback, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
- ↑ C.F. Gauss. 'Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum'. (1809)
- ↑ C.F. Gauss. 'Theoria combinationis observationum erroribus minimis obnoxiae' 模板:Wayback. (1821/1823)
- ↑ Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 0-7575-1181-3.
- ↑ Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. Institute of Mathematical Statistics. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
- ↑ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? 模板:Wayback March 2006. Accessed 2011-12-03.