更改

跳到导航 跳到搜索
添加2,208字节 、 2022年6月12日 (日) 23:46
无编辑摘要
第4行: 第4行:     
回归分析是建立因变量<math>Y</math>(或称依变数,反应变数)与自变量<math>X</math>(或称独变数,解释变数)之间关系的模型。[[简单线性回归]]使用一个自变量<math>X</math>,复回归使用超过一个自变量(<math>X_1, X_2 ... X_i</math>)。
 
回归分析是建立因变量<math>Y</math>(或称依变数,反应变数)与自变量<math>X</math>(或称独变数,解释变数)之间关系的模型。[[简单线性回归]]使用一个自变量<math>X</math>,复回归使用超过一个自变量(<math>X_1, X_2 ... X_i</math>)。
 +
 +
回归分析最常见的形式是线性回归,其中根据特定的数学标准找到与数据最接近的线(或更复杂的线性组合)。例如,普通最小二乘法计算使真实数据与该线(或超平面)之间的平方差之和最小化的唯一线(或超平面)。由于特定的数学原因(参见线性回归),这允许研究人员在自变量取给定一组值时估计因变量的条件期望(或总体平均值)。不太常见的回归形式使用略有不同的程序来估计替代位置参数(例如,分位数回归或必要条件分析)或估计跨更广泛的非线性模型集合的条件期望(例如,非参数回归)。
 +
 +
回归分析主要用于两个概念上不同的目的。
 +
 +
首先,回归分析广泛用于预测和预测,其用途与机器学习领域有很大的重叠。
 +
 +
其次,在某些情况下,回归分析可用于推断自变量和因变量之间的因果关系。重要的是,回归本身仅揭示因变量与固定数据集中自变量集合之间的关系。为了分别使用回归进行预测或推断因果关系,研究人员必须仔细证明为什么现有关系对新环境具有预测能力,或者为什么两个变量之间的关系具有因果解释。当研究人员希望使用观察数据估计因果关系时,后者尤其重要。
 +
 
==起源==
 
==起源==
 
回归的最早形式是[[最小二乘法]],由1805年的[[阿德里安-马里·勒让德|勒让德]](Legendre)<ref name="Legendre">[[Adrien-Marie Legendre|A.M. Legendre]]. [https://books.google.com/books?id=FRcOAAAAQAAJ '<nowiki/>'''Nouvelles méthodes pour la détermination des orbites des comètes''''] {{Wayback|url=https://books.google.com/books?id=FRcOAAAAQAAJ |date=20190607155946 }}, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.</ref>,和1809年的[[卡尔·弗里德里希·高斯|高斯]](Gauss)提出<ref name="Gauss">[[Carl Friedrich Gauss|C.F. Gauss]]. '<nowiki/>'''Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum''''. (1809)</ref>。勒让德和高斯都将该方法应用于从天文观测中,来确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展<ref name="Gauss2">C.F. Gauss. [https://books.google.com/books?id=ZQ8OAAAAQAAJ&printsec=frontcover&dq=Theoria+combinationis+observationum+erroribus+minimis+obnoxiae&as_brr=3#v=onepage&q=&f=false '<nowiki/>'''Theoria combinationis observationum erroribus minimis obnoxiae''''] {{Wayback|url=https://books.google.com/books?id=ZQ8OAAAAQAAJ&printsec=frontcover&dq=Theoria+combinationis+observationum+erroribus+minimis+obnoxiae&as_brr=3#v=onepage&q=&f=false |date=20190610143218 }}. (1821/1823)</ref>。
 
回归的最早形式是[[最小二乘法]],由1805年的[[阿德里安-马里·勒让德|勒让德]](Legendre)<ref name="Legendre">[[Adrien-Marie Legendre|A.M. Legendre]]. [https://books.google.com/books?id=FRcOAAAAQAAJ '<nowiki/>'''Nouvelles méthodes pour la détermination des orbites des comètes''''] {{Wayback|url=https://books.google.com/books?id=FRcOAAAAQAAJ |date=20190607155946 }}, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.</ref>,和1809年的[[卡尔·弗里德里希·高斯|高斯]](Gauss)提出<ref name="Gauss">[[Carl Friedrich Gauss|C.F. Gauss]]. '<nowiki/>'''Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum''''. (1809)</ref>。勒让德和高斯都将该方法应用于从天文观测中,来确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展<ref name="Gauss2">C.F. Gauss. [https://books.google.com/books?id=ZQ8OAAAAQAAJ&printsec=frontcover&dq=Theoria+combinationis+observationum+erroribus+minimis+obnoxiae&as_brr=3#v=onepage&q=&f=false '<nowiki/>'''Theoria combinationis observationum erroribus minimis obnoxiae''''] {{Wayback|url=https://books.google.com/books?id=ZQ8OAAAAQAAJ&printsec=frontcover&dq=Theoria+combinationis+observationum+erroribus+minimis+obnoxiae&as_brr=3#v=onepage&q=&f=false |date=20190610143218 }}. (1821/1823)</ref>。
   −
”回归“一词最早由[[法兰西斯·高尔顿]](Francis Galton)所使用<ref>{{cite book
+
”回归“一词最早由[[法兰西斯·高尔顿]](Francis Galton)在19世纪创造,用来描述一种生物学现象<ref>{{cite book
 
   | last = Mogull
 
   | last = Mogull
 
   | first = Robert G.
 
   | first = Robert G.
第15行: 第24行:  
   | page = 59
 
   | page = 59
 
   | isbn = 0-7575-1181-3
 
   | isbn = 0-7575-1181-3
}}</ref><ref>{{cite journal | last=Galton | first=Francis | journal=Statistical Science | year=1989 | title=Kinship and Correlation (reprinted 1989) | url=https://archive.org/details/sim_statistical-science_1989-05_4_2/page/80 | volume=4 | jstor=2245330 | pages=80–86 | publisher=Institute of Mathematical Statistics | issue=2 | doi=10.1214/ss/1177012581}}</ref>。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐回归到中等(即人的[[平均]]值)的现象。不过当时的回归和现在的回归在意义上已不尽相同。
+
}}</ref><ref>{{cite journal | last=Galton | first=Francis | journal=Statistical Science | year=1989 | title=Kinship and Correlation (reprinted 1989) | url=https://archive.org/details/sim_statistical-science_1989-05_4_2/page/80 | volume=4 | jstor=2245330 | pages=80–86 | publisher=Institute of Mathematical Statistics | issue=2 | doi=10.1214/ss/1177012581}}</ref>。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐回归到中等(即人的[[平均]]值)的现象。不过当时的回归和现在的回归在意义上已不尽相同。后面他的工作被Udny Yule和Karl Pearson扩展到更一般的统计背景。在 Yule 和 Pearson 的工作中,假设了响应变量和解释变量的联合分布为高斯分布。RA Fisher在 1922 年和 1925 年的著作中削弱了这一假设。 Fisher 假设响应变量的条件分布是高斯分布,但联合分布不一定是。
    
在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果<ref>Rodney Ramcharan. [http://www.imf.org/external/pubs/ft/fandd/2006/03/basics.htm Regressions: Why Are Economists Obessessed with Them?] {{Wayback|url=http://www.imf.org/external/pubs/ft/fandd/2006/03/basics.htm |date=20200805131639 }} March 2006. Accessed 2011-12-03.</ref>。
 
在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果<ref>Rodney Ramcharan. [http://www.imf.org/external/pubs/ft/fandd/2006/03/basics.htm Regressions: Why Are Economists Obessessed with Them?] {{Wayback|url=http://www.imf.org/external/pubs/ft/fandd/2006/03/basics.htm |date=20200805131639 }} March 2006. Accessed 2011-12-03.</ref>。
 +
 +
回归方法仍然是一个活跃的研究领域。近几十年来,针对稳健回归、涉及相关响应(如时间序列和增长曲线)的回归、预测变量(自变量)或响应变量为曲线、图像、图形或其他复杂数据对象的回归,引入了新方法,适应各种类型缺失数据的回归方法、非参数回归、贝叶斯回归方法、预测变量测量误差的回归、预测变量多于观测值的回归以及回归的因果推断。
 
==回归模型基础知识==
 
==回归模型基础知识==
 
回归模型主要包括以下变量:
 
回归模型主要包括以下变量:

导航菜单