更改

添加3,511字节 、 2022年6月13日 (一) 20:34
无编辑摘要
第3行: 第3行:  
|description=
 
|description=
 
}}
 
}}
'''辛普森悖论 Simpson's paradox'''是一个统计学悖论。它是以Edward H. Simpson的名字命名的,他是一位英国统计学家,在1951年第一次描述了它<ref>Simpson, Edward H. (1951). "The Interpretation of Interaction in Contingency Tables". ''Journal of the Royal Statistical Society, Ser. B''. '''13''': 238–241</ref>。统计学家卡尔·皮尔森在1899年描述了一个非常相似的效应<ref>Pearson, Karl; Lee, A.; Bramley-Moore, L. (1899). "Genetic (reproductive) selection: Inheritance of fertility in man". ''Philosophical Translations of the Royal Statistical Society, Ser. A''. '''173''': 534–539</ref>。- Udny Yule 的描述可以追溯到1903年<ref>G. U. Yule (1903). "Notes on the Theory of Association of Attributes in Statistics". ''Biometrika''. '''2''' (2): 121–134. doi:10.1093/biomet/2.2.121</ref>。有时,这种现象被称为“尤尔-辛普森效应”。当观察小组的统计分数时,这些分数可能会发生变化,这取决于小组是逐一观察,还是将它们合并成一个更大的小组。这种情况经常发生在社会科学和医学统计中<ref>Clifford H. Wagner (February 1982). "Simpson's Paradox in Real Life". ''The American Statistician''. '''36''' (1): 46–48. doi:10.2307/2684093. JSTOR 2684093.</ref>。如果用频率数据来解释因果关系<ref>Judea Pearl. ''Causality: Models, Reasoning, and Inference'', Cambridge University Press (2000, 2nd edition 2009). <nowiki>ISBN 0-521-77362-8</nowiki>.</ref>,人们可能会感到困惑。悖论的其他名称还包括反转悖论和合并悖论<ref>I. J. Good, Y. Mittal (June 1987). "The Amalgamation and Geometry of Two-by-Two Contingency Tables". ''The Annals of Statistics''. '''15''' (2): 694–711. doi:10.1214/aos/1176350369. ISSN 0090-5364. JSTOR 2241334.</ref>.
+
'''辛普森悖论 Simpson's paradox'''是一个统计学悖论。它是以Edward H. Simpson的名字命名的,他是一位英国统计学家,在1951年第一次描述了它<ref>Simpson, Edward H. (1951). "The Interpretation of Interaction in Contingency Tables". ''Journal of the Royal Statistical Society, Ser. B''. '''13''': 238–241</ref>。统计学家卡尔·皮尔森在1899年描述了一个非常相似的效应<ref>Pearson, Karl; Lee, A.; Bramley-Moore, L. (1899). "Genetic (reproductive) selection: Inheritance of fertility in man". ''Philosophical Translations of the Royal Statistical Society, Ser. A''. '''173''': 534–539</ref>。Udny Yule 的描述可以追溯到1903年<ref>G. U. Yule (1903). "Notes on the Theory of Association of Attributes in Statistics". ''Biometrika''. '''2''' (2): 121–134. doi:10.1093/biomet/2.2.121</ref>。有时,这种现象被称为“尤尔-辛普森效应”。当观察小组的统计分数时,这些分数可能会发生变化,这取决于小组是逐一观察,还是将它们合并成一个更大的小组。这种情况经常发生在社会科学和医学统计中<ref>Clifford H. Wagner (February 1982). "Simpson's Paradox in Real Life". ''The American Statistician''. '''36''' (1): 46–48. doi:10.2307/2684093. JSTOR 2684093.</ref>。如果用频率数据来解释因果关系<ref>Judea Pearl. ''Causality: Models, Reasoning, and Inference'', Cambridge University Press (2000, 2nd edition 2009). <nowiki>ISBN 0-521-77362-8</nowiki>.</ref>,人们可能会感到困惑。悖论的其他名称还包括反转悖论和合并悖论<ref>I. J. Good, Y. Mittal (June 1987). "The Amalgamation and Geometry of Two-by-Two Contingency Tables". ''The Annals of Statistics''. '''15''' (2): 694–711. doi:10.1214/aos/1176350369. ISSN 0090-5364. JSTOR 2241334.</ref>
 +
[[文件:辛普森悖论.png|缩略图|图1 举例]]
 +
该悖论指出:会存在着这样的数据。总体上的统计结果与其每一个子部分的统计结果相反。即存在如下的可能性:X和Y在边缘上正相关;但是给定另外一个变量Z后,在Z的每一个水平上,X和Y都负相关。
   −
该悖论指出:会存在着这样的数据。总体上的统计结果与其每一个子部分的统计结果相反。下面通过一个实例说明。根据有关统计数据,平均来说,吸烟人群比不吸烟人群收入更高;但是考虑吸烟人群的年龄因素时就可能会发现,在每个年龄组,吸烟人群的收入低于不吸烟的人群,如果再纳入年龄和学历者两个因素,可能就会发现相同年龄和学历的吸烟者比不吸烟收入高。可见,随着考虑的因素增多,统计结果会不断发生逆转。在类似这样的问题中,想要确定吸烟是否会影响收入以及影响有多大,仅从数据来看似乎无法获得准确的答案。
+
在Table 1 中,第一个表是整个人群的数据:接受处理和对照的人都是 40 人,处理有较高的存活率,因此处理对整个人群有 “正作用”。第二个表和第三个表是将整个人群用性别分层得到的,因为第一个表的四个格子数,分别是下面两个表对应格子数的和:
 +
 
 +
即20=18+2,20=12+8,16=7+9,24=3+21
 +
 
 +
奇怪的是,处理对男性有 “负作用”,对女性也有 “负作用”。一个处理对男性和女性都有 “负作用”,但是他对整个人群却有 “正作用”,由此,悖论产生。
 +
 
 +
有人可能会认为这种现象是由于随机性或者小样本的误差导致的。但是这个现象与样本量无关,与统计的误差也无关。比如,将上面的每个格子数乘以一个巨大的正数,上面的悖论依然存在。
 +
 
 +
如果从纯数学的角度,上面的悖论可以写成初等数学。
 +
 
 +
a/b<c/d;a'/b'<c'/d';a+a'/b+b'>c+c'/d+d'
 +
 
 +
这并无新奇之处。但是在统计上,这具有重要的意义——变量之间的相关关系可以完全的被第三个变量 “扭曲”。更严重的问题是,我们的收集的数据可能存在局限性,忽略潜在的“第三个变量” 可能改变已有的结论,而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能,不少人认为,统计不可能用来研究因果关系,在观察性研究中很难得到有关因果的结论,除非加上很强的假定。比如,一个很经典的问题:吸烟是否导致肺癌?由于我们不可能对人群是否吸烟做随机化试验,我们得到的数据都是观察性的数据:即吸烟和肺癌之间的相关性 (正如 Table 1 的合并表)。此时,即使我们得到了吸烟与肺癌正相关,也不能断言 “吸烟导致肺癌”。这是因为可能存在一些未观测的因素,他既影响个体是否吸烟,同时影响个体是否得癌症。也许,某些基因可能使得人更容易吸烟,同时容易得肺癌;存在这样基因的人不吸烟,也同样得肺癌。此时,吸烟和肺癌之间相关,却没有因果作用。
 +
 
 +
此外,考虑吸烟与收入之间的关系。根据有关统计数据,平均来说,吸烟人群比不吸烟人群收入更高;但是考虑吸烟人群的年龄因素时就可能会发现,在每个年龄组,吸烟人群的收入低于不吸烟的人群,如果再纳入年龄和学历这两个因素,可能就会发现相同年龄和学历的吸烟者比不吸烟收入高。可见,随着考虑的因素增多,统计结果会不断发生逆转。在类似这样的问题中,想要确定吸烟是否会影响收入以及影响有多大,仅从数据来看似乎无法获得准确的答案。
 +
 
 +
相反,在我们知道放射性物质对人体的健康有很大的伤害的前提下,我们却发现铀矿的工人平均寿命却不比常人短;这是流行病学中有名的 “健康工人效应”(healthy worker effect)。这样一来,似乎是说铀矿工作对健康没有影响。但是,事实上,铀矿的工人通常都是身强力壮的人,不在铀矿工作寿命会更长。此时,在铀矿工作与否与寿命不相关,但是放射性物质对人的健康却确实是有因果作用的。
    
接下来通过一系列样例,详细了解辛普森悖论的现象。
 
接下来通过一系列样例,详细了解辛普森悖论的现象。
== 样例1:肾结石治疗 ==
+
 
 +
== 样例 ==
 +
上面所提及的例子是人工构造的,而在现实中,也存在不少的实例正是辛普森悖论。比如,UC Berkeley 的著名统计学家 Peter Bickel 教授 1975 年在 Science 上发表文章,报告了 Berkeley 研究生院男女录取率的差异。他发现,总体上,男性的录取率高于女性,然而按照专业分层后,女性的录取率却高于男性。在流行病学的教科书 中,都会讲到 “混杂偏倚”(confounding bias),其实就是辛普森悖论,书中列举了很多流行病学的实际例子。下简单举四个样例便于理解。
 +
=== 样例1:肾结石治疗 ===
 
这是一个真实的例子,来自一项医学研究<ref>C. R. Charig; D. R. Webb; S. R. Payne; O. E. Wickham (29 March 1986). "Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy". ''Br Med J (Clin Res Ed)''. '''292''' (6524): 879–882. doi:10.1136/bmj.292.6524.879. PMC 1339981. <nowiki>PMID 3083922</nowiki>.</ref>,比较两种治疗肾结石的成功率<ref>Steven A. Julious and Mark A. Mullee (1994-12-03). "Confounding and Simpson's paradox". BMJ. 309 (6967): 1480–1481. doi:10.1136/bmj.309.6967.1480. PMC 2541623. <nowiki>PMID 7804052</nowiki></ref>。
 
这是一个真实的例子,来自一项医学研究<ref>C. R. Charig; D. R. Webb; S. R. Payne; O. E. Wickham (29 March 1986). "Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy". ''Br Med J (Clin Res Ed)''. '''292''' (6524): 879–882. doi:10.1136/bmj.292.6524.879. PMC 1339981. <nowiki>PMID 3083922</nowiki>.</ref>,比较两种治疗肾结石的成功率<ref>Steven A. Julious and Mark A. Mullee (1994-12-03). "Confounding and Simpson's paradox". BMJ. 309 (6967): 1480–1481. doi:10.1136/bmj.309.6967.1480. PMC 2541623. <nowiki>PMID 7804052</nowiki></ref>。
   第74行: 第95行:  
|17%
 
|17%
 
|}
 
|}
 +
       
一个自相矛盾的结论是,A疗法对小结石更有效,对大结石也更有效,而B疗法在同时考虑两种大小时更有效。在这个例子中,还不知道肾结石的大小会影响结果。这在统计学中称为隐藏变量(或隐藏变量)。
 
一个自相矛盾的结论是,A疗法对小结石更有效,对大结石也更有效,而B疗法在同时考虑两种大小时更有效。在这个例子中,还不知道肾结石的大小会影响结果。这在统计学中称为隐藏变量(或隐藏变量)。
      
哪种治疗方法更好是由两个比率(成功率/总成功率)之间的不平等决定的。造成辛普森悖论的两个比率之间不平等的逆转,是因为两种效应同时发生:
 
哪种治疗方法更好是由两个比率(成功率/总成功率)之间的不平等决定的。造成辛普森悖论的两个比率之间不平等的逆转,是因为两种效应同时发生:
    
:1、当忽略隐藏变量时,组的大小是非常不同的。医生倾向于对严重的病例(大结石)给予较好的治疗(A) ,对较轻的病例(小结石)给予较差的治疗(B)。因此,总数由第三组和第二组支配,而不是由规模小得多的第一组和第四组支配。
 
:1、当忽略隐藏变量时,组的大小是非常不同的。医生倾向于对严重的病例(大结石)给予较好的治疗(A) ,对较轻的病例(小结石)给予较差的治疗(B)。因此,总数由第三组和第二组支配,而不是由规模小得多的第一组和第四组支配。
   
:2、潜伏变量对比率有很大的影响,也就是说成功率更多地受到病情严重程度的影响,而不是治疗方法的选择。因此,治疗 A组(第三组)大结石患者的情况比治疗小结石患者差,即使后者采用劣等治疗 B 组(第二组)。
 
:2、潜伏变量对比率有很大的影响,也就是说成功率更多地受到病情严重程度的影响,而不是治疗方法的选择。因此,治疗 A组(第三组)大结石患者的情况比治疗小结石患者差,即使后者采用劣等治疗 B 组(第二组)。
   −
== 样例2:伯克利大学的招生歧视悖论 ==
+
=== 样例2:伯克利大学的招生歧视悖论 ===
 
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。
 
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。
   第159行: 第179行:  
Bickel 认为,在这个案例中,辛普森悖论出现的原因是,女生更愿意申请那些竞争压力很大的院系(比如英语系),但是男生却更愿意申请那些相对容易进的院系(比如工程学系)
 
Bickel 认为,在这个案例中,辛普森悖论出现的原因是,女生更愿意申请那些竞争压力很大的院系(比如英语系),但是男生却更愿意申请那些相对容易进的院系(比如工程学系)
   −
== 样例3:佛罗里达死刑悖论 ==
+
=== 样例3:佛罗里达死刑悖论 ===
 
1991年,科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州的谋杀案的审判数据,发现了重大的司法不公正事件。
 
1991年,科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州的谋杀案的审判数据,发现了重大的司法不公正事件。
   第214行: 第234行:  
由此可见不管被害人是什么种族,黑人比白人更有可能被判死刑,并且对比发现,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。可见种族歧视是存在的
 
由此可见不管被害人是什么种族,黑人比白人更有可能被判死刑,并且对比发现,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。可见种族歧视是存在的
   −
== 样例4 一种临床新药试验对比(考虑血压因素) ==
+
=== 样例4 一种临床新药试验对比(考虑血压因素) ===
 
样例4中,我们知道药物会通过减低服药患者的血压来影响痊愈率,但不幸的是药物也会产生副作用。在这种情况下,我们需要根据数据判断是否给患者推荐这种药物。
 
样例4中,我们知道药物会通过减低服药患者的血压来影响痊愈率,但不幸的是药物也会产生副作用。在这种情况下,我们需要根据数据判断是否给患者推荐这种药物。
   第257行: 第277行:  
然而,统计学家一直以这种因果假设来解释数据。事实上,在辛普森悖论中,按性别进行分类后之所以会得到矛盾的结论,其本质源于我们确信治疗不能影响性别,如果可以的话,就不会得到悖论,因为我们可以很容易的假定数据背后的因果关系具有于按血压分类相同的结构,尽管“治疗不能影响性别”这一命题很平凡,但却不能通过数据来验证这一命题,也无法依据标准统计学写出其数学表达式。事实上,以上样例的联列表无法表达任何因果信息,而统计推理又通常是以联列表为基础的。
 
然而,统计学家一直以这种因果假设来解释数据。事实上,在辛普森悖论中,按性别进行分类后之所以会得到矛盾的结论,其本质源于我们确信治疗不能影响性别,如果可以的话,就不会得到悖论,因为我们可以很容易的假定数据背后的因果关系具有于按血压分类相同的结构,尽管“治疗不能影响性别”这一命题很平凡,但却不能通过数据来验证这一命题,也无法依据标准统计学写出其数学表达式。事实上,以上样例的联列表无法表达任何因果信息,而统计推理又通常是以联列表为基础的。
   −
== 避免辛普森悖论 ==
+
== 如何避免辛普森悖论 ==
    
=== 混杂变量 ===
 
=== 混杂变量 ===
第268行: 第288行:  
== 参考文献 ==
 
== 参考文献 ==
 
<references />
 
<references />
      
==编者推荐==
 
==编者推荐==