辛普森悖论
辛普森悖论 Simpson's paradox是一个统计学悖论。它是以Edward H. Simpson的名字命名的,他是一位英国统计学家,在1951年第一次描述了它[1]。统计学家卡尔·皮尔森在1899年描述了一个非常相似的效应[2]。- Udny Yule 的描述可以追溯到1903年[3]。有时,这种现象被称为“尤尔-辛普森效应”。当观察小组的统计分数时,这些分数可能会发生变化,这取决于小组是逐一观察,还是将它们合并成一个更大的小组。这种情况经常发生在社会科学和医学统计中[4]。如果用频率数据来解释因果关系[5],人们可能会感到困惑。悖论的其他名称还包括反转悖论和合并悖论[6].
该悖论指出:会存在着这样的数据。总体上的统计结果与其每一个子部分的统计结果相反。下附几个样例进行解释:
例1:肾结石治疗
这是一个真实的例子,来自一项医学研究[7],比较两种治疗肾结石的成功率[8]。
下表显示了治疗小肾结石和大肾结石的成功率和治疗次数,其中治疗A包括所有开放手术,治疗B是经皮肾镜取石术:
治疗方案A | 治疗方案B | |||
---|---|---|---|---|
成功 | 失败 | 成功 | 失败 | |
小肾结石 | 第一组 | 第二组 | ||
患者数量 | 81 | 6 | 234 | 36 |
93% | 7% | 87% | 13% | |
大肾结石 | 第三组 | 第四组 | ||
患者数量 | 192 | 71 | 55 | 25 |
73% | 27% | 69% | 31% | |
既有小肾结石也有大肾结石 | 第一组和第三组 | 第二组和第四组 | ||
患者数量 | 273 | 77 | 289 | 61 |
78% | 22% | 83% | 17% |
一个自相矛盾的结论是,A疗法对小结石更有效,对大结石也更有效,而B疗法在同时考虑两种大小时更有效。在这个例子中,还不知道肾结石的大小会影响结果。这在统计学中称为隐藏变量(或隐藏变量)。
哪种治疗方法更好是由两个比率(成功率/总成功率)之间的不平等决定的。造成辛普森悖论的两个比率之间不平等的逆转,是因为两种效应同时发生:
- 1、当忽略隐藏变量时,组的大小是非常不同的。医生倾向于对严重的病例(大结石)给予较好的治疗(A) ,对较轻的病例(小结石)给予较差的治疗(B)。因此,总数由第三组和第二组支配,而不是由规模小得多的第一组和第四组支配。
- 2、潜伏变量对比率有很大的影响,也就是说成功率更多地受到病情严重程度的影响,而不是治疗方法的选择。因此,治疗 A组(第三组)大结石患者的情况比治疗小结石患者差,即使后者采用劣等治疗 B 组(第二组)。
样例2:伯克利大学的招生歧视悖论
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。
如果只看整体录取率,那么男生的录取率是44%,女生的是35%。
男生 | 女生 | |||
---|---|---|---|---|
申请人数 | 录取人数 | 申请人数 | 录取人数 | |
合计 | 8442 | 44% | 4321 | 35% |
从表格可见,从整体录取率来看,男生的录取率是44%,女生的录取率是35%。从表面上看会得出结论,女生申请大学受到了歧视,但是若将数据按院系拆分,再来看每个系的录取率。
院系 | 男生 | 女生 | ||
---|---|---|---|---|
申请人数 | 录取比例 | 申请人数 | 录取比例 | |
A | 825 | 62% | 108 | 82% |
B | 560 | 63% | 25 | 68% |
C | 325 | 37% | 593 | 34% |
D | 417 | 33% | 375 | 35% |
E | 191 | 28% | 393 | 24% |
F | 373 | 6% | 341 | 7% |
你可以看到,在6个院系的4个里,女生的录取率大于男生,女生只在2个院系里容易折戟。加利福尼亚大学伯克利分校的统计学教授 Peter Bickel 后来发现,如果按照这样的分类,女生实际上比男生的录取率还高一点点。
Bickel 认为,在这个案例中,辛普森悖论出现的原因是,女生更愿意申请那些竞争压力很大的院系(比如英语系),但是男生却更愿意申请那些相对容易进的院系(比如工程学系)
佛罗里达死刑悖论
1991年,科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州的谋杀案的审判数据,发现了重大的司法不公正事件。
从归总的数据来看,佛罗里达的法官在审判的时候并没有偏向白人,因为白人嫌疑人的死刑率甚至还比黑人高一些。
嫌疑人种族 | 死刑人数 | 非死刑人数 | 死刑百分比% |
---|---|---|---|
白人 | 53 | 430 | 11 |
黑人 | 15 | 176 | 7.9 |
但是按照被害人的种族来分割数据的话,就会看到很不一样的结论,黑人比白人更容易被判死刑。
被害人种族 | 嫌疑人种族 | 死刑人数 | 非死刑人数 | 死刑百分比% |
---|---|---|---|---|
白人 | 白人 | 53 | 414 | 11.3 |
白人 | 黑人 | 11 | 37 | 22.9 |
黑人 | 白人 | 0 | 16 | 0 |
黑人 | 黑人 | 4 | 139 | 2.8 |
由此可见不管被害人是什么种族,黑人比白人更有可能被判死刑,并且对比发现,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。可见种族歧视是存在的
避免辛普森悖论
混杂变量
在上述的事例中,出现辛普森悖论的很大一个原因是由于存在隐藏变量,因此这便提醒我们,在进行变量设计时,一是要尽量多查阅文献以了解自变量,因变量及其他重要变量之间的关系,二是需要相关的经验,能够敏锐的察觉到某个变量的重要性。
这个重要潜伏变量指的是与实验分析的因果都有关系的变量,这一变量的缺失可能会掩盖或颠倒研究变量的原有关系。
比如在录取率这个例子中,专业既与录取率有关,不同专业难度不同,录取率自然有差异,又与性别有关,女生和男生趋向报考的专业不同。因此专业就是一个重要潜伏变量。
参考文献
- ↑ Simpson, Edward H. (1951). "The Interpretation of Interaction in Contingency Tables". Journal of the Royal Statistical Society, Ser. B. 13: 238–241
- ↑ Pearson, Karl; Lee, A.; Bramley-Moore, L. (1899). "Genetic (reproductive) selection: Inheritance of fertility in man". Philosophical Translations of the Royal Statistical Society, Ser. A. 173: 534–539
- ↑ G. U. Yule (1903). "Notes on the Theory of Association of Attributes in Statistics". Biometrika. 2 (2): 121–134. doi:10.1093/biomet/2.2.121
- ↑ Clifford H. Wagner (February 1982). "Simpson's Paradox in Real Life". The American Statistician. 36 (1): 46–48. doi:10.2307/2684093. JSTOR 2684093.
- ↑ Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
- ↑ I. J. Good, Y. Mittal (June 1987). "The Amalgamation and Geometry of Two-by-Two Contingency Tables". The Annals of Statistics. 15 (2): 694–711. doi:10.1214/aos/1176350369. ISSN 0090-5364. JSTOR 2241334.
- ↑ C. R. Charig; D. R. Webb; S. R. Payne; O. E. Wickham (29 March 1986). "Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy". Br Med J (Clin Res Ed). 292 (6524): 879–882. doi:10.1136/bmj.292.6524.879. PMC 1339981. PMID 3083922.
- ↑ Steven A. Julious and Mark A. Mullee (1994-12-03). "Confounding and Simpson's paradox". BMJ. 309 (6967): 1480–1481. doi:10.1136/bmj.309.6967.1480. PMC 2541623. PMID 7804052
编者推荐
集智俱乐部文章
周日直播 | 从辛普森悖论谈起:因果效应中的混淆因子及可识别性
福利 | 因果推断会是下一个AI热潮吗?Judea Pearl《因果论》重磅上市!
集智课程
因果科学读书会第三季:因果+X
“因果”并不是一个新概念,而是一个已经在多个学科中使用了数十年的分析技术。通过前两季的分享,我们主要梳理了因果科学在计算机领域的前沿进展。如要融会贯通,我们需要回顾数十年来在社会学、经济学、医学、生物学等多个领域中,都是使用了什么样的因果模型、以什么样的范式、解决了什么样的问题。我们还要尝试进行对比和创新,看能否以现在的眼光,用其他的模型,为这些研究提供新的解决思路。
“因果+X”就是要让因果真正地应用于我们的科学研究中,不管你是来自计算机、数理统计领域,还是社会学、经济学、管理学领域,还是医学、生物学领域,我们希望共同探究出因果研究的范式,真正解决因果的多学科应用问题,乃至解决工业界的问题。
本中文词条由我是猫翻译,薄荷编辑,如有问题,欢迎在讨论页面留言。
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。