更改

辛普森悖论 (查看源代码)

2022年6月13日 (一) 20:42的版本

添加6字节、 2022年6月13日 (一) 20:42

无编辑摘要

第21行：第21行：

这并无新奇之处。但是在统计上，这具有重要的意义——变量之间的相关关系可以完全的被第三个变量 “扭曲”。更严重的问题是，我们的收集的数据可能存在局限性，忽略潜在的“第三个变量” 可能改变已有的结论，而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能，不少人认为，统计不可能用来研究因果关系，在观察性研究中很难得到有关因果的结论，除非加上很强的假定。比如，一个很经典的问题：吸烟是否导致肺癌？由于我们不可能对人群是否吸烟做随机化试验，我们得到的数据都是观察性的数据：即吸烟和肺癌之间的相关性（正如 Table 1 的合并表）。此时，即使我们得到了吸烟与肺癌正相关，也不能断言 “吸烟导致肺癌”。这是因为可能存在一些未观测的因素，他既影响个体是否吸烟，同时影响个体是否得癌症。也许，某些基因可能使得人更容易吸烟，同时容易得肺癌；存在这样基因的人不吸烟，也同样得肺癌。此时，吸烟和肺癌之间相关，却没有因果作用。

−

此外，考虑吸烟与收入之间的关系。根据有关统计数据，平均来说，吸烟人群比不吸烟人群收入更高；但是考虑吸烟人群的年龄因素时就可能会发现，在每个年龄组，吸烟人群的收入低于不吸烟的人群，如果再纳入年龄和学历这两个因素，可能就会发现相同年龄和学历的吸烟者比不吸烟收入高。可见，随着考虑的因素增多，统计结果会不断发生逆转。在类似这样的问题中，想要确定吸烟是否会影响收入以及影响有多大，仅从数据来看似乎无法获得准确的答案。

+

此外，再考虑吸烟与收入之间的关系。根据有关统计数据，平均来说，吸烟人群比不吸烟人群收入更高；但是考虑吸烟人群的年龄因素时就可能会发现，在每个年龄组，吸烟人群的收入低于不吸烟的人群，如果再纳入年龄和学历这两个因素，可能就会发现相同年龄和学历的吸烟者比不吸烟收入高。可见，随着考虑的因素增多，统计结果会不断发生逆转。在类似这样的问题中，想要确定吸烟是否会影响收入以及影响有多大，仅从数据来看似乎无法获得准确的答案。

−

~~相反，在我们知道放射性物质对人体的健康有很大的伤害的前提下，我们却发现铀矿的工人平均寿命却不比常人短；这是流行病学中有名的~~ “健康工人效应”（healthy worker effect）。这样一来，似乎是说铀矿工作对健康没有影响。但是，事实上，铀矿的工人通常都是身强力壮的人，不在铀矿工作寿命会更长。此时，在铀矿工作与否与寿命不相关，但是放射性物质对人的健康却确实是有因果作用的。

+

再比如，在我们知道放射性物质对人体的健康有很大的伤害的前提下，我们却发现铀矿的工人平均寿命却不比常人短；这是流行病学中有名的 “健康工人效应”（healthy worker effect）。这样一来，似乎是说铀矿工作对健康没有影响。但是，事实上，铀矿的工人通常都是身强力壮的人，不在铀矿工作寿命会更长。此时，在铀矿工作与否与寿命不相关，但是放射性物质对人的健康却确实是有因果作用的。

接下来通过一系列样例，详细了解辛普森悖论的现象。

是趣木木呀

管理员

587

个编辑

更改

辛普森悖论 (查看源代码)

2022年6月13日 (一) 20:42的版本

导航菜单

搜索