更改

跳到导航 跳到搜索
添加6字节 、 2022年6月13日 (一) 20:42
无编辑摘要
第21行: 第21行:  
这并无新奇之处。但是在统计上,这具有重要的意义——变量之间的相关关系可以完全的被第三个变量 “扭曲”。更严重的问题是,我们的收集的数据可能存在局限性,忽略潜在的“第三个变量” 可能改变已有的结论,而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能,不少人认为,统计不可能用来研究因果关系,在观察性研究中很难得到有关因果的结论,除非加上很强的假定。比如,一个很经典的问题:吸烟是否导致肺癌?由于我们不可能对人群是否吸烟做随机化试验,我们得到的数据都是观察性的数据:即吸烟和肺癌之间的相关性 (正如 Table 1 的合并表)。此时,即使我们得到了吸烟与肺癌正相关,也不能断言 “吸烟导致肺癌”。这是因为可能存在一些未观测的因素,他既影响个体是否吸烟,同时影响个体是否得癌症。也许,某些基因可能使得人更容易吸烟,同时容易得肺癌;存在这样基因的人不吸烟,也同样得肺癌。此时,吸烟和肺癌之间相关,却没有因果作用。
 
这并无新奇之处。但是在统计上,这具有重要的意义——变量之间的相关关系可以完全的被第三个变量 “扭曲”。更严重的问题是,我们的收集的数据可能存在局限性,忽略潜在的“第三个变量” 可能改变已有的结论,而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能,不少人认为,统计不可能用来研究因果关系,在观察性研究中很难得到有关因果的结论,除非加上很强的假定。比如,一个很经典的问题:吸烟是否导致肺癌?由于我们不可能对人群是否吸烟做随机化试验,我们得到的数据都是观察性的数据:即吸烟和肺癌之间的相关性 (正如 Table 1 的合并表)。此时,即使我们得到了吸烟与肺癌正相关,也不能断言 “吸烟导致肺癌”。这是因为可能存在一些未观测的因素,他既影响个体是否吸烟,同时影响个体是否得癌症。也许,某些基因可能使得人更容易吸烟,同时容易得肺癌;存在这样基因的人不吸烟,也同样得肺癌。此时,吸烟和肺癌之间相关,却没有因果作用。
   −
此外,考虑吸烟与收入之间的关系。根据有关统计数据,平均来说,吸烟人群比不吸烟人群收入更高;但是考虑吸烟人群的年龄因素时就可能会发现,在每个年龄组,吸烟人群的收入低于不吸烟的人群,如果再纳入年龄和学历这两个因素,可能就会发现相同年龄和学历的吸烟者比不吸烟收入高。可见,随着考虑的因素增多,统计结果会不断发生逆转。在类似这样的问题中,想要确定吸烟是否会影响收入以及影响有多大,仅从数据来看似乎无法获得准确的答案。
+
此外,再考虑吸烟与收入之间的关系。根据有关统计数据,平均来说,吸烟人群比不吸烟人群收入更高;但是考虑吸烟人群的年龄因素时就可能会发现,在每个年龄组,吸烟人群的收入低于不吸烟的人群,如果再纳入年龄和学历这两个因素,可能就会发现相同年龄和学历的吸烟者比不吸烟收入高。可见,随着考虑的因素增多,统计结果会不断发生逆转。在类似这样的问题中,想要确定吸烟是否会影响收入以及影响有多大,仅从数据来看似乎无法获得准确的答案。
   −
相反,在我们知道放射性物质对人体的健康有很大的伤害的前提下,我们却发现铀矿的工人平均寿命却不比常人短;这是流行病学中有名的 “健康工人效应”(healthy worker effect)。这样一来,似乎是说铀矿工作对健康没有影响。但是,事实上,铀矿的工人通常都是身强力壮的人,不在铀矿工作寿命会更长。此时,在铀矿工作与否与寿命不相关,但是放射性物质对人的健康却确实是有因果作用的。
+
再比如,在我们知道放射性物质对人体的健康有很大的伤害的前提下,我们却发现铀矿的工人平均寿命却不比常人短;这是流行病学中有名的 “健康工人效应”(healthy worker effect)。这样一来,似乎是说铀矿工作对健康没有影响。但是,事实上,铀矿的工人通常都是身强力壮的人,不在铀矿工作寿命会更长。此时,在铀矿工作与否与寿命不相关,但是放射性物质对人的健康却确实是有因果作用的。
    
接下来通过一系列样例,详细了解辛普森悖论的现象。
 
接下来通过一系列样例,详细了解辛普森悖论的现象。

导航菜单