更改

添加1,838字节 、 2022年6月14日 (二) 19:56
第279行: 第279行:  
== 辛普森逆转和辛普森悖论 ==
 
== 辛普森逆转和辛普森悖论 ==
    +
在探究辛普森悖论为何会令人困惑的问题时,我需要区分辛普森逆转和辛普森悖论这两个概念。
    +
辛普森逆转,是一个纯粹的数学事实:在合并样本时,两个或多个不同的样本关于某一特定事件的相对频率出现反转,如表所示,在我们的例子中,我们可以看到两组相对频率:3/40>1/20(这是女性患者中服用D药者和未服用D药者的心脏病发作的相对频率),和 8/20>12/40(这是男性患者中用药者与不用药者的心脏病发作的相对频率)。然而,当我们把男女样本的数据合并在一起时,不等式的方向就 发生了逆转:(3+8)/(40+20)<(1+12)/(20+40)。
 +
 +
可见辛普森逆转是在进行统计聚合时,算术不等式的反转表现,并不让人意外。
 +
 +
辛普森悖论,就是建立在辛普森逆转这个数学事实之上的概念。现在让我们回到开头Table1这个最重要的例子,一个药物当“对男性有害”“对女性有害”“对人类有益”这三个陈述被理解为比例增减时,它们在数学上并不矛盾。然而,我们可能仍然认为这种情况在现实世界中不可能出现,因为一种药物不可能既导致心脏病 发作又防止心脏病发作。这种直觉是普遍的,像这个矛盾的例子就被称为辛普森悖论。
 +
 +
辛普森悖论提醒我们,在某些情况下,至少存在 一个统计趋势(无论是来自聚合数据、分层数据还是同时来自两者)无 法代表真正的因果效应。
 +
{| class="wikitable"
 +
! rowspan="2" |患者
 +
! colspan="2" |对照组(未服药)
 +
! colspan="2" |处理组(服药)
 +
|-
 +
|心脏病发作
 +
|无心脏病发作
 +
|心脏病发作
 +
|无心脏病发作
 +
|-
 +
|女性
 +
|1
 +
|19
 +
|3
 +
|37
 +
|-
 +
|男性
 +
|12
 +
|28
 +
|8
 +
|12
 +
|-
 +
|合计
 +
|13
 +
|47
 +
|11
 +
|49
 +
|}
 
== 如何避免辛普森悖论 ==
 
== 如何避免辛普森悖论 ==
 
'''混杂变量'''
 
'''混杂变量'''
316

个编辑