第279行: |
第279行: |
| == 辛普森逆转和辛普森悖论 == | | == 辛普森逆转和辛普森悖论 == |
| | | |
| + | 在探究辛普森悖论为何会令人困惑的问题时,我需要区分辛普森逆转和辛普森悖论这两个概念。 |
| | | |
| + | 辛普森逆转,是一个纯粹的数学事实:在合并样本时,两个或多个不同的样本关于某一特定事件的相对频率出现反转,如表所示,在我们的例子中,我们可以看到两组相对频率:3/40>1/20(这是女性患者中服用D药者和未服用D药者的心脏病发作的相对频率),和 8/20>12/40(这是男性患者中用药者与不用药者的心脏病发作的相对频率)。然而,当我们把男女样本的数据合并在一起时,不等式的方向就 发生了逆转:(3+8)/(40+20)<(1+12)/(20+40)。 |
| + | |
| + | 可见辛普森逆转是在进行统计聚合时,算术不等式的反转表现,并不让人意外。 |
| + | |
| + | 辛普森悖论,就是建立在辛普森逆转这个数学事实之上的概念。现在让我们回到开头Table1这个最重要的例子,一个药物当“对男性有害”“对女性有害”“对人类有益”这三个陈述被理解为比例增减时,它们在数学上并不矛盾。然而,我们可能仍然认为这种情况在现实世界中不可能出现,因为一种药物不可能既导致心脏病 发作又防止心脏病发作。这种直觉是普遍的,像这个矛盾的例子就被称为辛普森悖论。 |
| + | |
| + | 辛普森悖论提醒我们,在某些情况下,至少存在 一个统计趋势(无论是来自聚合数据、分层数据还是同时来自两者)无 法代表真正的因果效应。 |
| + | {| class="wikitable" |
| + | ! rowspan="2" |患者 |
| + | ! colspan="2" |对照组(未服药) |
| + | ! colspan="2" |处理组(服药) |
| + | |- |
| + | |心脏病发作 |
| + | |无心脏病发作 |
| + | |心脏病发作 |
| + | |无心脏病发作 |
| + | |- |
| + | |女性 |
| + | |1 |
| + | |19 |
| + | |3 |
| + | |37 |
| + | |- |
| + | |男性 |
| + | |12 |
| + | |28 |
| + | |8 |
| + | |12 |
| + | |- |
| + | |合计 |
| + | |13 |
| + | |47 |
| + | |11 |
| + | |49 |
| + | |} |
| == 如何避免辛普森悖论 == | | == 如何避免辛普森悖论 == |
| '''混杂变量''' | | '''混杂变量''' |