第162行: |
第162行: |
| :<math> A \leftarrow B \rightarrow C</math> | | :<math> A \leftarrow B \rightarrow C</math> |
| | | |
− | 具有相同的独立条件,因为 B 作为条件时 A 和 C 独立。但是,这两个模型的含义不同,还可能与数据不符(也就是说,如果观测数据显示在 B 作为条件后显示了 A 和 C 之间的关联,那么这两个模型都是不正确的)。相反,数据无法显示这两个模型中的哪个是正确的,因为它们具有相同的独立性条件。 | + | 具有相同的独立条件,因为<math> B </math>作为条件时<math> A </math>和<math> C </math>独立。但是,这两个模型的含义不同,还可能与数据不符(也就是说,如果观测数据显示在<math> B </math>作为条件后显示了<math> A </math>和<math> C </math>之间的关联,那么这两个模型都是不正确的)。相反,数据无法显示这两个模型中的哪个是正确的,因为它们具有相同的独立性条件。 |
| | | |
− | 将变量作为条件是进行假设实验的一种机制。将变量作为条件即在条件变量的给定值下分析其他变量的值。在第一个示例中, B 作为条件意味着给定 B 的取值的观察,此时不应显示出 A 和 C 之间的依赖关系。如果存在这种依赖关系,则该模型是不正确的。非因果模型无法进行这种区分的,因为它们不会做出因果断言。 | + | 将变量作为条件是进行假设实验的一种机制。将变量作为条件即在条件变量的给定值下分析其他变量的值。在第一个示例中,<math> B </math>作为条件意味着给定<math> B</math> 的取值的观察,此时不应显示出<math> A </math>和<math> C</math> 之间的依赖关系。如果存在这种依赖关系,则该模型是不正确的。非因果模型无法进行这种区分的,因为它们不会做出因果断言。 |
| | | |
| === 混杂/去混杂 Confounder/Deconfounder === | | === 混杂/去混杂 Confounder/Deconfounder === |
| | | |
| 设计相关性研究的基本要素是确定对所研究变量的潜在混杂影响。控制这些变量是为了消除这些影响。但是,这些混杂变量无法被先验地正确确定。因此,一项研究可能会控制不相关的变量,甚至(间接地)控制了所研究的变量。 | | 设计相关性研究的基本要素是确定对所研究变量的潜在混杂影响。控制这些变量是为了消除这些影响。但是,这些混杂变量无法被先验地正确确定。因此,一项研究可能会控制不相关的变量,甚至(间接地)控制了所研究的变量。 |
− | 因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式上,如果“ Y 通过不经过 X 的路径与 Z 关联”,则 Z 是混杂因素。这些混杂变量通常可以使用其他研究所收集的数据来确定。数学上,如果 | + | 因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式上,如果“ <math>Y</math> 通过不经过<math> X</math> 的路径与 <math>Z</math> 关联”,则<math> Z</math> 是混杂因素。这些混杂变量通常可以使用其他研究所收集的数据来确定。数学上,如果 |
| :<math> P(Y|X) \neq P(Y|do(X))</math> | | :<math> P(Y|X) \neq P(Y|do(X))</math> |
| 那么X是Y的混杂因子。 | | 那么X是Y的混杂因子。 |
第175行: |
第175行: |
| 在此之前,混杂因子的不正确的定义包括: | | 在此之前,混杂因子的不正确的定义包括: |
| | | |
− | (1)“与X和Y都相关的任何变量。”
| + | (1)“与<math>X</math>和<math>Y</math>都相关的任何变量。” |
| | | |
− | (2)Y和未观测变量Z有关联
| + | (2)<math>Y</math>和未观测变量<math>Z</math>有关联 |
| | | |
| (3)不相容性:“原始相对风险和潜在混杂因素调整后产生的相对风险”之间的差异 | | (3)不相容性:“原始相对风险和潜在混杂因素调整后产生的相对风险”之间的差异 |
| | | |
− | (4)流行病学:在大范围总体中与 X 相关的变量,而在未接触 X 的人群中与 Y 相关的变量。 | + | (4)流行病学:在大范围总体中与 <math>X</math> 相关的变量,而在未接触<math> X</math> 的人群中与<math> Y </math>相关的变量。 |
| | | |
| 在如下模型中,上述定义是有缺陷的: | | 在如下模型中,上述定义是有缺陷的: |
| | | |
| :<math> X \rightarrow Z \rightarrow Y</math> | | :<math> X \rightarrow Z \rightarrow Y</math> |
− | Z 符合定义,但 Z 是中介变量,而不是混杂因子,并且是控制结果的一个例子。 | + | <math>Z </math>符合定义,但 <math>Z</math> 是中介变量,而不是混杂因子,并且是控制结果的一个例子。 |
| | | |
| 在模型中 | | 在模型中 |
| :<math> X \leftarrow A \rightarrow B \leftarrow C \rightarrow Y</math> | | :<math> X \leftarrow A \rightarrow B \leftarrow C \rightarrow Y</math> |
− | 传统上, B 被认为是混杂因子,因为它与 X 和 Y 关联,但 B 既不在因果路径上,也不是因果路径上任何节点的后代。控制 B 将使 B 成为混杂因子。这被称为M偏差。 | + | 传统上,<math> B</math> 被认为是混杂因子,因为它与<math> X </math>和<math> Y</math> 关联,但 <math>B</math> 既不在因果路径上,也不是因果路径上任何节点的后代。控制 <math>B</math> 将使<math> B</math> 成为混杂因子。这被称为M偏差。 |
| | | |
| === 后门调整 Backdoor Adjustment === | | === 后门调整 Backdoor Adjustment === |
− | 为了分析因果模型中X对Y的因果效应,我们需要针对所有混杂变量进行调整(去混杂)。为了确定混杂变量的集合,我们需要(1)通过该集合阻塞X和Y之间的每个非因果路径(2)不破坏任何原有的因果路径(3)不创建任何虚假路径。
| + | 为了分析因果模型中<math>X</math>对<math>Y</math>的因果效应,我们需要针对所有混杂变量进行调整(去混杂)。为了确定混杂变量的集合,我们需要 |
| | | |
− | 定义:从X到Y的后门路径是指,从从 X 到 Y 的任何以指向 X 的箭头为开始的路径。
| + | (1)通过该集合阻塞<math>X</math>和<math>Y</math>之间的每个非因果路径 |
| | | |
− | 定义:给定模型中的一对有序变量(X,Y),如果(1)混杂变量集Z中没有X的后代,(2)X和Y之间的所有后门路径都被Z中的混杂变量阻断,则称混杂变量集Z满足后门准则。
| + | (2)不破坏任何原有的因果路径 |
| | | |
− | 如果( X , Y )满足后门准则,则在控制混杂变量集 Z 时 X 和 Y 是无混杂的。除了混杂变量外,没有必要控制其他任何变量。后门准则是找到混杂变量 Z 的集合的充分条件,但不是分析 X 对 Y 的因果效应必要条件。 | + | (3)不创建任何虚假路径 |
| + | |
| + | 定义:从<math>X</math>到<math>Y</math>的后门路径是指,从从<math> X</math> 到<math> Y</math> 的任何以指向<math> X</math> 的箭头为开始的路径。 |
| + | |
| + | 定义:给定模型中的一对有序变量<math>(X,Y)</math>,如果 |
| + | |
| + | (1)混杂变量集<math>Z</math>中没有<math>X</math>的后代, |
| + | |
| + | (2)<math>X</math>和<math>Y</math>之间的所有后门路径都被<math>Z</math>中的混杂变量阻断, |
| + | |
| + | 则称混杂变量集<math>Z</math>满足后门准则。 |
| + | |
| + | 如果<math>(X,Y)</math>满足后门准则,则在控制混杂变量集<math> Z</math> 时<math> X</math> 和<math> Y</math> 是无混杂的。除了混杂变量外,没有必要控制其他任何变量。后门准则是找到混杂变量<math> Z </math>的集合的充分条件,但不是分析<math> X </math>对<math> Y </math>的因果效应必要条件。 |
| | | |
| 当因果模型是现实的合理表示并且满足后门准则时,则对于线性关系可以将'''<font color="#ff8000"> 偏回归系数 Partial Regression Coefficients </font>'''作为'''<font color="#ff8000"> (因果)路径系数 (Causal) Path Coefficients </font>'''。 | | 当因果模型是现实的合理表示并且满足后门准则时,则对于线性关系可以将'''<font color="#ff8000"> 偏回归系数 Partial Regression Coefficients </font>'''作为'''<font color="#ff8000"> (因果)路径系数 (Causal) Path Coefficients </font>'''。 |
第206行: |
第218行: |
| === 前门调整 Frontdoor Adjustment === | | === 前门调整 Frontdoor Adjustment === |
| | | |
− | 如果阻塞路径的所有元素都不可观测,则后门路径不可计算,但是如果所有从 X 到 Y 的路径都有元素 z ,并且 z 到 Y 没有开放的路径,那么我们可以使用 z 的集合 Z 来测量<math> P(Y|do(X))</math>。实际上 Z 作为 X 的代理时有一些条件。 | + | 如果阻塞路径的所有元素都不可观测,则后门路径不可计算,但是如果所有从<math> X </math>到<math> Y </math>的路径都有元素<math> z</math> ,并且<math> z</math> 到<math> Y </math>没有开放的路径,那么我们可以使用<math> z </math>的集合<math> Z </math>来测量<math> P(Y|do(X))</math>。实际上<math> Z </math>作为<math> X </math>的代理时有一些条件。 |
| + | |
| + | 定义:前门路径是这样的直接因果路径 |
| + | |
| + | (1)<math>Z</math>阻断了所有<math>X</math>到<math>Y</math>的有向路径 |
| + | |
| + | (2)<math>X</math>到<math>Y</math>没有后门路径 |
| | | |
− | 定义:前门路径是这样的直接因果路径,(1)Z阻断了所有X到Y的有向路径(2)X到Y没有后门路径(3)所有Z到Y的后门路径都被X阻断。
| + | (3)所有<math>Z</math>到<math>Y</math>的后门路径都被<math>X</math>阻断 |
| | | |
− | 以下式子通过将前门路径上的变量集Z作条件,将含有do的表达式转化成不含do的表达式:
| + | 以下式子通过将前门路径上的变量集<math>Z</math>作条件,将含有do的表达式转化成不含do的表达式: |
| | | |
| :<math> P(Y|do(X))=\sum_z{[P(Z=z|X)\sum_x{P(Y|X=x,Z=z)P(X=x)}]}</math> | | :<math> P(Y|do(X))=\sum_z{[P(Z=z|X)\sum_x{P(Y|X=x,Z=z)P(X=x)}]}</math> |