第34行: |
第34行: |
| 1921年,Wright的路径分析成为因果模型和因果图的理论雏形。他开发了这种路径分析方法,试图同时阐明遗传、发育和环境对豚鼠皮毛模式的相对影响。他通过展示这样的分析如何解释豚鼠出生体重、子宫内时间和产仔数之间的关系来支持他旁门左道的观点。杰出的统计学家对这些想法的反对使因果关系在接下来的40年中被忽略(除了动物饲养员)。取而代之的是,科学家依赖于相关性,<font color="#32cd32"> partly at the behest of Wright's critic (and leading statistician), Fisher</font>。唯一的例外是一名叫Burks的学生,在1926年首先应用路径图来表示中介影响,并断言保持中介变量恒定会引起误差。她可能独立地发明了路径图。 | | 1921年,Wright的路径分析成为因果模型和因果图的理论雏形。他开发了这种路径分析方法,试图同时阐明遗传、发育和环境对豚鼠皮毛模式的相对影响。他通过展示这样的分析如何解释豚鼠出生体重、子宫内时间和产仔数之间的关系来支持他旁门左道的观点。杰出的统计学家对这些想法的反对使因果关系在接下来的40年中被忽略(除了动物饲养员)。取而代之的是,科学家依赖于相关性,<font color="#32cd32"> partly at the behest of Wright's critic (and leading statistician), Fisher</font>。唯一的例外是一名叫Burks的学生,在1926年首先应用路径图来表示中介影响,并断言保持中介变量恒定会引起误差。她可能独立地发明了路径图。 |
| | | |
− | 1923年,Neyman提出了潜在结果(potential outcome)的概念,但是直到1990年他的论文才从波兰语被翻译成英语。
| + | 1923年,Neyman提出了潜在结果(potential outcome)的概念,但是直到1990年他的论文才从波兰语被翻译成英语。 |
| | | |
| 1958年,Cox警告说,控制一个变量Z仅在Z高概率不受到自变量影响的情况下才有效。 | | 1958年,Cox警告说,控制一个变量Z仅在Z高概率不受到自变量影响的情况下才有效。 |
第59行: |
第59行: |
| | | |
| 如果观察一个对象改变了观察另一个对象的可能性,则这个对象与另一个对象相关联。例子:购买牙膏的购物者也更有可能购买牙线。数学上用 | | 如果观察一个对象改变了观察另一个对象的可能性,则这个对象与另一个对象相关联。例子:购买牙膏的购物者也更有可能购买牙线。数学上用 |
− | :<math>P (牙线 | 牙膏) </math> | + | :<math>P (买牙线 | 买牙膏) </math> |
| 表示已知一个人购买牙膏时的其购买牙线的可能性。关联也可以通过计算两个事件的相关性来测量。关联没有因果含义。一个事件可能导致另一个事件,反过来也可能,或者两个事件都可能由某个第三事件引起(卫生学家使得购物者购买牙线和牙膏)。 | | 表示已知一个人购买牙膏时的其购买牙线的可能性。关联也可以通过计算两个事件的相关性来测量。关联没有因果含义。一个事件可能导致另一个事件,反过来也可能,或者两个事件都可能由某个第三事件引起(卫生学家使得购物者购买牙线和牙膏)。 |
| | | |
第65行: |
第65行: |
| | | |
| 该层涉及事件之间的特定因果关系。因果是通过实验性地执行影响事件的一些动作来评估。例子:如果我们将牙膏的价格提高一倍,那么人们购买牙线的概率将是多少?因果无法通过检验(价格变化)历史来确定,因为可能存在其他因素同时影响这两个变量,比如存在牙膏价格变化的其他原因,而且这种原因会影响牙线的价格(两种商品的关税增加)。数学上用 | | 该层涉及事件之间的特定因果关系。因果是通过实验性地执行影响事件的一些动作来评估。例子:如果我们将牙膏的价格提高一倍,那么人们购买牙线的概率将是多少?因果无法通过检验(价格变化)历史来确定,因为可能存在其他因素同时影响这两个变量,比如存在牙膏价格变化的其他原因,而且这种原因会影响牙线的价格(两种商品的关税增加)。数学上用 |
− | :<math>P (牙线 | do(牙膏)) </math> | + | :<math>P (买牙线 | do(买牙膏)) </math> |
| 表示这种概率。其中do是一个算子,表示对谁做实验性干预(如价格翻倍)。这个算子指示了要在创造所需效果的世界中进行最小的变化,即在现实模型上进行尽可能小的改变的“小手术”。 | | 表示这种概率。其中do是一个算子,表示对谁做实验性干预(如价格翻倍)。这个算子指示了要在创造所需效果的世界中进行最小的变化,即在现实模型上进行尽可能小的改变的“小手术”。 |
| | | |
第72行: |
第72行: |
| 最高层的反事实涉及对过去事件的其他可能版本的考虑,或者考虑同一实验单位中在不同情况下会发生的情况。例如,如果当初那家商店的牙线价格翻了一番,那么当时那些购买牙膏的购物者仍然会购买牙线的可能性是多少? | | 最高层的反事实涉及对过去事件的其他可能版本的考虑,或者考虑同一实验单位中在不同情况下会发生的情况。例如,如果当初那家商店的牙线价格翻了一番,那么当时那些购买牙膏的购物者仍然会购买牙线的可能性是多少? |
| | | |
− | :<math>P (牙线 | 牙膏, 牙线价格翻倍) </math> | + | :<math>P (买牙线 | 买牙膏, 当初牙线价格翻倍) </math> |
| | | |
| 反事实可以表明存在因果关系。可以回答反事实的模型允许进行精确的后果可以预测的干预。在极致情况下,这样的模型被作为物理定律(如若不将力施加到静止物体上物体将不会移动的惯性)。 | | 反事实可以表明存在因果关系。可以回答反事实的模型允许进行精确的后果可以预测的干预。在极致情况下,这样的模型被作为物理定律(如若不将力施加到静止物体上物体将不会移动的惯性)。 |
第121行: |
第121行: |
| | | |
| ===== 结点模式 ===== | | ===== 结点模式 ===== |
− | 三个节点的连接类型有三种,分别是线性链式,分支叉式和合并对撞式。[5] | + | 三个节点的连接类型有三种,分别是线性链式,分支叉式和合并对撞式。 |
| | | |
| ===== 链 ===== | | ===== 链 ===== |
| 链是直线连接,箭头指向因果关系。在这个模型中,B是中介者,因为它可以中介A否则会对C所做的更改。 | | 链是直线连接,箭头指向因果关系。在这个模型中,B是中介者,因为它可以中介A否则会对C所做的更改。 |
− | :<math> A -> B -> C</math> | + | :<math> A \rightarrow B \rightarrow C</math> |
| ===== 叉 ===== | | ===== 叉 ===== |
| 在叉中,一个原因有多种结果。这两种结果有一个共同的原因。A和C之间存在(非因果的)虚假相关性,可以通过把B作为条件(选取B的特定值)来消除虚假相关性。 | | 在叉中,一个原因有多种结果。这两种结果有一个共同的原因。A和C之间存在(非因果的)虚假相关性,可以通过把B作为条件(选取B的特定值)来消除虚假相关性。 |
− | :<math> A <- B -> C</math> | + | :<math> A \leftarrow B \rightarrow C</math> |
| “把B作为条件”是指“给定B”(即B取某个值)。 | | “把B作为条件”是指“给定B”(即B取某个值)。 |
| 某些情况下叉是混杂因子: | | 某些情况下叉是混杂因子: |
− | :<math> A <- B -> C -> A</math> | + | :<math> A \leftarrow B \rightarrow C \rightarrow A</math> |
| 在这样的模型中,B是A和C的共同原因(C也是A的原因),这使B成为混杂因子。 | | 在这样的模型中,B是A和C的共同原因(C也是A的原因),这使B成为混杂因子。 |
− | ===== 对撞因子 ===== | + | ===== 对撞 ===== |
| 在对撞模式中,多种原因会影响一种结果。以B为条件(B取特定值)通常会揭示A与C之间的非因果的负相关。这种负相关被称为对撞偏差和“解释性”效应,即B解释了A与C之间的相关性。该相关性在A和C两者都是影响B的必要因时是正的。 | | 在对撞模式中,多种原因会影响一种结果。以B为条件(B取特定值)通常会揭示A与C之间的非因果的负相关。这种负相关被称为对撞偏差和“解释性”效应,即B解释了A与C之间的相关性。该相关性在A和C两者都是影响B的必要因时是正的。 |
− | :<math> A -> B <- C</math> | + | :<math> A \rightarrow B \leftarrow C</math> |
| | | |
| ==== 节点类型 ==== | | ==== 节点类型 ==== |
第152行: |
第152行: |
| | | |
| 例如,给定模型: | | 例如,给定模型: |
− | :<math> Z -> X -> Y <- U -> X</math> | + | :<math> Z \rightarrow X \rightarrow Y \leftarrow U \rightarrow X</math> |
| | | |
| Z是一种工具变量,因为它有一条通往结果Y的路径,并且不受U的混杂。 | | Z是一种工具变量,因为它有一条通往结果Y的路径,并且不受U的混杂。 |
第164行: |
第164行: |
| === 独立条件 === | | === 独立条件 === |
| 独立条件是用于确定两个变量是否彼此独立的规则。如果一个变量的值不直接影响另一个变量的值,则两个变量是独立的。多个因果模型可以共享独立条件。例如,模型 | | 独立条件是用于确定两个变量是否彼此独立的规则。如果一个变量的值不直接影响另一个变量的值,则两个变量是独立的。多个因果模型可以共享独立条件。例如,模型 |
− | :<math> A -> B -> C</math> | + | :<math> A \rightarrow B \rightarrow C</math> |
| 和 | | 和 |
− | :<math> A <- B -> C</math> | + | :<math> A \leftarrow B \rightarrow C</math> |
| 具有相同的独立条件,因为B作为条件时A和C独立。但是,这两个模型的含义不同,还可能与数据不符(也就是说,如果观测数据显示在B作为条件后显示了A和C之间的关联,那么这两个模型都是不正确的)。相反,数据无法显示这两个模型中的哪个是正确的,因为它们具有相同的独立性条件。 | | 具有相同的独立条件,因为B作为条件时A和C独立。但是,这两个模型的含义不同,还可能与数据不符(也就是说,如果观测数据显示在B作为条件后显示了A和C之间的关联,那么这两个模型都是不正确的)。相反,数据无法显示这两个模型中的哪个是正确的,因为它们具有相同的独立性条件。 |
| | | |
第173行: |
第173行: |
| 设计相关性研究的基本要素是确定对所研究变量(如人口统计学)的潜在混杂影响。控制这些变量是为了消除这些影响。但是,不能先验地确定混杂变量的正确列表。因此,一项研究可能会控制不相关的变量,甚至(间接地)控制所研究的变量。 | | 设计相关性研究的基本要素是确定对所研究变量(如人口统计学)的潜在混杂影响。控制这些变量是为了消除这些影响。但是,不能先验地确定混杂变量的正确列表。因此,一项研究可能会控制不相关的变量,甚至(间接地)控制所研究的变量。 |
| 因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式地,如果“Y通过不经过X的路径与Z关联”,则Z是混杂因素。这些通常可以使用为其他研究所收集的数据来确定。数学上,如果 | | 因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式地,如果“Y通过不经过X的路径与Z关联”,则Z是混杂因素。这些通常可以使用为其他研究所收集的数据来确定。数学上,如果 |
− | :<math> P(Y|X) != P(Y|do(X))</math> | + | :<math> P(Y|X) \neq P(Y|do(X))</math> |
| 那么X是Y的混杂因子。 | | 那么X是Y的混杂因子。 |
| 在此之前,混杂因子的不正确的定义包括: | | 在此之前,混杂因子的不正确的定义包括: |
第196行: |
第196行: |
| | | |
| 当因果模型是现实的合理表示并且满足后门准则时,则可以将局部回归系数用作(因果)路径系数(对于线性关系)。 | | 当因果模型是现实的合理表示并且满足后门准则时,则可以将局部回归系数用作(因果)路径系数(对于线性关系)。 |
− | {\ displaystyle P(Y | do(X))= \ textstyle \ sum _ {z} \ displaystyle P(Y | X,Z = z)P(Z = z)}{\ displaystyle P(Y | do(X))= \ textstyle \ sum _ {z} \ displaystyle P(Y | X,Z = z)P(Z = z)}
| + | :<math> P(Y|do(X))=\sum_z{P(Y|X,Z=z)P(Z=z)}</math> |
| === 前门调整 === | | === 前门调整 === |
| 如果阻塞路径的所有元素都不可观测,则后门路径不可计算,但是如果所有从X到Y的路径都有元素z,并且z到Y没有开放的路径,那么我们可以使用z的集合Z来测量:<math> P(Y|do(X))</math>。<font color="#32cd32"> Effectively, there are conditions where Z can act as a proxy for X.</font> | | 如果阻塞路径的所有元素都不可观测,则后门路径不可计算,但是如果所有从X到Y的路径都有元素z,并且z到Y没有开放的路径,那么我们可以使用z的集合Z来测量:<math> P(Y|do(X))</math>。<font color="#32cd32"> Effectively, there are conditions where Z can act as a proxy for X.</font> |
第204行: |
第204行: |
| 以下式子通过将前门路径上的变量集Z作条件,将含有do的表达式转化成不含do的表达式: | | 以下式子通过将前门路径上的变量集Z作条件,将含有do的表达式转化成不含do的表达式: |
| | | |
− | {\ displaystyle P(Y | do(X))= \ textstyle \ sum _ {z} \ left [\ displaystyle P(Z = z | X)\ textstyle \ sum _ {x} \ displaystyle P(Y | X = x,Z = z)P(X = x)\ right]}{\ displaystyle P(Y | do(X))= \ textstyle \ sum _ {z} \ left [\ displaystyle P(Z = z | X)\ textstyle \ sum _ {x} \ displaystyle P(Y | X = x,Z = z)P(X = x)\ right]}
| + | :<math> P(Y|do(X))=\sum_z{[P(Z=z|X)\sum_x{P(Y|X=x,Z=z)P(X=x)}]}</math> |
| | | |
| 假定上述概率涉及到的观察数据可用,则无需进行实验即可计算出最终概率,而不管是否存在其他混杂路径且无需进行后门调整。 | | 假定上述概率涉及到的观察数据可用,则无需进行实验即可计算出最终概率,而不管是否存在其他混杂路径且无需进行后门调整。 |
第245行: |
第245行: |
| :<math> Y_x(u)</math> | | :<math> Y_x(u)</math> |
| 可以被这样计算,将因果模型M中指向X的箭头删除,计算特定的x的结果。形式上, | | 可以被这样计算,将因果模型M中指向X的箭头删除,计算特定的x的结果。形式上, |
− | :<math> Y_x(u)=Y_M_x(u)</math> | + | :<math> Y_x(u)=Y_{M_x}(u)</math> |
| ===执行反事实=== | | ===执行反事实=== |
| 用一个因果模型计算反事实包括三步。这种方法不管模型是线性还是非线性都有效。当因果关系确定时,可以计算出一个点估计。在其他情况下(如仅能计算概率时),可以计算出一个概率区间,如原本不吸烟的人如果吸烟会增加10-20%的癌症概率。 | | 用一个因果模型计算反事实包括三步。这种方法不管模型是线性还是非线性都有效。当因果关系确定时,可以计算出一个点估计。在其他情况下(如仅能计算概率时),可以计算出一个概率区间,如原本不吸烟的人如果吸烟会增加10-20%的癌症概率。 |
| 在这个模型中, | | 在这个模型中, |
− | :<math> Y<-X->M->Y<-U</math> | + | :<math> Y \leftarrow X \rightarrow M \rightarrow Y \leftarrow U</math> |
| <font color="#32cd32"> the equations for calculating the values of A and C derived from regression analysis or another technique can be applied, substituting known values from an observation and fixing the value of other variables (the counterfactual)</font> | | <font color="#32cd32"> the equations for calculating the values of A and C derived from regression analysis or another technique can be applied, substituting known values from an observation and fixing the value of other variables (the counterfactual)</font> |
| ====Abduct==== | | ====Abduct==== |
第259行: |
第259行: |
| ===中介=== | | ===中介=== |
| 直接原因和间接原因(中介)可以通过执行反事实区分。理解中介需要在干预直接原因时保持中介恒定。在模型 | | 直接原因和间接原因(中介)可以通过执行反事实区分。理解中介需要在干预直接原因时保持中介恒定。在模型 |
− | :<math> Y<-M<-X->Y</math> | + | :<math> Y \leftarrow M \leftarrow X \rightarrow Y</math> |
| 中,M是X对Y影响的中介,X对Y也有非中介影响。这样保持M恒定,就可以计算do(X)。 | | 中,M是X对Y影响的中介,X对Y也有非中介影响。这样保持M恒定,就可以计算do(X)。 |
| <font color="#32cd32"> The Mediation Fallacy instead involves conditioning on the mediator if the mediator and the outcome are confounded, as they are in the above model.</font> | | <font color="#32cd32"> The Mediation Fallacy instead involves conditioning on the mediator if the mediator and the outcome are confounded, as they are in the above model.</font> |
第265行: |
第265行: |
| ===直接效应=== | | ===直接效应=== |
| 在这样模型的实验中,受控直接效应(CDE)通过将M强行赋值(do(M=0))和随机化(do(X=0),do(X=1),...),然后观察Y的结果值获得。 | | 在这样模型的实验中,受控直接效应(CDE)通过将M强行赋值(do(M=0))和随机化(do(X=0),do(X=1),...),然后观察Y的结果值获得。 |
− | {\displaystyle CDE(0)=P(Y=1|do(X=1),do(M=0))-P(Y=1|do(X=0),do(M=0))}
| + | :<math> CDE(0)=P(Y=1|do(X=1),do(M=0))-P(Y=1|do(X=0),do(M=0))</math> |
− | 每个中介因子有一个相应的CDE。
| + | 每个中介因子有一个相应的受控直接效应(CDE)。 |
| 然而,更好的实验时计算自然直接效应(NDE)。<font color="#32cd32"> This is the effect determined by leaving the relationship between X and M untouched while intervening on the relationship between X and Y。</font> | | 然而,更好的实验时计算自然直接效应(NDE)。<font color="#32cd32"> This is the effect determined by leaving the relationship between X and M untouched while intervening on the relationship between X and Y。</font> |
− | {\displaystyle NDE=P(Y_{M=M0}=1|do(X=1))-P(Y_{M=M0}=1|do(X=0))}
| + | :<math> NDE(0)=P(Y_{M=M0}=1|do(X=1))-P(Y_{M=M0}=1|do(X=0))</math> |
| 例如,考虑每年或几年去看牙科医生的次数(X)的直接效应,去看牙科医生会使牙科医生鼓励人们使用牙线(M)。牙龈(Y)因此变得更健康,这归因于牙科医生(直接)或牙线(中介/间接)。需要进行的实验是继续使用牙线,但不去看牙科医生。 | | 例如,考虑每年或几年去看牙科医生的次数(X)的直接效应,去看牙科医生会使牙科医生鼓励人们使用牙线(M)。牙龈(Y)因此变得更健康,这归因于牙科医生(直接)或牙线(中介/间接)。需要进行的实验是继续使用牙线,但不去看牙科医生。 |
| ===间接效应=== | | ===间接效应=== |
| X对Y的间接效应是<font color="#32cd32">increase we would see in Y while holding X constant and increasing M to whatever value M would attain under a unit increase in X </font>。 | | X对Y的间接效应是<font color="#32cd32">increase we would see in Y while holding X constant and increasing M to whatever value M would attain under a unit increase in X </font>。 |
− | 间接效应不能被控制,因为不能通过保持另一个变量恒定来禁用直接路径。自然间接效应(NIE)是使用牙线(M)对牙龈健康(Y)的影响。NIE的计算方式为(使用无牙线和无牙线的情况)给定牙医和没有牙医的情况下使用牙线的概率微分的和,或
| + | 间接效应不能被控制,因为不能通过保持另一个变量恒定来禁用直接路径。自然间接效应(NIE)是使用牙线(M)对牙龈健康(Y)的影响。自然间接效应NIE的计算方式为(使用无牙线和无牙线的情况)给定牙医和没有牙医的情况下使用牙线的概率微分的和,或 |
− | {\displaystyle NIE=\sum _{m}[P(M=m|X=1)-P(M=m|X=0)]xxP(Y=1|X=0,M=m)}
| + | :<math> NIE=\sum _{m}[P(M=m|X=1)-P(M=m|X=0)]P(Y=1|X=0,M=m)}</math> |
− | NDE计算包括了反事实步骤({\displaystyle Y_{M=M0}})。对于非线性模型,下列看上去显然的等式
| + | 自然直接效应NDE计算包括了反事实步骤(:<math>Y_{M=M0}}</math>)。对于非线性模型,下列看上去显然的等式 |
− | :<math> Total effect=Direct+Indirect effect</math> | + | :<math> Total effect=Direct effect + Indirect effect</math> |
| 是不成立的,因为<font color="#32cd32"> anomalies such as threshold effects and binary values</font>。然而, | | 是不成立的,因为<font color="#32cd32"> anomalies such as threshold effects and binary values</font>。然而, |
− | {\displaystyle {\mathsf {Total\ effect}}(X=0\rightarrow X=1)=NDE(X=0\rightarrow X=1)-\ NIE(X=1\rightarrow X=0)}
| + | :<math>Total effect(X=0\rightarrow X=1)=NDE(X=0\rightarrow X=1)-NIE(X=1\rightarrow X=0)}</math> |
| 对于所有线性和非线性模型都是可以生效的。它允许NDE直接从观测的数据计算出了,不需要干预或使用反事实下标。 | | 对于所有线性和非线性模型都是可以生效的。它允许NDE直接从观测的数据计算出了,不需要干预或使用反事实下标。 |
| ==可移植性== | | ==可移植性== |
| 即使因果模型(和相关数据)不同,因果模型也提供了一种工具来集成跨数据集的数据,称为移植。例如,调查数据可以与随机对照试验数据合并。移植提供了一个外部有效性问题的解决方案,即一项研究是否可以在不同的背景下应用。 | | 即使因果模型(和相关数据)不同,因果模型也提供了一种工具来集成跨数据集的数据,称为移植。例如,调查数据可以与随机对照试验数据合并。移植提供了一个外部有效性问题的解决方案,即一项研究是否可以在不同的背景下应用。 |
− | 一,如果两个模型在所有相关变量上都匹配并且已知来自其中一个模型的数据是无偏的,则可以使用一个总体的数据得出关于另一个总体的结论(迁移)。二,已知数据存在偏差,则重加权可以允许模型在数据集间移植。三,可以从不完整的数据集中得出结论。四,可以组合(移植)来自多个总体的研究数据,以得出有关未观测总体的结论。五,结合多个研究的估计值(例如P(W | X))可以提高结论的准确性。
| + | 一,如果两个模型在所有相关变量上都匹配并且已知来自其中一个模型的数据是无偏的,则可以使用一个总体的数据得出关于另一个总体的结论。二,已知数据存在偏差,则重加权可以允许模型在数据集间移植。三,可以从不完整的数据集中得出结论。四,可以组合(移植)来自多个总体的研究数据,以得出有关未观测总体的结论。五,结合多个研究的估计值(例如P(W | X))可以提高结论的准确性。 |
| Do演算为移植提供了一个通用标准:目标变量可以通过一系列不涉及任何“差异”变量(能够区分两个总体的变量)的do运算转换为另一个表达式。有一个类似的规则适用于参与者相对不同的研究。 | | Do演算为移植提供了一个通用标准:目标变量可以通过一系列不涉及任何“差异”变量(能够区分两个总体的变量)的do运算转换为另一个表达式。有一个类似的规则适用于参与者相对不同的研究。 |
| ==贝叶斯网络== | | ==贝叶斯网络== |