第8行: |
第8行: |
| 1)让因变量对自变量进行回归,以确认自变量是因变量的显著预测因子,即 | | 1)让因变量对自变量进行回归,以确认自变量是因变量的显著预测因子,即 |
| <math>Y=\beta _{{10}}+\beta _{{11}}X+\varepsilon _{1}</math> | | <math>Y=\beta _{{10}}+\beta _{{11}}X+\varepsilon _{1}</math> |
− | 的回归系数<math>β_{11}<math> 是显著的。 | + | 的回归系数<math>β_{11}</math> 是显著的。 |
| 2)让中介变量对自变量进行回归,确认自变量是中介变量的显著预测因子,即 | | 2)让中介变量对自变量进行回归,确认自变量是中介变量的显著预测因子,即 |
− | <math>Me=\beta _{{20}}+\beta _{{21}}X+\varepsilon _{2}<math> | + | <math>Me=\beta _{{20}}+\beta _{{21}}X+\varepsilon _{2}</math> |
− | 的回归系数 <math>\beta_{21}<math>是显著的。如果中介变量与自变量没有关联,那么它就不可能中介任何事物。 | + | 的回归系数 <math>\beta_{21}</math>是显著的。如果中介变量与自变量没有关联,那么它就不可能中介任何事物。 |
| 3)让因变量对中介和自变量同时进行回归,即 | | 3)让因变量对中介和自变量同时进行回归,即 |
− | <math>Y=\beta _{{30}}+\beta _{{31}}X+\beta _{{32}}Me+\varepsilon _{3}<math> | + | <math>Y=\beta _{{30}}+\beta _{{31}}X+\beta _{{32}}Me+\varepsilon _{3}</math> |
− | 的回归系数 <math>\beta_{32}<math>是显著的,并且 <math>\beta_{31}<math>的绝对值应该小于自变量的效应 <math>\beta_{11}<math>。从而确保了中介变量是因变量的重要预测因子,并且使得相对于第一步,自变量对结果的解释性降低。 | + | 的回归系数 <math>\beta_{32}<math>是显著的,并且 <math>\beta_{31}</math>的绝对值应该小于自变量的效应 <math>\beta_{11}</math>。从而确保了中介变量是因变量的重要预测因子,并且使得相对于第一步,自变量对结果的解释性降低。 |
| | | |
| 中介变量可以解释两个变量之间观察到的全部或部分关系,如果中介变量的加入使自变量和因变量之间的相关性降为零,则中介的证据最大,也称为完全中介(full mediation)。而部分中介(partial mediation)是指不仅中介变量与因变量之间存在显著的关系,而且自变量与因变量之间也存在某种直接的关系。 | | 中介变量可以解释两个变量之间观察到的全部或部分关系,如果中介变量的加入使自变量和因变量之间的相关性降为零,则中介的证据最大,也称为完全中介(full mediation)。而部分中介(partial mediation)是指不仅中介变量与因变量之间存在显著的关系,而且自变量与因变量之间也存在某种直接的关系。 |
第29行: |
第29行: |
| | | |
| | | |
− | 因果方法的基本前提是,当我们试图估计自变量 X 对 因变量 Y 的直接影响时,并不总是适合对中介M进行“控制”(见上图)。对M进行“控制”的经典理论是,如果我们成功地阻止了M的变化,那么我们在Y中测量的任何变化都只能归因于X的变化,然后我们就有理由宣布观察到的效果是“X对Y的直接影响”。不幸的是,“控制M”并不能从物理上阻止M的改变;它只是把分析者的注意力集中在相等 M 值的情况下。而且,概率论的语言没有表示“阻止M改变”或“物理上保持M不变”的符号。唯一的运算是“以…为条件”(conditioning),这是当我们“控制” M 时所做的。或者为 Y 的方程添加 M 作为其中的一个回归变量。 结果是,与在物理上保持 M 不变(例如 M = m )并将 X = 1 下 Y 的单位 与 X = 0 下 Y 的单位进行比较的方法不同,我们允许 M 变化但忽略所有使得 M=m 的其他单位。这两个操作除了没有遗漏变量的情况,本质上是不同的,产生不同的结果[21][22]。 | + | 因果方法的基本前提是,当我们试图估计自变量 X </math>对 因变量 Y </math>的直接影响时,并不总是适合对中介M进行“控制”(见上图)。对M进行“控制”的经典理论是,如果我们成功地阻止了M的变化,那么我们在Y中测量的任何变化都只能归因于X的变化,然后我们就有理由宣布观察到的效果是“X</math>对Y</math>的直接影响”。不幸的是,“控制M”并不能从物理上阻止M的改变;它只是把分析者的注意力集中在相等 M </math>值的情况下。而且,概率论的语言没有表示“阻止M改变”或“物理上保持M不变”的符号。唯一的运算是“以…为条件”(conditioning),这是当我们“控制” M </math>时所做的。或者为 Y</math> 的方程添加 M </math>作为其中的一个回归变量。 结果是,与在物理上保持 M </math>不变(例如 M = m )并将 X = 1</math> 下 Y</math> 的单位 与 X = 0 </math>下 Y </math>的单位进行比较的方法不同,我们允许 M 变化但忽略所有使得 M=m 的其他单位。这两个操作除了没有遗漏变量的情况,本质上是不同的,产生不同的结果[21][22]。 |
| | | |
− | 举例来说,假设 M 和 Y 的误差项是相关的。在这种情况下,通过对 Y 在 X 和 M 上进行回归,就无法对结构系数 B 和 A(在M和Y之间,在Y和X之间) 进行估计。事实上,即使当 C 等于 0 的时候,回归斜率也可能不等于 0 。这有两种后果。首先必须设计新的策略来估计结构系数 A、B 和 C。其次,直接和间接效应的基本定义必须超越回归分析,并且应该采用类似于“固定 M”的操作,而不是“在 M 的条件下”的操作。 | + | 举例来说,假设 M </math>和 Y</math> 的误差项是相关的。在这种情况下,通过对 Y </math>在 X</math> 和 M </math>上进行回归,就无法对结构系数 B </math>和 A</math>(在M</math>和Y</math>之间,在Y</math>和X</math>之间) 进行估计。事实上,即使当 C</math> 等于 0 的时候,回归斜率也可能不等于 0 。这有两种后果。首先必须设计新的策略来估计结构系数 A</math>、B</math> 和 C</math>。其次,直接和间接效应的基本定义必须超越回归分析,并且应该采用类似于“固定 M</math>”的操作,而不是“在 M </math>的条件下”的操作。 |
| 数学定义 | | 数学定义 |
| | | |
− | Pearl(1994)[22]中定义了这样一个运算符 <math>do(M = m)<math>,它的作用是去除 M 的方程,代之以一个常数 m。例如,如果基本中介模型由以下方程组成: | + | Pearl(1994)[22]中定义了这样一个运算符 <math>do(M = m)</math>,它的作用是去除 M</math> 的方程,代之以一个常数 m</math>。例如,如果基本中介模型由以下方程组成: |
− | <math> {\displaystyle X=f(\varepsilon _{1}),M=g(X,\varepsilon _{2}),Y=h(X,M,\varepsilon _{3}),}<math> | + | <math> {\displaystyle X=f(\varepsilon _{1}),M=g(X,\varepsilon _{2}),Y=h(X,M,\varepsilon _{3}),}</math> |
| 那么应用了<math>do(M = m)<math>运算的模型将会变为: | | 那么应用了<math>do(M = m)<math>运算的模型将会变为: |
− | <math>{\displaystyle X=f(\varepsilon _{1}),M=m,Y=h(X,m,\varepsilon _{3})}<math> | + | <math>{\displaystyle X=f(\varepsilon _{1}),M=m,Y=h(X,m,\varepsilon _{3})}</math> |
| 同时,应用了<math>do(X = x)<math> 运算的模型会变为: | | 同时,应用了<math>do(X = x)<math> 运算的模型会变为: |
− | <math>{\displaystyle X=x,M=g(x,\varepsilon _{2}),Y=h(x,M,\varepsilon _{3})}<math> | + | <math>{\displaystyle X=x,M=g(x,\varepsilon _{2}),Y=h(x,M,\varepsilon _{3})}</math> |
− | 其中函数 f 和 g 以及误差项 ε1 和 ε3 的分布保持不变。如果我们进一步将 <math>do(X = x)<math> 得到的变量 <math>M<math> 和 <math>Y<math> 分别重新命名为 <math>M(x)<math> 和 <math>Y(x)<math> ,我们得到了所谓的“潜在结果(potential outcome)”[24]或“结构反事实(structural counterfactuals)”[25]这些新变量为定义直接和间接效应提供了便利的描述符号。具体来说,定义了从 <math>X = 0<math> 到 <math>X = 1</math>变化的四种效应: | + | 其中函数 f 和 g 以及误差项 ε1 </math>和 ε3 </math>的分布保持不变。如果我们进一步将 <math>do(X = x)</math>得到的变量 <math>M</math> 和 <math>Y</math> 分别重新命名为 <math>M(x)</math>和 <math>Y(x)</math> ,我们得到了所谓的“潜在结果(potential outcome)”[24]或“结构反事实(structural counterfactuals)”[25]这些新变量为定义直接和间接效应提供了便利的描述符号。具体来说,定义了从 <math>X = 0</math> 到 <math>X = 1</math>变化的四种效应: |
| | | |
| (a) 总体效应 – | | (a) 总体效应 – |