更改

添加1,991字节 、 2022年6月6日 (一) 21:25
无编辑摘要
第4行: 第4行:  
}}
 
}}
   −
[[统计学]]中,'''可忽略性'''是实验设计的一种特征,即数据收集方式(以及缺失数据的性质)不依赖于缺失数据。若在给定已观测数据的条件下,表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立,则称该数据缺失机制(例如处理分配或抽样调查策略)是“可忽略的”。
+
'''可忽略性 ignorability(无混淆性 Unconfoundedness)''',在[[统计学]]中,'''可忽略性'''是实验设计的一种特征,即数据收集方式(以及缺失数据的性质)不依赖于缺失数据。若在给定已观测数据的条件下,表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立,则称该数据缺失机制(例如处理分配或抽样调查策略)是“可忽略的”。
      −
这个想法是20世纪70年代早期[[Donald Rubin]]和[[Paul R. Rosenbaum|Paul Rosenbaum]] 合作提出的[[鲁宾因果推理模型 Rubin Causal Model]]的一部分。但那时,他们文章中可忽略性的确切定义不同。1978年鲁宾在一篇文章中讨论了可忽略的分配机制<ref name="rubin78">{{cite journal |last1=Rubin |first1=Donald |title=Bayesian Inference for Causal Effects: The Role of Randomization |journal=The Annals of Statistics |date=1978 |volume=6 |issue=1 |pages=34–58|doi=10.1214/aos/1176344064 |doi-access=free }}</ref> ,其可理解为将个体分配到处理组的方式与数据分析无关,因为已经记录了有关该个体的所有信息。后来,在 1983 年,Rubin 和 Rosenbaum 更确切地定义了“处理分配的强可忽略性”<ref>{{cite journal |last1=Rubin |first1=Donald B. |last2=Rosenbaum |first2=Paul R. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=Biometrika |date=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.2307/2335942 |jstor=2335942 |doi-access=free }}</ref>,这是一个更强的假设条件,数学上表示为<math>(r_1,r_0) \perp \!\!\!\perp z \mid v ,\quad 0<\operatorname{pr}(z=1)<1 \quad \forall v</math>,其中<math>r_t</math>是给定处理状态 <math>t</math>下的潜在结果,<math>v</math> 是协变量,<math>z</math> 是实际的处理状态。
      +
这个想法是20世纪70年代早期[[Donald Rubin]]和[[Paul R. Rosenbaum|Paul Rosenbaum]] 合作提出<ref>Rubin, Donald (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". ''The Annals of Statistics''</ref>的[[鲁宾因果推理模型 Rubin Causal Model]]的一部分。但那时,他们文章中可忽略性的确切定义不同。1978年鲁宾在一篇文章中讨论了可忽略的分配机制<ref name="rubin78">{{cite journal |last1=Rubin |first1=Donald |title=Bayesian Inference for Causal Effects: The Role of Randomization |journal=The Annals of Statistics |date=1978 |volume=6 |issue=1 |pages=34–58|doi=10.1214/aos/1176344064 |doi-access=free }}</ref> ,其可理解为将个体分配到处理组的方式与数据分析无关,因为已经记录了有关该个体的所有信息。后来,在 1983 年,Rubin 和 Rosenbaum <ref>{{cite journal |last1=Rubin |first1=Donald B. |last2=Rosenbaum |first2=Paul R. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=Biometrika |date=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.2307/2335942 |jstor=2335942 |doi-access=free }}</ref>提出了强可忽略分配机制,即给定足够多的基线协变量后潜在结果的联合值与分配独立:
   −
Pearl在2000年设计了一个简单的图形准则,称为“后门 back-door” ,它需要可忽略性并能识别满足后门准则条件的协变量集。
+
<math>(Y(0),Y(1))\perp W|X</math>
       +
其中<math>Y(0)</math>和<math>Y(1)</math>是两个潜在结果,W是处理分配,X是协变量<ref>Rubin, Donald B.; Rosenbaum, Paul R. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects"</ref>。类似地,还有弱可忽略分配机制,只需:<math>Y(w)\perp W|X</math>
 +
 +
 +
对<math>w=0和1</math>成立。可忽略性也是缺失数据分析中的常见假设。
 +
 +
 +
定义倾向性得分<math>e(x)=P(W=1|X=x)</math>,用以表示个体被分配到处理组的概率,可以证明,当无混淆性成立时,<math>(Y(0),Y(1))\perp W|e(X)</math>因此只需要控制一个一维变量,就能实现潜在结果与处理分配相互独立。
 +
 +
 +
无混淆性是因果推断的基础。当无混淆性成立时,平均因果作用可以识别。
 +
 +
<math>E[Y(w)]=E\left \{ E[Y(w)|X] \right \}=E\left \{E[Y(w)|X,W=w] \right \}=E\left \{ E[Y|X,W=w] \right \}</math>
 +
 +
 +
平均因果作用的估计方法包括逆概率加权、回归、匹配等一系列方法,甚至可以构造双稳健的估计方法,使得只要倾向得分模型或回归模型之一设定正确,就能得到平均因果作用的相合估计。
 +
 +
 +
由于无混淆性涉及潜在结果,因此不可检验。Donald Rubin提出了几种间接验证无混淆性的方法,包括伪结局、伪处理方法,以及基于子集可忽略性的方法<ref>Imbens & Rubin 2015书</ref>。Rosenbaum针对无混淆性提出了敏感性分析<ref>Rosembaum,Design of Observational Studies书</ref>。
 +
 +
 +
Judea Pearl提出用后门准则来判断无混淆性。在有向无环图中,如果控制一组条件变量,处理变量和结果变量的所有后门路径被阻断,则无混淆性成立。然而实际上基于有向无环图判断无混淆性的做法并不严格。Thomas Richardson和James Robins曾提出单一世界干预图(SWIG),可将处理分配变量、干预值和潜在结果表现在因果图上。在单一世界干预图中,处理分配变量和干预值被阻断,通过检查处理分配变量与潜在结果的后门是否被阻断,可以更严格地判断无混淆性<ref>Hernan & Robins,What if书</ref>。
 
== 定义 ==
 
== 定义 ==
可忽略性(或外生性)的简明含义是,当涉及潜在结果(Y)时,我们可以忽略一个人是怎样最终处于一个群体中而非另一个群体中(“处理组”Tx = 1,或“控制组”Tx = 0)。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差<ref>{{cite journal|last1=Yamamoto|first1=Teppei|title=Understanding the Past: Statistical Analysis of Causal Attribution|journal=Journal of Political Science|date=2012|volume=56|issue=1|pages=237–256|doi=10.1111/j.1540-5907.2011.00539.x|hdl=1721.1/85887}}</ref>。
+
可忽略性(或无混淆性)的简明含义是,当涉及潜在结果(Y)时,我们可以忽略一个人是怎样最终处于一个群体中而非另一个群体中(“处理组”Tx = 1,或“控制组”Tx = 0)。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差<ref>{{cite journal|last1=Yamamoto|first1=Teppei|title=Understanding the Past: Statistical Analysis of Causal Attribution|journal=Journal of Political Science|date=2012|volume=56|issue=1|pages=237–256|doi=10.1111/j.1540-5907.2011.00539.x|hdl=1721.1/85887}}</ref>。