更改

可忽略性 (查看源代码)

2022年6月6日 (一) 21:25的版本

添加1,991字节、 2022年6月6日 (一) 21:25

无编辑摘要

第4行：第4行：

}}

−

在[[统计学]]中，'''可忽略性'''是实验设计的一种特征，即数据收集方式（以及缺失数据的性质）不依赖于缺失数据。若在给定已观测数据的条件下，表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立，则称该数据缺失机制（例如处理分配或抽样调查策略）是“可忽略的”。

+

'''可忽略性 ignorability（无混淆性 Unconfoundedness）'''，在[[统计学]]中，'''可忽略性'''是实验设计的一种特征，即数据收集方式（以及缺失数据的性质）不依赖于缺失数据。若在给定已观测数据的条件下，表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立，则称该数据缺失机制（例如处理分配或抽样调查策略）是“可忽略的”。

−

这个想法是20世纪70年代早期[[Donald Rubin]]和[[Paul R. Rosenbaum|Paul Rosenbaum]] 合作提出的[[鲁宾因果推理模型 Rubin Causal Model]]的一部分。但那时，他们文章中可忽略性的确切定义不同。1978年鲁宾在一篇文章中讨论了可忽略的分配机制<ref name="rubin78">{{cite journal |last1=Rubin |first1=Donald |title=Bayesian Inference for Causal Effects: The Role of Randomization |journal=The Annals of Statistics |date=1978 |volume=6 |issue=1 |pages=34–58|doi=10.1214/aos/1176344064 |doi-access=free }}</ref> ,其可理解为将个体分配到处理组的方式与数据分析无关，因为已经记录了有关该个体的所有信息。后来，在 1983 年，Rubin 和 Rosenbaum 更确切地定义了“处理分配的强可忽略性”<ref>{{cite journal |last1=Rubin |first1=Donald B. |last2=Rosenbaum |first2=Paul R. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=Biometrika |date=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.2307/2335942 |jstor=2335942 |doi-access=free }}</ref>，这是一个更强的假设条件，数学上表示为<math>(r_1,r_0) \perp \!\!\!\perp z \mid v ,\quad 0<\operatorname{pr}(z=1)<1 \quad \forall v</math>，其中<math>r_t</math>是给定处理状态 <math>t</math>下的潜在结果，<math>v</math> 是协变量，<math>z</math> 是实际的处理状态。

+

这个想法是20世纪70年代早期[[Donald Rubin]]和[[Paul R. Rosenbaum|Paul Rosenbaum]] 合作提出<ref>Rubin, Donald (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". ''The Annals of Statistics''</ref>的[[鲁宾因果推理模型 Rubin Causal Model]]的一部分。但那时，他们文章中可忽略性的确切定义不同。1978年鲁宾在一篇文章中讨论了可忽略的分配机制<ref name="rubin78">{{cite journal |last1=Rubin |first1=Donald |title=Bayesian Inference for Causal Effects: The Role of Randomization |journal=The Annals of Statistics |date=1978 |volume=6 |issue=1 |pages=34–58|doi=10.1214/aos/1176344064 |doi-access=free }}</ref> ,其可理解为将个体分配到处理组的方式与数据分析无关，因为已经记录了有关该个体的所有信息。后来，在 1983 年，Rubin 和 Rosenbaum <ref>{{cite journal |last1=Rubin |first1=Donald B. |last2=Rosenbaum |first2=Paul R. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=Biometrika |date=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.2307/2335942 |jstor=2335942 |doi-access=free }}</ref>提出了强可忽略分配机制，即给定足够多的基线协变量后潜在结果的联合值与分配独立：

−

~~Pearl在2000年设计了一个简单的图形准则，称为“后门 back-door” ，它需要可忽略性并能识别满足后门准则条件的协变量集。~~

+

+

其中<math>Y(0)</math>和<math>Y(1)</math>是两个潜在结果，W是处理分配，X是协变量<ref>Rubin, Donald B.; Rosenbaum, Paul R. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects"</ref>。类似地，还有弱可忽略分配机制，只需：<math>Y(w)\perp W|X</math>

+

对<math>w=0和1</math>成立。可忽略性也是缺失数据分析中的常见假设。

+

定义倾向性得分<math>e(x)=P(W=1|X=x)</math>，用以表示个体被分配到处理组的概率，可以证明，当无混淆性成立时，<math>(Y(0),Y(1))\perp W|e(X)</math>因此只需要控制一个一维变量，就能实现潜在结果与处理分配相互独立。

+

无混淆性是因果推断的基础。当无混淆性成立时，平均因果作用可以识别。

+

<math>E[Y(w)]=E\left \{ E[Y(w)|X] \right \}=E\left \{E[Y(w)|X,W=w] \right \}=E\left \{ E[Y|X,W=w] \right \}</math>

+

平均因果作用的估计方法包括逆概率加权、回归、匹配等一系列方法，甚至可以构造双稳健的估计方法，使得只要倾向得分模型或回归模型之一设定正确，就能得到平均因果作用的相合估计。

+

由于无混淆性涉及潜在结果，因此不可检验。Donald Rubin提出了几种间接验证无混淆性的方法，包括伪结局、伪处理方法，以及基于子集可忽略性的方法<ref>Imbens & Rubin 2015书</ref>。Rosenbaum针对无混淆性提出了敏感性分析<ref>Rosembaum，Design of Observational Studies书</ref>。

+

Judea Pearl提出用后门准则来判断无混淆性。在有向无环图中，如果控制一组条件变量，处理变量和结果变量的所有后门路径被阻断，则无混淆性成立。然而实际上基于有向无环图判断无混淆性的做法并不严格。Thomas Richardson和James Robins曾提出单一世界干预图（SWIG），可将处理分配变量、干预值和潜在结果表现在因果图上。在单一世界干预图中，处理分配变量和干预值被阻断，通过检查处理分配变量与潜在结果的后门是否被阻断，可以更严格地判断无混淆性<ref>Hernan & Robins，What if书</ref>。

== 定义 ==

−

~~可忽略性（或外生性）的简明含义是，当涉及潜在结果（Y）时，我们可以忽略一个人是怎样最终处于一个群体中而非另一个群体中~~(“处理组”Tx = 1，或“控制组”Tx = 0）。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差<ref>{{cite journal|last1=Yamamoto|first1=Teppei|title=Understanding the Past: Statistical Analysis of Causal Attribution|journal=Journal of Political Science|date=2012|volume=56|issue=1|pages=237–256|doi=10.1111/j.1540-5907.2011.00539.x|hdl=1721.1/85887}}</ref>。

+

可忽略性（或无混淆性）的简明含义是，当涉及潜在结果（Y）时，我们可以忽略一个人是怎样最终处于一个群体中而非另一个群体中(“处理组”Tx = 1，或“控制组”Tx = 0）。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差<ref>{{cite journal|last1=Yamamoto|first1=Teppei|title=Understanding the Past: Statistical Analysis of Causal Attribution|journal=Journal of Political Science|date=2012|volume=56|issue=1|pages=237–256|doi=10.1111/j.1540-5907.2011.00539.x|hdl=1721.1/85887}}</ref>。

是趣木木呀

管理员

587

个编辑

更改

可忽略性 (查看源代码)

2022年6月6日 (一) 21:25的版本

导航菜单

搜索