可忽略性
在统计学中,可忽略性是实验设计的一种特征,即数据收集方式(以及缺失数据的性质)不依赖于缺失数据。若在给定已观测数据的条件下,表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立,则称该数据缺失机制(例如处理分配或抽样调查策略)是“可忽略的”。
这个想法是20世纪70年代早期Donald Rubin和Paul Rosenbaum 合作提出的鲁宾因果推理模型 Rubin Causal Model的一部分。但那时,他们文章中可忽略性的确切定义不同。1978年鲁宾在一篇文章中讨论了可忽略的分配机制[1] ,其可理解为将个体分配到处理组的方式与数据分析无关,因为已经记录了有关该个体的所有信息。后来,在 1983 年,Rubin 和 Rosenbaum 更确切地定义了“处理分配的强可忽略性”[2],这是一个更强的假设条件,数学上表示为[math]\displaystyle{ (r_1,r_0) \perp \!\!\!\perp z \mid v ,\quad 0\lt \operatorname{pr}(z=1)\lt 1 \quad \forall v }[/math],其中[math]\displaystyle{ r_t }[/math]是给定处理状态 [math]\displaystyle{ t }[/math]下的潜在结果,[math]\displaystyle{ v }[/math] 是协变量,[math]\displaystyle{ z }[/math] 是实际的处理状态。
Pearl在2000年设计了一个简单的图形准则,称为“后门 back-door” ,它需要可忽略性并能识别满足后门准则条件的协变量集。
定义
可忽略性(或外生性)的简明含义是,当涉及潜在结果[math](Y)[/math]时,我们可以忽略一个人是怎样最终处于一个群体中而非另一个群体中(“处理组”[math]Tx = 1[math],或“控制组”[math]Tx = 0)[math]。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差[3]。
其数学形式可记为:[math][Yi1, Yi0] ⊥ Txi ];或者用文字表述为:个体[math]“i”是否接受处理的潜在结果Y并不取决于他们是否真的(可观测到的)接受处理。换句话说,个体最终是通过什么方式处于一种与另一种处理状态我们是可忽略的,并将其潜在结果视为等价可交换的。 虽然这看起来很复杂,但如果用下标表示“已实现”的真实处理状态,用上标表示“理想”(潜在)世界的处理状态,就会变得很清楚。(符号的提出可参考David Freedman;可视化帮助文档可参考:potential outcomes simplified)。
所以,如果个体接受处理(上角标为 1),其对应的潜在结果[math]Y为[math]Y11/*Y01,实际上它们可观测的结果是([math]Y11, 下角标也为 1) ,而不是[math]*Y01。注意:* 表示这个值是无法获取或不可观测的,即完全与事实相反或称为反事实 counterfactual(CF)。
同样,如果个体未接受处理(上角标为 0), 其对应的潜在结果[math]Y为*[math]Y10/Y00。在现实中它们是[math](Y00),而不是[math](*Y10)。
对于相同的处理分配条件,每个潜在结果(PO)中只有一个是实际发生可观测的,而另一个不会发生也无法观测,所以当我们尝试估计处理效应时,需要用可观测值(或估计值)来替代无法观测的反事实结果。当可忽略性/外生性成立时,例如个体是否接受处理是随机的,此时可利用已观测的 Y11'替换'*Y01,利用已观测的 Y00'替换'*Y10,不是个人层面的Yi,而是从平均角度出发,如 E[Yi1 – Yi0 ],这正是大家尝试获取的因果处理效应(TE)。
由于“一致性准则 consistency rule”,潜在结果可利用实际观测值表示:[math]Yi0 = Yi00 ; [math]Yi1 = Yi11(“一致性准则指出,个体的潜在结果正是该个体的实际产生结果[4] p. 872)。 所以,[math]TE = E[Yi1 – Yi0] = E[Yi11 – Yi00]。
现在,我们通过简单的加减相同的完全反事实量 *Y10 得到:
[math]E[Yi11 – Yi00] = E[Yi11 –*Y10 +*Y10 - Yi00] = E[Yi11 –*Y10] + E[*Y10 - Yi00] = ATT + {选择性偏差},
其中,第一项 ATT = 处理组的平均处理效应[5],第二项是当个体可选择属于“处理”组或“控制”组而非完全随机分配时引入的偏差。
无论是普通的还是在给定一些变量条件下的可忽略性,都意味着这种选择偏差可以被忽略或消除,因此人们可以得到(或估计)因果效应。
参考文献
- ↑ Rubin, Donald (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". The Annals of Statistics. 6 (1): 34–58. doi:10.1214/aos/1176344064.
- ↑ Rubin, Donald B.; Rosenbaum, Paul R. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70 (1): 41–55. doi:10.2307/2335942. JSTOR 2335942.
- ↑ Yamamoto, Teppei (2012). "Understanding the Past: Statistical Analysis of Causal Attribution". Journal of Political Science. 56 (1): 237–256. doi:10.1111/j.1540-5907.2011.00539.x. hdl:1721.1/85887.
- ↑ Pearl, Judea (2010). "On the consistency rule in causal inference: axiom, definition, assumption, or theorem?". Epidemiology. 21 (6): 872–875. doi:10.1097/EDE.0b013e3181f5d3fd. PMID 20864888.
- ↑ Imai, Kosuke (2006). "Misunderstandings between experimentalists and observationalists about causal inference". Journal of the Royal Statistical Society, Series A (Statistics in Society). 171 (2): 481–502. doi:10.1111/j.1467-985X.2007.00527.x.
- Donald, Rubin (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". The Annals of Statistics. 6(1): 34–58. doi:10.1214/aos/1176344064.
- Donald B., Rubin; Paul R., Rosenbaum (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70(1): 41–55. arXiv:1109.2143. doi:10.2307/2335942.
- Teppei, Yamamoto (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Journal of Political Science. 56 (1): 237–256. doi:10.1111/j.1540-5907.2011.00539.x.
- Judea, Pearl (2010). "On the consistency rule in causal inference: axiom, definition, assumption, or theorem?". Epidemiology. 21 (6): 872–875. doi:10.1097/EDE.0b013e3181f5d3fd.
- Kosuke, Imai (2006). "Misunderstandings between experimentalists and observationalists about causal inference". Epidemiology. 171 (2): 481–502. doi:10.1111/j.1467-985X.2007.00527.x.
推荐阅读
- Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis. New York: Chapman & Hall/CRC.
- Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. https://archive.org/details/causalitymodelsr0000pear.
- Jaeger, Manfred (2011). "Ignorability in Statistical and Probabilistic Inference". Journal of Artificial Intelligence Research. 24: 889–917. arXiv:1109.2143. Bibcode:2011arXiv1109.2143J. doi:10.1613/jair.1657.
相关课程
图模型与因果推理基础
因果科学成为了“科学”,并在近期正蓬勃发展,这离不开其具有了形式化的定义。在该课程中,将介绍因果科学中的图模型,以及如何在图模型中使用前门调整、后门调整、工具变量、Do-演算等干预的工具,并介绍可识别性等基础概念。
潜结果框架下的因果效应
什么是因果呢?“因”其实就是引起某种现象发生的原因,而“果”就是某种现象发生后产生的结果。因果问题在我们日常生活中十分常见,但是不管是传统的统计学还是当下很火的大数据、机器学习,更多的是解决相关性的问题。因果问题存在于很多领域,如医疗健康、经济、政治科学、数字营销等。该课程是由浙江大学助理教授况琨讲授的,主要回答以下一些重要的问题:因果性与相关性的区别是什么?相关性有哪几种来源?如何评估因果效应?有哪些常用且前沿的方法?
本中文词条由shlay用户参与编译,PengWu参与审校,薄荷编辑,欢迎在讨论页面留言。
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。