“可忽略性”的版本间的差异
第2行: | 第2行: | ||
|keywords=实验设计,因果推断,可忽略性 | |keywords=实验设计,因果推断,可忽略性 | ||
|description=是实验设计的一种特征 | |description=是实验设计的一种特征 | ||
− | }} | + | }}'''可忽略性 ignorability(无混淆性 Unconfoundedness'''是指给定一些协变量后,处理变量与潜在结果独立。如果观察性研究满足无混淆性,那么就可以识别出因果作用。在[[统计学]]中,'''可忽略性'''是实验设计的一种特征,即数据收集方式(以及缺失数据的性质)不依赖于缺失数据。若在给定已观测数据的条件下,表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立,则称该数据缺失机制(例如处理分配或抽样调查策略)是“可忽略的”。 |
− | ''' | + | 这个想法是20世纪70年代早期[[Donald Rubin]]和[[Paul R. Rosenbaum|Paul Rosenbaum]] 合作提出<ref>Rubin, Donald (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". ''The Annals of Statistics''</ref>的[[鲁宾因果推理模型 Rubin Causal Model]]的一部分。但那时,他们文章中可忽略性的确切定义不同。1978年[[Donald Rubin]]在一篇文章中讨论了可忽略性的分配机制<ref name="rubin78">{{cite journal |last1=Rubin |first1=Donald |title=Bayesian Inference for Causal Effects: The Role of Randomization |journal=The Annals of Statistics |date=1978 |volume=6 |issue=1 |pages=34–58|doi=10.1214/aos/1176344064 |doi-access=free }}</ref> ,其可理解为将个体分配到处理组的方式与数据分析无关,因为已经记录了有关该个体的所有信息。后来,在 1983 年,[[Donald Rubin]]和 Rosenbaum <ref>{{cite journal |last1=Rubin |first1=Donald B. |last2=Rosenbaum |first2=Paul R. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=Biometrika |date=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.2307/2335942 |jstor=2335942 |doi-access=free }}</ref>提出了强可忽略分配机制,即给定足够多的基线协变量后潜在结果的联合值与分配独立: |
+ | <math>(Y(0),Y(1))\perp W|X</math> | ||
− | |||
− | |||
− | |||
+ | 其中<math>Y(0)</math>和<math>Y(1)</math>是两个潜在结果,W是处理分配,X是协变量<ref>Rubin, Donald B.; Rosenbaum, Paul R. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects"</ref>。类似地,还有弱可忽略分配机制,只需:<math>Y(w)\perp W|X</math> | ||
− | |||
第19行: | 第17行: | ||
− | |||
+ | 定义倾向性得分<math>e(x)=P(W=1|X=x)</math>,用以表示个体被分配到处理组的概率,可以证明,当无混淆性成立时,<math>(Y(0),Y(1))\perp W|e(X)</math>因此只需要控制一个一维变量,就能实现[[潜在结果]]与处理分配相互独立。 | ||
+ | 可忽略性是因果推断的基础,当可忽略性成立时,平均因果作用可以识别。 | ||
− | + | <math>E[Y(w)]=E\left \{ E[Y(w)|X] \right \}=E\left \{E[Y(w)|X,W=w] \right \}=E\left \{ E[Y|X,W=w] \right \}</math> | |
− | + | 平均因果作用的估计方法包括[[逆概率加权]]、[[回归分析|回归]]、[[匹配]]等一系列方法,甚至可以构造[[双稳健]]的估计方法,使得只要[[倾向得分匹配|倾向得分]]模型或回归模型之一设定正确,就能得到平均因果作用的相合估计。 | |
+ | 由于可忽略性涉及[[潜在结果]],因此不可检验。Donald Rubin提出了几种间接验证可忽略性的方法,包括伪结局、伪处理方法,以及基于子集可忽略性的方法<ref>Imbens & Rubin 2015书</ref>。Rosenbaum针对可忽略性提出了敏感性分析<ref>Rosembaum,Design of Observational Studies书</ref>。 | ||
+ | [[Judea Pearl]]提出用[[后门准则]]来判断可忽略性。在有向无环图中,如果控制一组条件变量,处理变量和结果变量的所有后门路径被阻断,则可忽略性成立。然而,实际上基于有向无环图判断可忽略性的做法并不严格。Thomas Richardson和[[James Robins]]曾提出单一世界干预图(SWIG),可将处理分配变量、干预值和潜在结果表现在因果图上。在单一世界干预图中,处理分配变量和干预值被阻断,通过检查处理分配变量与潜在结果的后门是否被阻断,可以更严格地判断可忽略性<ref>Hernan & Robins,What if书</ref>。 | ||
+ | == 定义 == | ||
+ | 可忽略性(或无混淆性)的简明含义是,当涉及[[潜在结果]](Y)时,我们可以忽略一个人是怎样最终处于一个群体中,而非另一个群体中(“处理组”Tx = 1,或“控制组”Tx = 0)。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差<ref>{{cite journal|last1=Yamamoto|first1=Teppei|title=Understanding the Past: Statistical Analysis of Causal Attribution|journal=Journal of Political Science|date=2012|volume=56|issue=1|pages=237–256|doi=10.1111/j.1540-5907.2011.00539.x|hdl=1721.1/85887}}</ref>。 | ||
− | |||
+ | 其数学形式可记为:[Y<sub>i</sub>1, Y<sub>i</sub>0] ⊥ Tx<sub>i</sub> ;或者用文字表述为:个体“i”是否接受处理的[[潜在结果]]Y并不取决于他们是否真的(可观测到的)接受处理。换句话说,个体最终是通过什么方式处于一种与另一种处理状态我们是可忽略的,并将其潜在结果视为等价可交换的。 虽然这看起来很复杂,但如果用下标表示“已实现”的真实处理状态,用上标表示“理想”(潜在)世界的处理状态,就会变得很清楚。(符号的提出可参考[https://www.cambridge.org/core/books/statistical-models-and-causal-inference/7CE8D4957FF6E9615AAAC4128FA8246E David Freedman];可视化帮助文档可参考:[https://drive.google.com/open?id=1nLHHH0il225LIy33nRiH3ZfgoX1_-_V9 potential outcomes simplified])。 | ||
− | |||
− | + | 所以,如果个体接受处理(上角标为 <sup>1</sup>),其对应的潜在结果Y为Y<sub>1</sub><sup>1</sup>/*Y<sub>0</sub><sup>1</sup>,实际上它们可观测的结果是(Y<sub>1</sub><sup>1</sup>, 下角标也为 <sub>1</sub>) ,而不是*Y<sub>0</sub><sup>1</sup>。注意:* 表示这个值是无法获取或不可观测的,即''完全与事实相反''或称为[[反事实]] counterfactual(CF)。 | |
− | |||
− | |||
− | |||
+ | 同样,如果个体未接受处理(上角标为 <sup>0</sup>), 其对应的[[潜在结果]]Y为*Y<sub>1</sub><sup>0</sup>/Y<sub>0</sub><sup>0</sup>。在现实中它们是(Y<sub>0</sub><sup>0</sup>),而不是(*Y<sub>1</sub><sup>0</sup>)。 | ||
− | |||
− | + | 对于相同的处理分配条件,每个[[潜在结果]]果(PO)中只有一个是实际发生可观测的,而另一个不会发生也无法观测,所以当我们尝试估计处理效应时,需要用可观测值(或估计值)来替代无法观测的反事实结果。当可忽略性/外生性成立时,例如个体是否接受处理是随机的,此时可利用已观测的 Y<sub>1</sub><sup>1</sup>'替换'*''Y''<sub>0</sub><sup>1</sup>,利用已观测的 Y<sub>0</sub><sup>0</sup>'替换'*''Y''<sub>1</sub><sup>0</sup>,不是个人层面的Y<sub>i</sub>,而是从平均角度出发,如 E[''Y''<sub>''i''</sub><sup>1</sup> – ''Y''<sub>''i''</sub><sup>0 </sup>],这正是大家尝试获取的因果处理效应(TE)。 | |
− | |||
+ | 由于“一致性准则 consistency rule”,[[潜在结果]]可利用实际观测值表示:Y<sub>i</sub><sup>0</sup> = Y<sub>i0</sub><sup>0</sup> ; Y<sub>i</sub><sup>1</sup> = Y<sub>i1</sub><sup>1</sup>(“一致性准则指出,个体的潜在结果正是该个体的实际产生结果<ref>{{cite journal|last1=Pearl|first1=Judea|title=On the consistency rule in causal inference: axiom, definition, assumption, or theorem?|journal=Epidemiology|date=2010|volume=21|issue=6|pages=872–875|doi=10.1097/EDE.0b013e3181f5d3fd|pmid=20864888}}</ref> p. 872)。 所以,TE = E[Y<sub>i</sub><sup>1</sup> – Y<sub>i</sub><sup>0</sup>] = E[Y<sub>i1</sub><sup>1</sup> – Y<sub>i0</sub><sup>0</sup>]。 | ||
− | |||
第59行: | 第57行: | ||
E[Y<sub>i1</sub><sup>1</sup> – Y<sub>i0</sub><sup>0</sup>] = E[Y<sub>i1</sub><sup>1</sup> –*Y<sub>1</sub><sup>0</sup> +*Y<sub>1</sub><sup>0</sup> - Y<sub>i0</sub><sup>0</sup>] = E[Y<sub>i1</sub><sup>1</sup> –*Y<sub>1</sub><sup>0</sup>] + E[*Y<sub>1</sub><sup>0</sup> - Y<sub>i0</sub><sup>0</sup>] = ATT + {选择性偏差}, | E[Y<sub>i1</sub><sup>1</sup> – Y<sub>i0</sub><sup>0</sup>] = E[Y<sub>i1</sub><sup>1</sup> –*Y<sub>1</sub><sup>0</sup> +*Y<sub>1</sub><sup>0</sup> - Y<sub>i0</sub><sup>0</sup>] = E[Y<sub>i1</sub><sup>1</sup> –*Y<sub>1</sub><sup>0</sup>] + E[*Y<sub>1</sub><sup>0</sup> - Y<sub>i0</sub><sup>0</sup>] = ATT + {选择性偏差}, | ||
+ | |||
其中,第一项 ATT = 处理组的平均处理效应<ref>{{cite journal|last1=Imai|first1=Kosuke|title=Misunderstandings between experimentalists and observationalists about causal inference|journal=Journal of the Royal Statistical Society, Series A (Statistics in Society)|date=2006|volume=171|issue=2|pages=481–502|doi=10.1111/j.1467-985X.2007.00527.x|url=http://nrs.harvard.edu/urn-3:HUL.InstRepos:4142695}}</ref>,第二项是当个体可选择属于“处理”组或“控制”组而非完全随机分配时引入的偏差。 | 其中,第一项 ATT = 处理组的平均处理效应<ref>{{cite journal|last1=Imai|first1=Kosuke|title=Misunderstandings between experimentalists and observationalists about causal inference|journal=Journal of the Royal Statistical Society, Series A (Statistics in Society)|date=2006|volume=171|issue=2|pages=481–502|doi=10.1111/j.1467-985X.2007.00527.x|url=http://nrs.harvard.edu/urn-3:HUL.InstRepos:4142695}}</ref>,第二项是当个体可选择属于“处理”组或“控制”组而非完全随机分配时引入的偏差。 | ||
+ | |||
第110行: | 第110行: | ||
===文章总结=== | ===文章总结=== | ||
− | |||
− | |||
*知乎上RandomWalk总结的关于因果推断之Potential Outcome Framework的内容,其中提到因果退镀and额目标就是从观测数据中估计treatment effect。 | *知乎上RandomWalk总结的关于因果推断之Potential Outcome Framework的内容,其中提到因果退镀and额目标就是从观测数据中估计treatment effect。 | ||
2022年8月1日 (一) 20:32的版本
可忽略性 ignorability(无混淆性 Unconfoundedness是指给定一些协变量后,处理变量与潜在结果独立。如果观察性研究满足无混淆性,那么就可以识别出因果作用。在统计学中,可忽略性是实验设计的一种特征,即数据收集方式(以及缺失数据的性质)不依赖于缺失数据。若在给定已观测数据的条件下,表示哪些变量被观测到或缺失的缺失数据指示矩阵与缺失数据独立,则称该数据缺失机制(例如处理分配或抽样调查策略)是“可忽略的”。
这个想法是20世纪70年代早期Donald Rubin和Paul Rosenbaum 合作提出[1]的鲁宾因果推理模型 Rubin Causal Model的一部分。但那时,他们文章中可忽略性的确切定义不同。1978年Donald Rubin在一篇文章中讨论了可忽略性的分配机制[2] ,其可理解为将个体分配到处理组的方式与数据分析无关,因为已经记录了有关该个体的所有信息。后来,在 1983 年,Donald Rubin和 Rosenbaum [3]提出了强可忽略分配机制,即给定足够多的基线协变量后潜在结果的联合值与分配独立:
[math]\displaystyle{ (Y(0),Y(1))\perp W|X }[/math]
其中[math]\displaystyle{ Y(0) }[/math]和[math]\displaystyle{ Y(1) }[/math]是两个潜在结果,W是处理分配,X是协变量[4]。类似地,还有弱可忽略分配机制,只需:[math]\displaystyle{ Y(w)\perp W|X }[/math]
对[math]\displaystyle{ w=0和1 }[/math]成立。可忽略性也是缺失数据分析中的常见假设。
定义倾向性得分[math]\displaystyle{ e(x)=P(W=1|X=x) }[/math],用以表示个体被分配到处理组的概率,可以证明,当无混淆性成立时,[math]\displaystyle{ (Y(0),Y(1))\perp W|e(X) }[/math]因此只需要控制一个一维变量,就能实现潜在结果与处理分配相互独立。
可忽略性是因果推断的基础,当可忽略性成立时,平均因果作用可以识别。
[math]\displaystyle{ E[Y(w)]=E\left \{ E[Y(w)|X] \right \}=E\left \{E[Y(w)|X,W=w] \right \}=E\left \{ E[Y|X,W=w] \right \} }[/math]
平均因果作用的估计方法包括逆概率加权、回归、匹配等一系列方法,甚至可以构造双稳健的估计方法,使得只要倾向得分模型或回归模型之一设定正确,就能得到平均因果作用的相合估计。
由于可忽略性涉及潜在结果,因此不可检验。Donald Rubin提出了几种间接验证可忽略性的方法,包括伪结局、伪处理方法,以及基于子集可忽略性的方法[5]。Rosenbaum针对可忽略性提出了敏感性分析[6]。
Judea Pearl提出用后门准则来判断可忽略性。在有向无环图中,如果控制一组条件变量,处理变量和结果变量的所有后门路径被阻断,则可忽略性成立。然而,实际上基于有向无环图判断可忽略性的做法并不严格。Thomas Richardson和James Robins曾提出单一世界干预图(SWIG),可将处理分配变量、干预值和潜在结果表现在因果图上。在单一世界干预图中,处理分配变量和干预值被阻断,通过检查处理分配变量与潜在结果的后门是否被阻断,可以更严格地判断可忽略性[7]。
定义
可忽略性(或无混淆性)的简明含义是,当涉及潜在结果(Y)时,我们可以忽略一个人是怎样最终处于一个群体中,而非另一个群体中(“处理组”Tx = 1,或“控制组”Tx = 0)。它也被称为无混淆杂性、基于可观测变量的选择或无遗漏变量偏差[8]。
其数学形式可记为:[Yi1, Yi0] ⊥ Txi ;或者用文字表述为:个体“i”是否接受处理的潜在结果Y并不取决于他们是否真的(可观测到的)接受处理。换句话说,个体最终是通过什么方式处于一种与另一种处理状态我们是可忽略的,并将其潜在结果视为等价可交换的。 虽然这看起来很复杂,但如果用下标表示“已实现”的真实处理状态,用上标表示“理想”(潜在)世界的处理状态,就会变得很清楚。(符号的提出可参考David Freedman;可视化帮助文档可参考:potential outcomes simplified)。
所以,如果个体接受处理(上角标为 1),其对应的潜在结果Y为Y11/*Y01,实际上它们可观测的结果是(Y11, 下角标也为 1) ,而不是*Y01。注意:* 表示这个值是无法获取或不可观测的,即完全与事实相反或称为反事实 counterfactual(CF)。
同样,如果个体未接受处理(上角标为 0), 其对应的潜在结果Y为*Y10/Y00。在现实中它们是(Y00),而不是(*Y10)。
对于相同的处理分配条件,每个潜在结果果(PO)中只有一个是实际发生可观测的,而另一个不会发生也无法观测,所以当我们尝试估计处理效应时,需要用可观测值(或估计值)来替代无法观测的反事实结果。当可忽略性/外生性成立时,例如个体是否接受处理是随机的,此时可利用已观测的 Y11'替换'*Y01,利用已观测的 Y00'替换'*Y10,不是个人层面的Yi,而是从平均角度出发,如 E[Yi1 – Yi0 ],这正是大家尝试获取的因果处理效应(TE)。
由于“一致性准则 consistency rule”,潜在结果可利用实际观测值表示:Yi0 = Yi00 ; Yi1 = Yi11(“一致性准则指出,个体的潜在结果正是该个体的实际产生结果[9] p. 872)。 所以,TE = E[Yi1 – Yi0] = E[Yi11 – Yi00]。
现在,我们通过简单的加减相同的完全反事实量 *Y10 得到:
E[Yi11 – Yi00] = E[Yi11 –*Y10 +*Y10 - Yi00] = E[Yi11 –*Y10] + E[*Y10 - Yi00] = ATT + {选择性偏差},
其中,第一项 ATT = 处理组的平均处理效应[10],第二项是当个体可选择属于“处理”组或“控制”组而非完全随机分配时引入的偏差。
无论是普通的还是在给定一些变量条件下的可忽略性,都意味着这种选择偏差可以被忽略或消除,因此人们可以得到(或估计)因果效应。
参考文献
- ↑ Rubin, Donald (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". The Annals of Statistics
- ↑ Rubin, Donald (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". The Annals of Statistics. 6 (1): 34–58. doi:10.1214/aos/1176344064.
- ↑ Rubin, Donald B.; Rosenbaum, Paul R. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70 (1): 41–55. doi:10.2307/2335942. JSTOR 2335942.
- ↑ Rubin, Donald B.; Rosenbaum, Paul R. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects"
- ↑ Imbens & Rubin 2015书
- ↑ Rosembaum,Design of Observational Studies书
- ↑ Hernan & Robins,What if书
- ↑ Yamamoto, Teppei (2012). "Understanding the Past: Statistical Analysis of Causal Attribution". Journal of Political Science. 56 (1): 237–256. doi:10.1111/j.1540-5907.2011.00539.x. hdl:1721.1/85887.
- ↑ Pearl, Judea (2010). "On the consistency rule in causal inference: axiom, definition, assumption, or theorem?". Epidemiology. 21 (6): 872–875. doi:10.1097/EDE.0b013e3181f5d3fd. PMID 20864888.
- ↑ Imai, Kosuke (2006). "Misunderstandings between experimentalists and observationalists about causal inference". Journal of the Royal Statistical Society, Series A (Statistics in Society). 171 (2): 481–502. doi:10.1111/j.1467-985X.2007.00527.x.
- Donald, Rubin (1978). "Bayesian Inference for Causal Effects: The Role of Randomization". The Annals of Statistics. 6(1): 34–58. doi:10.1214/aos/1176344064.
- Donald B., Rubin; Paul R., Rosenbaum (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70(1): 41–55. arXiv:1109.2143. doi:10.2307/2335942.
- Teppei, Yamamoto (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Journal of Political Science. 56 (1): 237–256. doi:10.1111/j.1540-5907.2011.00539.x.
- Judea, Pearl (2010). "On the consistency rule in causal inference: axiom, definition, assumption, or theorem?". Epidemiology. 21 (6): 872–875. doi:10.1097/EDE.0b013e3181f5d3fd.
- Kosuke, Imai (2006). "Misunderstandings between experimentalists and observationalists about causal inference". Epidemiology. 171 (2): 481–502. doi:10.1111/j.1467-985X.2007.00527.x.
推荐阅读
- Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis. New York: Chapman & Hall/CRC.
- Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. https://archive.org/details/causalitymodelsr0000pear.
- Jaeger, Manfred (2011). "Ignorability in Statistical and Probabilistic Inference". Journal of Artificial Intelligence Research. 24: 889–917. arXiv:1109.2143. Bibcode:2011arXiv1109.2143J. doi:10.1613/jair.1657.
相关课程
书籍推荐
关于因果的讨论很多,但是许多入门的教材只是为没有统计学基础的读者介绍如何使用统计学技术处理因果性问题,而没有讨论因果模型和因果参数,本书希望协助具有基础统计学知识的教师和学生应对几乎在所有自然科学和社会科学非试验研究中存在的因果性问题。本书聚焦于用简单和自然的方法定义因果参数,并且说明在观察研究中,哪些假设对于估计参数是必要的。我们也证明这些假设可以用显而易见的数学形式描述出来,也可以用简单的数学工具将这些假设转化为量化的因果关系,如治疗效果和政策干预,以确定其可检测的内在关系。
课程推荐
- 这个视频内容来自集智俱乐部读书会-因果科学与Causal AI读书会第二季内容的分享,由英国剑桥大学及其学习组博士陆超超详细的阐述了潜在结果模型和结果因果模型,并介绍了两个框架的相互转化规律。
- 1. 讲述因果推断的两大框架:潜在结果模型和结构因果模型,讨论他们各自的优缺点以及他们之间的联系,详细介绍他们之间的转化规律。
- B站搬运的杜克大学社会科学研究中心的分享视频,介绍了在使用匹配方法时会涉及到的ATT、CATE、ATE的方法。
因果科学成为了“科学”,并在近期正蓬勃发展,这离不开其具有了形式化的定义。在该课程中,将介绍因果科学中的图模型,以及如何在图模型中使用前门调整、后门调整、工具变量、Do-演算等干预的工具,并介绍可识别性等基础概念。
什么是因果呢?“因”其实就是引起某种现象发生的原因,而“果”就是某种现象发生后产生的结果。因果问题在我们日常生活中十分常见,但是不管是传统的统计学还是当下很火的大数据、机器学习,更多的是解决相关性的问题。因果问题存在于很多领域,如医疗健康、经济、政治科学、数字营销等。该课程是由浙江大学助理教授况琨讲授的,主要回答以下一些重要的问题:因果性与相关性的区别是什么?相关性有哪几种来源?如何评估因果效应?有哪些常用且前沿的方法?
文章总结
- 知乎上RandomWalk总结的关于因果推断之Potential Outcome Framework的内容,其中提到因果退镀and额目标就是从观测数据中估计treatment effect。
- Mesonychid在自己的个人主页上分享的关于Donald-Rubin潜在结果模型的解释。
- Yishi Lin在自己的个人主页上分享的关于因果推断的一些介绍因果推断漫谈(一):掀开 “因果推断” 的面纱
相关路径
- 因果科学与Casual AI读书会必读参考文献列表,这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
- 因果推断方法概述,这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
- 因果科学和 Causal AI入门路径,这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。
本中文词条由shlay用户参与编译,PengWu参与审校,薄荷编辑,欢迎在讨论页面留言。
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。