处理效应
平均处理效应 (Average Treatment Effect, ATE)是在随机试验个体、政策干预评估和医药试验中用于比较治疗或干预的一种测量方法。平均处理效应测量分配给处理个体和控制个体之间的平均结果的差异。在随机试验中,平均处理效应可以通过比较样本在处理个体和未处理个体的平均结果进行估计获得。然而,平均处理效应通常被理解为研究人员希望知道的一个因果参数 (即一个总体的估计或属性) ,定义时不参考试验设计或估计过程。观察性研究和随机赋值的实验性研究设计都可以用多种方式进行估计平均处理效应。
一般性定义 General definition
处理 (Treatment)一词起源于农业和医药领域的早期统计分析,现在被更广泛地用于自然科学和社会科学的其他领域,尤其是心理学、政治科学和经济学,例如评价公共政策的影响。试验中的处理或结果 (Outcome)的具体内容在评估平均处理效应时相对而言并不重要,也就是说,平均处理效应估算要求对某些个体进行处理,但不处理其他个体,但处理具体内容(例如药物、奖励性支付、政治广告)与平均处理效应的定义和估计无关。
“处理效应”一词是指某一特定处理或干预 (如给予某种药物)对结果变量(如病人的康复)的因果影响 (Causal Effect)。在因果关系的 Neyman-Rubin“潜在结果框架”中,处理效应被定义为每个独立个体的两个“潜在结果”,如果该个体给与处理,就会显现一种结果; 如果该个体不给予处理,就会显现出另一种结果。“处理效果”是这两种潜在结果之间的差异。然而,这种个体水平的处理效果是不可观察到的,因为每个独立个体只能接受处理或不接受处理,但不能同时接受和不接受。随机分配需要确保给处理组的个体和对照组的个体在大量迭代实验上是服从同分布。事实上,两组中的个体在协变量和潜在结果上的分布是相同的。因此,处理个体之间的平均结果是控制个体的平均结果的反事实。这两个平均值之间的差异是平均处理效应 ,这是不可观测到的个体层面的处理效果的中心趋势的估计。[1]如果样本是从总体中随机构成,那么样本平均处理效应 (Sample Average Treatment Effect, SATE)也是总体平均处理效应 (Population Average Treatment Effect,PATE)的估计值。[2]
虽然实验确保了潜在结果以及所有协变量在处理组和对照组中的等价分布,但是在观察性研究中,情况并非如此。在观察性研究中,处理组和对照组个体并不服从随机分布,因此处理个体可能取决于未观测到或不可观测的因素。观察到的因素可以在统计学上加以控制 (如通过回归或匹配) ,但是任何关于平均处理效应的估计都可能与不可观察因素混淆,这些因素影响了哪些个体接受了处理,哪些个体没有接受处理。
形式化定义 Formal definition
为了形式化定义平均处理效应,我们定义了两个潜在的结果: [math]\displaystyle{ y_{0}(i) }[/math] 是个体 [math]\displaystyle{ i }[/math] 没有被处理时的结果变量的取值,[math]\displaystyle{ y _ {1}(i) }[/math] 是个体 [math]\displaystyle{ i }[/math] 被处理时的结果变量的取值。例如,[math]\displaystyle{ y_{0}(i) }[/math] 是个体 [math]\displaystyle{ i }[/math] 没有被注射研究药物时的健康状态,[math]\displaystyle{ y_{1}(i) }[/math] 是个体 [math]\displaystyle{ i }[/math] 被注射药物时的健康状态。
个体 [math]\displaystyle{ i }[/math] 的处理效应定义为 [math]\displaystyle{ y_{1}(i)-y_{0}(i) = \beta (i) }[/math] 。在一般情况下,这种处理效果在个体之间是不一样的。平均处理效果[math]\displaystyle{ \text{ATE} }[/math]的定义为
- [math]\displaystyle{ \text{ATE} = \frac{1}{N}\sum_i (y_{1}(i)-y_{0}(i)) }[/math]
这里对总体中所有N数量个体的处理效应进行了聚合平均计算。
如果我们能观察到一个大型代表性样本中每个个体的[math]\displaystyle{ y _ {1}(i) }[/math] 和 [math]\displaystyle{ y _ {0}(i) }[/math] ,我们可以简单地通过取样本中 [math]\displaystyle{ y _ {1}(i)-y _ {0}(i) }[/math] 的平均值来估计平均处理效应。然而,我们不能同时观察每个个体的[math]\displaystyle{ y _ {1}(i)、y _ {0}(i) }[/math],因为每个个体不能同时被处理和不被处理。例如,在药物例子中,我们只能观察到个体接受过药物治疗的[math]\displaystyle{ y _ {1}(i) }[/math] 和个体未接受药物的 [math]\displaystyle{ y _ {0}(i) }[/math] 。这是研究者们在评估治疗效果时面临的主要问题,并因此引发了大量与估计方法相关的研究。
估计 Estimation
根据数据及其潜在环境的不同,我们可以使用许多方法来估计平均处理效应[math]\displaystyle{ \text{ATE} }[/math]。最常见方法包括:
- 自然实验 Natural Experiment
- 双重差分模型 Difference in Differences
- 断点回归设计 Regression Discontinuity Design
- 倾向评分匹配 Propensity Score Matching
- 工具变量估计 Instrumental Variables Estimation
示例 An example
考虑一个失业群体,对其中一些个体给与政策干预(处理组),其余的不做任何处理(控制组)。现需要计算求职监控政策(干预)对失业期长短的影响: 平均来说,如果对个体进行求职监控(给与干预),失业期会缩短多少?在选择一种干预这种情况下,平均处理效应是处理组和对照组的失业时间长度的期望值(平均值)差异。
在这个例子中,平均处理效应为正值意味着就业政策延长了失业期,平均处理效应为负值表明就业政策缩短了失业期。平均处理效应等于零表明提供就业政策对失业期长短并没有任何利处或不利。判断一个平均处理效应估计值是否为可以区分的零值需要进行统计推断。
因为平均处理效应是对处理的平均效果估计,正值或者负值平均处理效应并不表明处理对任意特定个体是有益或者有害。因此,平均处理效应忽略了处理效应的分布。即使平均处理效应是正值,总体的部分个体也可能因为这种处理或者干预而使得情况变得更糟。
异质处理效应 Heterogenous treatment effects
一些研究人员将处理效果依赖于个体的情况称之为“异质性”。例如,上面提到的求职监控政策依赖于性别(男、女)或者是区域的不同。
一种异质处理效应的研究方法是将研究数据进行分组 (如按照男、女性别,或者区域进行划分) ,比较平均处理效果在子组内的效应差异。每个子组的平均处理效应被称为“条件平均处理效应”(Conditional Average Treatment Effect,CATE) ,也就是说,每个子组的平均处理效应被称为条件平均处理效应,以子组内的分类方式为条件。
这种研究方法存在的一个问题是,子组的数据可能比未分组的数据要少得多,没有足够数据进行分析。
也有一些利用随机森林检测异质处理效应的相关工作[3][4]。
参考文献 References
- ↑ Holland, Paul W. (1986). "Statistics and Causal Inference". Journal of the American Statistical Association. 81 (396): 945–960. JSTOR 2289064.
- ↑ Imai, Kosuke; King, Gary; Stuart, Elizabeth A. (2008). "Misunderstandings Between Experimentalists and Observationalists About Causal Inference". Journal of the Royal Statistical Society, Series. 171 (2): 481–502.
- ↑ https://arxiv.org/abs/1510.04342
- ↑ https://www.markhw.com/blog/causalforestintro
扩展阅读 Further reading
- Wooldridge, Jeffrey M. (2013). "Policy Analysis with Pooled Cross Sections". Introductory Econometrics: A Modern Approach. Mason, OH: Thomson South-Western. pp. 438–443. ISBN 978-1-111-53104-1.