匹配

匹配(Matching)是在观察研究(Observational Study)或准实验研究(Quasi-experiment)（即处理(Treatment)是非随机分配的）中，通过比较已接受处理和未接受处理的个体(unit)，以评估处理效应的一种统计技术。匹配的目标是，对每个处理组的个体，找到一个(或多个)具有相似可观察特征的控制组(即未接受处理组)的个体，以评估处理效应。匹配方法通过将处理组个体与相似的控制组个体进行匹配，可以减少混杂因素带来的偏差，使得处理组与控制组的结果(outcome)可直接比较，从而估计出处理效应。^[1]^[2]^[3] 倾向性得分匹配(Propensity Score Matching)，一种早期的匹配技术，是作为鲁宾因果模型(Rubin Causal Model)^[4]的一部分发展起来的，但已被证明会增加模型依赖性和偏差、降低估计效率和检验功效(power)，与其他匹配方法相比不再推荐使用。^[5]

匹配由唐纳德•鲁宾(Donald Rubin)^[4]推动，在经济学中主要受到LaLonde^[6]的批评。LaLonde在一个实验中比较了处理效应估计和运用匹配方法产生的可比估计，表明匹配方法是有偏的。Dehejia和Wahba重新评估了LaLonde的批评，并指出匹配是一个很好的解决方案。^[7]政治学^[8]和社会学期刊^[9]上也提出了类似的批评。

分析

当感兴趣的结果是二元变量时，分析匹配后的数据的最常用工具是条件Logistic回归模型，因为它可以处理任意多个层，连续或二元处理变量（或自变量），并且可以控制协变量。在特定情况下，一些常用的检验方法可直接使用，如：配对差异检验(paired difference test)、 McNemar 检验和 Cochran-Mantel-Haenzel 检验等。

当感兴趣的结果是连续的，通过对平均处理效应(Average Treatment Effect)进行估计。

匹配也可用于在进行其他技术分析（例如回归分析）之前“预处理”样本。^[10]

过匹配

过匹配是对表面是中介变量、实际上是暴露的结果进行匹配。如果中介变量本身是分层的，则很可能引致一种暴露与疾病的令人费解的关系。^[11]过匹配因此导致统计偏误。^[11]

例如，在估计体外受精（IVF）后的围产期死亡率和出生体重时，按妊娠期和/或多胎数来匹配对照组就是过度匹配，因为IVF本身会增加早产和多胎的风险。^[12]

它可以被看作是一个降低研究外部效度的抽样偏误，因为相比一般人群，对照组在暴露方面变得更类似于病例。

另见

倾向得分匹配

参考文献

↑ Rubin, Donald B. (1973). "Matching to Remove Bias in Observational Studies". Biometrics. 29 (1): 159–183. doi:10.2307/2529684. JSTOR 2529684.
↑ Anderson, Dallas W.; Kish, Leslie; Cornell, Richard G. (1980). "On Stratification, Grouping and Matching". Scandinavian Journal of Statistics. 7 (2): 61–66. JSTOR 4615774.
↑ Kupper, Lawrence L.; Karon, John M.; Kleinbaum, David G.; Morgenstern, Hal; Lewis, Donald K. (1981). "Matching in Epidemiologic Studies: Validity and Efficiency Considerations". Biometrics. 37 (2): 271–291. CiteSeerX 10.1.1.154.1197. doi:10.2307/2530417. JSTOR 2530417. PMID 7272415.
↑ ^4.0 ^4.1 Rosenbaum, Paul R.; Rubin, Donald B. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70 (1): 41–55. doi:10.1093/biomet/70.1.41.
↑ King, Gary; Nielsen, Richard (October 2019). "Why Propensity Scores Should Not Be Used for Matching". Political Analysis (in English). 27 (4): 435–454. doi:10.1017/pan.2019.11. ISSN 1047-1987.
↑ LaLonde, Robert J. (1986). "Evaluating the Econometric Evaluations of Training Programs with Experimental Data". American Economic Review. 76 (4): 604–620. JSTOR 1806062.
↑ Dehejia, R. H.; Wahba, S. (1999). "Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs" (PDF). Journal of the American Statistical Association. 94 (448): 1053–1062. doi:10.1080/01621459.1999.10473858.
↑ Arceneaux, Kevin; Gerber, Alan S.; Green, Donald P. (2006). "Comparing Experimental and Matching Methods Using a Large-Scale Field Experiment on Voter Mobilization". Political Analysis. 14 (1): 37–62. doi:10.1093/pan/mpj001.
↑ Arceneaux, Kevin; Gerber, Alan S.; Green, Donald P. (2010). "A Cautionary Note on the Use of Matching to Estimate Causal Effects: An Empirical Example Comparing Matching Estimates to an Experimental Benchmark". Sociological Methods & Research. 39 (2): 256–282. doi:10.1177/0049124110378098.
↑ Ho, Daniel E.; Imai, Kosuke; King, Gary; Stuart, Elizabeth A. (2007). "Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference". Political Analysis. 15 (3): 199–236. doi:10.1093/pan/mpl013.
↑ ^11.0 ^11.1 Marsh, J. L.; Hutton, J. L.; Binks, K. (2002). "Removal of radiation dose response effects: an example of over-matching". British Medical Journal. 325 (7359): 327–330. doi:10.1136/bmj.325.7359.327. PMC 1123834. PMID 12169512.
↑ Gissler, M.; Hemminki, E. (1996). "The danger of overmatching in studies of the perinatal mortality and birthweight of infants born after assisted conception". Eur J Obstet Gynecol Reprod Biol. 69 (2): 73–75. doi:10.1016/0301-2115(95)02517-0. PMID 8902436.

进一步阅读

Angrist, Joshua D.; Pischke, Jörn-Steffen (2009). "Regression Meets Matching". Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. pp. 69–80. ISBN 978-0-691-12034-8.

编者推荐

集智俱乐部文章

集智俱乐部课程推荐

因果推断在观察性研究中的应用Ⅱ：分析 | 因果科学第三季第四期

这个视频内容来自集智俱乐部读书会因果科学读书会第三季内容的分享，主题是”因果推断在医学、药学、生物学中的应用“，由北京大学数学科学学院统计学2018级博士生邓宇昊分享。本次讨论主要关注倾向得分的均衡性质，当非混淆性成立时，探索观察性研究中平均因果作用的估计方法，包括逆概率加权估计、子分类估计和匹配估计。

非混淆性假设是在观察性研究中估计平均因果作用的常用假设。本次报告将从倾向得分的均衡性质出发，介绍如何根据倾向得分对样本分层，进而探讨逆概率加权估计、子分类估计以及匹配三种典型的因果作用估计方法。

这些方法都基于非混淆性假设，为了评估这一假设的合理性，本次报告也将介绍几种评估策略，如伪结局、伪处理的方法。此外，敏感性分析也是评估基于非混淆性假设的因果作用估计的常用手段，我们将介绍一种简单情形的敏感性分析，从而说明敏感性分析对于检验因果作用的重要性。最后，我们会简单对比随机实验与观察性研究。

计量经济学因果分析工具在快手中的应用

在产品迭代和公司决策中，我们常常关心A如何影响B，在不方便使用A/B实验的场景下，我们可以用因果分析的方法，结合观测数据来回答这个问题。主讲人会介绍在快手常用的因果分析计量经济学方法（包括工具变量法、匹配法、双重差分法、合成控制法等），因果分析和机器学习结合的前沿方法（矩阵补全法、基于决策树/随机森林的异质性的因果效应估计等），以及这些方法如何与业务实践相结合。

匹配

目录

分析

过匹配

另见

参考文献

进一步阅读

编者推荐

集智俱乐部文章

集智俱乐部课程推荐

相关路径