更改

添加4,106字节 、 2021年6月25日 (五) 00:47
补充遗漏内容
第31行: 第31行:       −
2. 依照倾向性评分的估计量进行分层,<font color="#32cd32">检查协变量的倾向性评分的估计量在每层处理组和对照组是否均衡</font>
+
2. 依照倾向性评分的估计量进行分层,检查协变量的倾向性评分的估计量在每层处理组和对照组是否均衡
 
*使用标准化差异指标或者图形来检验分布情况
 
*使用标准化差异指标或者图形来检验分布情况
   第40行: 第40行:  
*[[Mahalanobis distance|马氏度量]] 与PSM配合使用
 
*[[Mahalanobis distance|马氏度量]] 与PSM配合使用
 
*[[Stratified sampling|分层匹配]]
 
*[[Stratified sampling|分层匹配]]
*<font color="#32cd32">双重差分匹配(核和局部线性加权)</font>
+
*双重差分匹配(核和局部线性加权)
 
*精确匹配
 
*精确匹配
      −
4. <font color="#32cd32">对比处理组和对照组的匹配样本或加权样本,验证协变量是否均衡</font>
+
4. 对比处理组和对照组的匹配样本或加权样本,验证协变量是否均衡
      第98行: 第98行:  
*如果对于给定的''X'',处理分配满足强可忽略条件,则:
 
*如果对于给定的''X'',处理分配满足强可忽略条件,则:
 
:* 给定任何的平衡函数,具体来说,给定倾向性评分,处理分配也是强可忽略的:
 
:* 给定任何的平衡函数,具体来说,给定倾向性评分,处理分配也是强可忽略的:
   
:::<math> (r_0, r_1) \perp \!\!\!\! \perp Z \mid e(X).</math>
 
:::<math> (r_0, r_1) \perp \!\!\!\! \perp Z \mid e(X).</math>
回归
+
:*对于有相同平衡得分值的处理样本和对照样本,它们响应变量均值之差(即:<math>\bar{r}_1-\bar{r}_0</math>),可以作为[[average treatment effect|平均处理效应]]的[[Bias of an estimator|无偏估计量]]:<math>E[r_1]-E[r_0]</math>。
*对于有相同平衡得分值的处理样本和对照样本,它们响应变量均值之差(即:<math>\bar{r}_1-\bar{r}_0</math>),可以作为[[average treatment effect|平均处理效应]]的[[Bias of an estimator|无偏估计量]]:<math>E[r_1]-E[r_0]</math>。
+
*利用平衡得分的样本估计可产生在''X''上均衡的样本
*利用平衡得分的样本估计可产生在X上均衡的样本
        第117行: 第115行:  
== 缺点 ==
 
== 缺点 ==
   −
PSM已经被证明会加剧模型的“不平衡性、低效率、模型依赖性和偏差”,这与大多数其他匹配方法不同。匹配方法背后的直观仍然成立,但应该与其他匹配方法一起应用;倾向得分在加权和双重稳健估计方面也有其他有益的用途。
+
PSM已经被证明会加剧模型的“不平衡性、低效率、模型依赖性和偏差”,这与大多数其他匹配方法不同。<ref>{{Cite journal|last=King|first=Gary|last2=Nielsen|first2=Richard|date=2019-05-07|title=Why Propensity Scores Should Not Be Used for Matching|journal=Political Analysis|volume=27|issue=4|pages=435–454|doi=10.1017/pan.2019.11|issn=1047-1987|doi-access=free}} | [https://gking.harvard.edu/files/gking/files/psnot.pdf link to the full article] (from the author's homepage)</ref>匹配方法背后的直观仍然成立,但应该与其他匹配方法一起应用;倾向得分在加权和双重稳健估计方面也有其他有益的用途。
      第123行: 第121行:       −
PSM的一个缺点是它只能涵盖已观测的(和可观测的)协变量,而无法涵盖潜在变量。那些能影响处理分配却不可观测的因素无法被纳入匹配过程的考量范围。由于匹配过程只控制可观测变量,那些隐藏的偏差在匹配后依然可能存在。另一个问题是PSM还要求在大量样本中,在处理组和对照组之间有大量的重叠。
+
PSM的一个缺点是它只能涵盖已观测的(和可观测的)协变量,而无法涵盖潜在变量。那些能影响处理分配却不可观测的因素无法被纳入匹配过程的考量范围。<ref>{{cite journal  |vauthors=Garrido MM, etal |year=2014 |title=Methods for Constructing and Assessing Propensity Scores |journal= Health Services Research |doi= 10.1111/1475-6773.12182  |pmid=  24779867 |pmc=4213057 |volume=49 |issue=5 |pages=1701–20}}</ref>由于匹配过程只控制可观测变量,那些隐藏的偏差在匹配后依然可能存在。<ref>{{cite book |last=Shadish |first=W. R. |last2=Cook |first2=T. D. |last3=Campbell |first3=D. T. |year=2002 |title=Experimental and Quasi-experimental Designs for Generalized Causal Inference |location=Boston |publisher=Houghton Mifflin |isbn=978-0-395-61556-0 }}</ref>另一个问题是PSM还要求在大量样本中,在处理组和对照组之间有大量的重叠。
 +
 
 +
 
 +
Judea Pearl也提出了关于匹配方法的普遍担忧,他认为对可观测变量进行匹配可能会让那些原本处于休眠状态的混杂因素被释放,从而实际上可能加剧隐藏的偏差。同样,Pearl认为,只有通过对处理、结果、可观测和不可观测的协变量之间的定性因果关系进行建模,才能确保(渐进地)减少偏差。<ref name=pearl:ch11-3-5>{{cite book |last=Pearl |first=J. |chapter=Understanding propensity scores |title=Causality: Models, Reasoning, and Inference |location=New York |publisher=Cambridge University Press |edition=Second |year=2009 |isbn=978-0-521-89560-6 }}</ref>当试验者无法控制对独立变量和因变量之间观察到的关系的替代性、非因果性解释时,混杂就会发生。这样的控制应该满足Pearl的“后门准则”。它也很容易地手动实现。<ref name="pearl"/>
 +
 
 +
 
 +
==统计包中的实现==
 +
* [[R (programming language)|R]]: 倾向得分匹配作为 <code>MatchIt</code> 包的一部分提供。<ref>{{cite journal |first=Daniel |last=Ho |first2=Kosuke |last2=Imai |first3=Gary |last3=King |author3-link=Gary King (political scientist) |first4=Elizabeth |last4=Stuart |year=2007 |title=Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference |journal=[[Political Analysis (journal)|Political Analysis]] |volume=15|issue=3 |pages=199–236 |doi=10.1093/pan/mpl013 |doi-access=free }}</ref><ref>{{cite web |title=MatchIt: Nonparametric Preprocessing for Parametric Causal Inference |work=R Project |url=https://cran.r-project.org/package=MatchIt }}</ref> 它也可以很容易地手工实现。<ref>{{cite book |first=Andrew |last=Gelman |first2=Jennifer |last2=Hill |title=Data Analysis Using Regression and Multilevel/Hierarchical Models |location=New York |publisher=Cambridge University Press |year=2007 |isbn=978-0-521-68689-1 |pages=206–212 |url=https://books.google.com/books?id=lV3DIdV0F9AC&pg=PA206 }}</ref>
 +
* [[SAS_(software)|SAS]]: PSMatch过程,以及宏 <code>OneToManyMTCH</code>可根据倾向得分对观察数据进行匹配。<ref>{{cite web
 +
| first =Lori
 +
| last =Parsons
 +
| title =Performing a 1:N Case-Control Match on Propensity Score
 +
| publisher =SAS Institute
 +
| location =SUGI 29
 +
| url =http://www2.sas.com/proceedings/sugi29/165-29.pdf
 +
| access-date =June 10, 2016}}</ref>
 +
* [[Stata]]: 有几个命令实现了倾向得分匹配,<ref>[http://fmwww.bc.edu/RePEc/usug2001/psmatch.pdf Implementing Propensity Score Matching Estimators with STATA]. Lecture notes 2001</ref> 包括用户编写的<code>psmatch2</code>。<ref>{{cite paper |first=E. |last=Leuven|author-link2=Barbara Sianesi|first2=B. |last2=Sianesi |date=2003 |title= PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing |url=http://ideas.repec.org/c/boc/bocode/s432001.html }}</ref> Stata 13 及更高版本还提供了内置命令 <code>teffects psmatch</code>。<ref>{{cite web |title=teffects psmatch — Propensity-score matching |work=Stata Manual |url=https://www.stata.com/manuals15/teteffectspsmatch.pdf }}</ref>
 +
* [[SPSS]]: IBM SPSS Statistics菜单(数据/倾向评分匹配)中提供了一个倾向评分匹配对话框,允许用户设置匹配容差、抽取样本时随机化案例顺序、确定精确匹配的优先级、样本有或无替换、设置一个随机种子,并通过提高处理速度和最小化内存使用来最大化性能。 FUZZY Python过程也可以通过扩展对话框轻松添加为软件的扩展。此过程基于一组指定的关键变量,通过从控制中随机抽取来匹配案例和控制。FUZZY命令支持精确匹配和模糊匹配。
 +
 
 +
==其他词条==
 +
*[[Rubin causal model|鲁宾因果框架]]
 +
*[[Ignorability|可忽略性]]
 +
*[[Heckman correction|赫克曼校正]]
 +
*[[Matching (statistics)|匹配 ]]
      −
Judea Pearl也提出了关于匹配方法的普遍担忧,他认为对可观测变量进行匹配可能会让那些原本处于休眠状态的混杂因素被释放,从而实际上可能加剧隐藏的偏差。同样,Pearl认为,只有通过对处理、结果、可观测和不可观测的协变量之间的定性因果关系进行建模,才能确保(渐进地)减少偏差。当试验者无法控制<font color="#32cd32">对独立变量和因变量之间观察到的关系的替代性、非因果性解释时</font>,混杂就会发生。这样的控制应该满足Pearl的“后门准则”。它也很容易地手动实现。
      
==参考文献==
 
==参考文献==
66

个编辑