“倾向得分匹配”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
(思无涯咿呀咿呀移动页面倾向评分倾向得分匹配
 
(未显示4个用户的10个中间版本)
第1行: 第1行:
此词条暂由彩云小译翻译,翻译字数共893,未经人工整理和审校,带来阅读不便,请见谅。
+
{{#seo:
 +
|keywords=统计分析,评估
 +
|description=是一种用于估计治疗、政策或其他干预的效果统计匹配技术
 +
}}
  
{{Short description|Statistical matching technique}}
+
在观察数据的统计分析中,'''倾向性评分匹配 Propensity Score Matching (PSM)'''是一种用于估计治疗、政策或其他干预的效果统计匹配技术,方法是将协变量对样本“是否接受处理”的影响考虑在内。PSM试图减少由于混杂变量造成的偏倚。这些偏倚一般会在那些只对处理单元和对照单元的结果做简单对比的评估中出现。保罗·罗森鲍姆 Paul R. Rosenbaum和唐纳德·鲁宾 Donald Rubin在1983年介绍了这项技术。<ref name="Rosenbaum 1983 41–55">{{cite journal |last=Rosenbaum |first=Paul R. |last2=Rubin |first2=Donald B. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=[[Biometrika]] |year=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.1093/biomet/70.1.41 |doi-access=free }}</ref>
  
In the [[statistics|statistical]] analysis of [[observational study|observational data]], '''propensity score matching''' ('''PSM''') is a [[Matching (statistics)|statistical matching]] technique that attempts to [[Estimation theory|estimate]] the effect of a treatment, policy, or other intervention by accounting for the [[covariate]]s that predict receiving the treatment. PSM attempts to reduce the [[Bias (statistics)|bias]] due to [[confounding]] variables that could be found in an estimate of the treatment effect obtained from simply comparing outcomes among [[Statistical unit|units]] that [[Treatment and control groups|received the treatment versus those that did not]]. [[Paul R. Rosenbaum]] and [[Donald Rubin]] introduced the technique in 1983.<ref name="Rosenbaum 1983 41–55">{{cite journal |last=Rosenbaum |first=Paul R. |last2=Rubin |first2=Donald B. |title=The Central Role of the Propensity Score in Observational Studies for Causal Effects |journal=[[Biometrika]] |year=1983 |volume=70 |issue=1 |pages=41–55 |doi=10.1093/biomet/70.1.41 |doi-access=free }}</ref>
 
 
In the statistical analysis of observational data, propensity score matching (PSM) is a statistical matching technique that attempts to estimate the effect of a treatment, policy, or other intervention by accounting for the covariates that predict receiving the treatment. PSM attempts to reduce the bias due to confounding variables that could be found in an estimate of the treatment effect obtained from simply comparing outcomes among units that received the treatment versus those that did not. Paul R. Rosenbaum and Donald Rubin introduced the technique in 1983.
 
 
<font color="#aaaaaaa">【机器翻译】在观察数据的统计分析中,倾向性评分匹配是一种统计匹配技术,它试图通过计算预测接受治疗的协变量来估计治疗、政策或其他干预的效果。PSM 试图减少由于混杂变量造成的偏倚,这些变量可以通过简单地比较接受治疗的单位和没有接受治疗的单位之间的结果来估计治疗效果。保罗 · 罗森鲍姆和唐纳德 · 鲁宾在1983年介绍了这项技术。</font>
 
 
在观察数据的统计分析中,倾向性评分匹配Propensity Score Matching (PSM)是一种用于估计治疗、政策或其他干预的效果统计匹配技术,方法是将协变量对样本“是否接受处理”的影响考虑在内。PSM试图减少由于混杂变量造成的偏倚。这些偏倚一般会在那些只对处理单元和对照单元的结果做简单对比的评估中出现。保罗·罗森鲍姆Paul R. Rosenbaum和唐纳德·鲁宾Donald Rubin在1983年介绍了这项技术。
 
 
The possibility of bias arises because a difference in the treatment outcome (such as the [[average treatment effect]]) between treated and untreated groups may be caused by a factor that predicts treatment rather than the treatment itself. In [[randomized experiment]]s, the randomization enables unbiased estimation of treatment effects; for each covariate, randomization implies that treatment-groups will be balanced on average, by the [[law of large numbers]]. Unfortunately, for observational studies, the assignment of treatments to research subjects is typically not random. [[Matching (statistics)|Matching]] attempts to reduce the treatment assignment bias, and mimic randomization, by creating a sample of units that received the treatment that is comparable on all observed covariates to a sample of units that did not receive the treatment.
 
 
The possibility of bias arises because a difference in the treatment outcome (such as the average treatment effect) between treated and untreated groups may be caused by a factor that predicts treatment rather than the treatment itself. In randomized experiments, the randomization enables unbiased estimation of treatment effects; for each covariate, randomization implies that treatment-groups will be balanced on average, by the law of large numbers. Unfortunately, for observational studies, the assignment of treatments to research subjects is typically not random. Matching attempts to reduce the treatment assignment bias, and mimic randomization, by creating a sample of units that received the treatment that is comparable on all observed covariates to a sample of units that did not receive the treatment.
 
 
<font color="#aaaaaaa">【机器翻译】出现偏倚的可能性是因为治疗组和未治疗组之间治疗结果(如平均治疗效果)的差异可能是由预测治疗的因素而不是治疗本身造成的。在随机实验中,随机化可以对治疗效果进行无偏估计; 对于每个协变量,随机化意味着治疗组将按照大数定律在平均水平上达到平衡。不幸的是,对于观察性研究来说,对研究对象的治疗分配通常不是随机的。匹配试图减少处理分配偏差,并模拟随机化,通过创建一个样本单位接受的处理是可比的所有观察到的协变量的一个样本单位没有接受处理。</font>
 
  
 
出现偏倚的原因可能是某个因素通过决定样本是否接受处理而导致了处理组和对照组的效果(如平均处理效果)差异,而不是处理本身导致了差异。在随机实验中,随机化选择样本可以做到对处理效果的无偏估计,根据大数定律,随机化分配机制意味着每个协变量将在处理组和对照组中呈现类似的分布。不幸的是,对于观察性研究来说,研究对象通常不是随机接受处理的。匹配就是要减少对象非随机接受处理产生的偏倚,并模拟随机试验,方法是从处理组和对照组中分别取样,让两组样本的全部协变量都比较接近。
 
出现偏倚的原因可能是某个因素通过决定样本是否接受处理而导致了处理组和对照组的效果(如平均处理效果)差异,而不是处理本身导致了差异。在随机实验中,随机化选择样本可以做到对处理效果的无偏估计,根据大数定律,随机化分配机制意味着每个协变量将在处理组和对照组中呈现类似的分布。不幸的是,对于观察性研究来说,研究对象通常不是随机接受处理的。匹配就是要减少对象非随机接受处理产生的偏倚,并模拟随机试验,方法是从处理组和对照组中分别取样,让两组样本的全部协变量都比较接近。
  
For example, one may be interested to know the [[Health_effects_of_tobacco#Early_observational_studies|consequences of smoking]]. An observational study is required since it is unethical to randomly assign people to the treatment 'smoking.' The treatment effect estimated by simply comparing those who smoked to those who did not smoke would be biased by any factors that predict smoking (e.g.: gender and age). PSM attempts to control for these biases by making the groups receiving treatment and not-treatment comparable with respect to the control variables.
 
 
For example, one may be interested to know the consequences of smoking. An observational study is required since it is unethical to randomly assign people to the treatment 'smoking.' The treatment effect estimated by simply comparing those who smoked to those who did not smoke would be biased by any factors that predict smoking (e.g.: gender and age). PSM attempts to control for these biases by making the groups receiving treatment and not-treatment comparable with respect to the control variables.
 
 
<font color="#aaaaaaa">【机器翻译】例如,人们可能有兴趣知道吸烟的后果。因为随机分配患者接受‘吸烟’治疗是不道德的,所以需要一个观察性研究简单地比较吸烟者和不吸烟者的治疗效果会受到任何预测吸烟的因素的影响(例如:。: 性别及年龄)。PSM 试图通过使接受治疗和不接受治疗的组与控制变量相比较来控制这些偏差。</font>
 
  
 
例如,人们想知道吸烟的后果。但是随机分配让患者“吸烟”是不道德的,所以需要做一个观察性研究。简单地通过对比评估吸烟者和不吸烟者来估计平均处理效果将产生偏差,它会受到能影响吸烟行为的因素的影响(例如:性别及年龄)。PSM要做的是通过让处理组和对照组的控制变量尽量相似来达到控制这些偏差的目的。
 
例如,人们想知道吸烟的后果。但是随机分配让患者“吸烟”是不道德的,所以需要做一个观察性研究。简单地通过对比评估吸烟者和不吸烟者来估计平均处理效果将产生偏差,它会受到能影响吸烟行为的因素的影响(例如:性别及年龄)。PSM要做的是通过让处理组和对照组的控制变量尽量相似来达到控制这些偏差的目的。
  
==Overview ==
 
  
 
==综述==
 
==综述==
 +
PSM适用于非实验环境中[[因果推断]]和简单选择偏差的情况,其中: (i)对照组与处理组中的类似单元很少; (ii)选择与处理单元类似的对照单元集合很困难,因为必须对一组高维的协变量特征进行比较。
  
 
 
PSM is for cases of [[Inductive reasoning#Causal inference|causal inference]] and simple selection bias in [[non-experimental]] settings in which: (i) few units in the non-treatment comparison group are comparable to the treatment units; and (ii) selecting a subset of comparison units similar to the treatment unit is difficult because units must be compared across a high-dimensional set of pretreatment characteristics.
 
 
PSM is for cases of causal inference and simple selection bias in non-experimental settings in which: (i) few units in the non-treatment comparison group are comparable to the treatment units; and (ii) selecting a subset of comparison units similar to the treatment unit is difficult because units must be compared across a high-dimensional set of pretreatment characteristics.
 
 
<font color="#aaaaaaa">【机器翻译】PSM 适用于非实验环境中因果推断和简单选择偏差的情况,其中: (i)非处理对照组中与处理单元可比的单元很少; (ii)选择与处理单元类似的比较单元子集很困难,因为必须跨一组高维预处理特征进行比较。</font>
 
 
PSM适用于非实验环境中因果推断和简单选择偏差的情况,其中: (i)对照组与处理组中的类似单元很少; (ii)选择与处理单元类似的对照单元集合很困难,因为必须对一组高维的协变量特征进行比较。
 
 
In normal matching, single characteristics that distinguish treatment and control groups are matched in an attempt to make the groups more alike. But if the two groups do not have substantial overlap, then substantial [[Errors and residuals|error]] may be introduced. For example, if only the worst cases from the [[control group|untreated "comparison" group]] are compared to only the best cases from the [[treatment group]], the result may be [[regression toward the mean]], which may make the comparison group look better or worse than reality.
 
 
In normal matching, single characteristics that distinguish treatment and control groups are matched in an attempt to make the groups more alike. But if the two groups do not have substantial overlap, then substantial error may be introduced. For example, if only the worst cases from the untreated "comparison" group are compared to only the best cases from the treatment group, the result may be regression toward the mean, which may make the comparison group look better or worse than reality.
 
 
<font color="#aaaaaaa">【机器翻译】在正常的匹配中,区分治疗组和对照组的单一特征被匹配,试图使这些组更加相似。但是,如果这两个组没有实质性的重叠,那么可能会引入实质性的错误。例如,如果只将来自未经治疗的对照组的最差病例与来自治疗组的最好病例进行比较,结果可能是趋中回归,这可能使对照组看起来比实际情况更好或更糟。</font>
 
  
 
在常规的匹配机制中,对一组能够区分处理组和对照组的特征做匹配,以使两组的特征更加相似。但如果这两个组的特征没有显著的重叠,那么可能会引入实质性的错误。例如,拿对照组最糟的病例和处理组最好的病例进行比较,结果可能倾向于回归均值,这会让对照组看起来比实际情况更好或更糟。
 
在常规的匹配机制中,对一组能够区分处理组和对照组的特征做匹配,以使两组的特征更加相似。但如果这两个组的特征没有显著的重叠,那么可能会引入实质性的错误。例如,拿对照组最糟的病例和处理组最好的病例进行比较,结果可能倾向于回归均值,这会让对照组看起来比实际情况更好或更糟。
  
 
 
PSM employs a predicted probability of group membership—e.g., treatment versus control group—based on observed predictors, usually obtained from [[logistic regression]] to create a [[Impact evaluation#Counterfactual evaluation designs|counterfactual group]]. Propensity scores may be used for matching or as [[covariance|covariate]]s, alone or with other matching variables or covariates.
 
 
PSM employs a predicted probability of group membership—e.g., treatment versus control group—based on observed predictors, usually obtained from logistic regression to create a counterfactual group. Propensity scores may be used for matching or as covariates, alone or with other matching variables or covariates.
 
 
<font color="#aaaaaaa">【机器翻译】PSM 使用了一种预测的群体成员概率---- 例如,治疗组与控制组---- 基于观察预测,通常从 Logit模型获得来创造一个反事实的群体。倾向得分可用于匹配或作为协变量,单独或与其他匹配变量或协变量。</font>
 
  
 
PSM利用观察数据预测样本落入不同分组(例如,处理组与控制组)的概率,通常用Logistic回归方法,然后利用此概率创造一个反事实的群体。倾向性评分可用于匹配,也可作为协变量,可以单独使用,也可以与其他匹配变量或协变量一同使用。
 
PSM利用观察数据预测样本落入不同分组(例如,处理组与控制组)的概率,通常用Logistic回归方法,然后利用此概率创造一个反事实的群体。倾向性评分可用于匹配,也可作为协变量,可以单独使用,也可以与其他匹配变量或协变量一同使用。
  
 
==General procedure==
 
  
 
==一般步骤==
 
==一般步骤==
 
1. Run [[logistic regression]]:
 
 
1. Run logistic regression:
 
  
 
1. 做Logistic回归:
 
1. 做Logistic回归:
 
*Dependent variable: ''Z'' = 1, if unit participated (i.e. is member of the treatment group); ''Z'' = 0, if unit did not participate (i.e. is member of the control group).
 
 
 
*因变量:参与处理(属于处理组),则''Z'' = 1;未参与处理(属于对照组),则''Z'' = 0。
 
*因变量:参与处理(属于处理组),则''Z'' = 1;未参与处理(属于对照组),则''Z'' = 0。
 
*Choose appropriate confounders (variables hypothesized to be associated with both treatment and outcome)
 
 
 
*选择合适的混杂因素(既影响处理方式又影响处理结果的变量)
 
*选择合适的混杂因素(既影响处理方式又影响处理结果的变量)
 
*Obtain an [[Estimator|estimation]] for the propensity score: predicted probability (''p'') or log[''p''/(1&nbsp;−&nbsp;''p'')].
 
 
 
*计算倾向性评分的[[Estimator|估计量]]:预测概率(''p'')或log[''p''/(1&nbsp;−&nbsp;''p'')]。
 
*计算倾向性评分的[[Estimator|估计量]]:预测概率(''p'')或log[''p''/(1&nbsp;−&nbsp;''p'')]。
  
  
 
+
2. 依照倾向性评分的估计量进行分层,检查协变量的倾向性评分的估计量在每层处理组和对照组是否均衡
2. Check that covariates are balanced across treatment and comparison groups within strata of the propensity score.
 
 
 
2. Check that covariates are balanced across treatment and comparison groups within strata of the propensity score.
 
 
 
<font color="#aaaaaaa">2. 【机器翻译】检查协变量是平衡的治疗和比较组内的倾向分层。</font>
 
 
 
2. 依照倾向性评分的估计量进行分层,<font color="#32cd32">检查协变量的倾向性评分的估计量在每层处理组和对照组是否均衡</font>
 
 
 
*Use standardized differences or graphs to examine distributions
 
 
 
 
*使用标准化差异指标或者图形来检验分布情况
 
*使用标准化差异指标或者图形来检验分布情况
  
 
 
3. Match each participant to one or more nonparticipants on propensity score, using one of these methods:
 
 
3. Match each participant to one or more nonparticipants on propensity score, using one of these methods:
 
 
<font color="#aaaaaaa">3. 【机器翻译】根据倾向得分,将每个参与者与一个或多个非参与者进行匹配,使用以下方法之一:</font>
 
  
 
3. 根据倾向性评分的估计量,将每个处理组个体与一个或多个对照组个体进行匹配,使用以下方法之一:
 
3. 根据倾向性评分的估计量,将每个处理组个体与一个或多个对照组个体进行匹配,使用以下方法之一:
 
*[[Nearest neighbor search|Nearest neighbor matching]]
 
 
 
*[[Nearest neighbor search|最近邻匹配]]
 
*[[Nearest neighbor search|最近邻匹配]]
 
*Caliper matching: comparison units within a certain width of the propensity score of the treated units get matched, where the width is generally a fraction of the standard deviation of the propensity score
 
 
 
*卡钳匹配:在处理单元倾向性评分的一个范围内选取对照单元,范围的宽度通常用倾向性评分的标准差乘上一个比例值
 
*卡钳匹配:在处理单元倾向性评分的一个范围内选取对照单元,范围的宽度通常用倾向性评分的标准差乘上一个比例值
 
*[[Mahalanobis distance|Mahalanobis metric]] matching in conjunction with PSM
 
 
 
*[[Mahalanobis distance|马氏度量]] 与PSM配合使用
 
*[[Mahalanobis distance|马氏度量]] 与PSM配合使用
 
*[[Stratified sampling|Stratification matching]]
 
 
 
*[[Stratified sampling|分层匹配]]
 
*[[Stratified sampling|分层匹配]]
 
+
*双重差分匹配(核和局部线性加权)
*Difference-in-differences matching (kernel and local linear weights)
 
 
 
*<font color="#32cd32">双重差分匹配(核和局部线性加权)</font>
 
 
 
*Exact matching
 
 
 
 
*精确匹配
 
*精确匹配
  
  
 +
4. 对比处理组和对照组的匹配样本或加权样本,验证协变量是否均衡
  
4. Verify that covariates are balanced across treatment and comparison groups in the matched or weighted sample
 
 
4. Verify that covariates are balanced across treatment and comparison groups in the matched or weighted sample
 
 
<font color="#aaaaaaa">4.【机器翻译】验证协变量是平衡的处理和对照组在匹配或加权样本</font>
 
 
4. <font color="#32cd32">对比处理组和对照组的匹配样本或加权样本,验证协变量是否均衡</font>
 
 
5. Multivariate analysis based on new sample
 
 
5. Multivariate analysis based on new sample
 
 
<font color="#aaaaaaa">5.【机器翻译】基于新样本的多变量分析</font>
 
  
 
5. 基于新样本的多变量分析
 
5. 基于新样本的多变量分析
 
*Use analyses appropriate for non-independent matched samples if more than one nonparticipant is matched to each participant
 
 
 
* 如果每个参与者都匹配了多个非参与者,则适当应用非独立匹配样本分析
 
* 如果每个参与者都匹配了多个非参与者,则适当应用非独立匹配样本分析
 
 
 
Note: When you have multiple matches for a single treated observation, it is essential to use Weighted Least Squares rather than Ordinary Least Squares.
 
 
Note: When you have multiple matches for a single treated observation, it is essential to use Weighted Least Squares rather than Ordinary Least Squares.
 
 
<font color="#aaaaaaa">【机器翻译】注意: 当你有多个匹配的单一处理的观察,它是必不可少的使用加权最小二乘而不是一般最小平方法。</font>
 
  
 
注意:当一个处理样本有多个匹配时,则必须用加权最小二乘法,而不能用普通最小二乘法。
 
注意:当一个处理样本有多个匹配时,则必须用加权最小二乘法,而不能用普通最小二乘法。
  
 
==Formal definitions==
 
  
 
==形式定义 ==
 
==形式定义 ==
 
===Basic settings ===
 
 
 
===基本设置===
 
===基本设置===
 
The basic case<ref name="Rosenbaum 1983 41–55" /> is of two treatments (numbered 1 and 0), with ''N'' [Independent and identically distributed random variables|i.i.d] subjects. Each subject ''i'' would respond to the treatment with <math>r_{1i}</math> and to the control with <math>r_{0i}</math>. The quantity to be estimated is the [[average treatment effect]]: <math>E[r_1]-E[r_0]</math>. The variable <math>Z_i</math> indicates if subject ''i'' got treatment (''Z''&nbsp;=&nbsp;1) or control (''Z''&nbsp;=&nbsp;0). Let <math>X_i</math> be a vector of observed pretreatment measurement (or covariate) for the ''i''th subject. The observations of <math>X_i</math> are made prior to treatment assignment, but the features in <math>X_i</math> may not include all (or any) of the ones used to decide on the treatment assignment. The numbering of the units (i.e.: ''i''&nbsp;=&nbsp;1,&nbsp;...,&nbsp;''i''&nbsp;=&nbsp;''N'') are assumed to not contain any information beyond what is contained in <math>X_i</math>. The following sections will omit the ''i'' index while still discussing about the stochastic behavior of some subject.
 
  
 
基本场景<ref name="Rosenbaum 1983 41–55" />是,有两种处理方式(分别记为1和0),''N''个[[Independent and identically distributed random variables|独立同分布]]个体。每个个体''i''如果接受了处理则响应为<math>r_{1i}</math>,接受控制则响应为<math>r_{0i}</math>。被估计量是[[average treatment effect|平均处理效应]]:<math>E[r_1]-E[r_0]</math>。变量<math>Z_i</math>指示个体''i''接受处理(''Z''&nbsp;=&nbsp;1)还是接受控制(''Z''&nbsp;=&nbsp;0)。让<math>X_i</math>代表第''i''个个体处理前观测值(或者协变量)的向量。对<math>X_i</math>的测量发生于处理前,但是<math>X_i</math>中也可以不包括那些决定是否接受处理的特征。个体编号(即:''i''&nbsp;=&nbsp;1,&nbsp;...,&nbsp;''i''&nbsp;=&nbsp;''N'')不包含任何<math>X_i</math>所包含信息之外的的信息。以下部分在讨论某些个体的随机行为的时候将省略索引''i''。
 
基本场景<ref name="Rosenbaum 1983 41–55" />是,有两种处理方式(分别记为1和0),''N''个[[Independent and identically distributed random variables|独立同分布]]个体。每个个体''i''如果接受了处理则响应为<math>r_{1i}</math>,接受控制则响应为<math>r_{0i}</math>。被估计量是[[average treatment effect|平均处理效应]]:<math>E[r_1]-E[r_0]</math>。变量<math>Z_i</math>指示个体''i''接受处理(''Z''&nbsp;=&nbsp;1)还是接受控制(''Z''&nbsp;=&nbsp;0)。让<math>X_i</math>代表第''i''个个体处理前观测值(或者协变量)的向量。对<math>X_i</math>的测量发生于处理前,但是<math>X_i</math>中也可以不包括那些决定是否接受处理的特征。个体编号(即:''i''&nbsp;=&nbsp;1,&nbsp;...,&nbsp;''i''&nbsp;=&nbsp;''N'')不包含任何<math>X_i</math>所包含信息之外的的信息。以下部分在讨论某些个体的随机行为的时候将省略索引''i''。
  
 
===Strongly ignorable treatment assignment===
 
  
 
===强可忽略处理分配===
 
===强可忽略处理分配===
 
{{See also|Ignorability}}
 
 
{{See also|可忽略性}}
 
 
Let some subject have a vector of covariates ''X'' (i.e.: conditionally unconfounded), and some '''potential outcomes''' ''r''<sub>0</sub> and ''r''<sub>1</sub> under control and treatment, respectively. Treatment assignment is said to be '''strongly ignorable''' if the potential outcomes are [[statistical independence|independent]] of treatment (''Z'') conditional on background variables ''X''.  This can be written compactly as
 
 
 
设某个物体有协变量''X''(即:条件非混杂变量)向量,以及对应着控制和处理两种情况的'''潜在结果'''''r''<sub>0</sub>和''r''<sub>1</sub>。如果潜在结果在给定背景变量''X''的条件下独立于处理举动(''Z''),则可以说样本是否接受处理分配是'''强可忽略'''的。可简洁表述为
 
设某个物体有协变量''X''(即:条件非混杂变量)向量,以及对应着控制和处理两种情况的'''潜在结果'''''r''<sub>0</sub>和''r''<sub>1</sub>。如果潜在结果在给定背景变量''X''的条件下独立于处理举动(''Z''),则可以说样本是否接受处理分配是'''强可忽略'''的。可简洁表述为
  
:<math> r_0, r_1 \perp Z \mid X </math>
+
:<math> r_0, r_1 \perp \!\!\!\! \perp Z \mid X </math>
  
这里<math>\perp</math>代表[[statistical independence|统计独立]].<ref name="Rosenbaum 1983 41–55" />
+
这里<math>\perp \!\!\!\! \perp</math>代表[[statistical independence|统计独立]].<ref name="Rosenbaum 1983 41–55" />
  
=== Balancing score===
 
  
 
=== 平衡得分===
 
=== 平衡得分===
 
A '''balancing score''' ''b''(''X'') is a function of the observed covariates ''X'' such that the [[conditional probability|conditional distribution]] of ''X'' given ''b''(''X'') is the same for treated (''Z''&nbsp;=&nbsp;1) and control (''Z''&nbsp;=&nbsp;0) units:
 
 
A balancing score b(X) is a function of the observed covariates X such that the conditional distribution of X given b(X) is the same for treated (Z = 1) and control (Z = 0) units:
 
  
 
平衡得分b(X)是观测协变量X的函数。在给定b(X)时,处理单元和控制单元的X有相同的条件分布:
 
平衡得分b(X)是观测协变量X的函数。在给定b(X)时,处理单元和控制单元的X有相同的条件分布:
  
:<math> Z \perp X \mid b(X).</math>
+
:<math> Z \perp \!\!\!\! \perp X \mid b(X).</math>
  
 
最一般的平衡得分函数是<math> b(X) = X</math>.
 
最一般的平衡得分函数是<math> b(X) = X</math>.
  
===Propensity score===
 
  
 
===倾向性评分 ===
 
===倾向性评分 ===
  
A '''propensity score''' is the [[probability]] of a unit (e.g., person, classroom, school) being assigned to a particular treatment given a set of observed covariates.  Propensity scores are used to reduce [[selection bias]] by equating groups based on these covariates.
+
倾向性评分是根据协变量观测值计算得出的一个单元(例如:个人,教室,学校)被指配接受特定处理的概率。倾向性评分匹配将使得处理组和对照组的协变量分布趋同,从而减少选择偏差。
  
Suppose that we have a binary treatment [[Indicator function|indicator]] ''Z'', a response variable ''r'', and background observed covariates ''X''.  The propensity score is defined as the [[conditional probability]] of treatment given background variables:
 
  
A propensity score is the probability of a unit (e.g., person, classroom, school) being assigned to a particular treatment given a set of observed covariates. Propensity scores are used to reduce selection bias by equating groups based on these covariates.
+
假设有一个二值处理标识Z,一个响应变量r,以及被观测的背景协变量X。倾向性评分定义为,在给定背景变量条件下单元接受处理的条件概率:
 
 
Suppose that we have a binary treatment indicator Z, a response variable r, and background observed covariates X. The propensity score is defined as the conditional probability of treatment given background variables:
 
 
 
倾向性评分是根据协变量观测值计算得出的一个单元(例如:个人,教室,学校)被指配接受特定处理的概率。倾向性评分匹配将使得处理组和对照组的协变量分布趋同,从而减少选择偏差。
 
  
假设有一个二值处理标识Z,一个响应变量r,以及被观测的背景协变量X。倾向性评分定义为,在给定背景变量条件下单元接受处理的条件概率:
 
  
 
:<math>e(x) \ \stackrel{\mathrm{def}}{=}\  \Pr(Z=1 \mid X=x).</math>
 
:<math>e(x) \ \stackrel{\mathrm{def}}{=}\  \Pr(Z=1 \mid X=x).</math>
  
In the context of [[causal inference]] and [[survey methodology]], propensity scores are estimated (via methods such as [[logistic regression]], [[random forests]], or others), using some set of covariates. These propensity scores are then used as estimators for weights to be used with [[Inverse probability weighting]] methods.
 
 
In the context of causal inference and survey methodology, propensity scores are estimated (via methods such as logistic regression, random forests, or others), using some set of covariates. These propensity scores are then used as estimators for weights to be used with Inverse probability weighting methods.
 
  
在因果推断和调查方法的范围内,通过Logistic回归、随机森林或其他方法,利用一组协变量估计倾向性评分。然后将这些倾向性评分即可作为权重估计量用于逆概率加权方法。
+
在因果推断和调查方法的范围内,通过Logistic回归、随机森林或其他方法,利用一组协变量估计倾向性评分。然后这些倾向性评分即可作为用于逆概率加权方法的权重估计量。
  
===Main theorems===
 
  
 
===主要定理===
 
===主要定理===
 
The following were first presented, and proven, by Rosenbaum and Rubin in 1983:<ref name="Rosenbaum 1983 41–55" />
 
 
The following were first presented, and proven, by Rosenbaum and Rubin in 1983:[1]
 
  
 
以下是Rosenbaum和Rubin于1983年首次提出并证明的:<ref name="Rosenbaum 1983 41–55" />
 
以下是Rosenbaum和Rubin于1983年首次提出并证明的:<ref name="Rosenbaum 1983 41–55" />
  
*The propensity score <math>e(x)</math> is a balancing score.
 
 
*倾向性评分<math>e(x)</math>是平衡得分。
 
*倾向性评分<math>e(x)</math>是平衡得分。
 
*Any score that is 'finer' than the propensity score is a balancing score (i.e.: <math>e(X)=f(b(X))</math> for some function ''f''). The propensity score is the coarsest balancing score function, as it takes a (possibly) multidimensional object (''X''<sub>''i''</sub>) and transforms it into one dimension (although others, obviously, also exist), while <math>b(X)=X</math> is the finest one.
 
 
*任何比倾向性评分更“精细”的得分都是平衡得分(即:对于函数''f'',<math>e(X)=f(b(X))</math>)。倾向性评分是最粗粒度的平衡得分函数,因为它把一个(可能是)多维的对象(''X''<sub>''i''</sub>)转换成只有一维(尽管其他维度显然也存在),而<math>b(X)=X</math>则是最细粒度的平衡得分函数(保留全部维度)。
 
*任何比倾向性评分更“精细”的得分都是平衡得分(即:对于函数''f'',<math>e(X)=f(b(X))</math>)。倾向性评分是最粗粒度的平衡得分函数,因为它把一个(可能是)多维的对象(''X''<sub>''i''</sub>)转换成只有一维(尽管其他维度显然也存在),而<math>b(X)=X</math>则是最细粒度的平衡得分函数(保留全部维度)。
 
*If treatment assignment is strongly ignorable given ''X'' then:
 
 
*如果对于给定的''X'',处理分配满足强可忽略条件,则:
 
*如果对于给定的''X'',处理分配满足强可忽略条件,则:
 
:*It is also strongly ignorable given any balancing function. Specifically, given the propensity score:
 
 
:* 给定任何的平衡函数,具体来说,给定倾向性评分,处理分配也是强可忽略的:
 
:* 给定任何的平衡函数,具体来说,给定倾向性评分,处理分配也是强可忽略的:
 
+
:::<math> (r_0, r_1) \perp \!\!\!\! \perp Z \mid e(X).</math>
:::<math> (r_0, r_1) \perp Z \mid e(X).</math>
 
回归
 
:*For any value of a balancing score, the difference between the treatment and control means of the samples at hand (i.e.: <math>\bar{r}_1-\bar{r}_0</math>), based on subjects that have the same value of the balancing score, can serve as an [[Bias of an estimator|unbiased estimator]] of the [[average treatment effect]]: <math>E[r_1]-E[r_0]</math>.
 
 
:*对于有相同平衡得分值的处理样本和对照样本,它们响应变量均值之差(即:<math>\bar{r}_1-\bar{r}_0</math>),可以作为[[average treatment effect|平均处理效应]]的[[Bias of an estimator|无偏估计量]]:<math>E[r_1]-E[r_0]</math>。
 
:*对于有相同平衡得分值的处理样本和对照样本,它们响应变量均值之差(即:<math>\bar{r}_1-\bar{r}_0</math>),可以作为[[average treatment effect|平均处理效应]]的[[Bias of an estimator|无偏估计量]]:<math>E[r_1]-E[r_0]</math>。
 +
*利用平衡得分的样本估计可产生在''X''上均衡的样本
  
*Using sample estimates of balancing scores can produce sample balance on&nbsp;''X''
 
*利用平衡得分的样本估计可产生在X上均衡的样本
 
  
===Relationship to sufficiency===
 
 
===与充分性的关系 ===
 
===与充分性的关系 ===
  
If we think of the value of ''Z'' as a [[Statistical parameter|parameter]] of the population that impacts the distribution of ''X'' then the balancing score serves as a [[Sufficient_statistic#Mathematical_definition|sufficient statistic]] for ''Z''. Furthermore, the above theorems indicate that the propensity score is a [[Sufficient_statistic#Minimal_sufficiency|minimal sufficient statistic]] if thinking of ''Z'' as a parameter of ''X''. Lastly, if treatment assignment ''Z'' is strongly ignorable given ''X'' then the propensity score is a [[Sufficient_statistic#Minimal_sufficiency|minimal sufficient statistic]] for the joint distribution of <math>(r_0, r_1)</math>.
+
如果我们把''Z''的值想成影响''X''分布的群体参数,则平衡得分充当了''Z''的充分统计量。进一步,上述定理指出,如果把''Z''视为''X''的参数,则倾向性评分就是最小充分统计量。最后,给定''X'',如果''Z''是强可忽略的,则倾向性评分是<math>(r_0, r_1)</math>联合分布的最小充分统计量。
  
If we think of the value of Z as a parameter of the population that impacts the distribution of X then the balancing score serves as a sufficient statistic for Z. Furthermore, the above theorems indicate that the propensity score is a minimal sufficient statistic if thinking of Z as a parameter of X. Lastly, if treatment assignment Z is strongly ignorable given X then the propensity score is a minimal sufficient statistic for the joint distribution of {\displaystyle (r_{0},r_{1})}{\displaystyle (r_{0},r_{1})}.
 
  
如果我们把''Z''的值想成影响''X''分布的群体参数,则平衡得分充当了''Z''的充分统计量。进一步,上述定理指出,如果把''Z''视为''X''的参数,则倾向性评分就是最小充分统计量。最后,给定''X'',如果''Z''是强可忽略的,则倾向性评分是<math>(r_0, r_1)</math>联合分布的最小充分统计量。
+
===混杂变量的图检测方法===
  
 +
朱迪亚·珀尔 Judea Pearl已经表明存在一个简单的图检测方法,称为后门准则,它可以检测到混杂变量的存在。为了估计处理效果,背景变量X必须阻断图中的所有后门路径。通过把混杂变量加入回归的控制变量,或者在混杂变量上进行匹配可以实现后门路径的阻断。<ref name="pearl">{{cite book |last=Pearl |first=J. |year=2000 |title=Causality: Models, Reasoning, and Inference |url=https://archive.org/details/causalitymodelsr0000pear |url-access=registration |location=New York |publisher=Cambridge University Press |isbn=978-0-521-77362-1 }}</ref>
  
===Graphical test for detecting the presence of confounding variables===
 
===混杂变量的图检测方法===
 
  
[[Judea Pearl]] has shown that there exists a simple graphical test, called the back-door criterion, which detects the presence of confounding variables. To estimate the effect of treatment, the background variables X must block all back-door paths in the graph. This blocking can be done either by adding the confounding variable as a control in regression, or by matching on the confounding variable.<ref name="pearl">{{cite book |last=Pearl |first=J. |year=2000 |title=Causality: Models, Reasoning, and Inference |url=https://archive.org/details/causalitymodelsr0000pear |url-access=registration |location=New York |publisher=Cambridge University Press |isbn=978-0-521-77362-1 }}</ref>
+
== 缺点 ==
  
Judea Pearl has shown that there exists a simple graphical test, called the back-door criterion, which detects the presence of confounding variables. To estimate the effect of treatment, the background variables X must block all back-door paths in the graph. This blocking can be done either by adding the confounding variable as a control in regression, or by matching on the confounding variable.[2]
+
PSM已经被证明会加剧模型的“不平衡性、低效率、模型依赖性和偏差”,这与大多数其他匹配方法不同。<ref>{{Cite journal|last=King|first=Gary|last2=Nielsen|first2=Richard|date=2019-05-07|title=Why Propensity Scores Should Not Be Used for Matching|journal=Political Analysis|volume=27|issue=4|pages=435–454|doi=10.1017/pan.2019.11|issn=1047-1987|doi-access=free}} | [https://gking.harvard.edu/files/gking/files/psnot.pdf link to the full article] (from the author's homepage)</ref>匹配方法背后的直观仍然成立,但应该与其他匹配方法一起应用;倾向得分在加权和双重稳健估计方面也有其他有益的用途。
  
朱迪亚·珀尔Judea Pearl已经表明存在一个简单的图检测方法,称为后门准则,它可以检测到混杂变量的存在。为了估计处理效果,背景变量X必须阻断图中的所有后门路径。通过把混杂变量加入回归的控制变量,或者在混杂变量上进行匹配可以实现后门路径的阻断。
 
  
== Disadvantages==
+
与其他匹配过程一样,PSM也是从观测数据中估计平均处理效应。在引入PSM之时,它的主要优点是,通过使用协变量的线性组合得到一个单一评分,以大量的协变量为基础平衡了处理组和对照组,却不大量损失观测数据。如果在有众多协变量的情况下,对每一个协变量都分别做处理单元和对照单元平衡的话,就需要大量的观测数据来克服”维数问题“,即每引入一个新的平衡协变量都会在几何上增加最小所需的观测样本数量。
== 缺点 ==
 
  
PSM has been shown to increase model "imbalance, inefficiency, model dependence, and bias," which is not the case with most other matching methods. The insights behind the use of matching still hold but should be applied with other matching methods; propensity scores also have other productive uses in weighting and doubly robust estimation.
 
  
<font color="#aaaaaaa">【机器翻译】PSM 已经被证明会增加模型的“不平衡性、低效率、模型依赖性和偏差”,这与大多数其他匹配方法不同。使用匹配的见解仍然有效,但应该与其他匹配方法一起应用; 倾向得分在加权和双重稳健估计方面也有其他有益的用途。</font>
+
PSM的一个缺点是它只能涵盖已观测的(和可观测的)协变量,而无法涵盖潜在变量。那些能影响处理分配却不可观测的因素无法被纳入匹配过程的考量范围。<ref>{{cite journal  |vauthors=Garrido MM, etal |year=2014 |title=Methods for Constructing and Assessing Propensity Scores |journal= Health Services Research |doi= 10.1111/1475-6773.12182  |pmid=  24779867 |pmc=4213057 |volume=49 |issue=5 |pages=1701–20}}</ref>由于匹配过程只控制可观测变量,那些隐藏的偏差在匹配后依然可能存在。<ref>{{cite book |last=Shadish |first=W. R. |last2=Cook |first2=T. D. |last3=Campbell |first3=D. T. |year=2002 |title=Experimental and Quasi-experimental Designs for Generalized Causal Inference |location=Boston |publisher=Houghton Mifflin |isbn=978-0-395-61556-0 }}</ref>另一个问题是PSM还要求在大量样本中,在处理组和对照组之间有大量的重叠。
  
PSM已经被证明会加剧模型的“不平衡性、低效率、模型依赖性和偏差”,这与大多数其他匹配方法不同。匹配方法背后的见解仍然成立,但应该与其他匹配方法一起应用;倾向得分在加权和双重稳健估计方面也有其他有益的用途。
 
  
 +
Judea Pearl也提出了关于匹配方法的普遍担忧,他认为对可观测变量进行匹配可能会让那些原本处于休眠状态的混杂因素被释放,从而实际上可能加剧隐藏的偏差。同样,Pearl认为,只有通过对处理、结果、可观测和不可观测的协变量之间的定性因果关系进行建模,才能确保(渐进地)减少偏差。<ref name=pearl:ch11-3-5>{{cite book |last=Pearl |first=J. |chapter=Understanding propensity scores |title=Causality: Models, Reasoning, and Inference |location=New York |publisher=Cambridge University Press |edition=Second |year=2009 |isbn=978-0-521-89560-6 }}</ref>当试验者无法控制对独立变量和因变量之间观察到的关系的替代性、非因果性解释时,混杂就会发生。这样的控制应该满足Pearl的“后门准则”。它也很容易地手动实现。<ref name="pearl"/>
  
Like other matching procedures, PSM estimates an average treatment effect from observational data. The key advantages of PSM were, at the time of its introduction, that by using a linear combination of covariates for a single score, it balances treatment and control groups on a large number of covariates without losing a large number of observations. If units in the treatment and control were balanced on a large number of covariates one at a time, large numbers of observations would be needed to overcome the "dimensionality problem" whereby the introduction of a new balancing covariate increases the minimum necessary number of observations in the sample geometrically.
 
  
<font color="#aaaaaaa">【机器翻译】与其他匹配程序一样,PSM 从观测数据中估计平均处理效果。在引入 PSM 的时候,它的主要优点是,通过使用一个线性组合的协变量作为一个单一的评分,它平衡了治疗组和对照组在大量的协变量上,而不会失去大量的观察数据。如果处理和控制中的单元在大量的协变量上一次平衡,就需要大量的观测数据来克服“维数问题”,即引入新的平衡协变量几何地增加样本中必要的最小观测数据。</font>
+
==统计包中的实现==
 +
* [[R (programming language)|R]]: 倾向得分匹配作为 <code>MatchIt</code> 包的一部分提供。<ref>{{cite journal |first=Daniel |last=Ho |first2=Kosuke |last2=Imai |first3=Gary |last3=King |author3-link=Gary King (political scientist) |first4=Elizabeth |last4=Stuart |year=2007 |title=Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference |journal=[[Political Analysis (journal)|Political Analysis]] |volume=15|issue=3 |pages=199–236 |doi=10.1093/pan/mpl013 |doi-access=free }}</ref><ref>{{cite web |title=MatchIt: Nonparametric Preprocessing for Parametric Causal Inference |work=R Project |url=https://cran.r-project.org/package=MatchIt }}</ref> 它也可以很容易地手工实现。<ref>{{cite book |first=Andrew |last=Gelman |first2=Jennifer |last2=Hill |title=Data Analysis Using Regression and Multilevel/Hierarchical Models |location=New York |publisher=Cambridge University Press |year=2007 |isbn=978-0-521-68689-1 |pages=206–212 |url=https://books.google.com/books?id=lV3DIdV0F9AC&pg=PA206 }}</ref>
 +
* [[SAS_(software)|SAS]]: PSMatch过程,以及宏 <code>OneToManyMTCH</code>可根据倾向得分对观察数据进行匹配。<ref>{{cite web
 +
| first =Lori
 +
| last =Parsons
 +
| title =Performing a 1:N Case-Control Match on Propensity Score
 +
| publisher =SAS Institute
 +
| location =SUGI 29
 +
| url =http://www2.sas.com/proceedings/sugi29/165-29.pdf
 +
| access-date =June 10, 2016}}</ref>
 +
* [[Stata]]: 有几个命令实现了倾向得分匹配,<ref>[http://fmwww.bc.edu/RePEc/usug2001/psmatch.pdf Implementing Propensity Score Matching Estimators with STATA]. Lecture notes 2001</ref> 包括用户编写的<code>psmatch2</code>。<ref>{{cite paper |first=E. |last=Leuven|author-link2=Barbara Sianesi|first2=B. |last2=Sianesi |date=2003 |title= PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing |url=http://ideas.repec.org/c/boc/bocode/s432001.html }}</ref> Stata 13 及更高版本还提供了内置命令 <code>teffects psmatch</code>。<ref>{{cite web |title=teffects psmatch — Propensity-score matching |work=Stata Manual |url=https://www.stata.com/manuals15/teteffectspsmatch.pdf }}</ref>
 +
* [[SPSS]]: IBM SPSS Statistics菜单(数据/倾向评分匹配)中提供了一个倾向评分匹配对话框,允许用户设置匹配容差、抽取样本时随机化案例顺序、确定精确匹配的优先级、样本有或无替换、设置一个随机种子,并通过提高处理速度和最小化内存使用来最大化性能。 FUZZY Python过程也可以通过扩展对话框轻松添加为软件的扩展。此过程基于一组指定的关键变量,通过从控制中随机抽取来匹配案例和控制。FUZZY命令支持精确匹配和模糊匹配。
  
与其他匹配过程一样,PSM也是从观测数据中估计平均处理效应。在引入PSM之时,它的主要优点是,通过使用协变量的线性组合得到一个单一评分,以大量的协变量为基础平衡了处理组和对照组,却不大量损失观测数据。如果在有众多协变量的情况下,对每一个些变量都分别做处理单元和对照单元平衡的话,就需要大量的观测数据来克服”维度问题“,即,每引入一个新的平衡协变量都会在几何上增加最小所需的观测样本数量。
+
==其他词条==
 +
*[[Rubin causal model|鲁宾因果框架]]
 +
*[[Ignorability|可忽略性]]
 +
*[[Heckman correction|赫克曼校正]]
 +
*[[Matching (statistics)|匹配 ]]
  
  
One disadvantage of PSM is that it only accounts for observed (and observable) covariates and not latent characteristics. Factors that affect assignment to treatment and outcome but that cannot be observed cannot be accounted for in the matching procedure. As the procedure only controls for observed variables, any hidden bias due to latent variables may remain after matching. Another issue is that PSM requires large samples, with substantial overlap between treatment and control groups.
 
  
<font color="#aaaaaaa">【机器翻译】PSM 的一个缺点是它只能解释观察到的(和可观察到的)协变量,而不能解释潜在的特征。影响治疗分配和结果但无法观察的因素不能在匹配程序中说明。由于程序只控制观察变量,任何隐藏的偏见由于潜在变量可能仍然匹配后。另一个问题是 PSM 需要大量的样本,治疗组和对照组之间有大量的重叠。</font>
+
==参考文献==
 +
<references />
  
PSM的一个缺点是它只能涵盖已观测的(和可观测的)协变量,而无法涵盖潜在变量。那些能影响处理分配却不可观测的因素无法被纳入匹配过程的考量范围。由于匹配过程只控制可观测变量,那些隐藏的偏差在匹配后依然可能存在。另一个问题是PSM还要求在大量样本中,在处理组和对照组之间有大量的重叠。
 
  
 +
==编者推荐==
 +
===书籍推荐===
 +
[[File:统计因果推理入门.jpg|200px|thumb|right|《统计因果推理入门》封面|链接=https://wiki.swarma.org/index.php%3Ftitle=%E6%96%87%E4%BB%B6:%E7%BB%9F%E8%AE%A1%E5%9B%A0%E6%9E%9C%E6%8E%A8%E7%90%86%E5%85%A5%E9%97%A8.jpg]]
 +
*[https://wiki.swarma.org/index.php%3Ftitle=%E7%BB%9F%E8%AE%A1%E5%9B%A0%E6%9E%9C%E6%8E%A8%E7%90%86%E5%85%A5%E9%97%A8 统计因果推理入门] 对应英文[https://wiki.swarma.org/index.php%3Ftitle=Causal_Inference_in_Statistics:_A_Primer Causal Inference in Statistics: A Primer]
 +
关于因果的讨论很多,但是许多入门的教材只是为没有统计学基础的读者介绍如何使用统计学技术处理因果性问题,而没有讨论因果模型和因果参数,本书希望协助具有基础统计学知识的教师和学生应对几乎在所有自然科学和社会科学非试验研究中存在的因果性问题。本书聚焦于用简单和自然的方法定义因果参数,并且说明在观察研究中,哪些假设对于估计参数是必要的。我们也证明这些假设可以用显而易见的数学形式描述出来,也可以用简单的数学工具将这些假设转化为量化的因果关系,如治疗效果和政策干预,以确定其可检测的内在关系。
 +
*[https://wiki.swarma.org/index.php%3Ftitle=Counterfactuals_and_Causal_Inference:_Methods_and_Principles_for_Social_Research Counterfactuals and Causal Inference: Methods and Principles for Social Research]
 +
===课程推荐===
 +
*[https://campus.swarma.org/course/2526 两套因果框架深度剖析:潜在结果模型与结构因果模型]
 +
::这个视频内容来自[https://wiki.swarma.org/index.php%3Ftitle=%E9%9B%86%E6%99%BA%E4%BF%B1%E4%B9%90%E9%83%A8%E8%AF%BB%E4%B9%A6%E4%BC%9A 集智俱乐部读书会]-因果科学与Causal AI读书会第二季内容的分享,由英国剑桥大学及其学习组博士陆超超详细的阐述了潜在结果模型和结果因果模型,并介绍了两个框架的相互转化规律。
 +
::1. 讲述因果推断的两大框架:潜在结果模型和结构因果模型,讨论他们各自的优缺点以及他们之间的联系,详细介绍他们之间的转化规律。
 +
*[https://www.bilibili.com/video/BV1NJ411w7ms?from=search&seid=15960075946481426104 Average Effect of Treatment on the Treated (ATT) 实验组的平均干预效应/匹配方法]
 +
::B站搬运的杜克大学社会科学研究中心的分享视频,介绍了在使用匹配方法时会涉及到的ATT、CATE、ATE的方法。
 +
*[https://www.bilibili.com/video/BV19741137L2?from=search&seid=13934883753123755445 倾向性匹配得分]B站Up主分享的倾向性匹配得分的基本概念和R语言实现过程。
 +
*B站up主PSM系列视频: ([https://www.bilibili.com/video/BV1gV41117Md 一)基础知识][https://www.bilibili.com/video/BV1CK4y1E7sf (二)匹配估计量][https://www.bilibili.com/video/BV1Hf4y1q7Zz (三)倾向性得分匹配]  [https://www.bilibili.com/video/BV1Az4y1C7UB/?spm_id_from=333.788.recommend_more_video.-1 原理和实践: PSM倾向性得分匹配最详细的讲解(四)]
 +
*[https://campus.swarma.org/course/2030 潜结果框架下的因果效应]
 +
什么是因果呢?“因”其实就是引起某种现象发生的原因,而“果”就是某种现象发生后产生的结果。因果问题在我们日常生活中十分常见,但是不管是传统的统计学还是当下很火的大数据、机器学习,更多的是解决相关性的问题。因果问题存在于很多领域,如医疗健康、经济、政治科学、数字营销等。该课程是由浙江大学助理教授况琨讲授的,主要回答以下一些重要的问题:因果性与相关性的区别是什么?相关性有哪几种来源?如何评估因果效应?有哪些常用且前沿的方法?
 +
===文章总结===
 +
*[https://mp.weixin.qq.com/s/f-rI5W6tc6qOzthbzK4oAw 崔鹏:稳定学习——挖掘因果推理和机器学习的共同基础]
  
General concerns with matching have also been raised by Judea Pearl, who has argued that hidden bias may actually increase because matching on observed variables may unleash bias due to dormant unobserved confounders. Similarly, Pearl has argued that bias reduction can only be assured (asymptotically) by modelling the qualitative causal relationships between treatment, outcome, observed and unobserved covariates. Confounding occurs when the experimenter is unable to control for alternative, non-causal explanations for an observed relationship between independent and dependent variables. Such control should satisfy the "backdoor criterion" of Pearl. It can also easily be implemented manually.
+
*知乎上RandomWalk总结的关于因果推断之Potential Outcome Framework的内容,其中提到因果退镀and额目标就是从观测数据中估计treatment effect。
  
<font color="#aaaaaaa">【机器翻译】朱迪亚 · 珀尔也提出了关于配对的普遍担忧,他认为隐性偏见实际上可能会增加,因为观察变量的配对可能会由于潜在的未观察混杂因素而释放出偏见。同样,珀尔认为,只有通过建立治疗、结果、观察和未观察协变量之间的定性因果关系模型,才能确保(渐近地)减少偏见。当实验者无法控制对独立变量和因变量之间观察到的关系的替代性、非因果性解释时,混淆就发生了。这种控制应满足珍珠的“后门规范”。它也可以很容易地手动实现。</font>
+
*Mesonychid在自己的个人主页上分享的关于[https://hanyuz1996.github.io/2017/08/30/Donald-Rubin/ Donald-Rubin潜在结果模型]的解释。
  
Judea Pearl也提出了关于匹配方法的一般性担忧,他认为对可观测变量进行匹配可能会让那些原本处于休眠状态的混杂因素被释放,从而实际上可能加剧隐藏的偏差。同样,Pearl认为,只有通过对处理、结果、可观测和不可观测的协变量之间的定性因果关系进行建模,才能确保(渐进地)减少偏差。当试验者无法控制<font color="#32cd32">对独立变量和因变量之间观察到的关系的替代性、非因果性解释时</font>,混杂就会发生。这样的控制应该满足Pearl的“后门准则”。它很容易手工实现。
+
*Yishi Lin在自己的个人主页上分享的关于因果推断的一些介绍[https://dango.rocks/blog/2019/01/08/Causal-Inference-Introduction1/ 因果推断漫谈(一):掀开 “因果推断” 的面纱]
 +
*[https://swarma.org/?p=22045 《因果科学周刊》第2期:如何解决混淆偏差?]本文围绕因果科学领域的“混淆偏差”问题展开介绍,并进行了相关论文的推荐。
 +
*[https://zhuanlan.zhihu.com/p/237723948 倾向得分匹配(PSM)的原理与步骤]这篇知乎文章里,详细介绍了PSM在stata的实现过程。
 +
*[https://zhuanlan.zhihu.com/p/46502579 用R实现倾向性评分代码]这篇知乎文章中介绍了如何使用R实现倾向性评分。
 +
===相关路径===
 +
*[https://pattern.swarma.org/path?id=99 因果科学与Casual AI读书会必读参考文献列表],这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
 +
*[https://pattern.swarma.org/path?id=9 因果推断方法概述],这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
 +
*[https://pattern.swarma.org/path?id=90 因果科学和 Causal AI入门路径],这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。
  
  
<noinclude>
+
----
 +
本中文词条由[[用户:Aceyuan|Aceyuan]]翻译、[[用户:李昊轩|李昊轩]]审校,[[用户:薄荷|薄荷]]编辑,欢迎在讨论页面留言。
  
<small>This page was moved from [[wikipedia:en:Propensity score matching]]. Its edit history can be viewed at [[倾向性评分/edithistory]]</small></noinclude>
+
'''本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。'''
  
[[Category:待整理页面]]
 
  
<references />
+
[[Category:统计分析]]

2021年7月1日 (四) 12:05的最新版本


在观察数据的统计分析中,倾向性评分匹配 Propensity Score Matching (PSM)是一种用于估计治疗、政策或其他干预的效果统计匹配技术,方法是将协变量对样本“是否接受处理”的影响考虑在内。PSM试图减少由于混杂变量造成的偏倚。这些偏倚一般会在那些只对处理单元和对照单元的结果做简单对比的评估中出现。保罗·罗森鲍姆 Paul R. Rosenbaum和唐纳德·鲁宾 Donald Rubin在1983年介绍了这项技术。[1]


出现偏倚的原因可能是某个因素通过决定样本是否接受处理而导致了处理组和对照组的效果(如平均处理效果)差异,而不是处理本身导致了差异。在随机实验中,随机化选择样本可以做到对处理效果的无偏估计,根据大数定律,随机化分配机制意味着每个协变量将在处理组和对照组中呈现类似的分布。不幸的是,对于观察性研究来说,研究对象通常不是随机接受处理的。匹配就是要减少对象非随机接受处理产生的偏倚,并模拟随机试验,方法是从处理组和对照组中分别取样,让两组样本的全部协变量都比较接近。


例如,人们想知道吸烟的后果。但是随机分配让患者“吸烟”是不道德的,所以需要做一个观察性研究。简单地通过对比评估吸烟者和不吸烟者来估计平均处理效果将产生偏差,它会受到能影响吸烟行为的因素的影响(例如:性别及年龄)。PSM要做的是通过让处理组和对照组的控制变量尽量相似来达到控制这些偏差的目的。


综述

PSM适用于非实验环境中因果推断和简单选择偏差的情况,其中: (i)对照组与处理组中的类似单元很少; (ii)选择与处理单元类似的对照单元集合很困难,因为必须对一组高维的协变量特征进行比较。


在常规的匹配机制中,对一组能够区分处理组和对照组的特征做匹配,以使两组的特征更加相似。但如果这两个组的特征没有显著的重叠,那么可能会引入实质性的错误。例如,拿对照组最糟的病例和处理组最好的病例进行比较,结果可能倾向于回归均值,这会让对照组看起来比实际情况更好或更糟。


PSM利用观察数据预测样本落入不同分组(例如,处理组与控制组)的概率,通常用Logistic回归方法,然后利用此概率创造一个反事实的群体。倾向性评分可用于匹配,也可作为协变量,可以单独使用,也可以与其他匹配变量或协变量一同使用。


一般步骤

1. 做Logistic回归:

  • 因变量:参与处理(属于处理组),则Z = 1;未参与处理(属于对照组),则Z = 0。
  • 选择合适的混杂因素(既影响处理方式又影响处理结果的变量)
  • 计算倾向性评分的估计量:预测概率(p)或log[p/(1 − p)]。


2. 依照倾向性评分的估计量进行分层,检查协变量的倾向性评分的估计量在每层处理组和对照组是否均衡

  • 使用标准化差异指标或者图形来检验分布情况


3. 根据倾向性评分的估计量,将每个处理组个体与一个或多个对照组个体进行匹配,使用以下方法之一:

  • 最近邻匹配
  • 卡钳匹配:在处理单元倾向性评分的一个范围内选取对照单元,范围的宽度通常用倾向性评分的标准差乘上一个比例值
  • 马氏度量 与PSM配合使用
  • 分层匹配
  • 双重差分匹配(核和局部线性加权)
  • 精确匹配


4. 对比处理组和对照组的匹配样本或加权样本,验证协变量是否均衡


5. 基于新样本的多变量分析

  • 如果每个参与者都匹配了多个非参与者,则适当应用非独立匹配样本分析

注意:当一个处理样本有多个匹配时,则必须用加权最小二乘法,而不能用普通最小二乘法。


形式定义

基本设置

基本场景[1]是,有两种处理方式(分别记为1和0),N独立同分布个体。每个个体i如果接受了处理则响应为[math]\displaystyle{ r_{1i} }[/math],接受控制则响应为[math]\displaystyle{ r_{0i} }[/math]。被估计量是平均处理效应[math]\displaystyle{ E[r_1]-E[r_0] }[/math]。变量[math]\displaystyle{ Z_i }[/math]指示个体i接受处理(Z = 1)还是接受控制(Z = 0)。让[math]\displaystyle{ X_i }[/math]代表第i个个体处理前观测值(或者协变量)的向量。对[math]\displaystyle{ X_i }[/math]的测量发生于处理前,但是[math]\displaystyle{ X_i }[/math]中也可以不包括那些决定是否接受处理的特征。个体编号(即:i = 1, ..., i = N)不包含任何[math]\displaystyle{ X_i }[/math]所包含信息之外的的信息。以下部分在讨论某些个体的随机行为的时候将省略索引i


强可忽略处理分配

设某个物体有协变量X(即:条件非混杂变量)向量,以及对应着控制和处理两种情况的潜在结果r0r1。如果潜在结果在给定背景变量X的条件下独立于处理举动(Z),则可以说样本是否接受处理分配是强可忽略的。可简洁表述为

[math]\displaystyle{ r_0, r_1 \perp \!\!\!\! \perp Z \mid X }[/math]

这里[math]\displaystyle{ \perp \!\!\!\! \perp }[/math]代表统计独立.[1]


平衡得分

平衡得分b(X)是观测协变量X的函数。在给定b(X)时,处理单元和控制单元的X有相同的条件分布:

[math]\displaystyle{ Z \perp \!\!\!\! \perp X \mid b(X). }[/math]

最一般的平衡得分函数是[math]\displaystyle{ b(X) = X }[/math].


倾向性评分

倾向性评分是根据协变量观测值计算得出的一个单元(例如:个人,教室,学校)被指配接受特定处理的概率。倾向性评分匹配将使得处理组和对照组的协变量分布趋同,从而减少选择偏差。


假设有一个二值处理标识Z,一个响应变量r,以及被观测的背景协变量X。倾向性评分定义为,在给定背景变量条件下单元接受处理的条件概率:


[math]\displaystyle{ e(x) \ \stackrel{\mathrm{def}}{=}\ \Pr(Z=1 \mid X=x). }[/math]


在因果推断和调查方法的范围内,通过Logistic回归、随机森林或其他方法,利用一组协变量估计倾向性评分。然后这些倾向性评分即可作为用于逆概率加权方法的权重估计量。


主要定理

以下是Rosenbaum和Rubin于1983年首次提出并证明的:[1]

  • 倾向性评分[math]\displaystyle{ e(x) }[/math]是平衡得分。
  • 任何比倾向性评分更“精细”的得分都是平衡得分(即:对于函数f[math]\displaystyle{ e(X)=f(b(X)) }[/math])。倾向性评分是最粗粒度的平衡得分函数,因为它把一个(可能是)多维的对象(Xi)转换成只有一维(尽管其他维度显然也存在),而[math]\displaystyle{ b(X)=X }[/math]则是最细粒度的平衡得分函数(保留全部维度)。
  • 如果对于给定的X,处理分配满足强可忽略条件,则:
  • 给定任何的平衡函数,具体来说,给定倾向性评分,处理分配也是强可忽略的:
[math]\displaystyle{ (r_0, r_1) \perp \!\!\!\! \perp Z \mid e(X). }[/math]
  • 对于有相同平衡得分值的处理样本和对照样本,它们响应变量均值之差(即:[math]\displaystyle{ \bar{r}_1-\bar{r}_0 }[/math]),可以作为平均处理效应无偏估计量[math]\displaystyle{ E[r_1]-E[r_0] }[/math]
  • 利用平衡得分的样本估计可产生在X上均衡的样本


与充分性的关系

如果我们把Z的值想成影响X分布的群体参数,则平衡得分充当了Z的充分统计量。进一步,上述定理指出,如果把Z视为X的参数,则倾向性评分就是最小充分统计量。最后,给定X,如果Z是强可忽略的,则倾向性评分是[math]\displaystyle{ (r_0, r_1) }[/math]联合分布的最小充分统计量。


混杂变量的图检测方法

朱迪亚·珀尔 Judea Pearl已经表明存在一个简单的图检测方法,称为后门准则,它可以检测到混杂变量的存在。为了估计处理效果,背景变量X必须阻断图中的所有后门路径。通过把混杂变量加入回归的控制变量,或者在混杂变量上进行匹配可以实现后门路径的阻断。[2]


缺点

PSM已经被证明会加剧模型的“不平衡性、低效率、模型依赖性和偏差”,这与大多数其他匹配方法不同。[3]匹配方法背后的直观仍然成立,但应该与其他匹配方法一起应用;倾向得分在加权和双重稳健估计方面也有其他有益的用途。


与其他匹配过程一样,PSM也是从观测数据中估计平均处理效应。在引入PSM之时,它的主要优点是,通过使用协变量的线性组合得到一个单一评分,以大量的协变量为基础平衡了处理组和对照组,却不大量损失观测数据。如果在有众多协变量的情况下,对每一个协变量都分别做处理单元和对照单元平衡的话,就需要大量的观测数据来克服”维数问题“,即每引入一个新的平衡协变量都会在几何上增加最小所需的观测样本数量。


PSM的一个缺点是它只能涵盖已观测的(和可观测的)协变量,而无法涵盖潜在变量。那些能影响处理分配却不可观测的因素无法被纳入匹配过程的考量范围。[4]由于匹配过程只控制可观测变量,那些隐藏的偏差在匹配后依然可能存在。[5]另一个问题是PSM还要求在大量样本中,在处理组和对照组之间有大量的重叠。


Judea Pearl也提出了关于匹配方法的普遍担忧,他认为对可观测变量进行匹配可能会让那些原本处于休眠状态的混杂因素被释放,从而实际上可能加剧隐藏的偏差。同样,Pearl认为,只有通过对处理、结果、可观测和不可观测的协变量之间的定性因果关系进行建模,才能确保(渐进地)减少偏差。[6]当试验者无法控制对独立变量和因变量之间观察到的关系的替代性、非因果性解释时,混杂就会发生。这样的控制应该满足Pearl的“后门准则”。它也很容易地手动实现。[2]


统计包中的实现

  • R: 倾向得分匹配作为 MatchIt 包的一部分提供。[7][8] 它也可以很容易地手工实现。[9]
  • SAS: PSMatch过程,以及宏 OneToManyMTCH可根据倾向得分对观察数据进行匹配。[10]
  • Stata: 有几个命令实现了倾向得分匹配,[11] 包括用户编写的psmatch2[12] Stata 13 及更高版本还提供了内置命令 teffects psmatch[13]
  • SPSS: IBM SPSS Statistics菜单(数据/倾向评分匹配)中提供了一个倾向评分匹配对话框,允许用户设置匹配容差、抽取样本时随机化案例顺序、确定精确匹配的优先级、样本有或无替换、设置一个随机种子,并通过提高处理速度和最小化内存使用来最大化性能。 FUZZY Python过程也可以通过扩展对话框轻松添加为软件的扩展。此过程基于一组指定的关键变量,通过从控制中随机抽取来匹配案例和控制。FUZZY命令支持精确匹配和模糊匹配。

其他词条


参考文献

  1. 跳转至: 1.0 1.1 1.2 1.3 Rosenbaum, Paul R.; Rubin, Donald B. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70 (1): 41–55. doi:10.1093/biomet/70.1.41.
  2. 跳转至: 2.0 2.1 Pearl, J. (2000). Causality: Models, Reasoning, and Inference. New York: Cambridge University Press. ISBN 978-0-521-77362-1. https://archive.org/details/causalitymodelsr0000pear. 
  3. King, Gary; Nielsen, Richard (2019-05-07). "Why Propensity Scores Should Not Be Used for Matching". Political Analysis. 27 (4): 435–454. doi:10.1017/pan.2019.11. ISSN 1047-1987. | link to the full article (from the author's homepage)
  4. Garrido MM, et al. (2014). "Methods for Constructing and Assessing Propensity Scores". Health Services Research. 49 (5): 1701–20. doi:10.1111/1475-6773.12182. PMC 4213057. PMID 24779867.
  5. Shadish, W. R.; Cook, T. D.; Campbell, D. T. (2002). Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin. ISBN 978-0-395-61556-0. 
  6. Pearl, J. (2009). "Understanding propensity scores". Causality: Models, Reasoning, and Inference (Second ed.). New York: Cambridge University Press. ISBN 978-0-521-89560-6. 
  7. Ho, Daniel; Imai, Kosuke; King, Gary; Stuart, Elizabeth (2007). "Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference". Political Analysis. 15 (3): 199–236. doi:10.1093/pan/mpl013.
  8. "MatchIt: Nonparametric Preprocessing for Parametric Causal Inference". R Project.
  9. Gelman, Andrew; Hill, Jennifer (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. New York: Cambridge University Press. pp. 206–212. ISBN 978-0-521-68689-1. https://books.google.com/books?id=lV3DIdV0F9AC&pg=PA206. 
  10. Parsons, Lori. "Performing a 1:N Case-Control Match on Propensity Score" (PDF). SUGI 29: SAS Institute. Retrieved June 10, 2016.{{cite web}}: CS1 maint: location (link)
  11. Implementing Propensity Score Matching Estimators with STATA. Lecture notes 2001
  12. Leuven, E.; Sianesi, B. (2003). "PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing". {{cite journal}}: Cite journal requires |journal= (help)
  13. "teffects psmatch — Propensity-score matching" (PDF). Stata Manual.


编者推荐

书籍推荐

《统计因果推理入门》封面

关于因果的讨论很多,但是许多入门的教材只是为没有统计学基础的读者介绍如何使用统计学技术处理因果性问题,而没有讨论因果模型和因果参数,本书希望协助具有基础统计学知识的教师和学生应对几乎在所有自然科学和社会科学非试验研究中存在的因果性问题。本书聚焦于用简单和自然的方法定义因果参数,并且说明在观察研究中,哪些假设对于估计参数是必要的。我们也证明这些假设可以用显而易见的数学形式描述出来,也可以用简单的数学工具将这些假设转化为量化的因果关系,如治疗效果和政策干预,以确定其可检测的内在关系。

课程推荐

这个视频内容来自集智俱乐部读书会-因果科学与Causal AI读书会第二季内容的分享,由英国剑桥大学及其学习组博士陆超超详细的阐述了潜在结果模型和结果因果模型,并介绍了两个框架的相互转化规律。
1. 讲述因果推断的两大框架:潜在结果模型和结构因果模型,讨论他们各自的优缺点以及他们之间的联系,详细介绍他们之间的转化规律。
B站搬运的杜克大学社会科学研究中心的分享视频,介绍了在使用匹配方法时会涉及到的ATT、CATE、ATE的方法。

什么是因果呢?“因”其实就是引起某种现象发生的原因,而“果”就是某种现象发生后产生的结果。因果问题在我们日常生活中十分常见,但是不管是传统的统计学还是当下很火的大数据、机器学习,更多的是解决相关性的问题。因果问题存在于很多领域,如医疗健康、经济、政治科学、数字营销等。该课程是由浙江大学助理教授况琨讲授的,主要回答以下一些重要的问题:因果性与相关性的区别是什么?相关性有哪几种来源?如何评估因果效应?有哪些常用且前沿的方法?

文章总结

  • 知乎上RandomWalk总结的关于因果推断之Potential Outcome Framework的内容,其中提到因果退镀and额目标就是从观测数据中估计treatment effect。

相关路径

  • 因果科学与Casual AI读书会必读参考文献列表,这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
  • 因果推断方法概述,这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
  • 因果科学和 Causal AI入门路径,这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。



本中文词条由Aceyuan翻译、李昊轩审校,薄荷编辑,欢迎在讨论页面留言。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。