“重随机化 Rerandomization”的版本间的差异
第3行: | 第3行: | ||
如果协变量的个数很多,单个或多个协变量不平衡的现象就越有可能发生。即使增大样本量,单次试验的因果作用估计偏差问题也得不到解决。这是因为,虽然随着样本量n的增大,协变量以根号n的速度趋于平衡,但平均因果作用的估计量也以根号n的速度收敛,这导致协变量不平衡造成的偏差与因果作用的量级仍然处于同一尺度。 | 如果协变量的个数很多,单个或多个协变量不平衡的现象就越有可能发生。即使增大样本量,单次试验的因果作用估计偏差问题也得不到解决。这是因为,虽然随着样本量n的增大,协变量以根号n的速度趋于平衡,但平均因果作用的估计量也以根号n的速度收敛,这导致协变量不平衡造成的偏差与因果作用的量级仍然处于同一尺度。 | ||
− | + | 当面临不合适的随机分配时,Fisher曾建议进行再随机化。Morgan和Rubin首次对再随机化进行了正规的数学描述,其基本思路是:预先指定某种衡量协变量在不同处理组之间分布是否平衡的准则,不采纳那些协变量不平衡的随机分配,而是一直进行随机化,直到获得协变量平衡的随机分配为止。Morgan和Rubin建议使用处理组和对照组协变量均值的平方马氏距离作为准则,只接受平方马氏距离小于某个阈值的随机分配。他们还指出,通过再随机化,可以实现平均因果作用估计的方差下降。 | |
再随机化实验的统计推断比完全随机化实验的统计推断更加复杂。有一个处理组和一个对照组并使用平方马氏距离准则进行再随机化的情形下,Morgan和Rubin建议使用Fisher随机化检验进行统计推断。由于限制了处理组和对照组之间的协变量分布,所以处理组和对照组的平均结局差异并不再服从正态分布,而是服从一个正态分布和另一个截断正态分布的线性组合。近些年来,再随机化受到了越来越多的关注,例如协变量存在不同重要梯度时的再随机化、序贯实验中的再随机化。 | 再随机化实验的统计推断比完全随机化实验的统计推断更加复杂。有一个处理组和一个对照组并使用平方马氏距离准则进行再随机化的情形下,Morgan和Rubin建议使用Fisher随机化检验进行统计推断。由于限制了处理组和对照组之间的协变量分布,所以处理组和对照组的平均结局差异并不再服从正态分布,而是服从一个正态分布和另一个截断正态分布的线性组合。近些年来,再随机化受到了越来越多的关注,例如协变量存在不同重要梯度时的再随机化、序贯实验中的再随机化。 |
2022年6月29日 (三) 10:11的版本
长期以来,随机化一直被当成是评估因果作用的金标准。在随机化试验中,每个个体被随机分配到各个处理组,因此理论上各个处理组下的协变量X的分布相似。使用各个处理组下的观察到的结局均值差异能对平均因果作用进行无偏估计。然而,随机实验的这些性质只对大量重复实验平均而言成立,在实际只做一次实验的情形下,不同处理组下的协变量的分布可能有显著差异,均值差异估计量可能离因果作用的真实值很远。举一个简单的例子,假设在某次随机化临床试验中,随机分配一些个体接受治疗或对照,但治疗组中恰巧大部分都是身体虚弱的个体,而对照组中恰巧大部分都是身体健壮的个体,这样,两组的观测结局均值受到患者身体状况这一不容忽视的混杂因素的影响。
如果协变量的个数很多,单个或多个协变量不平衡的现象就越有可能发生。即使增大样本量,单次试验的因果作用估计偏差问题也得不到解决。这是因为,虽然随着样本量n的增大,协变量以根号n的速度趋于平衡,但平均因果作用的估计量也以根号n的速度收敛,这导致协变量不平衡造成的偏差与因果作用的量级仍然处于同一尺度。
当面临不合适的随机分配时,Fisher曾建议进行再随机化。Morgan和Rubin首次对再随机化进行了正规的数学描述,其基本思路是:预先指定某种衡量协变量在不同处理组之间分布是否平衡的准则,不采纳那些协变量不平衡的随机分配,而是一直进行随机化,直到获得协变量平衡的随机分配为止。Morgan和Rubin建议使用处理组和对照组协变量均值的平方马氏距离作为准则,只接受平方马氏距离小于某个阈值的随机分配。他们还指出,通过再随机化,可以实现平均因果作用估计的方差下降。
再随机化实验的统计推断比完全随机化实验的统计推断更加复杂。有一个处理组和一个对照组并使用平方马氏距离准则进行再随机化的情形下,Morgan和Rubin建议使用Fisher随机化检验进行统计推断。由于限制了处理组和对照组之间的协变量分布,所以处理组和对照组的平均结局差异并不再服从正态分布,而是服从一个正态分布和另一个截断正态分布的线性组合。近些年来,再随机化受到了越来越多的关注,例如协变量存在不同重要梯度时的再随机化、序贯实验中的再随机化。
Morgan, K. L., & Rubin, D. B. (2012). Rerandomization to improve covariate balance in experiments. The Annals of Statistics, 40(2), 1263-1282.