机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。 | 机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。 |