更改

NIS+ (查看源代码)

2024年8月1日 (四) 14:22的版本

添加142字节、 2024年8月1日 (星期四)

第61行：第61行：

机器学习经过训练学习得到的很大程度上是变量之间的相关关系，这种相关关系可能来自样本选择偏差（Sample Selection Bias）。当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。在上面的狗识别的例子中，机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗，但是有因果关系的是狗鼻子，草地只是由于样本的分布不均匀，这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说，草地和标签之间是强相关、弱因果，狗鼻子和标签之间是强相关、强因果。

−

而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。甚至如果一些动力学参数不一样，也会造成模型的结果不准确。

+

而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。我们希望的是，模型可以透过初始条件的差异，抓住系统动力学的本质。甚至有时候，我们期待模型可以泛化到某些动力学参数不同的系统测试数据上，依旧有不错的表现。在实际应用中，我们希望学习到的是因果关系（Causation），结果更加稳定且具有可解释性。

−

~~在实际应用中，我们希望学习到的是因果关系（Causation），结果更加稳定且具有可解释性。~~

分布外泛化（Out-of-Distribution Generalization，简称OOD Generalization）是指模型在面对与训练数据分布不同的新数据时，仍然能够保持较好的性能，涉及到模型对未知或未见情况的适应能力，削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好，但在面对分布外的各种数据时，模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据，导致泛化能力差；也可能是由于训练数据无法覆盖所有可能的输入情况，特别是对于罕见或极端的情况。

Matthew

251

个编辑