更改

NIS+ (查看源代码)

2024年9月1日 (日) 09:32的版本

添加86字节、 2024年9月1日 (星期日)

第58行：第58行：

== 机器学习领域的分布外泛化问题 ==

−

~~目前，机器学习需要在训练数据和测试数据是独立同分布（Independent~~ and Identically Distributed，简称IID）的基础之上，这是一种理想化的假设。现实应用中，几乎不能满足IID假设，所以模型的性能都会有不同程度的下降<ref name=":4">Cui, Peng, Athey, et al. Stable learning establishes some common ground between causal inference and machine learning''. nature machine intelligence'', 2022, 4(2): 110-115</ref>。

+

目前，机器学习任务需要建立在训练数据和测试数据是独立同分布（Independent and Identically Distributed，简称IID）的基础之上，这是一种理想化的假设。现实应用中，几乎不能满足IID假设，所以模型的性能都会有不同程度的下降<ref name=":4">Cui, Peng, Athey, et al. Stable learning establishes some common ground between causal inference and machine learning''. nature machine intelligence'', 2022, 4(2): 110-115</ref>。

以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上，可以看见整个狗。经过大量数据训练后，若给模型一个在草地上的狗的图像，那模型的正确率可以在95%以上；若给一张在水泥地上，且遮挡了狗部分身体的图像，那么模型的正确率可能是一半。

−

机器学习经过训练学习得到的很大程度上是变量之间的相关关系，这种相关关系可能来自样本选择偏差（Sample Selection Bias）。当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。在上面的狗识别的例子中，机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗，但是有因果关系的是狗鼻子，草地只是由于样本的分布不均匀，这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说，草地和标签之间是强相关、弱因果，狗鼻子和标签之间是强相关、强因果。

+

机器学习经过训练学习得到的很大程度上是变量之间的相关关系，这种相关关系可能来自样本选择偏差（Sample Selection Bias）。当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。在上面的狗识别的例子中，机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗，但是有因果关系的是狗鼻子，草地只是由于样本的分布不均匀，这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说，草地和标签之间是强相关、弱因果的，狗鼻子和标签之间是强相关、强因果的。

−

而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。我们希望的是，模型可以透过初始条件的差异，抓住系统动力学的本质。甚至有时候，我们期待模型可以泛化到某些动力学参数不同的系统测试数据上，依旧有不错的表现。在实际应用中，我们希望学习到的是因果关系（Causation）<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>~~，结果更加稳定且具有可解释性。~~

+

而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。我们希望的是，模型可以透过初始条件的差异，抓住系统动力学的本质。甚至有时候，我们期待模型可以泛化到某些动力学参数不同的系统测试数据上，依旧有不错的表现。在实际应用中，我们希望学习到的是因果关系（Causation）<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>，只有这样才能使得结果更加稳定且具有可解释性。

−

分布外泛化（Out-of-Distribution Generalization，简称OOD Generalization）是指模型在面对与训练数据分布不同的新数据时，仍然能够保持较好的性能，涉及到模型对未知或未见情况的适应能力，削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好，但在面对分布外的各种数据时，模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据，导致泛化能力差；也可能是由于训练数据无法覆盖所有可能的输入情况，特别是对于罕见或极端的情况。

+

分布外泛化（Out-of-Distribution Generalization，简称OOD Generalization）是指模型在面对与训练数据分布不同的新数据时，仍然能够保持较好的性能，涉及到模型对未知或未见情况的适应能力，以及是否能削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好，但在面对分布外的各种数据时，模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据，导致模型泛化能力差；也可能是由于训练数据无法覆盖所有可能的输入情况，特别是对于罕见或极端的情况。

−

为了增强分布外泛化能力，学者可以生成多样化的数据，模拟不同的测试环境，还可以通过域适应技术，使模型可以适应不同的测试数据分布，还有不变性学习、元学习等方法。

+

为了增强分布外泛化能力，学者可以生成多样化的数据，模拟不同的测试环境，还可以通过域适应技术（Domain Adaptation），使模型可以适应不同的测试数据分布，还有不变性学习、元学习等方法。

= 神经信息压缩机（NIS）介绍 =

Jake

786

个编辑