更改

跳到导航 跳到搜索
删除2字节 、 2024年10月26日 (星期六)
第63行: 第63行:  
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,包含了完整的狗。经过大量数据训练后,若研究人员给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能就只有一半了。
 
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,包含了完整的狗。经过大量数据训练后,若研究人员给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能就只有一半了。
   −
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系有可能来自[[样本选择偏差]](Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,这是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断图片中的对象是不是狗的,但是这个场景中真正有因果关系的因素是狗鼻子,而不是草地。之所以模型学习到以草地为特征,可能是因为样本的分布不均匀,而绝大部分图片样本都包含了草地。这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和狗标签之间是一种强相关、弱因果的关系,而狗鼻子和狗标签之间则是一种强相关、强因果的联系。
+
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系有可能来自[[样本选择偏差]](Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,这是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断图片中的对象是不是狗的,但是这个场景中真正有因果关系的因素是狗鼻子,而不是草地。之所以模型学习到以草地为特征,可能是因为样本的分布不均匀(绝大部分图片样本都包含了草地)。这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和狗标签之间是一种强相关、弱因果的关系,而狗鼻子和狗标签之间则是一种强相关、强因果的联系。
    
而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异<ref>Wang F ,Wei Z ,Zhang W . Sliding homoclinic orbits and chaotic dynamics in a class of 3D piecewise-linear Filippov systems [J]. Nonlinear Dynamics, 2024, (prepublish): 1-21.</ref>。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。我们希望的是,模型可以透过初始条件的差异,抓住系统动力学的本质。甚至有时候,我们期待模型可以泛化到某些动力学参数不同的系统测试数据上,让模型依旧有不错的表现。在实际应用中,我们希望学习到的是因果关系(Causation)<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>而不是虚假的相关,只有这样才能使得结果更加稳定且具有可解释性。
 
而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异<ref>Wang F ,Wei Z ,Zhang W . Sliding homoclinic orbits and chaotic dynamics in a class of 3D piecewise-linear Filippov systems [J]. Nonlinear Dynamics, 2024, (prepublish): 1-21.</ref>。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。我们希望的是,模型可以透过初始条件的差异,抓住系统动力学的本质。甚至有时候,我们期待模型可以泛化到某些动力学参数不同的系统测试数据上,让模型依旧有不错的表现。在实际应用中,我们希望学习到的是因果关系(Causation)<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>而不是虚假的相关,只有这样才能使得结果更加稳定且具有可解释性。
   −
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能。这就涉及到模型对未知或未见情况的适应能力,以及是否能削弱样本选择偏差的问题。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是模型过度拟合了训练数据,导致模型泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是罕见或极端的情况所导致的。
+
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能。这就涉及到模型对未知或未见情况的适应能力,以及是否能削弱[[样本选择偏差]]的问题。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是模型过度拟合了训练数据,导致模型泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是罕见或极端的情况。
   −
为了增强分布外泛化能力,学者们可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术(Domain Adaptation)<ref>Stan S ,Rostami M . Source-free domain adaptation for semantic image segmentation using internal representations [J]. Frontiers in Big Data, 2024, 7 1359317-1359317.</ref>,使模型可以适应不同的测试数据分布。另外,学者们也提出了[[不变性学习]](Invariant Learning)<ref>L G M ,S A D ,M C S . Variability in training unlocks generalization in visual perceptual learning through invariant representations. [J]. Current biology : CB, 2023, 33 (5): 817-826.e3.</ref>、[[元学习]](Meta Learning)<ref>Zhang B ,Gao B ,Liang S , et al. A classification algorithm based on improved meta learning and transfer learning for few‐shot medical images [J]. IET Image Processing, 2023, 17 (12): 3589-3598.</ref>等方法解决该问题。
+
为了增强分布外泛化能力,学者们除了可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术(Domain Adaptation)<ref>Stan S ,Rostami M . Source-free domain adaptation for semantic image segmentation using internal representations [J]. Frontiers in Big Data, 2024, 7 1359317-1359317.</ref>,使模型可以适应不同的测试数据分布。另外,学者们也提出了[[不变性学习]](Invariant Learning)<ref>L G M ,S A D ,M C S . Variability in training unlocks generalization in visual perceptual learning through invariant representations. [J]. Current biology : CB, 2023, 33 (5): 817-826.e3.</ref>、[[元学习]](Meta Learning)<ref>Zhang B ,Gao B ,Liang S , et al. A classification algorithm based on improved meta learning and transfer learning for few‐shot medical images [J]. IET Image Processing, 2023, 17 (12): 3589-3598.</ref>等方法解决该问题。
    
= 问题描述 =
 
= 问题描述 =
259

个编辑

导航菜单