第31行: |
第31行: |
| =机器学习领域的分布外泛化问题= | | =机器学习领域的分布外泛化问题= |
| | | |
− | * 以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上,且图像中,基本可以看见狗的整个身子。经过大量数据的训练之后,如果给模型一个在草地上奔跑的狗的图像,那么模型大概95%以上会判定这是狗;如果给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型可能有一半的概率可以识别出图像中的动物是狗;如果给模型一张狗在游泳池中,只露出头的图像,那么模型大概率不能识别出来图像中的是狗。 | + | * 而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。甚至如果一些动力学参数不一样,也会造成模型的结果不准确。 |
| | | |
− | 这个例子本身叙述可以再简洁一些
| + | 这句话逻辑不太准确,我改了一下你可以看看。 |
| | | |
− | PLL:OK\(^o^)/~,已改,其他的呢?
| + | 这个小节没其他问题了~ |
− | | |
− | YMZ:我说的简洁想的是有两个不同的场景对比就可以了,不用三个~😂
| |
− | | |
− | PLL:好哒~,删除了用泳池的。
| |
− | | |
− | * 相关关系的来源可以分成三种:
| |
− | | |
− | 这个分类出处是哪里呀?
| |
− | (师兄之前说的视频,崔鹏老师的,因果科学与Causal AI第二季:5.因果启发的稳定学习理论、方法和应用)
| |
− | | |
− | 相关性来源应该不只这些吧,似乎没有包含对撞结构造成的虚假关联。可以不讲分类,主要讲样本选择偏差这一个点,这和NIS+要解决的问题是密切相关的。
| |
− | (改为:机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。)
| |
− | | |
− | 另外要注意,图像识别不是我们解决的任务类型,只是一个引子。还要讲动力学系统。在动力学系统里,这个问题就体现为初始条件分布不同甚至是某些动力学参数不一样(训练和测试不一样)。
| |
− | | |
− | PLL:添加 而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。甚至如果一些动力学参数不一样,也会造成模型的结果不准确。
| |
− | | |
− | * 为了增强分布外泛化能力,可以生成多样化的数据,模拟不同的测试环境,
| |
− | | |
− | 缺主语呀~~
| |
− | PLL:增加主语(学者)
| |
| | | |
| =NIS 概述= | | =NIS 概述= |