更改

讨论:NIS+ (查看源代码)

2024年8月1日 (四) 14:24的版本

删除1,886字节、 2024年8月1日 (星期四)

第31行：第31行：

=机器学习领域的分布外泛化问题=

−

* 以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上，且图像中，基本可以看见狗的整个身子。经过大量数据的训练之后，如果给模型一个在草地上奔跑的狗的图像，那么模型大概95%以上会判定这是狗；如果给一张在水泥地上，且遮挡了狗部分身体的图像，那么模型可能有一半的概率可以识别出图像中的动物是狗；如果给模型一张狗在游泳池中，只露出头的图像，那么模型大概率不能识别出来图像中的是狗。

+

* 而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。甚至如果一些动力学参数不一样，也会造成模型的结果不准确。

−

~~这个例子本身叙述可以再简洁一些~~

+

这句话逻辑不太准确，我改了一下你可以看看。

−

~~PLL：OK\(^o^)/~，已改，其他的呢？~~

+

这个小节没其他问题了～

−

~~YMZ：我说的简洁想的是有两个不同的场景对比就可以了，不用三个～😂~~

−

~~PLL：好哒~，删除了用泳池的。~~

−

* 相关关系的来源可以分成三种：

−

~~这个分类出处是哪里呀？~~

−

~~（师兄之前说的视频，崔鹏老师的，因果科学与Causal AI第二季：5.因果启发的稳定学习理论、方法和应用）~~

−

相关性来源应该不只这些吧，似乎没有包含对撞结构造成的虚假关联。可以不讲分类，主要讲样本选择偏差这一个点，这和NIS+要解决的问题是密切相关的。

−

（改为：机器学习经过训练学习得到的很大程度上是变量之间的相关关系，这种相关关系可能来自样本选择偏差（Sample Selection Bias）。当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。）

−

另外要注意，图像识别不是我们解决的任务类型，只是一个引子。还要讲动力学系统。在动力学系统里，这个问题就体现为初始条件分布不同甚至是某些动力学参数不一样（训练和测试不一样）。

−

PLL：添加而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。甚至如果一些动力学参数不一样，也会造成模型的结果不准确。

−

* 为了增强分布外泛化能力，可以生成多样化的数据，模拟不同的测试环境，

−

~~缺主语呀～～~~

−

~~PLL：增加主语（学者）~~

=NIS 概述=

Matthew

264

个编辑

更改

讨论:NIS+ (查看源代码)

2024年8月1日 (四) 14:24的版本

导航菜单

搜索