更改

添加1,154字节 、 2024年7月26日 (星期五)
第54行: 第54行:       −
该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的近似的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
+
该方法避开讨论粗粒化策略,但是也存在很多缺点:
 +
 
 +
1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的近似的充分条件;
 +
 
 +
2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;
 +
 
 +
3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
    
Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
 
Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
第80行: 第86行:     
== 机器学习领域的分布外泛化问题 ==
 
== 机器学习领域的分布外泛化问题 ==
  −
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。
      
目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降。
 
目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降。
第87行: 第91行:  
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上,且图像中,基本可以看见狗的整个身子。经过大量数据的训练之后,如果给模型一个在草地上奔跑的狗的图像,那么模型大概95%以上会判定这是狗;如果给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型可能有一半的概率可以识别出图像中的动物是狗;如果给模型一张狗在游泳池中,只露出头的图像,那么模型大概率不能识别出来图像中的是狗。
 
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上,且图像中,基本可以看见狗的整个身子。经过大量数据的训练之后,如果给模型一个在草地上奔跑的狗的图像,那么模型大概95%以上会判定这是狗;如果给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型可能有一半的概率可以识别出图像中的动物是狗;如果给模型一张狗在游泳池中,只露出头的图像,那么模型大概率不能识别出来图像中的是狗。
   −
假设我们训练了一个图像分类模型,该模型在训练数据集上表现非常好,能够准确地识别猫和狗的图片。训练数据集中的图片都是在室内拍摄的,背景相对简单。然而,当我们将这个模型应用到新的数据集上时,这些图片是在户外拍摄的,背景复杂多变,甚至可能包含其他动物或物体。此时,如果模型仍然能够准确地识别猫和狗,这就说明模型具有良好的分布外泛化能力。
+
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,相关关系的来源可以分成三种:
 +
 
 +
1)因果关系(Causation):当且仅当T发生改变时,Y发生改变。比如在夏天的时候,冰淇淋的销量会上升。
 +
 
 +
2)混杂因素(Confounding):X导致T和Y都上升,但是模型没有学到背后的X,只学出了T的上升导致Y上升,是一种虚假的相关关系。比如当人的年龄增加,很多人会吸烟和发福,而模型可能学出了是因为人吸烟,所以人发福。当给模型输入一组年龄一样,但是吸烟情况不一样的数据时,模型的有效性变会下降。
 +
 
 +
3)样本选择偏差(Sample Selection Bias):当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。
 +
 
 +
在实际应用中,我们希望学习到的是因果关系(Causation),结果更加稳定且具有可解释性。
 +
 
 +
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力,削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。
 +
 
 +
为了增强分布外泛化能力,可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术,使模型可以适应不同的测试数据分布,还有不变性学习、元学习等方法。
    
= 神经信息压缩机(NIS)介绍 =
 
= 神经信息压缩机(NIS)介绍 =
196

个编辑