因果涌现识别

基于信息分解的因果涌现识别

这部分简写吧，按照我们之前讨论的，只突出最后的公式。另外加入神经网络框架相关的部分，图片可以先用原论文的，等志鹏那边重画好了到时候借用他们的新图。名字上还可以用“基于信息分解的因果涌现识别”，提一句：信息分解框架中定义的信息原子难以计算，作者们推导出只需要计算互信息的近似公式。还要在某一个地方强调Rosas等人识别出来的因果涌现和Hoel等定义的因果涌现是不一样的，具体可参见“因果涌现”词条。

需要指出的是，此方法是基于格兰杰因果，Hoel的方法基于Judea Pearl因果，且此方法只是互信息的组合，没有引入do干预。

这句话再重新组织一下吧，不然容易让人感觉后面说的“此方法”指的是Hoel的方法。（已改：需要指出的是，Hoel的方法基于Judea Pearl因果，而此方法是基于格兰杰因果，且只是互信息的组合，没有引入do干预。）

该方法只是基于互信息计算没有考虑因果，

Rosas他们也声称是因果涌现，是因为他们是基于格兰杰因果的。所以不能说它们完全没考虑因果，只是要比较格兰杰因果和Judea Pearl的因果。

（已改，神经网络框架是指？图片是这个吗？）

YMZ: 不是这张图，而是Learning Causally Emergent Representations这篇文章里的神经网络框架。不过我看了一下，因果涌现词条那里也写的非常简单，那你这里就不放图了吧，一句话说明他们也用了机器学习框架，就不提他那些数学符号了。然后这句话里引上参考文献Learning Causally Emergent Representations（已改：Rosas等学者利用机器学习框架【6】，通过信息分解来识别量化因果涌现，但是信息分解框架中定义的信息原子难以计算，——这篇文章的第一作者是Kaplanis要不要放在讲Kaplanis那里）

该方法避开讨论粗粒化策略

这个是在哪里看到的？（因果涌现词条）它最初定义确实可以不考虑粗粒化策略，但现在这个充分条件还是需要给定粗粒化策略才能有宏观变量来计算的。谈它的优势可以谈两点：1. 因为是格兰杰因果，所以计算比较方便，不需要找到底层的动力学机制；2. 它对系统的动力学没有马尔可夫性的假设和要求（已改）

当系统具有大量冗余信息或具有许多变量时，该方法的计算复杂度仍然很高。

就互信息计算本身而言计算复杂度不会上升的很多。这个缺点可以换成，高维系统中，psi作为近似条件，误差非常大，很容易得到负值，从而无法判断是否有因果涌现发生。（已改）

NIS系列

虽然可以通过两个阶段得到结果，但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题，无法直接进行优化，在NIS+中，将通过计算变分下界解决泛函问题。

我发现这里这样简单讲很难看懂，要不然这里就不放缺陷了，后面讲缺陷的时候统一讲。（好哒，识别这里要不要只介绍输入、输出、框架，这三个部分，两阶段也在下面解释，这里只说明没有最大化）

YMZ：可以的 PLL：识别NIS已改

机器学习领域的分布外泛化问题

以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上，且图像中，基本可以看见狗的整个身子。经过大量数据的训练之后，如果给模型一个在草地上奔跑的狗的图像，那么模型大概95%以上会判定这是狗；如果给一张在水泥地上，且遮挡了狗部分身体的图像，那么模型可能有一半的概率可以识别出图像中的动物是狗；如果给模型一张狗在游泳池中，只露出头的图像，那么模型大概率不能识别出来图像中的是狗。

这个例子本身叙述可以再简洁一些

讨论:NIS+

目录

因果涌现识别

基于信息分解的因果涌现识别

NIS系列

机器学习领域的分布外泛化问题

导航菜单

搜索