“讨论:NIS+”的版本间的差异
跳到导航
跳到搜索
(→因果涌现识别) |
|||
第12行: | 第12行: | ||
(已改,神经网络框架是指?图片是这个吗?) | (已改,神经网络框架是指?图片是这个吗?) | ||
− | YMZ: 不是这张图,而是Learning Causally Emergent | + | YMZ: 不是这张图,而是Learning Causally Emergent Representations这篇文章里的神经网络框架,因果涌现词条里有提,简单地照着它那个写一下就行 |
* 基于互信息的近似方法 | * 基于互信息的近似方法 | ||
这里记得和下面标题统一 | 这里记得和下面标题统一 | ||
+ | |||
+ | =基于信息分解的因果涌现识别= | ||
+ | |||
+ | * 需要指出的是,此方法是基于格兰杰因果,Hoel的方法基于Judea Pearl因果,且此方法只是互信息的组合,没有引入do干预。 | ||
+ | |||
+ | 这句话再重新组织一下吧,不然容易让人感觉后面说的“此方法”指的是Hoel的方法。 | ||
=NIS系列= | =NIS系列= |
2024年7月30日 (二) 11:16的版本
因果涌现识别
- 基于信息分解的因果涌现识别
这部分简写吧,按照我们之前讨论的,只突出最后的公式。另外加入神经网络框架相关的部分,图片可以先用原论文的,等志鹏那边重画好了到时候借用他们的新图。名字上还可以用“基于信息分解的因果涌现识别”,提一句:信息分解框架中定义的信息原子难以计算,作者们推导出只需要计算互信息的近似公式。还要在某一个地方强调Rosas等人识别出来的因果涌现和Hoel等定义的因果涌现是不一样的,具体可参见“因果涌现”词条。
- 该方法只是基于互信息计算没有考虑因果,
Rosas他们也声称是因果涌现,是因为他们是基于格兰杰因果的。所以不能说它们完全没考虑因果,只是要比较格兰杰因果和Judea Pearl的因果。
(已改,神经网络框架是指?图片是这个吗?)
YMZ: 不是这张图,而是Learning Causally Emergent Representations这篇文章里的神经网络框架,因果涌现词条里有提,简单地照着它那个写一下就行
- 基于互信息的近似方法
这里记得和下面标题统一
基于信息分解的因果涌现识别
- 需要指出的是,此方法是基于格兰杰因果,Hoel的方法基于Judea Pearl因果,且此方法只是互信息的组合,没有引入do干预。
这句话再重新组织一下吧,不然容易让人感觉后面说的“此方法”指的是Hoel的方法。
NIS系列
- 在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
这一段放后面吧,让这里更简洁一点。(已改位置)
- 虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。
我发现这里这样简单讲很难看懂,要不然这里就不放缺陷了,后面讲缺陷的时候统一讲。(好哒,识别这里要不要只介绍输入、输出、框架,这三个部分,两阶段也在下面解释,这里只说明没有最大化)
YMZ:可以的