第485行: |
第485行: |
| EI_{max}=\log N | | EI_{max}=\log N |
| </math> | | </math> |
| + | |
| + | |
| + | ==最简马尔科夫链下的解析解== |
| + | |
| + | 我们考虑一个最简单的2*2马尔科夫链矩阵: |
| + | |
| + | <math> |
| + | P=\begin{pmatrix}p & 1-p \\1-q & q\end{pmatrix}, |
| + | </math> |
| + | |
| + | 其中 [math]p[/math] 和 [math]q[/math] 为取值 [math][0,1][/math] 的参数。 |
| + | |
| + | 这个参数为 [math]p[/math] 和 [math]q[/math] 的tpm 的 EI 可以通过以下解析解计算: |
| + | |
| + | <math> |
| + | EI=\frac{1}{2}\left[p\log_2\frac{2p}{1+p-q}+(1-p)\log_2\frac{2(1-p)}{1-p+q}\right. + \left.(1-q)\log_2\frac{2(1-q)}{1+p-q}+q\log_2\frac{2q}{1-p+q}\right] |
| + | </math> |
| + | |
| + | 下图展示了不同[math]p[/math] 和 [math]q[/math]取值的 EI 的变化。 |
| + | |
| + | [[文件:EIpq.png|替代=|400x400像素]] |
| + | |
| + | 由这张图不难看出,当p+q=1的时候,也就是所有行向量都相同的情形,EI取得最小值0。否则,随着p,q沿着垂直于p+q=1的方向增大,EI开始变大,而最大值为1. |
| + | |
| | | |
| ==因果涌现== | | ==因果涌现== |
第547行: |
第571行: |
| 上图展示了几种马尔科夫链的转移概率矩阵,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。 | | 上图展示了几种马尔科夫链的转移概率矩阵,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。 |
| --> | | --> |
| + | |
| | | |
| ==计算EI的源代码== | | ==计算EI的源代码== |
第634行: |
第659行: |
| ==前馈神经网络== | | ==前馈神经网络== |
| 针对复杂系统自动建模任务,我们往往使用神经网络来建模系统动力学。具体的,对于前馈神经网络来说,张江等人推导出了前馈神经网络有效信息的计算公式,其中神经网络的输入是<math>x(x_1,...,x_n)</math>,输出是<math>y(y_1,...,y_n)</math>,其中<math>y=f(x)</math>,<math>f</math>是由神经网络实现的确定性映射。通过将神经网络看作是给定输入<math>x</math>的条件高斯分布,我们可以给出神经网络有效信息的一般计算公式: | | 针对复杂系统自动建模任务,我们往往使用神经网络来建模系统动力学。具体的,对于前馈神经网络来说,张江等人推导出了前馈神经网络有效信息的计算公式,其中神经网络的输入是<math>x(x_1,...,x_n)</math>,输出是<math>y(y_1,...,y_n)</math>,其中<math>y=f(x)</math>,<math>f</math>是由神经网络实现的确定性映射。通过将神经网络看作是给定输入<math>x</math>的条件高斯分布,我们可以给出神经网络有效信息的一般计算公式: |
− | * 当<math>\det(\partial_{x'}f(x))\neq0</math>: | + | *当<math>\det(\partial_{x'}f(x))\neq0</math>: |
| <math>\begin{gathered}EI(f)=I(do(x\sim U([-L,L]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\operatorname{E}_{x\sim U([-L,L]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)\end{gathered} </math> | | <math>\begin{gathered}EI(f)=I(do(x\sim U([-L,L]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\operatorname{E}_{x\sim U([-L,L]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)\end{gathered} </math> |
| | | |
| 其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>y_i </math>的标准差,可以通过<math>y_i </math>的均方误差来估计,<math>\det </math>表示函数<math>f </math>的雅可比行列式 | | 其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>y_i </math>的标准差,可以通过<math>y_i </math>的均方误差来估计,<math>\det </math>表示函数<math>f </math>的雅可比行列式 |
− | * 当对于所有的<math>x</math>,<math>\partial_{x'}f(x)</math>为0矩阵时: <math>\begin{gathered}EI(f)\approx\end{gathered}0</math> | + | *当对于所有的<math>x</math>,<math>\partial_{x'}f(x)</math>为0矩阵时: <math>\begin{gathered}EI(f)\approx\end{gathered}0</math> |
| | | |
| =EI与其它相关主题= | | =EI与其它相关主题= |