更改

跳到导航 跳到搜索
添加851字节 、 2024年6月5日 (星期三)
第485行: 第485行:  
EI_{max}=\log N
 
EI_{max}=\log N
 
</math>
 
</math>
 +
 +
 +
==最简马尔科夫链下的解析解==
 +
 +
我们考虑一个最简单的2*2马尔科夫链矩阵:
 +
 +
<math>
 +
P=\begin{pmatrix}p & 1-p \\1-q & q\end{pmatrix},
 +
</math>
 +
 +
其中 [math]p[/math] 和 [math]q[/math] 为取值 [math][0,1][/math] 的参数。
 +
 +
这个参数为 [math]p[/math] 和 [math]q[/math] 的tpm 的 EI 可以通过以下解析解计算:
 +
 +
<math>
 +
EI=\frac{1}{2}\left[p\log_2\frac{2p}{1+p-q}+(1-p)\log_2\frac{2(1-p)}{1-p+q}\right. + \left.(1-q)\log_2\frac{2(1-q)}{1+p-q}+q\log_2\frac{2q}{1-p+q}\right]
 +
</math>
 +
 +
下图展示了不同[math]p[/math] 和 [math]q[/math]取值的 EI 的变化。
 +
 +
[[文件:EIpq.png|替代=|400x400像素]]
 +
 +
由这张图不难看出,当p+q=1的时候,也就是所有行向量都相同的情形,EI取得最小值0。否则,随着p,q沿着垂直于p+q=1的方向增大,EI开始变大,而最大值为1.
 +
    
==因果涌现==
 
==因果涌现==
第547行: 第571行:  
上图展示了几种马尔科夫链的转移概率矩阵,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。
 
上图展示了几种马尔科夫链的转移概率矩阵,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。
 
-->
 
-->
 +
    
==计算EI的源代码==
 
==计算EI的源代码==
第634行: 第659行:  
==前馈神经网络==
 
==前馈神经网络==
 
针对复杂系统自动建模任务,我们往往使用神经网络来建模系统动力学。具体的,对于前馈神经网络来说,张江等人推导出了前馈神经网络有效信息的计算公式,其中神经网络的输入是<math>x(x_1,...,x_n)</math>,输出是<math>y(y_1,...,y_n)</math>,其中<math>y=f(x)</math>,<math>f</math>是由神经网络实现的确定性映射。通过将神经网络看作是给定输入<math>x</math>的条件高斯分布,我们可以给出神经网络有效信息的一般计算公式:
 
针对复杂系统自动建模任务,我们往往使用神经网络来建模系统动力学。具体的,对于前馈神经网络来说,张江等人推导出了前馈神经网络有效信息的计算公式,其中神经网络的输入是<math>x(x_1,...,x_n)</math>,输出是<math>y(y_1,...,y_n)</math>,其中<math>y=f(x)</math>,<math>f</math>是由神经网络实现的确定性映射。通过将神经网络看作是给定输入<math>x</math>的条件高斯分布,我们可以给出神经网络有效信息的一般计算公式:
* 当<math>\det(\partial_{x'}f(x))\neq0</math>:  
+
*当<math>\det(\partial_{x'}f(x))\neq0</math>:
 
<math>\begin{gathered}EI(f)=I(do(x\sim U([-L,L]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\operatorname{E}_{x\sim U([-L,L]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)\end{gathered} </math>
 
<math>\begin{gathered}EI(f)=I(do(x\sim U([-L,L]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\operatorname{E}_{x\sim U([-L,L]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)\end{gathered} </math>
    
其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>y_i </math>的标准差,可以通过<math>y_i </math>的均方误差来估计,<math>\det </math>表示函数<math>f </math>的雅可比行列式
 
其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>y_i </math>的标准差,可以通过<math>y_i </math>的均方误差来估计,<math>\det </math>表示函数<math>f </math>的雅可比行列式
* 当对于所有的<math>x</math>,<math>\partial_{x'}f(x)</math>为0矩阵时: <math>\begin{gathered}EI(f)\approx\end{gathered}0</math>
+
*当对于所有的<math>x</math>,<math>\partial_{x'}f(x)</math>为0矩阵时: <math>\begin{gathered}EI(f)\approx\end{gathered}0</math>
    
=EI与其它相关主题=
 
=EI与其它相关主题=
372

个编辑

导航菜单