更改

NIS+ (查看源代码)

2024年8月2日 (五) 15:44的版本

删除10字节、 2024年8月2日 (星期五)

第104行：第104行：

== 神经网络上的EI计算 ==

−

如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>，则表示X定义在一个大小为L的超立方体上，其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>， <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>，它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布，则神经网络的有效信息(EI)可以用以下方法计算:{{NumBlk|：|2=[math]\displaystyle{ EI_L(μ)=I(do(X\sim U([-L,L]^{n};Y) ≈ -\frac{m+m\ln(2\pi)+\sum_{i=1}^m\sigma_i^2/m}{2}+n\ln(2L)+\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} f(X)){{!}}\right) }[/math]|3={{EquationRef|2}}}}式中，<math>$\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)$</math> 是协方差矩阵， <math>$\sigma_i$</math>是输出<math>$\y_i$</math>的标准差，可由<math>$\y_i$</math>的均方误差估计得到，<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布，<math>| · |</math>为绝对值，det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X，则令EI≈0。

+

如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>，则表示X定义在一个大小为L的超立方体上，其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>， <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>，它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布，则神经网络的有效信息(EI)可以用以下方法计算:{{NumBlk|：|2=[math]\displaystyle{ EI_L(μ)=I(do(X\sim U([-L,L]^{n};Y) ≈ -\frac{m+m\ln(2\pi)+\sum_{i=1}^m\sigma_i^2/m}{2}+n\ln(2L)+\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} f(X)){{!}}\right) }[/math]|3={{EquationRef|2}}}}式中，<math>\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)</math> 是协方差矩阵， <math>\sigma_i</math>是输出<math>y_i</math>的标准差，可由<math>y_i</math>的均方误差估计得到，<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布，<math>| · |</math>为绝对值，det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X，则令EI≈0。

但是，此公式不能直接应用于实际情况，因为它会随着输入n或输出m的维数增加而增加。解决这一问题的方法是通过除以输入维数来定义维度平均有效信息(dEI)，记为：

念

259

个编辑