更改

有效信息 (查看源代码)

2024年6月9日 (日) 14:52的版本

添加40字节、 2024年6月9日 (星期日)

第841行：第841行：

由此，套用高维映射一般情况下的结论，我们可以给出神经网络有效信息的一般计算公式：

−

<math>\begin{gathered}EI(f)=I(do(x\sim U([-\frac{L}{2},\frac{L}{2}]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\mathbb{E}_{x\sim U([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x~~^{\prime}~~}f(x)))|)\end{gathered} </math>

+

<math>\begin{gathered}EI(f)=I(do(x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\mathbb{E}_{x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x}f(x)))|)\end{gathered} </math>

−

其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布，<math>\det </math>表示函数<math>f </math>的雅可比行列式。维度平均EI为：

+

其中<math>\mathcal{U}\left(\left[-L/2, L/2\right]^n\right) </math>表示范围在<math>\left[-L/2 ,L/2\right]^n</math>上的<math>n </math>维均匀分布，<math>\det </math>表示函数<math>f </math>的雅可比行列式。维度平均EI为：

<math>

\begin{gathered}

−

\mathcal{J}\equiv \frac{EI(f)}{n}\approx -\frac{\ln(2\pi e)}{2}-\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\ln(2L)+\frac{1}{n}\cdot\mathbb{E}_{x\sim U([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x~~^{\prime}~~}f(x)))|)

+

\mathcal{J}\equiv \frac{EI(f)}{n}\approx -\frac{\ln(2\pi e)}{2}-\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\ln(2L)+\frac{1}{n}\cdot\mathbb{E}_{x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x}f(x)))|)

\end{gathered}

</math>

第856行：第856行：

<math>

\begin{gathered}

−

\mathcal{\Delta J}\equiv \frac{EI(F)}{m}-\frac{EI(f)}{n}\approx -\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\frac{\sum_{i=1}^m\ln\sigma'_i}{m}+\frac{1}{n}\cdot\mathbb{E}_{x\sim U([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x~~^{\prime}~~}f(x)))|)-\frac{1}{m}\cdot\mathbb{E}_{y\sim U([-\frac{L}{2},\frac{L}{2}]^m)}(\ln|\det(\partial_{y}F(y)))|)

+

\mathcal{\Delta J}\equiv \frac{EI(F)}{m}-\frac{EI(f)}{n}\approx -\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\frac{\sum_{i=1}^m\ln\sigma'_i}{m}+\frac{1}{n}\cdot\mathbb{E}_{x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x}f(x)))|)-\frac{1}{m}\cdot\mathbb{E}_{X\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^m)}(\ln|\det(\partial_{X}F(X)))|)

\end{gathered}

</math>

−

其中，[math]m[/math]为宏观态维度，[math]\sigma'_i[/math]为第i个宏观维度的平均平方误差（MSE），这一误差可以通过反向传播算法计算的宏观态[math]~~y_i~~[/math]的梯度计算得出。

+

其中，[math]m[/math]为宏观态维度，[math]\sigma'_i[/math]为第i个宏观维度的平均平方误差（MSE），这一误差可以通过反向传播算法计算的宏观态[math]X_i[/math]的梯度计算得出。

−

注意，上述结论都要求：<math>\partial_{x'}f(x)</math>不为0，而对于所有的<math>x</math>，<math>\partial_{x'}f(x)</math>处处为0时，我们得到：

+

注意，上述结论都要求：<math>\partial_{x}f(x)</math>不为0，而对于所有的<math>x</math>，<math>\partial_{x}f(x)</math>处处为0时，我们得到：

<math>\begin{gathered}EI(f)\approx\end{gathered}0</math>。对于更一般的情形，则需要考虑矩阵不满秩的情况。

Jake

346

个编辑