更改

跳到导航 跳到搜索
添加40字节 、 2024年6月9日 (星期日)
第841行: 第841行:  
由此,套用高维映射一般情况下的结论,我们可以给出神经网络有效信息的一般计算公式:
 
由此,套用高维映射一般情况下的结论,我们可以给出神经网络有效信息的一般计算公式:
   −
<math>\begin{gathered}EI(f)=I(do(x\sim U([-\frac{L}{2},\frac{L}{2}]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\mathbb{E}_{x\sim U([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)\end{gathered} </math>
+
<math>\begin{gathered}EI(f)=I(do(x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n));y)\approx-\frac{n+n\ln(2\pi)+\sum_{i=1}^n\ln\sigma_i^2}2+n\ln(2L)+\mathbb{E}_{x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x}f(x)))|)\end{gathered} </math>
   −
其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布,<math>\det </math>表示函数<math>f </math>的雅可比行列式。维度平均EI为:
+
其中<math>\mathcal{U}\left(\left[-L/2, L/2\right]^n\right) </math>表示范围在<math>\left[-L/2 ,L/2\right]^n</math>上的<math>n </math>维均匀分布,<math>\det </math>表示函数<math>f </math>的雅可比行列式。维度平均EI为:
    
<math>
 
<math>
 
\begin{gathered}
 
\begin{gathered}
\mathcal{J}\equiv \frac{EI(f)}{n}\approx -\frac{\ln(2\pi e)}{2}-\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\ln(2L)+\frac{1}{n}\cdot\mathbb{E}_{x\sim U([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)
+
\mathcal{J}\equiv \frac{EI(f)}{n}\approx -\frac{\ln(2\pi e)}{2}-\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\ln(2L)+\frac{1}{n}\cdot\mathbb{E}_{x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x}f(x)))|)
 
\end{gathered}  
 
\end{gathered}  
 
</math>
 
</math>
第856行: 第856行:  
<math>
 
<math>
 
\begin{gathered}
 
\begin{gathered}
\mathcal{\Delta J}\equiv \frac{EI(F)}{m}-\frac{EI(f)}{n}\approx -\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\frac{\sum_{i=1}^m\ln\sigma'_i}{m}+\frac{1}{n}\cdot\mathbb{E}_{x\sim U([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x^{\prime}}f(x)))|)-\frac{1}{m}\cdot\mathbb{E}_{y\sim U([-\frac{L}{2},\frac{L}{2}]^m)}(\ln|\det(\partial_{y}F(y)))|)
+
\mathcal{\Delta J}\equiv \frac{EI(F)}{m}-\frac{EI(f)}{n}\approx -\frac{\sum_{i=1}^n\ln\sigma_i}{n}+\frac{\sum_{i=1}^m\ln\sigma'_i}{m}+\frac{1}{n}\cdot\mathbb{E}_{x\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^n)}(\ln|\det(\partial_{x}f(x)))|)-\frac{1}{m}\cdot\mathbb{E}_{X\sim \mathcal{U}([-\frac{L}{2},\frac{L}{2}]^m)}(\ln|\det(\partial_{X}F(X)))|)
 
\end{gathered}  
 
\end{gathered}  
 
</math>
 
</math>
   −
其中,[math]m[/math]为宏观态维度,[math]\sigma'_i[/math]为第i个宏观维度的平均平方误差(MSE),这一误差可以通过反向传播算法计算的宏观态[math]y_i[/math]的梯度计算得出。
+
其中,[math]m[/math]为宏观态维度,[math]\sigma'_i[/math]为第i个宏观维度的平均平方误差(MSE),这一误差可以通过反向传播算法计算的宏观态[math]X_i[/math]的梯度计算得出。
   −
注意,上述结论都要求:<math>\partial_{x'}f(x)</math>不为0,而对于所有的<math>x</math>,<math>\partial_{x'}f(x)</math>处处为0时,我们得到:  
+
注意,上述结论都要求:<math>\partial_{x}f(x)</math>不为0,而对于所有的<math>x</math>,<math>\partial_{x}f(x)</math>处处为0时,我们得到:  
 
<math>\begin{gathered}EI(f)\approx\end{gathered}0</math>。对于更一般的情形,则需要考虑矩阵不满秩的情况。
 
<math>\begin{gathered}EI(f)\approx\end{gathered}0</math>。对于更一般的情形,则需要考虑矩阵不满秩的情况。
  
332

个编辑

导航菜单