第106行: |
第106行: |
| 如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算: | | 如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算: |
| | | |
− | {{NumBlk|:|2=<blockquote>EI_L(\mu)=I(do(X\sim U([-L,L]^{n};Y)\approx & -\frac{m+m \ln (2\pi)+ \sum_{i=1}^m\sigma_i^2}{2}\\ | + | {{NumBlk|:|2=<blockquote>EI_L(\mu)=I(do(X\sim U([-L,L]^{n};Y)\approx & -\frac{m+m \ln (2\pi)+\sum_{i=1}^m\sigma_i^2}{2}\\& +n\ln (2L) + \mathbf{E}_{X\sim U([-L,L]^n} \left(\ln{{!}}\det(\partial_{X'} \mu(X)){{!}}\right)<\blockquote>|3={{EquationRef|2}}}} |
− | & +n\ln (2L) + \mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} \mu(X)){{!}}\right)<\blockquote>|3={{EquationRef|2}}}}
| |
| | | |
| 式中,<math>$\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)$</math> 是协方差矩阵, <math>$\sigma_i$</math>是输出<math>$\y_i$</math>的标准差,可由<math>$\y_i$</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。 | | 式中,<math>$\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)$</math> 是协方差矩阵, <math>$\sigma_i$</math>是输出<math>$\y_i$</math>的标准差,可由<math>$\y_i$</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。 |
第125行: |
第124行: |
| 如果<math>f_M</math>和<math>f_m</math>由q维的<math>µ_M</math>和p维的<math>µ_m</math>的神经网络参数化,则: | | 如果<math>f_M</math>和<math>f_m</math>由q维的<math>µ_M</math>和p维的<math>µ_m</math>的神经网络参数化,则: |
| | | |
− | <math>\Delta\mathcal{J}=&\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)\\ | + | <math>\Delta\mathcal{J}=&\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det\partial_{X_m}\mu_m|\right)\\&-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math> |
− | &-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math>
| |
| | | |
| 式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>µ_M</math>和<math>µ_m</math>在第i维上的标准差。 | | 式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>µ_M</math>和<math>µ_m</math>在第i维上的标准差。 |