更改

删除8字节 、 2024年7月6日 (星期六)
第626行: 第626行:     
==随机函数映射==
 
==随机函数映射==
最初Erik Hoel考虑到了这一点,提出了[[因果几何]]<ref name=Chvykov_causal_geometry />框架,它不仅率先讨论了随机函数映射的EI计算问题,同时还引入了干预噪音和[[因果几何]]的概念,并等级地定义了EI的局部形式,并将这种形式与[[信息几何]]进行了对照和类比。下面,我们分别从一维函数映射、多维函数映射,和EI的局部形式来分别进行讨论。
+
最初Erik Hoel考虑到了这一点,提出了[[因果几何]]<ref name=Chvykov_causal_geometry />框架,它不仅率先讨论了随机函数映射的EI计算问题,同时还引入了干预噪音和[[因果几何]]的概念,并定义了EI的局部形式,并将这种形式与[[信息几何]]进行了对照和类比。下面,我们分别从一维函数映射、多维函数映射,和EI的局部形式来分别进行讨论。
    
===一维函数映射===
 
===一维函数映射===
第636行: 第636行:  
</math>
 
</math>
   −
其中,[math]x,y\in \mathcal{R}[/math]都是一维实数变量。按照有效信息的定义,我们需要对变量x进行干预,使其满足在其定义域空间上的均匀分布。如果x的定义域为一个固定的区间,如[a,b],其中a,b都是实数,那么x的概率密度函数就是[math]1/(b-a)[/math]。然而,当x的定义域为全体实数的时候,区间成为了无穷大,而x的概率密度函数就成为了无穷小。
+
其中,[math]x,y\in \mathcal{R}[/math]都是一维实数变量。按照有效信息的定义,我们需要对变量x进行干预,使其满足在其定义域空间上服从均匀分布。如果x的定义域为一个固定的区间,如[a,b],其中a,b都是实数,那么x的概率密度函数就是[math]1/(b-a)[/math]。然而,当x的定义域为全体实数的时候,区间成为了无穷大,而x的概率密度函数就成为了无穷小。
   −
为了解决这个问题,我们假设x的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math],从而实施有效信息的计算。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。这一点可以从EI的定义中看出:
+
为了解决这个问题,我们假设x的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math]。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。这一点可以从EI的定义中看出:
    
{{NumBlk|:|
 
{{NumBlk|:|
第660行: 第660行:  
为y的概率密度函数,它也可以由联合概率密度函数[math]p(x,y)=p(x)p(y|x)[/math]对x进行积分得到。为了后续叙述方便,我们将x重新命名为[math]x_0[/math],从而以区分出现在{{EquationNote|4}}中的其它x变量。
 
为y的概率密度函数,它也可以由联合概率密度函数[math]p(x,y)=p(x)p(y|x)[/math]对x进行积分得到。为了后续叙述方便,我们将x重新命名为[math]x_0[/math],从而以区分出现在{{EquationNote|4}}中的其它x变量。
   −
由于L很大,所以区间[math][-\frac{L}{2},\frac{L}{2}][/math],进而假设区间[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得,上述积分的积分上下界可以近似取到无穷大,也就有{{EquationNote|4}}中的第一项为:
+
由于L很大,所以区间[math][-\frac{L}{2},\frac{L}{2}][/math]很大,进而假设区间[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得,上述积分的积分上下界可以近似取到无穷大,也就有{{EquationNote|4}}中的第一项为:
    
<math>
 
<math>
 
\begin{aligned}
 
\begin{aligned}
\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx&\approx \int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{-\infty}^{\infty}p(x)p(y|x)\ln p(y|x)dydx\\
+
\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx&\approx \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p(x)p(y|x)\ln p(y|x)dydx\\
&=\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\
+
&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\
 
&=\ln(\frac{1}{\sigma\cdot\sqrt{2\pi e}})
 
&=\ln(\frac{1}{\sigma\cdot\sqrt{2\pi e}})
 
\end{aligned}
 
\end{aligned}
第672行: 第672行:  
其中,e为自然对数的底,最后一个等式是根据高斯分布函数的Shannon熵公式计算得出的。
 
其中,e为自然对数的底,最后一个等式是根据高斯分布函数的Shannon熵公式计算得出的。
   −
然而,要计算第二项,即使使用了积分区间为无穷大这个条件,仍然很难计算得出结果,为此,我们对函数f(x)进行一阶泰勒展开:
+
然而,要计算第二项,即使使用了积分区间为无穷大这个条件,仍然很难计算得出结果,为此,我们对函数[math]f(x_0)[/math]进行一阶泰勒展开:
    
<math>
 
<math>
第686行: 第686行:  
</math>
 
</math>
   −
值得注意的是,在这一步中,我们不仅将f(x)近似为一个线性函数,同时还引入了一个假设,即p(y)的结果与y无关,而与[math]x[/math]有关。我们知道在对EI计算的第二项中包含着对x的积分,因此这一近似也就意味着不同x处的p(y)近似是不同的。
+
值得注意的是,在这一步中,我们不仅将[math]f(x_0)[/math]近似为一个线性函数,同时还引入了一个假设,即p(y)的结果与y无关,而与[math]x[/math]有关。我们知道在对EI计算的第二项中包含着对x的积分,因此这一近似也就意味着不同x处的p(y)近似是不同的。
    
这样,{{EquationNote|4}}中的第二项近似为:
 
这样,{{EquationNote|4}}中的第二项近似为:
第712行: 第712行:     
其中<math>\epsilon</math>和<math>\delta</math>分别表示观测噪音和干预噪音的大小。-->
 
其中<math>\epsilon</math>和<math>\delta</math>分别表示观测噪音和干预噪音的大小。-->
上述推导首见于Hoel2013的文章中<ref name=hoel_2013 />,并在[[神经信息压缩器]]一文中<ref name=zhang_nis />中进行了详细讨论。
+
与上述推导类似的推导首见于Hoel2013的文章中<ref name=hoel_2013 />,并在[[神经信息压缩器]]一文中<ref name=zhang_nis />中进行了详细讨论。
    
===高维情况===
 
===高维情况===
786

个编辑