第626行: |
第626行: |
| | | |
| ==随机函数映射== | | ==随机函数映射== |
− | 最初Erik Hoel考虑到了这一点,提出了[[因果几何]]<ref name=Chvykov_causal_geometry />框架,它不仅率先讨论了随机函数映射的EI计算问题,同时还引入了干预噪音和[[因果几何]]的概念,并等级地定义了EI的局部形式,并将这种形式与[[信息几何]]进行了对照和类比。下面,我们分别从一维函数映射、多维函数映射,和EI的局部形式来分别进行讨论。 | + | 最初Erik Hoel考虑到了这一点,提出了[[因果几何]]<ref name=Chvykov_causal_geometry />框架,它不仅率先讨论了随机函数映射的EI计算问题,同时还引入了干预噪音和[[因果几何]]的概念,并定义了EI的局部形式,并将这种形式与[[信息几何]]进行了对照和类比。下面,我们分别从一维函数映射、多维函数映射,和EI的局部形式来分别进行讨论。 |
| | | |
| ===一维函数映射=== | | ===一维函数映射=== |
第636行: |
第636行: |
| </math> | | </math> |
| | | |
− | 其中,[math]x,y\in \mathcal{R}[/math]都是一维实数变量。按照有效信息的定义,我们需要对变量x进行干预,使其满足在其定义域空间上的均匀分布。如果x的定义域为一个固定的区间,如[a,b],其中a,b都是实数,那么x的概率密度函数就是[math]1/(b-a)[/math]。然而,当x的定义域为全体实数的时候,区间成为了无穷大,而x的概率密度函数就成为了无穷小。 | + | 其中,[math]x,y\in \mathcal{R}[/math]都是一维实数变量。按照有效信息的定义,我们需要对变量x进行干预,使其满足在其定义域空间上服从均匀分布。如果x的定义域为一个固定的区间,如[a,b],其中a,b都是实数,那么x的概率密度函数就是[math]1/(b-a)[/math]。然而,当x的定义域为全体实数的时候,区间成为了无穷大,而x的概率密度函数就成为了无穷小。 |
| | | |
− | 为了解决这个问题,我们假设x的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math],从而实施有效信息的计算。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。这一点可以从EI的定义中看出: | + | 为了解决这个问题,我们假设x的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math]。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。这一点可以从EI的定义中看出: |
| | | |
| {{NumBlk|:| | | {{NumBlk|:| |
第660行: |
第660行: |
| 为y的概率密度函数,它也可以由联合概率密度函数[math]p(x,y)=p(x)p(y|x)[/math]对x进行积分得到。为了后续叙述方便,我们将x重新命名为[math]x_0[/math],从而以区分出现在{{EquationNote|4}}中的其它x变量。 | | 为y的概率密度函数,它也可以由联合概率密度函数[math]p(x,y)=p(x)p(y|x)[/math]对x进行积分得到。为了后续叙述方便,我们将x重新命名为[math]x_0[/math],从而以区分出现在{{EquationNote|4}}中的其它x变量。 |
| | | |
− | 由于L很大,所以区间[math][-\frac{L}{2},\frac{L}{2}][/math],进而假设区间[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得,上述积分的积分上下界可以近似取到无穷大,也就有{{EquationNote|4}}中的第一项为: | + | 由于L很大,所以区间[math][-\frac{L}{2},\frac{L}{2}][/math]很大,进而假设区间[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得,上述积分的积分上下界可以近似取到无穷大,也就有{{EquationNote|4}}中的第一项为: |
| | | |
| <math> | | <math> |
| \begin{aligned} | | \begin{aligned} |
− | \int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx&\approx \int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{-\infty}^{\infty}p(x)p(y|x)\ln p(y|x)dydx\\ | + | \int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx&\approx \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p(x)p(y|x)\ln p(y|x)dydx\\ |
− | &=\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\ | + | &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\ |
| &=\ln(\frac{1}{\sigma\cdot\sqrt{2\pi e}}) | | &=\ln(\frac{1}{\sigma\cdot\sqrt{2\pi e}}) |
| \end{aligned} | | \end{aligned} |
第672行: |
第672行: |
| 其中,e为自然对数的底,最后一个等式是根据高斯分布函数的Shannon熵公式计算得出的。 | | 其中,e为自然对数的底,最后一个等式是根据高斯分布函数的Shannon熵公式计算得出的。 |
| | | |
− | 然而,要计算第二项,即使使用了积分区间为无穷大这个条件,仍然很难计算得出结果,为此,我们对函数f(x)进行一阶泰勒展开:
| + | 然而,要计算第二项,即使使用了积分区间为无穷大这个条件,仍然很难计算得出结果,为此,我们对函数[math]f(x_0)[/math]进行一阶泰勒展开: |
| | | |
| <math> | | <math> |
第686行: |
第686行: |
| </math> | | </math> |
| | | |
− | 值得注意的是,在这一步中,我们不仅将f(x)近似为一个线性函数,同时还引入了一个假设,即p(y)的结果与y无关,而与[math]x[/math]有关。我们知道在对EI计算的第二项中包含着对x的积分,因此这一近似也就意味着不同x处的p(y)近似是不同的。
| + | 值得注意的是,在这一步中,我们不仅将[math]f(x_0)[/math]近似为一个线性函数,同时还引入了一个假设,即p(y)的结果与y无关,而与[math]x[/math]有关。我们知道在对EI计算的第二项中包含着对x的积分,因此这一近似也就意味着不同x处的p(y)近似是不同的。 |
| | | |
| 这样,{{EquationNote|4}}中的第二项近似为: | | 这样,{{EquationNote|4}}中的第二项近似为: |
第712行: |
第712行: |
| | | |
| 其中<math>\epsilon</math>和<math>\delta</math>分别表示观测噪音和干预噪音的大小。--> | | 其中<math>\epsilon</math>和<math>\delta</math>分别表示观测噪音和干预噪音的大小。--> |
− | 上述推导首见于Hoel2013的文章中<ref name=hoel_2013 />,并在[[神经信息压缩器]]一文中<ref name=zhang_nis />中进行了详细讨论。
| + | 与上述推导类似的推导首见于Hoel2013的文章中<ref name=hoel_2013 />,并在[[神经信息压缩器]]一文中<ref name=zhang_nis />中进行了详细讨论。 |
| | | |
| ===高维情况=== | | ===高维情况=== |