更改

有效信息 (查看源代码)

2024年7月6日 (六) 10:48的版本

删除8字节、 2024年7月6日 (星期六)

第626行：第626行：

==随机函数映射==

−

最初Erik Hoel考虑到了这一点，提出了[[因果几何]]<ref name=Chvykov_causal_geometry />框架，它不仅率先讨论了随机函数映射的EI计算问题，同时还引入了干预噪音和[[因果几何]]~~的概念，并等级地定义了EI的局部形式，并将这种形式与~~[[信息几何]]进行了对照和类比。下面，我们分别从一维函数映射、多维函数映射，和EI的局部形式来分别进行讨论。

+

最初Erik Hoel考虑到了这一点，提出了[[因果几何]]<ref name=Chvykov_causal_geometry />框架，它不仅率先讨论了随机函数映射的EI计算问题，同时还引入了干预噪音和[[因果几何]]的概念，并定义了EI的局部形式，并将这种形式与[[信息几何]]进行了对照和类比。下面，我们分别从一维函数映射、多维函数映射，和EI的局部形式来分别进行讨论。

===一维函数映射===

第636行：第636行：

</math>

−

其中，[math]x,y\in \mathcal{R}[/math]~~都是一维实数变量。按照有效信息的定义，我们需要对变量x进行干预，使其满足在其定义域空间上的均匀分布。如果x的定义域为一个固定的区间，如~~[a,b]，其中a,b都是实数，那么x的概率密度函数就是[math]1/(b-a)[/math]。然而，当x的定义域为全体实数的时候，区间成为了无穷大，而x的概率密度函数就成为了无穷小。

+

其中，[math]x,y\in \mathcal{R}[/math]都是一维实数变量。按照有效信息的定义，我们需要对变量x进行干预，使其满足在其定义域空间上服从均匀分布。如果x的定义域为一个固定的区间，如[a,b]，其中a,b都是实数，那么x的概率密度函数就是[math]1/(b-a)[/math]。然而，当x的定义域为全体实数的时候，区间成为了无穷大，而x的概率密度函数就成为了无穷小。

−

为了解决这个问题，我们假设x的定义域不是整个实数空间，而是一个足够大的区域：[math][-L/2,L/2][/math]，其中L为该区间的大小。这样，该区域上的均匀分布的密度函数为：[math]1/L[/math]~~，从而实施有效信息的计算。我们希望当~~[math]L\rightarrow +\infty[/math]的时候，EI能够收敛到一个有限的数。然而，实际的EI是一个和x定义域大小有关的量，所以EI是参数L的函数。这一点可以从EI的定义中看出：

+

为了解决这个问题，我们假设x的定义域不是整个实数空间，而是一个足够大的区域：[math][-L/2,L/2][/math]，其中L为该区间的大小。这样，该区域上的均匀分布的密度函数为：[math]1/L[/math]。我们希望当[math]L\rightarrow +\infty[/math]的时候，EI能够收敛到一个有限的数。然而，实际的EI是一个和x定义域大小有关的量，所以EI是参数L的函数。这一点可以从EI的定义中看出：

{{NumBlk|:|

第660行：第660行：

为y的概率密度函数，它也可以由联合概率密度函数[math]p(x,y)=p(x)p(y|x)[/math]对x进行积分得到。为了后续叙述方便，我们将x重新命名为[math]x_0[/math]，从而以区分出现在{{EquationNote|4}}中的其它x变量。

−

由于L很大，所以区间[math][-\frac{L}{2},\frac{L}{2}][/math]~~，进而假设区间~~[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得，上述积分的积分上下界可以近似取到无穷大，也就有{{EquationNote|4}}中的第一项为：

+

由于L很大，所以区间[math][-\frac{L}{2},\frac{L}{2}][/math]很大，进而假设区间[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得，上述积分的积分上下界可以近似取到无穷大，也就有{{EquationNote|4}}中的第一项为：

<math>

\begin{aligned}

−

\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx&\approx \int_{-\~~frac{L}{2}~~}^{\~~frac{L}{2}~~}\int_{-\infty}^{\infty}p(x)p(y|x)\ln p(y|x)dydx\\

+

\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx&\approx \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p(x)p(y|x)\ln p(y|x)dydx\\

−

&=\int_{-\~~frac{L}{2}~~}^{\~~frac{L}{2}~~}\int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\

+

&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\

&=\ln(\frac{1}{\sigma\cdot\sqrt{2\pi e}})

\end{aligned}

第672行：第672行：

其中，e为自然对数的底，最后一个等式是根据高斯分布函数的Shannon熵公式计算得出的。

−

~~然而，要计算第二项，即使使用了积分区间为无穷大这个条件，仍然很难计算得出结果，为此，我们对函数f~~(x)进行一阶泰勒展开：

+

然而，要计算第二项，即使使用了积分区间为无穷大这个条件，仍然很难计算得出结果，为此，我们对函数[math]f(x_0)[/math]进行一阶泰勒展开：

<math>

第686行：第686行：

</math>

−

~~值得注意的是，在这一步中，我们不仅将f~~(x)近似为一个线性函数，同时还引入了一个假设，即p(y)的结果与y无关，而与[math]x[/math]有关。我们知道在对EI计算的第二项中包含着对x的积分，因此这一近似也就意味着不同x处的p(y)近似是不同的。

+

值得注意的是，在这一步中，我们不仅将[math]f(x_0)[/math]近似为一个线性函数，同时还引入了一个假设，即p(y)的结果与y无关，而与[math]x[/math]有关。我们知道在对EI计算的第二项中包含着对x的积分，因此这一近似也就意味着不同x处的p(y)近似是不同的。

这样，{{EquationNote|4}}中的第二项近似为：

第712行：第712行：

其中<math>\epsilon</math>和<math>\delta</math>分别表示观测噪音和干预噪音的大小。-->

−

~~上述推导首见于Hoel2013的文章中~~<ref name=hoel_2013 />，并在[[神经信息压缩器]]一文中<ref name=zhang_nis />中进行了详细讨论。

+

与上述推导类似的推导首见于Hoel2013的文章中<ref name=hoel_2013 />，并在[[神经信息压缩器]]一文中<ref name=zhang_nis />中进行了详细讨论。

===高维情况===

Jake

786

个编辑