第626行: |
第626行: |
| | | |
| <math> | | <math> |
− | y=f(x)+\varepsilon, \varepsilon\sim\mathcal{N}(0,\epsilon^2) | + | y=f(x)+\varepsilon, \varepsilon\sim\mathcal{N}(0,\sigma^2) |
| </math> | | </math> |
| | | |
第633行: |
第633行: |
| 为了解决这个问题,我们假设x的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math],从而实施有效信息的计算。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。这一点可以从EI的定义中看出: | | 为了解决这个问题,我们假设x的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math],从而实施有效信息的计算。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。这一点可以从EI的定义中看出: |
| | | |
| + | {{NumBlk|:| |
| <math> | | <math> |
| \begin{aligned} | | \begin{aligned} |
| EI&=I(y;x|do(x\sim U[-L/2,L/2]))\\ | | EI&=I(y;x|do(x\sim U[-L/2,L/2]))\\ |
− | &=\int_{-L/2}^{L/2}\int_{f([-L/2,L/2])}p(x)p(y|x)\ln\frac{p(y|x)}{p(y)}dydx\\ | + | &=\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln\frac{p(y|x)}{p(y)}dydx\\ |
| + | &=\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx -\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y)dydx |
| + | \end{aligned} |
| + | </math> |
| + | |{{EquationRef|4}}}} |
| + | |
| + | 这里,[math]p(y|x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)[/math]为给定x的条件下,y的条件概率密度函数。由于[math]\varepsilon[/math]服从均值为0,方差为[math]\sigma^2[/math]的正态分布,所以[math]y=f(x)+\varepsilon[/math]就服从均值为[math]f(x)[/math],方差为[math]\sigma^2[/math]的正态分布。 |
| + | |
| + | y的积分区间为:[math]f([-\frac{L}{L},\frac{L}{2}])[/math],即将x的定义域[math][-\frac{L}{2},\frac{L}{2}[/math]经过f的映射,形成y上的区间范围。 |
| + | |
| + | [math]p(y)=\int_{-\frac{L}{2}}^{\frac{L}{2}}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)dx[/math]为y的概率密度函数,它也可以由联合概率密度函数[math]p(x,y)=p(x)p(y|x)[/math]对x进行积分得到。 |
| + | |
| + | 由于L很大,所以区间[math][-\frac{L}{2},\frac{L}{2}[/math],进而假设区间[math]f([-\frac{L}{L},\frac{L}{2}])[/math]也很大。这就使得,上述积分的积分上下界可以近似取到无穷大,也就有{{EquationNote|4}}中的第一项为: |
| + | |
| + | <math> |
| + | \begin{aligned} |
| + | \int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y|x)dydx\approx \int_{-\infty}^{\infty}\int_{\infty,\infty])}p(x)p(y|x)\ln p(y|x)dydx\\ |
| + | &=\int_{-\infty}^{\infty}\int_{\infty,\infty])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx\\ |
| + | &=\ln(\frac{L}{\sqrt{2\pi e}}) |
| + | \end{aligned} |
| + | </math> |
| + | |
| + | 其中,最后一个等式是根据高斯分布函数的Shannon熵公式计算得出的。然而,要计算第二项,即使使用了积分区间为无穷大这个条件,仍然很难计算得出结果,为此,我们对函数f(x)进行一阶泰勒展开: |
| + | |
| + | <math> |
| + | f(x)\approx f(x_0)+f'(x_0)(x-x_0) |
| + | </math> |
| + | |
| + | 因此,p(y)可以被近似计算: |
| + | |
| + | <math> |
| + | p(y)\approx \int_{-\infty}^{\infty}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x_0)-f'(x_0)(x-x_0))^2}{\sigma^2}\right)dx |
| + | </math> |
| + | |
| + | 这样,{{EquationNote|4}}中的第二项近似为: |
| + | |
| + | <math> |
| + | \int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}p(x)p(y|x)\ln p(y)dydx \approx \frac{1}{L}\cdot\frac{1}{f'(x_0)} |
| + | </math> |
| + | |
| &=\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx-\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{L}\int_{-\frac{L}{2}}^{\frac{L}{2}}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(z))^2}{\sigma^2}\right)dz\right]dydx\\ | | &=\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\right]dydx-\int_{-\frac{L}{2}}^{\frac{L}{2}}\int_{f([-\frac{L}{2},\frac{L}{2}])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\left[\frac{1}{L}\int_{-\frac{L}{2}}^{\frac{L}{2}}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(z))^2}{\sigma^2}\right)dz\right]dydx\\ |
| &=\int_{-L/2}^{L/2}\int_{f([-L/2,L/2])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\frac{\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)}{\int_{-L/2}^{L/2}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(z))^2}{\sigma^2}\right)dz}dydx\\ | | &=\int_{-L/2}^{L/2}\int_{f([-L/2,L/2])}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)\ln\frac{\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(x))^2}{\sigma^2}\right)}{\int_{-L/2}^{L/2}\frac{1}{L}\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(y-f(z))^2}{\sigma^2}\right)dz}dydx\\ |
− | &\approx \ln(\frac{L}{\sqrt{2\pi e}})+\frac{1}{2L}\int_{-L/2}^{L/2}\ln \left(\frac{f'(x)}{\epsilon}\right)^2dx. | + | &\approx \ln(\frac{L}{\sqrt{2\pi e}})+\frac{1}{2L}\int_{-L/2}^{L/2}\ln \left(\frac{f'(x)}{\epsilon}\right)^2dx. |
− | \end{aligned}
| + | |
− | </math>
| + | |
| | | |
| 如果同时考虑两种噪声,并且如果干预空间大小为<math>L | | 如果同时考虑两种噪声,并且如果干预空间大小为<math>L |