第231行: |
第231行: |
| | | |
| | | |
− | <nowiki>**************************************</nowiki>
| |
| | | |
− | 引理1——双射映射不影响互信息<ref name=":1" />:
| |
| | | |
− | 对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即:
| |
| | | |
− | <math>I (X;Z)=I (Y;Z)</math>
| + | 。 |
− | | |
− | 引理2——连续自变量不影响互信息<ref name=":1" />:
| |
− | | |
− | 若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则:
| |
− | | |
− | <math>I (X;Y)=I (X;Y\bigoplus Z)</math>
| |
− | | |
− | 引理3——条件熵的变分上界:
| |
− | | |
− | 给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界:
| |
− | | |
− | <math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math>
| |
− | | |
− | 其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。
| |
− | | |
− | 假设<ref>C. Blundell, J. Cornebise, K. Kavukcuoglu, and D. Wierstra, “Weight uncertainty in neural
| |
− | | |
− | network,” in International conference on machine learning. PMLR, 2015, pp. 1613–1622.</ref>:
| |
− | | |
− | 逆动力学<math>g_{\theta '}</math>与编码器<math>\phi</math>的组合可以看作是一个条件概率<math>P(\hat{Y}_{t}|X_{t+1})</math>,这个概率可以近似为高斯分布<math>N(g_{\theta'}(\phi(\boldsymbol{x}_{t+1})),\Sigma)</math>,其中<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>,<math>\sigma_i</math>为输出<math>\hat{Y}_{t+1}</math>的第 i 维的MSE损失。进一步,假设<math>\sigma_i</math>是有界的,则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>,其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。
| |
− | | |
− | 根据以上公式,对于给定的维度q,在[[NIS]]中的不等式约束下的最大化问题方程{{EquationNote|1}}即可转化为无约束的损失函数最小化问题,这也是所定义的有约束目标函数的下界,即:
| |
− | | |
− | <math>
| |
− | \min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}||
| |
− | </math>
| |
− | | |
− | <math>y_{t}=\phi(x_{t})</math>
| |
− | | |
− | <math>y_{t+1}=\phi(x_{t+1})</math>
| |
− | | |
− | <math>\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right)</math>
| |
− | | |
− | <math>\hat{y}_{t+1}=f(y_t)</math>
| |
− | | |
− | 式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math>
| |
− | \hat{y}_{t+1}
| |
− | </math>表示<math>
| |
− | y_{t}
| |
− | </math>经过宏观动力学<math> f: R_q → R_q </math>得到的预测<math>
| |
− | t+1
| |
− | </math>时刻宏观变量值,<math>
| |
− | \hat{x}_{t+1}
| |
− | </math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math>
| |
− | \phi^{\dagger}
| |
− | </math>得到的预测的<math>
| |
− | t+1
| |
− | </math>时刻微观变量值,<math> g: R_q → R_q </math>表示反宏观动力学函数,可以根据<math>
| |
− | t+1
| |
− | </math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math>
| |
− | t
| |
− | </math>时刻的宏观变量值<math>
| |
− | \hat{y}_{t}
| |
− | </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。<math>
| |
− | ω(y_t)
| |
− | </math>表示的逆概率权重具有以下定义:
| |
− | | |
− | <math>
| |
− | w(\boldsymbol{x}_t)=\frac{\tilde{p}(\boldsymbol{y}_t)}{p(\boldsymbol{y}_t)}=\frac{\tilde{p}(\phi(\boldsymbol{x}_t))}{p(\phi(\boldsymbol{x}_t))}
| |
− | </math>
| |
− | | |
− | 其中,<math>
| |
− | \tilde{p}
| |
− | </math>为<math>
| |
− | do(y_t \sim U_q)
| |
− | </math>干预后宏观状态<math>
| |
− | y_t
| |
− | </math>的新分布,<math>
| |
− | p
| |
− | </math>为数据的自然分布。在实际运用中,使用核密度估计(Kernel Density Estimation,简称KDE)来近似<math>
| |
− | p(y_t)
| |
− | </math>。假设干预后的分布<math>
| |
− | \tilde{p}(y_t)
| |
− | </math>是均匀分布的。因此,权重<math>
| |
− | ω
| |
− | </math>由原始分布与修改后的分布之比决定。
| |
| === 编码器的通用逼近定理 === | | === 编码器的通用逼近定理 === |
| | | |
第598行: |
第519行: |
| | | |
| 3)样本选择偏差(Sample Selection Bias):当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。 | | 3)样本选择偏差(Sample Selection Bias):当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。 |
| + | |
| + | |
| + | 根据以上公式,对于给定的维度q,在[[NIS]]中的不等式约束下的最大化问题方程{{EquationNote|1}}即可转化为无约束的损失函数最小化问题,这也是所定义的有约束目标函数的下界,即: |
| + | |
| + | <math> |
| + | \min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}|| |
| + | </math> |
| + | |
| + | <math>y_{t}=\phi(x_{t})</math> |
| + | |
| + | <math>y_{t+1}=\phi(x_{t+1})</math> |
| + | |
| + | <math>\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right)</math> |
| + | |
| + | <math>\hat{y}_{t+1}=f(y_t)</math> |
| + | |
| + | 式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math> |
| + | \hat{y}_{t+1} |
| + | </math>表示<math> |
| + | y_{t} |
| + | </math>经过宏观动力学<math> f: R_q → R_q </math>得到的预测<math> |
| + | t+1 |
| + | </math>时刻宏观变量值,<math> |
| + | \hat{x}_{t+1} |
| + | </math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math> |
| + | \phi^{\dagger} |
| + | </math>得到的预测的<math> |
| + | t+1 |
| + | </math>时刻微观变量值,<math> g: R_q → R_q </math>表示反宏观动力学函数,可以根据<math> |
| + | t+1 |
| + | </math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math> |
| + | t |
| + | </math>时刻的宏观变量值<math> |
| + | \hat{y}_{t} |
| + | </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。<math> |
| + | ω(y_t) |
| + | </math>表示的逆概率权重具有以下定义: |
| + | |
| + | <math> |
| + | w(\boldsymbol{x}_t)=\frac{\tilde{p}(\boldsymbol{y}_t)}{p(\boldsymbol{y}_t)}=\frac{\tilde{p}(\phi(\boldsymbol{x}_t))}{p(\phi(\boldsymbol{x}_t))} |
| + | </math> |
| + | |
| + | 其中,<math> |
| + | \tilde{p} |
| + | </math>为<math> |
| + | do(y_t \sim U_q) |
| + | </math>干预后宏观状态<math> |
| + | y_t |
| + | </math>的新分布,<math> |
| + | p |
| + | </math>为数据的自然分布。在实际运用中,使用核密度估计(Kernel Density Estimation,简称KDE)来近似<math> |
| + | p(y_t) |
| + | </math>。假设干预后的分布<math> |
| + | \tilde{p}(y_t) |
| + | </math>是均匀分布的。因此,权重<math> |
| + | ω |
| + | </math>由原始分布与修改后的分布之比决定 |
| | | |
| = 参考文献 = | | = 参考文献 = |