第303行: |
第303行: |
| | | |
| === 宏观EI的变分下界 === | | === 宏观EI的变分下界 === |
| + | 优化目标(式{{EquationNote|1}})便转化为:{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel+\lambda\parallel\hat{x}_{t+1}-\boldsymbol{x}_{t+1}\parallel,\\&s.t.\begin{cases}y_{t}=\phi(x_{t}),\\\hat{y}_{t+1}=f(y_t),\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right),\\y_{t+1}=\phi(x_{t+1}).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|3}}}} |
| + | |
| + | |
| + | 式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math> |
| + | \hat{y}_{t+1} |
| + | </math>表示<math> |
| + | y_{t} |
| + | </math>经过宏观动力学<math> f: R_q → R_q </math>得到的预测<math> |
| + | t+1 |
| + | </math>时刻宏观变量值,<math> |
| + | \hat{x}_{t+1} |
| + | </math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math> |
| + | \phi^{\dagger} |
| + | </math>得到的预测的<math> |
| + | t+1 |
| + | </math>时刻微观变量值,<math> g: R_q → R_q </math>表示反宏观动力学函数,可以根据<math> |
| + | t+1 |
| + | </math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math> |
| + | t |
| + | </math>时刻的宏观变量值<math> |
| + | \hat{y}_{t} |
| + | </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。 |
| + | |
| + | 相关引理: |
| + | |
| + | '''引理'''1——双射映射不影响互信息<ref name=":1" />: |
| + | |
| + | 对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即: |
| + | |
| + | <math>I (X;Z)=I (Y;Z)</math> |
| + | |
| + | '''引理'''2——连续自变量不影响互信息<ref name=":1" />: |
| + | |
| + | 若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则: |
| + | |
| + | <math>I (X;Y)=I (X;Y\bigoplus Z)</math> |
| + | |
| + | '''引理'''3——条件熵的变分上界: |
| + | |
| + | 给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界: |
| + | |
| + | <math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math> |
| + | |
| + | 其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。 |
| + | |
| + | 证明: |
| | | |
| 原始的有约束的目标优化公式如式{{EquationNote|1}}所示。 | | 原始的有约束的目标优化公式如式{{EquationNote|1}}所示。 |
第351行: |
第397行: |
| <math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dagger(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math> | | <math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dagger(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math> |
| | | |
− | 优化目标(式{{EquationNote|1}})便转化为:
| + | 便得到了式{{EquationNote|3}}。 |
| | | |
− | {{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel+\lambda\parallel\hat{x}_{t+1}-\boldsymbol{x}_{t+1}\parallel,\\&s.t.\begin{cases}y_{t}=\phi(x_{t}),\\\hat{y}_{t+1}=f(y_t),\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right),\\y_{t+1}=\phi(x_{t+1}).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|3}}}}
| + | === 编码器的通用逼近定理 === |
| + | 对于任何连续函数<math> |
| + | f |
| + | </math>,定义在<math> |
| + | K\times \mathcal{R}^p |
| + | </math>,<math> |
| + | K\in \mathcal{R}^p |
| + | </math>是一个紧集,<math> |
| + | p>q\in \mathcal{Z^+} |
| + | </math>,存在整数<math> |
| + | s |
| + | </math>和扩展堆编码器<math> |
| + | \phi_{p,s,q}: \mathcal{R}^p\rightarrow \mathcal{R}^q |
| + | </math>(有<math> |
| + | s |
| + | </math>隐藏层)和扩展操作<math> |
| + | \eta_{p,s} |
| + | </math>,使得: |
| | | |
| + | <math> |
| + | \phi_{p,s,q}\simeq f |
| + | </math> |
| | | |
− | 式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math>
| + | 相关引理: |
− | \hat{y}_{t+1}
| |
− | </math>表示<math>
| |
− | y_{t}
| |
− | </math>经过宏观动力学<math> f: R_q → R_q </math>得到的预测<math>
| |
− | t+1
| |
− | </math>时刻宏观变量值,<math>
| |
− | \hat{x}_{t+1}
| |
− | </math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math>
| |
− | \phi^{\dagger}
| |
− | </math>得到的预测的<math>
| |
− | t+1
| |
− | </math>时刻微观变量值,<math> g: R_q → R_q </math>表示反宏观动力学函数,可以根据<math>
| |
− | t+1
| |
− | </math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math>
| |
− | t
| |
− | </math>时刻的宏观变量值<math>
| |
− | \hat{y}_{t}
| |
− | </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。
| |
| | | |
− | '''引理'''1——双射映射不影响互信息<ref name=":1" />: | + | '''引理4'''——编码器的信息瓶颈: |
| | | |
− | 对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即:
| + | 对于任意向量<math> |
| + | X\in \mathcal{R}^p |
| + | </math>和矩阵<math> |
| + | W\in \mathcal{R}^{s\times p} |
| + | </math>,其中<math> |
| + | s,p\in \mathcal{N} |
| + | </math>,存在一个整数<math> |
| + | s_1\leq \min(s,p) |
| + | </math>和两个编码器的基本单位:<math> |
| + | \psi_{s}\circ\eta_{s_1,s} |
| + | </math>和<math> |
| + | \chi_{p,s_1}\circ \psi_{p} |
| + | </math>使得: |
| | | |
− | <math>I (X;Z)=I (Y;Z)</math> | + | <math> |
| + | W\cdot X\simeq(\psi_{s}\circ\eta_{s_1,s})\circ(\chi_{p,s_1}\circ \psi_{p})(X) |
| + | </math> |
| | | |
− | '''引理'''2——连续自变量不影响互信息<ref name=":1" />:
| + | 式中,<math> |
− | | + | \simeq |
− | 若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则:
| + | </math>表示近似或模拟。 |
− | | |
− | <math>I (X;Y)=I (X;Y\bigoplus Z)</math>
| |
− | | |
− | '''引理'''3——条件熵的变分上界:
| |
− | | |
− | 给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界:
| |
− | | |
− | <math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math>
| |
− | | |
− | 其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。
| |
| | | |
− | === 编码器的通用逼近定理 ===
| + | 证明: |
| | | |
| 首先,我们扩展基本编码器的定义,引入一个新的运算<math> | | 首先,我们扩展基本编码器的定义,引入一个新的运算<math> |
第487行: |
第539行: |
| | | |
| 在实际应用中,虽然基本编码器和扩展版本不包括展开运算符,但我们总是在输入向量为编码器输入之前展开它。因此,有理由相信此定理仍然适用于堆叠编码器。 | | 在实际应用中,虽然基本编码器和扩展版本不包括展开运算符,但我们总是在输入向量为编码器输入之前展开它。因此,有理由相信此定理仍然适用于堆叠编码器。 |
− |
| |
− | 综上可知,编码器通用逼近定理:
| |
| | | |
| 对于任何连续函数<math> | | 对于任何连续函数<math> |
第515行: |
第565行: |
| \mathcal{R}^p\times \mathcal{R}^q | | \mathcal{R}^p\times \mathcal{R}^q |
| </math>粗粒化函数。 | | </math>粗粒化函数。 |
− |
| |
− | '''引理4'''——编码器的信息瓶颈:
| |
− |
| |
− | 对于任意向量<math>
| |
− | X\in \mathcal{R}^p
| |
− | </math>和矩阵<math>
| |
− | W\in \mathcal{R}^{s\times p}
| |
− | </math>,其中<math>
| |
− | s,p\in \mathcal{N}
| |
− | </math>,存在一个整数<math>
| |
− | s_1\leq \min(s,p)
| |
− | </math>和两个编码器的基本单位:<math>
| |
− | \psi_{s}\circ\eta_{s_1,s}
| |
− | </math>和<math>
| |
− | \chi_{p,s_1}\circ \psi_{p}
| |
− | </math>使得:
| |
− |
| |
− | <math>
| |
− | W\cdot X\simeq(\psi_{s}\circ\eta_{s_1,s})\circ(\chi_{p,s_1}\circ \psi_{p})(X)
| |
− | </math>
| |
− |
| |
− | 式中,<math>
| |
− | \simeq
| |
− | </math>表示近似或模拟。
| |
| | | |
| == 机器学习算法 == | | == 机器学习算法 == |