第315行: |
第315行: |
| 式{{EquationNote|1}}中,数学形式是一个泛函问题,无法直接进行优化,作者将通过计算并优化变分下界来解决泛函优化问题。同时,在NIS+框架中,作者使用了编码器将p维的输入数据进行粗粒化,得到q维的宏观数据,下面编码器的通用逼近定理将证明编码器的可以近似任意复杂的粗粒化函数。 | | 式{{EquationNote|1}}中,数学形式是一个泛函问题,无法直接进行优化,作者将通过计算并优化变分下界来解决泛函优化问题。同时,在NIS+框架中,作者使用了编码器将p维的输入数据进行粗粒化,得到q维的宏观数据,下面编码器的通用逼近定理将证明编码器的可以近似任意复杂的粗粒化函数。 |
| | | |
− | 此部分主要包括两个关键定理的证明:
| + | === 宏观EI的变分下界 === |
− | | |
| '''定理'''1(宏观EI的变分下界):''对于给定的 q 值,由式{{EquationNote|3}}定义的无约束目标函数优化等价于优化式{{EquationNote|1}}中定义的约束目标函数的下界。'' | | '''定理'''1(宏观EI的变分下界):''对于给定的 q 值,由式{{EquationNote|3}}定义的无约束目标函数优化等价于优化式{{EquationNote|1}}中定义的约束目标函数的下界。'' |
| | | |
− | '''定理'''2(编码器的通用逼近定理):''对于任何连续函数<math>
| |
− | f
| |
− | </math>,定义在<math>
| |
− | K\times \mathcal{R}^p
| |
− | </math>,<math>
| |
− | K\in \mathcal{R}^p
| |
− | </math>是一个紧集,<math>
| |
− | p>q\in \mathcal{Z^+}
| |
− | </math>,存在整数<math>
| |
− | s
| |
− | </math>和扩展堆编码器<math>
| |
− | \phi_{p,s,q}: \mathcal{R}^p\rightarrow \mathcal{R}^q
| |
− | </math>(有<math>
| |
− | s
| |
− | </math>隐藏层)和扩展操作<math>
| |
− | \eta_{p,s}
| |
− | </math>,使得:<math>
| |
− | \phi_{p,s,q}\simeq f
| |
− | </math>,这表明编码器可以近似(模拟)任何定义在<math>
| |
− | \mathcal{R}^p\times \mathcal{R}^q
| |
− | </math>粗粒化函数。''
| |
| | | |
− | 在此章节,作者将使用大写字母来表示相应的随机变量。例如,<math>X_{t} </math>表示时间t的微观状态<math>x_{t} </math>的随机变量,<math>
| |
− | Y_{t+1}
| |
− | </math>表示时间t+1的宏观状态<math>
| |
− | y_{t+1}
| |
− | </math>对应的随机变量。对于任意随机变量<math>V</math>, <math>\tilde{V} </math>表示<math>X</math>被干预后的随机变量<math>V</math>。<math>\hat{X} </math>表示神经网络对<math>X</math>的预测。
| |
− |
| |
− | === 宏观EI的变分下界 ===
| |
| 优化目标(式{{EquationNote|1}})便转化为:{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel+\lambda\parallel\hat{x}_{t+1}-\boldsymbol{x}_{t+1}\parallel,\\&s.t.\begin{cases}y_{t}=\phi(x_{t}),\\\hat{y}_{t+1}=f(y_t),\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right),\\y_{t+1}=\phi(x_{t+1}).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|3}}}} | | 优化目标(式{{EquationNote|1}})便转化为:{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel+\lambda\parallel\hat{x}_{t+1}-\boldsymbol{x}_{t+1}\parallel,\\&s.t.\begin{cases}y_{t}=\phi(x_{t}),\\\hat{y}_{t+1}=f(y_t),\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right),\\y_{t+1}=\phi(x_{t+1}).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|3}}}} |
| | | |
第370行: |
第341行: |
| \hat{y}_{t} | | \hat{y}_{t} |
| </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。 | | </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。 |
− |
| |
− | 相关引理:
| |
− |
| |
− | '''引理'''1——双射映射不影响互信息<ref name=":1" />:
| |
− |
| |
− | 对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即:
| |
− |
| |
− | <math>I (X;Z)=I (Y;Z)</math>
| |
− |
| |
− | '''引理'''2——连续自变量不影响互信息<ref name=":1" />:
| |
− |
| |
− | 若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则:
| |
− |
| |
− | <math>I (X;Y)=I (X;Y\bigoplus Z)</math>
| |
− |
| |
− | '''引理'''3——条件熵的变分上界:
| |
− |
| |
− | 给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界:
| |
− |
| |
− | <math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math>
| |
− |
| |
− | 其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。
| |
| | | |
| 证明: | | 证明: |
第443行: |
第392行: |
| | | |
| 便得到了式{{EquationNote|3}}。 | | 便得到了式{{EquationNote|3}}。 |
| + | |
| + | 相关引理: |
| + | |
| + | '''引理'''1——双射映射不影响互信息<ref name=":1" />: |
| + | |
| + | 对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即: |
| + | |
| + | <math>I (X;Z)=I (Y;Z)</math> |
| + | |
| + | '''引理'''2——连续自变量不影响互信息<ref name=":1" />: |
| + | |
| + | 若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则: |
| + | |
| + | <math>I (X;Y)=I (X;Y\bigoplus Z)</math> |
| + | |
| + | '''引理'''3——条件熵的变分上界: |
| + | |
| + | 给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界: |
| + | |
| + | <math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math> |
| + | |
| + | 其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。 |
| | | |
| === 编码器的通用逼近定理 === | | === 编码器的通用逼近定理 === |
− | 对于任何连续函数<math> | + | '''定理'''2(编码器的通用逼近定理):''对于任何连续函数<math> |
| f | | f |
| </math>,定义在<math> | | </math>,定义在<math> |
第461行: |
第432行: |
| </math>隐藏层)和扩展操作<math> | | </math>隐藏层)和扩展操作<math> |
| \eta_{p,s} | | \eta_{p,s} |
− | </math>,使得: | + | </math>,使得:<math> |
− | | |
− | <math> | |
| \phi_{p,s,q}\simeq f | | \phi_{p,s,q}\simeq f |
− | </math> | + | </math>,这表明编码器可以近似(模拟)任何定义在<math> |
| + | \mathcal{R}^p\times \mathcal{R}^q |
| + | </math>粗粒化函数。'' |
| | | |
− | 相关引理:
| + | 在此章节,作者将使用大写字母来表示相应的随机变量。例如,<math>X_{t} </math>表示时间t的微观状态<math>x_{t} </math>的随机变量,<math> |
− | | + | Y_{t+1} |
− | '''引理4'''——编码器的信息瓶颈:
| + | </math>表示时间t+1的宏观状态<math> |
− | | + | y_{t+1} |
− | 对于任意向量<math>
| + | </math>对应的随机变量。对于任意随机变量<math>V</math>, <math>\tilde{V} </math>表示<math>X</math>被干预后的随机变量<math>V</math>。<math>\hat{X} </math>表示神经网络对<math>X</math>的预测。 |
− | X\in \mathcal{R}^p
| |
− | </math>和矩阵<math> | |
− | W\in \mathcal{R}^{s\times p}
| |
− | </math>,其中<math> | |
− | s,p\in \mathcal{N}
| |
− | </math>,存在一个整数<math> | |
− | s_1\leq \min(s,p)
| |
− | </math>和两个编码器的基本单位:<math> | |
− | \psi_{s}\circ\eta_{s_1,s} | |
− | </math>和<math> | |
− | \chi_{p,s_1}\circ \psi_{p}
| |
− | </math>使得: | |
− | | |
− | <math> | |
− | W\cdot X\simeq(\psi_{s}\circ\eta_{s_1,s})\circ(\chi_{p,s_1}\circ \psi_{p})(X)
| |
− | </math> | |
− | | |
− | 式中,<math>
| |
− | \simeq
| |
− | </math>表示近似或模拟。 | |
| | | |
| 证明: | | 证明: |
第610行: |
第561行: |
| \mathcal{R}^p\times \mathcal{R}^q | | \mathcal{R}^p\times \mathcal{R}^q |
| </math>粗粒化函数。 | | </math>粗粒化函数。 |
| + | |
| + | 相关引理: |
| + | |
| + | '''引理4'''——编码器的信息瓶颈: |
| + | |
| + | 对于任意向量<math> |
| + | X\in \mathcal{R}^p |
| + | </math>和矩阵<math> |
| + | W\in \mathcal{R}^{s\times p} |
| + | </math>,其中<math> |
| + | s,p\in \mathcal{N} |
| + | </math>,存在一个整数<math> |
| + | s_1\leq \min(s,p) |
| + | </math>和两个编码器的基本单位:<math> |
| + | \psi_{s}\circ\eta_{s_1,s} |
| + | </math>和<math> |
| + | \chi_{p,s_1}\circ \psi_{p} |
| + | </math>使得: |
| + | |
| + | <math> |
| + | W\cdot X\simeq(\psi_{s}\circ\eta_{s_1,s})\circ(\chi_{p,s_1}\circ \psi_{p})(X) |
| + | </math> |
| + | |
| + | 式中,<math> |
| + | \simeq |
| + | </math>表示近似或模拟。 |
| | | |
| == 机器学习算法 == | | == 机器学习算法 == |