更改

跳到导航 跳到搜索
添加464字节 、 2024年9月9日 (星期一)
第303行: 第303行:     
=== 宏观EI的变分下界 ===
 
=== 宏观EI的变分下界 ===
 +
优化目标(式{{EquationNote|1}})便转化为:{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel+\lambda\parallel\hat{x}_{t+1}-\boldsymbol{x}_{t+1}\parallel,\\&s.t.\begin{cases}y_{t}=\phi(x_{t}),\\\hat{y}_{t+1}=f(y_t),\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right),\\y_{t+1}=\phi(x_{t+1}).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|3}}}}
 +
 +
 +
式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math>
 +
\hat{y}_{t+1}
 +
</math>表示<math>
 +
y_{t}
 +
</math>经过宏观动力学<math> f: R_q → R_q  </math>得到的预测<math>
 +
t+1
 +
</math>时刻宏观变量值,<math>
 +
\hat{x}_{t+1}
 +
</math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math>
 +
\phi^{\dagger}
 +
</math>得到的预测的<math>
 +
t+1
 +
</math>时刻微观变量值,<math> g: R_q → R_q  </math>表示反宏观动力学函数,可以根据<math>
 +
t+1
 +
</math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math>
 +
t
 +
</math>时刻的宏观变量值<math>
 +
\hat{y}_{t}
 +
</math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。
 +
 +
相关引理:
 +
 +
'''引理'''1——双射映射不影响互信息<ref name=":1" />:
 +
 +
对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即:
 +
 +
<math>I (X;Z)=I (Y;Z)</math>
 +
 +
'''引理'''2——连续自变量不影响互信息<ref name=":1" />:
 +
 +
若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则:
 +
 +
<math>I (X;Y)=I (X;Y\bigoplus Z)</math>
 +
 +
'''引理'''3——条件熵的变分上界:
 +
 +
给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界:
 +
 +
<math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math>
 +
 +
其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。
 +
 +
证明:
    
原始的有约束的目标优化公式如式{{EquationNote|1}}所示。
 
原始的有约束的目标优化公式如式{{EquationNote|1}}所示。
第351行: 第397行:  
<math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dagger(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math>
 
<math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dagger(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math>
   −
优化目标(式{{EquationNote|1}})便转化为:
+
便得到了式{{EquationNote|3}}
   −
{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel+\lambda\parallel\hat{x}_{t+1}-\boldsymbol{x}_{t+1}\parallel,\\&s.t.\begin{cases}y_{t}=\phi(x_{t}),\\\hat{y}_{t+1}=f(y_t),\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right),\\y_{t+1}=\phi(x_{t+1}).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|3}}}}
+
=== 编码器的通用逼近定理 ===
 +
对于任何连续函数<math>
 +
f
 +
</math>,定义在<math>
 +
K\times \mathcal{R}^p
 +
</math>,<math>
 +
K\in \mathcal{R}^p
 +
</math>是一个紧集,<math>
 +
p>q\in \mathcal{Z^+}
 +
</math>,存在整数<math>
 +
s
 +
</math>和扩展堆编码器<math>
 +
\phi_{p,s,q}: \mathcal{R}^p\rightarrow \mathcal{R}^q
 +
</math>(有<math>
 +
s
 +
</math>隐藏层)和扩展操作<math>
 +
\eta_{p,s}
 +
</math>,使得:
    +
<math>
 +
\phi_{p,s,q}\simeq f
 +
</math>
   −
式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math>
+
相关引理:
\hat{y}_{t+1}
  −
</math>表示<math>
  −
y_{t}
  −
</math>经过宏观动力学<math> f: R_q → R_q  </math>得到的预测<math>
  −
t+1
  −
</math>时刻宏观变量值,<math>
  −
\hat{x}_{t+1}
  −
</math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math>
  −
\phi^{\dagger}
  −
</math>得到的预测的<math>
  −
t+1
  −
</math>时刻微观变量值,<math> g: R_q → R_q  </math>表示反宏观动力学函数,可以根据<math>
  −
t+1
  −
</math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math>
  −
t
  −
</math>时刻的宏观变量值<math>
  −
\hat{y}_{t}
  −
</math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。
     −
'''引理'''1——双射映射不影响互信息<ref name=":1" />:
+
'''引理4'''——编码器的信息瓶颈:
   −
对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即:
+
对于任意向量<math>
 +
X\in \mathcal{R}^p
 +
</math>和矩阵<math>
 +
W\in \mathcal{R}^{s\times p}
 +
</math>,其中<math>
 +
s,p\in \mathcal{N}
 +
</math>,存在一个整数<math>
 +
s_1\leq \min(s,p)
 +
</math>和两个编码器的基本单位:<math>
 +
\psi_{s}\circ\eta_{s_1,s}
 +
</math>和<math>
 +
\chi_{p,s_1}\circ \psi_{p}
 +
</math>使得:
   −
<math>I (X;Z)=I (Y;Z)</math>
+
<math>
 +
W\cdot X\simeq(\psi_{s}\circ\eta_{s_1,s})\circ(\chi_{p,s_1}\circ \psi_{p})(X)
 +
</math>
   −
'''引理'''2——连续自变量不影响互信息<ref name=":1" />:
+
式中,<math>
 
+
\simeq
若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则:
+
</math>表示近似或模拟。
 
  −
<math>I (X;Y)=I (X;Y\bigoplus Z)</math>
  −
 
  −
'''引理'''3——条件熵的变分上界:
  −
 
  −
给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界:
  −
 
  −
<math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math>
  −
 
  −
其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。
     −
=== 编码器的通用逼近定理 ===
+
证明:
    
首先,我们扩展基本编码器的定义,引入一个新的运算<math>
 
首先,我们扩展基本编码器的定义,引入一个新的运算<math>
第487行: 第539行:     
在实际应用中,虽然基本编码器和扩展版本不包括展开运算符,但我们总是在输入向量为编码器输入之前展开它。因此,有理由相信此定理仍然适用于堆叠编码器。
 
在实际应用中,虽然基本编码器和扩展版本不包括展开运算符,但我们总是在输入向量为编码器输入之前展开它。因此,有理由相信此定理仍然适用于堆叠编码器。
  −
综上可知,编码器通用逼近定理:
      
对于任何连续函数<math>
 
对于任何连续函数<math>
第515行: 第565行:  
\mathcal{R}^p\times \mathcal{R}^q
 
\mathcal{R}^p\times \mathcal{R}^q
 
</math>粗粒化函数。
 
</math>粗粒化函数。
  −
'''引理4'''——编码器的信息瓶颈:
  −
  −
对于任意向量<math>
  −
X\in \mathcal{R}^p
  −
</math>和矩阵<math>
  −
W\in \mathcal{R}^{s\times p}
  −
</math>,其中<math>
  −
s,p\in \mathcal{N}
  −
</math>,存在一个整数<math>
  −
s_1\leq \min(s,p)
  −
</math>和两个编码器的基本单位:<math>
  −
\psi_{s}\circ\eta_{s_1,s}
  −
</math>和<math>
  −
\chi_{p,s_1}\circ \psi_{p}
  −
</math>使得:
  −
  −
<math>
  −
W\cdot X\simeq(\psi_{s}\circ\eta_{s_1,s})\circ(\chi_{p,s_1}\circ \psi_{p})(X)
  −
</math>
  −
  −
式中,<math>
  −
\simeq
  −
</math>表示近似或模拟。
      
== 机器学习算法 ==
 
== 机器学习算法 ==
259

个编辑

导航菜单