更改

跳到导航 跳到搜索
删除1字节 、 2024年6月22日 (星期六)
更改词条部分结构
第99行: 第99行:     
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 +
 +
== 动力学学习器 ==
 +
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
 +
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
 +
其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作:
 +
{{NumBlk|:|<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma)</math></blockquote>|{{EquationRef|12}}}}
 +
其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。
 +
 +
通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。
      第110行: 第119行:     
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。
 
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。
  −
===动力学学习器===
  −
  −
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
  −
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
  −
其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作:
  −
{{NumBlk|:|<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma)</math></blockquote>|{{EquationRef|12}}}}
  −
其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。
  −
  −
通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。
      
==两步优化==
 
==两步优化==
68

个编辑

导航菜单