第99行: |
第99行: |
| | | |
| 在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。 | | 在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。 |
| + | |
| + | == 动力学学习器 == |
| + | 动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为: |
| + | {{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}} |
| + | 其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作: |
| + | {{NumBlk|:|<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma)</math></blockquote>|{{EquationRef|12}}}} |
| + | 其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。 |
| + | |
| + | 通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。 |
| | | |
| | | |
第110行: |
第119行: |
| | | |
| 解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。 | | 解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。 |
− |
| |
− | ===动力学学习器===
| |
− |
| |
− | 动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
| |
− | {{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
| |
− | 其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作:
| |
− | {{NumBlk|:|<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma)</math></blockquote>|{{EquationRef|12}}}}
| |
− | 其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。
| |
− |
| |
− | 通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。
| |
| | | |
| ==两步优化== | | ==两步优化== |