更改

添加82字节 、 2024年8月31日 (星期六)
第196行: 第196行:  
==两步优化==
 
==两步优化==
   −
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。
+
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,论文<ref name="1" />提出了一种两阶段优化方法。在第一阶段,论文固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,NIS通过搜索所有可能的 <math>q</math> 值,以找到有效信息的最大值,也就是最大化 <math>\mathcal{I}</math>。
    
===训练一个预测器===
 
===训练一个预测器===
   −
在第一阶段,可以使用似然最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。
+
在第一阶段,NIS使用似然最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。
 +
 
 +
前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此,整个 NIS 框架可以理解为一个对条件概率<math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 建模的模型,神经网络的输出 <math>\hat{\mathbf{x}}_{t+1}</math> 为此分布的平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数似然或交叉熵。
   −
前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此,整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型,其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数似然或交叉熵。
   
{{NumBlk|:|<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t)</math></blockquote>|{{EquationRef|13}}}}
 
{{NumBlk|:|<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t)</math></blockquote>|{{EquationRef|13}}}}
 
其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。
 
其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。
786

个编辑