作者使用神经网络来拟合分布<math>g(y_t|x_t+1)</math>,根据引理3,<math>g(y_t|x_t+1)</math>可以是任何分布,在这里,假设<math>g(y_t|x_t+1)</math>为正态分布,即<math>g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\sim N(\mu,\Sigma)</math>,其中<math>\mu =g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))</math>,<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>是常数对角矩阵,进一步,假设<math>\sigma_i</math>是有界的,则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>,其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。则<math>g(y_t|x_t+1)</math>的对数概率密度函数为: | 作者使用神经网络来拟合分布<math>g(y_t|x_t+1)</math>,根据引理3,<math>g(y_t|x_t+1)</math>可以是任何分布,在这里,假设<math>g(y_t|x_t+1)</math>为正态分布,即<math>g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\sim N(\mu,\Sigma)</math>,其中<math>\mu =g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))</math>,<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>是常数对角矩阵,进一步,假设<math>\sigma_i</math>是有界的,则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>,其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。则<math>g(y_t|x_t+1)</math>的对数概率密度函数为: |