更改

删除1,822字节 、 2021年2月19日 (五) 20:43
无编辑摘要
第81行: 第81行:  
*“变分密度”<math>q(\psi \mid \mu)</math>–由R中的内部状态<math>\mu \in R</math>参数化的隐藏状态<math>\psi \in \Psi</math>
 
*“变分密度”<math>q(\psi \mid \mu)</math>–由R中的内部状态<math>\mu \in R</math>参数化的隐藏状态<math>\psi \in \Psi</math>
   −
The objective is to maximise model evidence <math>p(s\mid m)</math> or minimise surprise <math>-\log p(s\mid m)</math>. This generally involves an intractable marginalisation over hidden states, so surprise is replaced with an upper variational free energy bound. This formulation rests on a Markov blanket (comprising action and sensory states) that separates internal and external states. If internal states and action minimise free energy, then they place an upper bound on the entropy of sensory states
      
其目的是最大限度地提高模型的证据,或者最大限度地减少惊喜。这通常涉及隐状态的棘手边缘化,因此用变分自由能上界代替惊奇。这个公式建立在一个马尔可夫毯子(包括行动和感官状态) ,分离内部和外部状态。如果内部状态和作用力使自由能最小化,那么它们在感觉状态的熵上设置了一个上限
 
其目的是最大限度地提高模型的证据,或者最大限度地减少惊喜。这通常涉及隐状态的棘手边缘化,因此用变分自由能上界代替惊奇。这个公式建立在一个马尔可夫毯子(包括行动和感官状态) ,分离内部和外部状态。如果内部状态和作用力使自由能最小化,那么它们在感觉状态的熵上设置了一个上限
第93行: 第92行:  
< math > lim { t to infty } frac {1}{ t } underset { text { free-action }{ underbrace { int _ 0 ^ t f (s (t) ,mu (t)) ,dt } ge
 
< math > lim { t to infty } frac {1}{ t } underset { text { free-action }{ underbrace { int _ 0 ^ t f (s (t) ,mu (t)) ,dt } ge
   −
The objective is to maximise model evidence <math>p(s\mid m)</math> or minimise surprise <math>-\log p(s\mid m)</math>. This generally involves an intractable marginalisation over hidden states, so surprise is replaced with an upper variational free energy bound.<ref name="Dayan"/> However, this means that internal states must also minimise free energy, because free energy is a function of sensory and internal states:
      
目标是最大化模型证据<math>p(s\mid m)</math>或最小化意外<math>-\log p(s\mid m)</math>。这通常涉及隐藏态的难以处理的边缘化,因此意外被一个较高的变分自由能边界所取代。<ref name="Dayan"/>然而,这意味着内部状态也必须最小化自由能,因为自由能是感官和内部状态的函数:
 
目标是最大化模型证据<math>p(s\mid m)</math>或最小化意外<math>-\log p(s\mid m)</math>。这通常涉及隐藏态的难以处理的边缘化,因此意外被一个较高的变分自由能边界所取代。<ref name="Dayan"/>然而,这意味着内部状态也必须最小化自由能,因为自由能是感官和内部状态的函数:
第105行: 第103行:  
: <math>  a(t) = \underset{a}{\operatorname{arg\,min}}  \{ F(s(t),\mu(t)) \}</math>
 
: <math>  a(t) = \underset{a}{\operatorname{arg\,min}}  \{ F(s(t),\mu(t)) \}</math>
   −
This is because – under ergodic assumptions – the long-term average of surprise is entropy. This bound resists a natural tendency to disorder – of the sort associated with the second law of thermodynamics and the fluctuation theorem.
      
这是因为——在遍历假设下——意外的长期平均值是熵。这个界限阻止了一种自然的无序倾向,这种无序倾向与热力学第二定律和涨落定理有关。
 
这是因为——在遍历假设下——意外的长期平均值是熵。这个界限阻止了一种自然的无序倾向,这种无序倾向与热力学第二定律和涨落定理有关。
第117行: 第114行:  
= \underset{\mathrm{surprise}} {\underbrace{ -\log p(s \mid m)}} + \underset{\mathrm{divergence}} {\underbrace{ D_{\mathrm{KL}}[q(\psi \mid \mu) \parallel p(\psi \mid s,m)]}}  
 
= \underset{\mathrm{surprise}} {\underbrace{ -\log p(s \mid m)}} + \underset{\mathrm{divergence}} {\underbrace{ D_{\mathrm{KL}}[q(\psi \mid \mu) \parallel p(\psi \mid s,m)]}}  
   −
All Bayesian inference can be cast in terms of free energy minimisation; e.g.,. When free energy is minimised with respect to internal states, the Kullback–Leibler divergence between the variational and posterior density over hidden states is minimised. This corresponds to approximate Bayesian inference – when the form of the variational density is fixed – and exact Bayesian inference otherwise. Free energy minimisation therefore provides a generic description of Bayesian inference and filtering (e.g., Kalman filtering). It is also used in Bayesian model selection, where free energy can be usefully decomposed into complexity and accuracy:
      
所有的贝叶斯推断都可以用自由能最小化来表达,例如,当自由能相对于内态最小化时,隐态上变分密度和后验密度之间的Kullback-Leibler散度最小化。当变分密度的形式固定时,这对应于近似贝叶斯推理,反之则对应于精确贝叶斯推理。因此,自由能最小化提供了贝叶斯推理和滤波(如Kalman滤波)的一般描述。复杂度和贝叶斯模型可以有效地分解为自由能量选择:
 
所有的贝叶斯推断都可以用自由能最小化来表达,例如,当自由能相对于内态最小化时,隐态上变分密度和后验密度之间的Kullback-Leibler散度最小化。当变分密度的形式固定时,这对应于近似贝叶斯推理,反之则对应于精确贝叶斯推理。因此,自由能最小化提供了贝叶斯推理和滤波(如Kalman滤波)的一般描述。复杂度和贝叶斯模型可以有效地分解为自由能量选择:
10

个编辑