更改

跳到导航 跳到搜索
添加8字节 、 2021年12月26日 (日) 14:18
第107行: 第107行:  
== 正确性证明 ==
 
== 正确性证明 ==
 
期望最大化可以改善<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math>而不是直接改进<math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> 。 这里表明对前者的改进意味着对后者的改进。<ref name="Little1987">{{cite book |last1=Little |first1= Roderick J.A. |last2= Rubin |first2= Donald B. |author2-link= Donald Rubin |title= Statistical Analysis with Missing Data |url=https://archive.org/details/statisticalanaly00litt |url-access=limited | series = Wiley Series in Probability and Mathematical Statistics |year= 1987 |publisher= John Wiley & Sons |location= New York |isbn= 978-0-471-80254-9 |pages= [https://archive.org/details/statisticalanaly00litt/page/n145 134]–136}}</ref>
 
期望最大化可以改善<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math>而不是直接改进<math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> 。 这里表明对前者的改进意味着对后者的改进。<ref name="Little1987">{{cite book |last1=Little |first1= Roderick J.A. |last2= Rubin |first2= Donald B. |author2-link= Donald Rubin |title= Statistical Analysis with Missing Data |url=https://archive.org/details/statisticalanaly00litt |url-access=limited | series = Wiley Series in Probability and Mathematical Statistics |year= 1987 |publisher= John Wiley & Sons |location= New York |isbn= 978-0-471-80254-9 |pages= [https://archive.org/details/statisticalanaly00litt/page/n145 134]–136}}</ref>
 +
    
对于任何具有非零概率 <math>\mathbf{Z}</math> with non-zero probability <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta)</math>,我们可以写
 
对于任何具有非零概率 <math>\mathbf{Z}</math> with non-zero probability <math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta)</math>,我们可以写
第113行: 第114行:  
\log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta).
 
\log p(\mathbf{X}\mid\boldsymbol\theta) = \log p(\mathbf{X},\mathbf{Z}\mid\boldsymbol\theta) - \log p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta).
 
</math>
 
</math>
 +
    
我们在当前参数估计<math>\theta^{(t)}</math>下对未知数据的可能值取期望值<math>\mathbf{Z}</math>两边乘以<math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)})</math> 并在 <math>\mathbf{Z}</math>上求和(或积分)。左边是一个常数的期望,所以我们得到:
 
我们在当前参数估计<math>\theta^{(t)}</math>下对未知数据的可能值取期望值<math>\mathbf{Z}</math>两边乘以<math>p(\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)})</math> 并在 <math>\mathbf{Z}</math>上求和(或积分)。左边是一个常数的期望,所以我们得到:
第124行: 第126行:  
\end{align}
 
\end{align}
 
</math>
 
</math>
 +
    
其中 <math>H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> 由它正在替换的否定和定义。最后一个方程适用于<math>\boldsymbol\theta</math> 的每个值,包括 <math>\boldsymbol\theta = \boldsymbol\theta^{(t)}</math>,
 
其中 <math>H(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> 由它正在替换的否定和定义。最后一个方程适用于<math>\boldsymbol\theta</math> 的每个值,包括 <math>\boldsymbol\theta = \boldsymbol\theta^{(t)}</math>,
第149行: 第152行:  
换句话说,选择<math>\boldsymbol\theta</math>来改进<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> 导致 <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> 至少有同样的改进。
 
换句话说,选择<math>\boldsymbol\theta</math>来改进<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> 导致 <math>\log p(\mathbf{X}\mid\boldsymbol\theta)</math> 至少有同样的改进。
    +
<br>
    
== 作为最大化-最大化过程 ==
 
== 作为最大化-最大化过程 ==
7,129

个编辑

导航菜单