更改

跳到导航 跳到搜索
添加803字节 、 2024年6月19日 (星期三)
尝试在数学公式中加入对齐环境
第330行: 第330行:  
2.联合和条件熵
 
2.联合和条件熵
 
    我们以直观的方式定义两个变量X(从A中取值)和Y(从B从取值)的联合熵H(X, Y) ,
 
    我们以直观的方式定义两个变量X(从A中取值)和Y(从B从取值)的联合熵H(X, Y) ,
    
+
 
H[X, Y] = - (x,y)属于A x B P(X = x, Y = y)log2 P(X = x, Y = y)。(6)
+
<math>
 +
H [X, Y] \equiv - \sum_{(x,y) \in \mathcal A \times \mathcal B} P(X = x, Y = y)\log_{2}P(X = x, Y = y). \tag {6}
 +
</math>
    
我们定义一个随机变量的条件熵H(X|Y),是在已知Y值的情况下,得到的条件熵
 
我们定义一个随机变量的条件熵H(X|Y),是在已知Y值的情况下,得到的条件熵
   −
H[X|Y] = H[X,Y] - H[Y]. (7)
+
<math>
 +
H [X \vert Y] \equiv H [X, Y] - H [Y]. \tag {7}
 +
</math>
   −
这是从条件概率的定义自然衍生出来的,必竟P(X = x | Y = y) = P(X = x, Y = y) / P (Y = y)。H[X | Y] 测量一旦我们已知Y值时保留在X中的不确定性。
+
这是从条件概率的定义自然衍生出来的,毕竟<math>P(X = x \vert Y = y) \equiv P(X = x, Y = y) / P(Y = y)</math>。H[X | Y] 测量一旦我们已知Y值时保留在X中的不确定性。
    
3. 互信息
 
3. 互信息
 
    两个变量之间的互信息I[X;Y]定义为
 
    两个变量之间的互信息I[X;Y]定义为
     
+
<math>     
I[X;Y] = H[X] - H[X|Y]. (8)
+
I(X;Y) \equiv H(X) - H(X \vert Y). \tag{8}
 
+
</math>
 
这是固定Y时关于X产生的平均不确定性的减少量。它是非负的,如同这里所有的熵,而且在两个变量间是对称的。  
 
这是固定Y时关于X产生的平均不确定性的减少量。它是非负的,如同这里所有的熵,而且在两个变量间是对称的。  
   第349行: 第353行:     
    如果有一种讨论将来的不确定性将是十分方便地。直观地这将是H[S->],但是在一般情况下数值是无限的,操作起来也是十分棘手的。(H[S->]是有限的特殊情形已经在附录F中处理过。)正常情况下,我们由考虑H[S->L]来回避这个问题,下L个符号的不确实性,由L的函数处理。在一些时候,我们将参考每一个符号的熵或熵速率【55,62】:
 
    如果有一种讨论将来的不确定性将是十分方便地。直观地这将是H[S->],但是在一般情况下数值是无限的,操作起来也是十分棘手的。(H[S->]是有限的特殊情形已经在附录F中处理过。)正常情况下,我们由考虑H[S->L]来回避这个问题,下L个符号的不确实性,由L的函数处理。在一些时候,我们将参考每一个符号的熵或熵速率【55,62】:
     
+
 
h[S->] \eqiv lim L->∞ 1/L H[S->L],(9)
+
<math>     
 +
h[\overset{\to}{S}] \equiv \lim_{L \to \infty} \frac{1}{L} H[\overset{\to L}{S}]. \tag{9}
 +
</math>
    
并且条件熵速率,
 
并且条件熵速率,
   −
h[S->|X] \equiv lim L->∞ 1/L H[S->L | X], (10)
+
<math>
 +
h[\overset{\to}{S} \vert X] \equiv \lim_{L \to \infty} \frac{1}{L} H[\overset{\to L}{S} \vert X]. \tag{10}
 +
</math>
    
其中,X是一些随机变量,而且极限存在。对于统计随机过程,极限一直存在【62,定理 4.2.1,p. 64】。
 
其中,X是一些随机变量,而且极限存在。对于统计随机过程,极限一直存在【62,定理 4.2.1,p. 64】。
    
    这些熵速率也是一直存在H[S]的上限;特殊情况是等式(附录3)。更有,如果h[S->] = H[S],过程对应到的无关变量,实际上,实际上我们在这里仅仅关心统计过程。
 
    这些熵速率也是一直存在H[S]的上限;特殊情况是等式(附录3)。更有,如果h[S->] = H[S],过程对应到的无关变量,实际上,实际上我们在这里仅仅关心统计过程。
   
+
 
 +
 
 
定义3(捕捉斑图)R捕获一个斑图当且仅当存在一个L,使得
 
定义3(捕捉斑图)R捕获一个斑图当且仅当存在一个L,使得
   −
H[S->L | R]<LH[S].(11)
+
<math>
 +
H[\overset{\to L}{S} \vert \mathcal{R}] < LH[S]. \tag{11}
 +
</math>
    
这就是说R捕获一个斑图,当它能告诉我们影响彼此的过程,各部分的分布:R展示了它们的依赖关系。(我们也说η,关联于过于的函数,捕获了一个斑图,自从隐含了R获捉一个斑图。)假设这些部分不影响彼此,然后我们拥有IID随机变量,他们最接近直观的“斑图”的概念,因为它可以被数学化地陈述。注意到,因为在联合熵上的不相关界限(Eq.(A3)),如果不相等条件由一些L所满足,它也为每个L'>L所满足。因此,我们可以考虑差值H[S] - H[S->L|R]/L,找到最短不是零的L,作为由R捕获的斑图的长度。我们将给斑图长度标记一个上界(引理1);后续我们将展示如何取得这个上界(定理1)。
 
这就是说R捕获一个斑图,当它能告诉我们影响彼此的过程,各部分的分布:R展示了它们的依赖关系。(我们也说η,关联于过于的函数,捕获了一个斑图,自从隐含了R获捉一个斑图。)假设这些部分不影响彼此,然后我们拥有IID随机变量,他们最接近直观的“斑图”的概念,因为它可以被数学化地陈述。注意到,因为在联合熵上的不相关界限(Eq.(A3)),如果不相等条件由一些L所满足,它也为每个L'>L所满足。因此,我们可以考虑差值H[S] - H[S->L|R]/L,找到最短不是零的L,作为由R捕获的斑图的长度。我们将给斑图长度标记一个上界(引理1);后续我们将展示如何取得这个上界(定理1)。
第372行: 第383行:  
引理1(旧世界引理)对于所有的R和所有的L属于Z+,
 
引理1(旧世界引理)对于所有的R和所有的L属于Z+,
   −
H[S->L|R]>=H[S->L|S<-]. (12)
+
<math>
 +
H[\overset{\to L}{S} \vert \mathcal{R}] \ge H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]. \tag{12}
 +
</math>
    
    证明。由构造可知(等式4),对于所有L,
 
    证明。由构造可知(等式4),对于所有L,
   
+
 
H[S->L|R] = H[S->L|η(S<-)]. (13)
+
<math>
 +
H[\overset{\to L}{S} \vert \mathcal{R}] = H[\overset{\to L}{S} \vert η(\overset{\leftarrow}{S})]. \tag{13}
 +
</math>
    
但是
 
但是
   −
H[S->L|η(S<-)]>=H(S->L|S<-). (14)
+
<math>
 +
H[\overset{\to L}{S} \vert η(\overset{\leftarrow}{S})] \ge H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]. \tag{14}
 +
</math>
    
因此在一个变量上的条件熵永不大于一个变量上的函数的条件熵(Eq.(A14)). 证毕。
 
因此在一个变量上的条件熵永不大于一个变量上的函数的条件熵(Eq.(A14)). 证毕。
第386行: 第403行:  
    备注1。也就是说,在全部过去的条件下,最大程度地降地了在将来的不确定性。从全部准无限的过去中截取是笨重和不安以及前景有些灰暗的。用不同的方式来做:我们希望尽可能多忘掉过去,以致能减少负担。这个目标跟等式(12)的结果是相反的,所以引发我们叫它旧世界引理。
 
    备注1。也就是说,在全部过去的条件下,最大程度地降地了在将来的不确定性。从全部准无限的过去中截取是笨重和不安以及前景有些灰暗的。用不同的方式来做:我们希望尽可能多忘掉过去,以致能减少负担。这个目标跟等式(12)的结果是相反的,所以引发我们叫它旧世界引理。
 
     
 
     
    备注2。引理1如前所述建立了斑图强度的上界,也就是,斑图的强度最多就是H[S] - H[S->L | S<-]/Lpast,其中Lpast是满足H[S->L|S<-]<LH[S]的L的最小值。
+
    备注2。引理1如前所述建立了斑图强度的上界,也就是,斑图的强度最多就是<math>H[S] - H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]/L_{past}</math>,其中Lpast是满足<math>H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}] < LH[S]</math>的L的最小值。
 
     
 
     
 
=== F. 最小化和预测 ===
 
=== F. 最小化和预测 ===
第394行: 第411行:  
定义4(因果态的复杂度)状态类R的统计复杂度是
 
定义4(因果态的复杂度)状态类R的统计复杂度是
   −
(R)=H[R] (15)
+
<math>
=- ∑ρ∈R P(R=ρ) log2 P(R=ρ),
+
\begin{aligned}
 +
C_{μ}(\textbf {R}) & \equiv H[R] \ (15) \\
 +
 & = - \sum_{ρ \in \mathcal R } P(\mathcal R = ρ)\log_{2}P(\mathcal R = ρ). \\
 +
\end{aligned}
 +
</math>
    
当和收敛到一个有限值。
 
当和收敛到一个有限值。
470

个编辑

导航菜单