第330行: |
第330行: |
| 2.联合和条件熵 | | 2.联合和条件熵 |
| 我们以直观的方式定义两个变量X(从A中取值)和Y(从B从取值)的联合熵H(X, Y) , | | 我们以直观的方式定义两个变量X(从A中取值)和Y(从B从取值)的联合熵H(X, Y) , |
− |
| + | |
− | H[X, Y] = - ∑(x,y)属于A x B P(X = x, Y = y)log2 P(X = x, Y = y)。(6) | + | <math> |
| + | H [X, Y] \equiv - \sum_{(x,y) \in \mathcal A \times \mathcal B} P(X = x, Y = y)\log_{2}P(X = x, Y = y). \tag {6} |
| + | </math> |
| | | |
| 我们定义一个随机变量的条件熵H(X|Y),是在已知Y值的情况下,得到的条件熵 | | 我们定义一个随机变量的条件熵H(X|Y),是在已知Y值的情况下,得到的条件熵 |
| | | |
− | H[X|Y] = H[X,Y] - H[Y]. (7) | + | <math> |
| + | H [X \vert Y] \equiv H [X, Y] - H [Y]. \tag {7} |
| + | </math> |
| | | |
− | 这是从条件概率的定义自然衍生出来的,必竟P(X = x | Y = y) = P(X = x, Y = y) / P (Y = y)。H[X | Y] 测量一旦我们已知Y值时保留在X中的不确定性。
| + | 这是从条件概率的定义自然衍生出来的,毕竟<math>P(X = x \vert Y = y) \equiv P(X = x, Y = y) / P(Y = y)</math>。H[X | Y] 测量一旦我们已知Y值时保留在X中的不确定性。 |
| | | |
| 3. 互信息 | | 3. 互信息 |
| 两个变量之间的互信息I[X;Y]定义为 | | 两个变量之间的互信息I[X;Y]定义为 |
− | | + | <math> |
− | I[X;Y] = H[X] - H[X|Y]. (8) | + | I(X;Y) \equiv H(X) - H(X \vert Y). \tag{8} |
− | | + | </math> |
| 这是固定Y时关于X产生的平均不确定性的减少量。它是非负的,如同这里所有的熵,而且在两个变量间是对称的。 | | 这是固定Y时关于X产生的平均不确定性的减少量。它是非负的,如同这里所有的熵,而且在两个变量间是对称的。 |
| | | |
第349行: |
第353行: |
| | | |
| 如果有一种讨论将来的不确定性将是十分方便地。直观地这将是H[S->],但是在一般情况下数值是无限的,操作起来也是十分棘手的。(H[S->]是有限的特殊情形已经在附录F中处理过。)正常情况下,我们由考虑H[S->L]来回避这个问题,下L个符号的不确实性,由L的函数处理。在一些时候,我们将参考每一个符号的熵或熵速率【55,62】: | | 如果有一种讨论将来的不确定性将是十分方便地。直观地这将是H[S->],但是在一般情况下数值是无限的,操作起来也是十分棘手的。(H[S->]是有限的特殊情形已经在附录F中处理过。)正常情况下,我们由考虑H[S->L]来回避这个问题,下L个符号的不确实性,由L的函数处理。在一些时候,我们将参考每一个符号的熵或熵速率【55,62】: |
− | | + | |
− | h[S->] \eqiv lim L->∞ 1/L H[S->L],(9) | + | <math> |
| + | h[\overset{\to}{S}] \equiv \lim_{L \to \infty} \frac{1}{L} H[\overset{\to L}{S}]. \tag{9} |
| + | </math> |
| | | |
| 并且条件熵速率, | | 并且条件熵速率, |
| | | |
− | h[S->|X] \equiv lim L->∞ 1/L H[S->L | X], (10) | + | <math> |
| + | h[\overset{\to}{S} \vert X] \equiv \lim_{L \to \infty} \frac{1}{L} H[\overset{\to L}{S} \vert X]. \tag{10} |
| + | </math> |
| | | |
| 其中,X是一些随机变量,而且极限存在。对于统计随机过程,极限一直存在【62,定理 4.2.1,p. 64】。 | | 其中,X是一些随机变量,而且极限存在。对于统计随机过程,极限一直存在【62,定理 4.2.1,p. 64】。 |
| | | |
| 这些熵速率也是一直存在H[S]的上限;特殊情况是等式(附录3)。更有,如果h[S->] = H[S],过程对应到的无关变量,实际上,实际上我们在这里仅仅关心统计过程。 | | 这些熵速率也是一直存在H[S]的上限;特殊情况是等式(附录3)。更有,如果h[S->] = H[S],过程对应到的无关变量,实际上,实际上我们在这里仅仅关心统计过程。 |
− |
| + | |
| + | |
| 定义3(捕捉斑图)R捕获一个斑图当且仅当存在一个L,使得 | | 定义3(捕捉斑图)R捕获一个斑图当且仅当存在一个L,使得 |
| | | |
− | H[S->L | R]<LH[S].(11) | + | <math> |
| + | H[\overset{\to L}{S} \vert \mathcal{R}] < LH[S]. \tag{11} |
| + | </math> |
| | | |
| 这就是说R捕获一个斑图,当它能告诉我们影响彼此的过程,各部分的分布:R展示了它们的依赖关系。(我们也说η,关联于过于的函数,捕获了一个斑图,自从隐含了R获捉一个斑图。)假设这些部分不影响彼此,然后我们拥有IID随机变量,他们最接近直观的“斑图”的概念,因为它可以被数学化地陈述。注意到,因为在联合熵上的不相关界限(Eq.(A3)),如果不相等条件由一些L所满足,它也为每个L'>L所满足。因此,我们可以考虑差值H[S] - H[S->L|R]/L,找到最短不是零的L,作为由R捕获的斑图的长度。我们将给斑图长度标记一个上界(引理1);后续我们将展示如何取得这个上界(定理1)。 | | 这就是说R捕获一个斑图,当它能告诉我们影响彼此的过程,各部分的分布:R展示了它们的依赖关系。(我们也说η,关联于过于的函数,捕获了一个斑图,自从隐含了R获捉一个斑图。)假设这些部分不影响彼此,然后我们拥有IID随机变量,他们最接近直观的“斑图”的概念,因为它可以被数学化地陈述。注意到,因为在联合熵上的不相关界限(Eq.(A3)),如果不相等条件由一些L所满足,它也为每个L'>L所满足。因此,我们可以考虑差值H[S] - H[S->L|R]/L,找到最短不是零的L,作为由R捕获的斑图的长度。我们将给斑图长度标记一个上界(引理1);后续我们将展示如何取得这个上界(定理1)。 |
第372行: |
第383行: |
| 引理1(旧世界引理)对于所有的R和所有的L属于Z+, | | 引理1(旧世界引理)对于所有的R和所有的L属于Z+, |
| | | |
− | H[S->L|R]>=H[S->L|S<-]. (12) | + | <math> |
| + | H[\overset{\to L}{S} \vert \mathcal{R}] \ge H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]. \tag{12} |
| + | </math> |
| | | |
| 证明。由构造可知(等式4),对于所有L, | | 证明。由构造可知(等式4),对于所有L, |
− |
| + | |
− | H[S->L|R] = H[S->L|η(S<-)]. (13) | + | <math> |
| + | H[\overset{\to L}{S} \vert \mathcal{R}] = H[\overset{\to L}{S} \vert η(\overset{\leftarrow}{S})]. \tag{13} |
| + | </math> |
| | | |
| 但是 | | 但是 |
| | | |
− | H[S->L|η(S<-)]>=H(S->L|S<-). (14) | + | <math> |
| + | H[\overset{\to L}{S} \vert η(\overset{\leftarrow}{S})] \ge H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]. \tag{14} |
| + | </math> |
| | | |
| 因此在一个变量上的条件熵永不大于一个变量上的函数的条件熵(Eq.(A14)). 证毕。 | | 因此在一个变量上的条件熵永不大于一个变量上的函数的条件熵(Eq.(A14)). 证毕。 |
第386行: |
第403行: |
| 备注1。也就是说,在全部过去的条件下,最大程度地降地了在将来的不确定性。从全部准无限的过去中截取是笨重和不安以及前景有些灰暗的。用不同的方式来做:我们希望尽可能多忘掉过去,以致能减少负担。这个目标跟等式(12)的结果是相反的,所以引发我们叫它旧世界引理。 | | 备注1。也就是说,在全部过去的条件下,最大程度地降地了在将来的不确定性。从全部准无限的过去中截取是笨重和不安以及前景有些灰暗的。用不同的方式来做:我们希望尽可能多忘掉过去,以致能减少负担。这个目标跟等式(12)的结果是相反的,所以引发我们叫它旧世界引理。 |
| | | |
− | 备注2。引理1如前所述建立了斑图强度的上界,也就是,斑图的强度最多就是H[S] - H[S->L | S<-]/Lpast,其中Lpast是满足H[S->L|S<-]<LH[S]的L的最小值。 | + | 备注2。引理1如前所述建立了斑图强度的上界,也就是,斑图的强度最多就是<math>H[S] - H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]/L_{past}</math>,其中Lpast是满足<math>H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}] < LH[S]</math>的L的最小值。 |
| | | |
| === F. 最小化和预测 === | | === F. 最小化和预测 === |
第394行: |
第411行: |
| 定义4(因果态的复杂度)状态类R的统计复杂度是 | | 定义4(因果态的复杂度)状态类R的统计复杂度是 |
| | | |
− | Cμ(R)=H[R] (15)
| + | <math> |
− | =- ∑ρ∈R P(R=ρ) log2 P(R=ρ), | + | \begin{aligned} |
| + | C_{μ}(\textbf {R}) & \equiv H[R] \ (15) \\ |
| + | & = - \sum_{ρ \in \mathcal R } P(\mathcal R = ρ)\log_{2}P(\mathcal R = ρ). \\ |
| + | \end{aligned} |
| + | </math> |
| | | |
| 当和收敛到一个有限值。 | | 当和收敛到一个有限值。 |