更改

计算力学 (查看源代码)

2024年6月19日 (三) 07:20的版本

添加803字节、 2024年6月19日 (星期三)

尝试在数学公式中加入对齐环境

第330行：第330行：

2.联合和条件熵

我们以直观的方式定义两个变量X（从A中取值）和Y（从B从取值）的联合熵H(X, Y) ，

−

+

−

H[X, Y] = - ∑(x,y)~~属于A x~~ B ~~P（X~~ = x, Y = ~~y）log2~~ P(X = x, Y = y)~~。（6）~~

+

<math>

+

H [X, Y] \equiv - \sum_{(x,y) \in \mathcal A \times \mathcal B} P(X = x, Y = y)\log_{2}P(X = x, Y = y). \tag {6}

+

</math>

我们定义一个随机变量的条件熵H(X|Y)，是在已知Y值的情况下，得到的条件熵

−

H[X|Y] = H[X,Y] - H[Y]. (7)

+

<math>

+

H [X \vert Y] \equiv H [X, Y] - H [Y]. \tag {7}

+

</math>

−

~~这是从条件概率的定义自然衍生出来的，必竟P~~(X = x | Y = y) = P(X = x, Y = y) / P (Y = y)。H[X | Y] 测量一旦我们已知Y值时保留在X中的不确定性。

+

这是从条件概率的定义自然衍生出来的，毕竟<math>P(X = x \vert Y = y) \equiv P(X = x, Y = y) / P(Y = y)</math>。H[X | Y] 测量一旦我们已知Y值时保留在X中的不确定性。

3. 互信息

两个变量之间的互信息I[X;Y]定义为

−

+

<math>

−

I[X;Y~~] =~~ H[X] - H[X|Y]. (8)

+

I(X;Y) \equiv H(X) - H(X \vert Y). \tag{8}

−

+

</math>

这是固定Y时关于X产生的平均不确定性的减少量。它是非负的，如同这里所有的熵，而且在两个变量间是对称的。

第349行：第353行：

如果有一种讨论将来的不确定性将是十分方便地。直观地这将是H[S->]，但是在一般情况下数值是无限的，操作起来也是十分棘手的。（H[S->]是有限的特殊情形已经在附录F中处理过。）正常情况下，我们由考虑H[S->L]来回避这个问题，下L个符号的不确实性，由L的函数处理。在一些时候，我们将参考每一个符号的熵或熵速率【55，62】：

−

+

−

h[S->] \~~eqiv lim~~ L~~->∞~~ 1/L H[S->~~L]，（9）~~

+

<math>

+

h[\overset{\to}{S}] \equiv \lim_{L \to \infty} \frac{1}{L} H[\overset{\to L}{S}]. \tag{9}

+

</math>

并且条件熵速率，

−

h[S~~->|~~X] \equiv ~~lim~~ L~~->∞~~ 1/L H[S~~->L |~~ X]~~, (~~10)

+

<math>

+

h[\overset{\to}{S} \vert X] \equiv \lim_{L \to \infty} \frac{1}{L} H[\overset{\to L}{S} \vert X]. \tag{10}

+

</math>

其中，X是一些随机变量，而且极限存在。对于统计随机过程，极限一直存在【62，定理 4.2.1，p. 64】。

这些熵速率也是一直存在H[S]的上限；特殊情况是等式（附录3）。更有，如果h[S->] = H[S]，过程对应到的无关变量，实际上，实际上我们在这里仅仅关心统计过程。

−

+

定义3（捕捉斑图）R捕获一个斑图当且仅当存在一个L，使得

−

H[S~~->L |~~ R]<LH[S].~~（11）~~

+

<math>

+

H[\overset{\to L}{S} \vert \mathcal{R}] < LH[S]. \tag{11}

+

</math>

这就是说R捕获一个斑图，当它能告诉我们影响彼此的过程，各部分的分布：R展示了它们的依赖关系。（我们也说η，关联于过于的函数，捕获了一个斑图，自从隐含了R获捉一个斑图。）假设这些部分不影响彼此，然后我们拥有IID随机变量，他们最接近直观的“斑图”的概念，因为它可以被数学化地陈述。注意到，因为在联合熵上的不相关界限（Eq.(A3）)，如果不相等条件由一些L所满足，它也为每个L'>L所满足。因此，我们可以考虑差值H[S] - H[S->L|R]/L，找到最短不是零的L，作为由R捕获的斑图的长度。我们将给斑图长度标记一个上界(引理1)；后续我们将展示如何取得这个上界（定理1）。

第372行：第383行：

引理1（旧世界引理）对于所有的R和所有的L属于Z+，

−

H[S~~->L|~~R]>=H[S~~->L|~~S<-]. (12)

+

<math>

+

H[\overset{\to L}{S} \vert \mathcal{R}] \ge H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]. \tag{12}

+

</math>

证明。由构造可知（等式4），对于所有L，

−

+

−

H[S~~->L|~~R] = H[S~~->L|~~η(S<-)]. (13)

+

<math>

+

H[\overset{\to L}{S} \vert \mathcal{R}] = H[\overset{\to L}{S} \vert η(\overset{\leftarrow}{S})]. \tag{13}

+

</math>

但是

−

H[S~~->L|~~η(S<-)]>=H(S~~->L|~~S~~<-)~~. (14)

+

<math>

+

H[\overset{\to L}{S} \vert η(\overset{\leftarrow}{S})] \ge H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]. \tag{14}

+

</math>

因此在一个变量上的条件熵永不大于一个变量上的函数的条件熵（Eq.(A14)）. 证毕。

第386行：第403行：

备注1。也就是说，在全部过去的条件下，最大程度地降地了在将来的不确定性。从全部准无限的过去中截取是笨重和不安以及前景有些灰暗的。用不同的方式来做：我们希望尽可能多忘掉过去，以致能减少负担。这个目标跟等式（12）的结果是相反的，所以引发我们叫它旧世界引理。

−

~~备注2。引理1如前所述建立了斑图强度的上界，也就是，斑图的强度最多就是H~~[S] - H[S~~->L |~~ S<-]/~~Lpast，其中Lpast是满足H~~[S~~->L|~~S<-]<LH[S]的L的最小值。

+

备注2。引理1如前所述建立了斑图强度的上界，也就是，斑图的强度最多就是<math>H[S] - H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}]/L_{past}</math>，其中Lpast是满足<math>H[\overset{\to L}{S} \vert \overset{\leftarrow}{S}] < LH[S]</math>的L的最小值。

=== F. 最小化和预测 ===

第394行：第411行：

定义4（因果态的复杂度）状态类R的统计复杂度是

−

Cμ(R)=H[R] (15)

+

<math>

−

=- ~~∑ρ∈R~~ P(R=ρ) ~~log2~~ P(R=ρ),

+

\begin{aligned}

+

C_{μ}(\textbf {R}) & \equiv H[R] \ (15) \\

+

　& = - \sum_{ρ \in \mathcal R } P(\mathcal R = ρ)\log_{2}P(\mathcal R = ρ). \\

+

\end{aligned}

+

</math>

当和收敛到一个有限值。

涌现仿真

470

个编辑

更改

计算力学 (查看源代码)

2024年6月19日 (三) 07:20的版本

导航菜单

搜索