更改

添加16,377字节 、 2024年6月30日 (星期日)
翻译完成至“Ⅵ。边界”这一节
第738行: 第738行:     
备注。预知竞争者也是足够统计的。
 
备注。预知竞争者也是足够统计的。
 +
 +
引理7(细化引理)对于所有的预知竞争者R^有对于每一个ρ∈R^,有一个σ∈S和测度为0的子集ρ0^⊂ρ^,可能是空集,可得ρ^\ρ0^⊆σ,其中\是集合相对差集。
 +
 +
证明。我们调用参考文献【62】定理2.7.3的一个直接扩展:如果X1, X2, ...,Xn是同一集合A上的随机变量,每一个带有单独的概率分布,Θ是在正整数之上的随机变量,符合P(Θ = i) = λi,并且Z是A之上的随机变量,符合Z = XΘ,于是
 +
 +
H[Z] = H[Σi=1nλiXi]
 +
≥Σi=1nλiH[Xi] (46)
 +
 +
可以说,混合概率的熵至少是那些分布熵的均值。这是成立的自从H是严格凹的,相反xlogx对于X≥0是严格凸的也成立。我们在等式(46)中获得量化当且仅当所有的λi是0或者1,例如,当且仅当Z最少是弱同质性的(定义7)。
 +
对于每个竞争态ρ未来的条件分布可以写成一个或多个因果态变体的带权重混合。(Cf.图3)因此,由等式(46)得出,除非每一个ρ对于S->L(对每一个L)至少是强同质性,S->L在R上的条件熵将比最小值最高,在S上的条件熵。因此,在最大预测R^的情形下,每一个ρ^∈R^对于所有S->L必须至少是弱同质性的。但是因果态是最大的聚类,有着对于所有S->L的强同质性(引理3)。因此,每个ρ^∈R^的强同质性部分必须是子聚类,可能不适当的,是一些因果态σ∈S的。证毕。
 +
 +
备注1。一个可替换的证明出现在附录E中。
 +
 +
备注2。引理的内容可以很直观地生成,如果我们一时忽略历史中集合ρ0^测度为0的陈述。它也断言任何可替换划分R^是和因果态一样预知必须是因果态划分的细化。也就是,每个R^i必须是一个(可能不适当的)一些Sj的子集。否则,至少有一个Ri^应当必须至少包含两个因果态的部分。所以说,使用这个Ri^去预测未来的观测可能会导致关于S->比使用因果态更加的不确定。这点也在图4中做了说明,可以尝试和图3做对比。
 +
 +
将历史的测度0集合ρ0^添加到这个图示中并没有大幅改变启发式内容。准确地因为这些历史有0的概率,用“不恰当的”的方式来看待他们可以获得对预测、变体、凡此种种不可辨别的差异。这里有一个术语上的问题,尽管,自从他们看起来没有标准的名称来命名划分R^和S之间的关系。我们提议说前者是后者几乎无处不在的细化,或者,一个细化后处理(After Effect)。
 +
 +
注备3。没有人能用其他方法证明来展示因果态必须是等价预知R^状态的细化。这已经排除了因为应用借用自参考文献【62】的等式【46】定理,兴起于能够由指定选择哪一种分布来减少不确定性。自从因果态构建于对应未来的强同质性,没有这种情况。引理3和定理1一样保护了我们。
 +
 +
备注4。因为几乎所有每一个预知竞争者状态是完全地包含在一个单独的因果态,我们可以构建一个函数g:R^->S,符合,如果η(s<-) = ρ^,那么ϵ(s<-)=g(ρ^)几乎都成立。我们甚至可以说S = g(R^)几乎总成立,理解了这一点,意味着,对每一个ρ^,P(S = σ | R^ = ρ^) >0当且仅当σ = g(ρ^)。
 +
 +
图例4。一个预知竞争者划分R^必须是因果态划分的细化几乎到处如此。即,几乎所有每个R^i必须包含在一些Sj;例处就是,如果任何,一些历史集合测度为0。这里作为例子S2包含R^3,R^4和R^5的正测度部分。这里竞争态当中的一个,比如R^3,可以拥有在任意或所有其他因果态的历史成员,提供所有的这些异常历史的所有测度是0。Cf.图3。
 +
 +
定理2(因果态是最简的)【15】对所有预知竞争态R^,
 +
Cμ(R^)≥Cμ(S)。(47)
 +
证明。由引理7,备注4可得,有一个函数g符合S = g(R^)几乎总成立。但是H[f(X)]≤H(X)(等式(附录11))并且因此
 +
H[S] = H[g(R^)] ≤ H[R^]。(48)
 +
但是Cμ(R^) = H[R^] (定义4)。证毕。
 +
 +
备注1。我们只是建立了没有竞争者斑图,能同因果态一样对观测预测的那么发,又或者是更简单,在定义4的意义下,相比于因果态来说。(这是参考文献【6】中的定理。)奥卡姆因此告诉我们不用使因果态是没有理由的。下一个定理展示了因果态是唯一最优的,并且因此奥卡姆剃刀是我们不得不使用的。
 +
 +
备注2。到这时它变得重要,我们试图预测S->的全部,而不是一些片段,S->L。假设两段历史s<-和s<-'对长度到L的未来有相同的条件分布,但是符合条件的是不同的个体。他们应该这时附属于不同的因果态。一个η状态合并了这两个因果态,尽管这样,应该拥有同因果态相同的预测S->L的能力。更多地,这些R-状应该更简单,意味着在当前状态下的不确定性应该更低。我们得出因果态是最优的,但是对于最难的工作——那些预测所有长度的未来。
 +
 +
备注3。我们已经看到(定理1,备注2)因果态对于预测所有长度的未来有足够统计量;所有的预知竞争者也一样。一个最简单足够统计是这样一个所有其他足够统计量的函数【62,p.38】。自从,在定理2的证明过程中,我们已经展现有一个从任意R^到S的函数g,我们也展示了因果态是最简单且具有足够统计量的。
 +
 +
我们现在或许可以,如同承诺,定义一个过程的统计复杂度【5,6】。
 +
 +
定义12(一个过程的统计复杂度)一个过程O的统计复杂度“Cμ(O) ”是它的因果态:Cμ(O) = Cμ(S)。
 +
 +
因为因果态的最简使我们看到统计复杂度度量存储在过程中的平均数量历史记忆。没有最简定理,这种表述将不可能,因为我们可以不厌其繁地精心设计内部状态,但仍然生成相同的观测过程。这些状态对应的Cμ将增长到无界并因此是随心所欲并不是过程的特征属性【17】。
 +
 +
定理3(因果态是唯一的)对所有预知竞争者R^,如果Cμ(R^) = Cμ(S),那么存在一个在R^和S之间不可逆函数几乎总是保持状态的相等:R^跟η和S及ϵ是相等的,相对而言,将测度为0的历史集合排除在外。
 +
 +
证明。从引理7,我们可知S = g(R^)几乎总成立。我们现在展示有一个函数f满足R^ = f(S)几乎总成立,表明g = f-1并且f是要求的两个集合之间的关系。为了做成这样,由等式(A12)足够展示H[R^|S]=0。现在,它遵循信息论唯一性(等式(A8))
 +
H[S] - H[S | R^] = H[R^] - H[R^ | S]。(49)
 +
 +
自从,由引理7H[S|R^] = 0,等式(49)两边都等于H[S]. 但是,由假设可知,H[R^] = H[S]。因此,H[R^|S] = 0并且存在一个f满足R^ = f(S)几乎总成立。至此我们有f(g(R^)) = R^并且g(f(S)) = S,因此g = f-1。这表明f保留几乎一直状态的等价性:对几乎所有s<-,s<-' ∈S<-,η(S<-)= η(s<-')当且仅当ϵ(s<-) = ϵ(s<-')。
 +
 +
备注。作为细化引理7的情形,在定理的基础之上,测度0的注意事项看来是无可避免的。一个竞争对手同因果态拥有相同预测和简化(在定义4的意味上)能力,可以赋予测度0历史的集合以和ϵ机制区分状态,但没有更多了。这是有意义的:这样测度为0的集合无法区分,自从他们的成员从来无法观测,由定义可知。由同类的标记,尽管如此,没有什么阻止一个最简的,预知竞争者从不同意在这些历史上的ϵ机制。
 +
 +
定理4(ϵ机制是最简随机)【15】对所有的预知竞争者R^,
 +
H[R^'|R^]≥H[S'|S],(50)
 +
其中S'和R^'是过程的下一个因果态并且是对应的下一个η态。
 +
 +
证明。从定理5可知,S'由S和S->1共同固定,因此由等式(A12)得出H[S'|S,S->1] = 0。因此,从对于熵的等式(A6)链式法则可知,
 +
H[S->1S] = H[S', S->1|S]。(51)
 +
我们没有对于竞争者状态R^类似的决定性引理5的结果,但是熵是一直非负的:H[R^'|R^,S->1] ≥ 0。自从对于所有的L,H[S->L|R^] = H[S->L|S],由定义可知,定义(11),竞争态的,H[S->1|R^] = H[S->1|S]。现在我们再次应用链式法则,
 +
H[R^', S->1|R^] = H[S->1|R^] + H[R^'|S->1,R^] (52)
 +
≥ H[S->1|R^]
 +
= H[S->1|S]
 +
= H[S', S->1|S]
 +
= H[S'|S] + H[S->1|S',S]。(56)
 +
从等式(54)到等式(55)我们使用了等式(51),并且在是后一步我们再一次应用了链式法则。
 +
 +
最后一次使用链式法则,我们有
 +
H[R^', S->1|R^] = H[R^'|R^] + H[S->1|R^',R^]. (57)
 +
 +
将这些扩展,等式(56)和(57),结合在一起我们得到
 +
H[R^'|R^] + H[S->1 | R^', R^] ≥ H[S' | S] + H[S->1|S',S] (58)
 +
H[R^'|R^] - H[S' | S] ≥ H[S->1 | S', S] - H[S->1|R^', R^]。
 +
 +
从引理7,我们知道S = g(R^),因此这里有另一个函数g'从η状态的有序对到因果态的有序对:(S',S) = g'(R^',R^)。因此,等式(A14)表明
 +
H[S->1|S',S] ≥ H[S->1|R^1|R^',R^]。(59)
 +
 +
因此,我们有
 +
 +
H[S->1|S',S] - H[S->1|R^',R^] ≥ 0
 +
H[R^'|R^] - H[S'|S] ≥ 0
 +
H[R^'|R^] ≥ H[S'|S]。(60)
 +
 +
证毕。
 +
 +
备注。这个定理是说在因果态的转换间没有更多的不确定性,比其他预知实际状态类别之间的转换更少。用其他的话来说,因果态的方式同完美的决定论很接近——在通常的理论中,非计算理论层面——因为任何竞争者在预测未来上一样好。这一类内部的决定论已经作为理想的科学模型【72】有一段时间了。
 +
 +
== Ⅵ。边界 ==
 +
 +
在这一节我们研究结构复杂度和熵之间的测量,继承自ϵ机制和那些来自遍历性和信息论的,或许可能会让大家更熟悉一些。
 +
 +
定义13(扩展熵)一个过程的扩展熵E是它的准无穷过去和准无穷未来之间的互信息。:
 +
E = I[S->;S<-]。(61)
 +
 +
扩展熵是经常使用的随机过程复杂度的测量方法,也出现过多个名字;例如,“预测信息”,“存储信息”,“有效测量复杂度”,凡此种种【73-79】。E测量存储在关于过去可观测行为的外在信息。由于我们已经建立了,E不是,通常意义上的,过程存储于内部的关于过去的记忆数量;一个用Cμ量化测量。
 +
 +
定理5(扩展的边界)统计复杂度是扩展熵E的边界:
 +
 +
E≤Cμ,(62)
 +
 +
带着等价条件当且仅当H[S|S->] = 0。
 +
 +
证明。E = I[S->;S<-] = H[S->] - H[S-> | S<-]并且,由于因果态的构造,H[S->|S<-] = H[S->|S],所以
 +
 +
E = H[S->] - H[S->|S] = I[S->;S]。(63)
 +
 +
所以有,自从两个变量间的互信息从不大于各自的信息量(等式(A9)),E ≤ H[S] = Cμ,带着等价条件当有仅当H[S|S->] = 0。证毕。
 +
 +
备注1。注意到我们有引用H[S->],而不是H[S->L],也只是在减去象H[S->|S<-]的数量。我们不需要担心,因此,关于一个有限L-> ∞极限H[S->L]的存在性,只是有限L->∞对于I[S->L;S<-]和I[S->L;S]的极限。有很多初级情形(例如,单纯的掷硬币过程)都是后者极限存在的同时前者不存在。
 +
 +
备注2。在第一眼看来,将E看作存储在过程中的信息数量是吸引人的。如定理5所示,这种吸引力应该抵制。E是过程存储关于它的历史,命名为Cμ,信息真实数量唯一下界。 我们可以,即使,说E量度了在过程中显现的信息,自从它是直接定义在观察序列术语上而非隐式术语,内生状态,如Cμ所是。
 +
 +
备注3。可能另一种描述什么是E所量度的是指出,由它的区块马尔可夫结构隐含假设,它接受序列区块作为状态。但即使对于区块马尔可夫源聚类,对于这种假设是适当的,扩展熵和统计复杂度量度不同种类的信息存储。参考文献【65】和【80】展现了在一维范围情形的R自旋系统,或者任何其他的区块马尔可夫源的区块配置是对因果态同构的。
 +
 +
Cμ = E + Rhμ,(64)
 +
 +
对于有限的R。只有对于零熵速率区块马尔可夫源将扩展熵,一个直接从序列区块数量估计,等同于统计复杂度,存储在过程中的记忆数量。这些源的例子包括周期过程,对于这类我们有Cμ = E = log2p,其中p是周期。
 +
 +
推论2 对于所有的预知竞争态R^,
 +
E≤H[R^]. (65)
 +
 +
证明。这个直接遵循于定理2,自从H[R^]≥Cμ。证毕。
 +
 +
引理8(条件不影响熵速率)对于所有预知竞争态R^,
 +
h[S->] = h[S-> | R^],(66)
 +
 +
其中熵速率h[S->]和条件熵速率h[S->|R^]已经定义在等式(9)和等式(10),相应地。
 +
 +
证明。从定理5和推论2,我们得出
 +
 +
limL->∞(H[S->L] - H[S->L | R^]) ≤ limL->∞H[R^], (67)
 +
 +
或者,
 +
 +
limL->∞ H[S->L] - H[S->L | R^] / L ≤ lim L->∞ H[R^]/L。(68)
 +
 +
自从,由等式(A4),H[S->L] - H[S->L | R^] ≥ 0,得出
 +
 +
h[S->] - h[S-> | R^] = 0。 (69)
 +
 +
证毕。
 +
 +
备注。强制让过程进入一定的状态R^ = ρ^是相似的应用过控制器,一次。但在无限熵情形,H[S->L]->L->∞ ∞,带着我们关注的,未来可能包含(或者对应)一个无限扰动序列。面对这 种“重大的扰动”,有限控制的效果是简单地被清洗掉。
 +
 +
另一种看待这个的方式是反映出在h[S->]统计了对应整个准无限未来的所有部分的所有依赖效果的事实基础。这个,属于统计的时间转换不变,是等同于考虑整个过程所有的依赖,包括在过去和未来之间的那些。但是这是由h[S->|R^]捕获的。他不是在R上的条件使得降低我们关于未来的不确定性失效;他能做到,因为对所有有限时间,且在S上的条件能获得最大可能不确定性的减少。宁可,引理断言这些条件不能影响那些不确定性随时间增长的渐近速率。
 +
 +
定理6(控制定理)给定一个预知竞争者聚类R^,
 +
 +
H[S] - h[S-> | R^] ≤ Cμ,(70)
 +
 +
其中H[S]是从可观测随机过程单个符号的熵。
 +
 +
证明。由于周知的原因(参考文献。【62,定理. 4.2.1,p. 64】),对于任意统计随机过程,
 +
 +
lim L->∞ H[S->L] / L = lim L->∞ H[SL | S->L-1]。(71)
 +
 +
更多地,这个极限总是存在。到了这个点,我们已经定义的h[S->]是用左手面的形式;回忆下等式(9)。接下来我们用右手面将是便利的。
 +
 +
从条件熵的定义可知,我们有
 +
H[S<-L] = H[S->1 | S<-L-1] + H[S<-L-1]
 +
= H[S<-L-1|S<-1] + H[H<-1].  (72)
 +
 +
所以我们可以将过程过去生成的最后可测量的熵表示成
 +
 +
H[S<-1] = H[S<-L] - H[S<-L-1|S<-1] (73)
 +
= H[S<-1 | S<-L-1] + H[S<-L-1] - H[S<-L-1|S<-1] (74)
 +
= H[S<-1 | S<-L-1] + I[S<-L-1;S<-1]. (75)
 +
 +
我们由替换RHS对应H[S<-L]的等式(72)走过等式(73)和等式(74)。
 +
 +
考虑到L->∞ 的极限在LHS上没有作用,
 +
 +
H[S<-1] = lim L->∞(H[S<-1 | S<-L-1] + I[S<-L-1;S<-1] ). (76)
 +
 +
自从过程是统计的,我们可以将极限中第一个术语倾向于H[SL|S->L-1]。这个极限是h[S->],由等式(71)。进一步,因为统计性,H[S<-1] = H[S->1] = H[S]。转移熵速率h[S->]到等式(76)的LHS并且再次请求时间转换,我们有
 +
H[S]-h[S->] = lim L->∞I[S<-L-1;S<-1] (77)
 +
= I[S<-;S->1] (78)
 +
= H[S->1] - H[S->1|S<-] (79)
 +
= H[S->] - H[S->1|S](80)
 +
= I[S->1;S](81)
 +
≤ H[S] = Cμ,(82)
 +
 +
其中最后一个不等式来自等式(A9)。证毕。
 +
 +
备注1。控制定理受此启发,也是一个版本,艾什比的多样必要性定律【81,ch. 11】。这点陈述了应用一个控制器会由最大化控制变量的熵来减少被控变量中的不确定性。(这个结果最近被重新在参考文献【82】中发现。)将控制变量考虑成因果态,我们在这里有一个在控制器减少熵速率能力上的极限。
 +
 +
备注2。这是长久以来唯一结果,在有限L和无限L情形之间的差别是很重要的。对于在有限情况的类似结果,可参阅附录F的定理7。
 +
 +
备注3。由应用定理2和引理8,我们可以从表示H[S] - h[S->|R^] ≤ H[R^]定理出发。这个具有良好的对称表现形式,但确实是一个更弱的极限,无论是在斑图的长度上,相等地,或是在控制可努力修正因果态(或他竞争者当中的一个)的数量。
470

个编辑