第49行: |
第49行: |
| <nowiki>[math]\displaystyle{ \frac{K\left(s^{L}\right)}{L}\underset{L\to\infty}{\operatorname*{\operatorname*{\operatorname*{\rightarrow}}}}h_{\mu} }[/math],转化为公式形式为:[math]\displaystyle{ h_\mu=\lim_{L\to\infty}\frac{H(\Pr(s^L))}L }[/math]</nowiki> | | <nowiki>[math]\displaystyle{ \frac{K\left(s^{L}\right)}{L}\underset{L\to\infty}{\operatorname*{\operatorname*{\operatorname*{\rightarrow}}}}h_{\mu} }[/math],转化为公式形式为:[math]\displaystyle{ h_\mu=\lim_{L\to\infty}\frac{H(\Pr(s^L))}L }[/math]</nowiki> |
| | | |
− | 其中[math]\displaystyle{ Pr(s^L) }[/math]是[math]\displaystyle{ s^L }[/math]的边际分布,[math]\displaystyle{ H }[/math]是自信息的平均值,在建模框架中,[math]\displaystyle{ h_μ }[/math]是信息不确定性程度的归一化指标,信息的不确定性越高,香农熵率越大,在这里可以解释为智能体在预测序列[math]\displaystyle{ s^L }[/math]的后续符号时的误差率。 | + | 其中<math> Pr(s^L)</math>是[math]\displaystyle{ s^L }[/math]的边际分布,[math]\displaystyle{ H }[/math]是自信息的平均值,在建模框架中,[math]\displaystyle{ h_μ }[/math]是信息不确定性程度的归一化指标,信息的不确定性越高,香农熵率越大,在这里可以解释为智能体在预测序列[math]\displaystyle{ s^L }[/math]的后续符号时的误差率。 |
| | | |
| === '''统计复杂度''' === | | === '''统计复杂度''' === |
− | 粗略地说,柯式复杂度[math]\displaystyle{ K(x) }[/math]需要考虑对象中的所有比特,包括随机比特。其主要后果是[math]\displaystyle{ K(x) }[/math]中数值[math]\displaystyle{ x }[/math]被随机性的生成所主导,因此掩盖了对象以及其生成过程中的重要结构。相比之下,统计复杂度[math]\displaystyle{ C_μ(x) }[/math]剔除了通用图灵机在模拟中随机比特时所花费的计算努力。统计复杂度的一个定义性特征是,对于理想随机对象[math]\displaystyle{ C_μ(x)=0 }[/math],同时对于简单的周期性过程,如[math]\displaystyle{ x=00000000…0 }[/math]时,也有[math]\displaystyle{ C_μ(x)=0 }[/math]。因此,统计复杂度的值对于(简单的)周期性过程和理想随机过程都很小。如果[math]\displaystyle{ s^L }[/math]表示[math]\displaystyle{ x) }[/math]的前[math]\displaystyle{ L }[/math]个符号,那么复杂性之间的关系简单地为: | + | 粗略地说,柯式复杂度[math]\displaystyle{ K(x) }[/math]需要考虑对象中的所有比特,包括随机比特。其主要后果是[math]\displaystyle{ K(x) }[/math]中数值[math]\displaystyle{ x }[/math]被随机性的生成所主导,因此掩盖了对象以及其生成过程中的重要结构。相比之下,统计复杂度[math]\displaystyle{ C_μ(x) }[/math]剔除了通用图灵机在模拟中随机比特时所花费的计算努力。统计复杂度的一个定义性特征是,对于完全随机对象[math]\displaystyle{ C_μ(x)=0 }[/math],如抛硬币产生的序列,同时对于简单的周期性过程,如[math]\displaystyle{ x=00000000…0 }[/math]时,也有[math]\displaystyle{ C_μ(x)=0 }[/math]。因此,统计复杂度的值对于(简单的)周期性过程和理想随机过程都很小。如果[math]\displaystyle{ s^L }[/math]表示[math]\displaystyle{ x }[/math]的前[math]\displaystyle{ L }[/math]个符号,那么复杂性之间的关系简单地为: |
| | | |
| [math]\displaystyle{ K(s^L )≈C_μ (s^L )+h_μ L }[/math] | | [math]\displaystyle{ K(s^L )≈C_μ (s^L )+h_μ L }[/math] |
第80行: |
第80行: |
| 因果态是一种特殊的划分方法,它的划分函数记作<math>\epsilon</math>,公式为<math> \epsilon{:}\overleftarrow{S}\mapsto2^{\overset{\leftarrow}{S}}</math>,其中<math> 2^{\overset{\leftarrow}{S}}</math>是<math> \overleftarrow{S}</math>的幂集。根据因果态的定义,则存在如下关系:<math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}),\mathrm{for~all~}\overrightarrow{s}\in\overrightarrow{S},\stackrel{\leftarrow}{s}^{\prime}\in\stackrel{\leftarrow}{S}\} </math>,其中<math>\mathcal{S} </math>为因果态的集合,<math>\stackrel{\leftarrow}{s} </math>为历史序列的随机变量,<math>\mathcal{S} </math>是<math>\mathcal{R} </math>的一种最优形式,因为<math>\mathcal{S} </math>的如下性质。 | | 因果态是一种特殊的划分方法,它的划分函数记作<math>\epsilon</math>,公式为<math> \epsilon{:}\overleftarrow{S}\mapsto2^{\overset{\leftarrow}{S}}</math>,其中<math> 2^{\overset{\leftarrow}{S}}</math>是<math> \overleftarrow{S}</math>的幂集。根据因果态的定义,则存在如下关系:<math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}),\mathrm{for~all~}\overrightarrow{s}\in\overrightarrow{S},\stackrel{\leftarrow}{s}^{\prime}\in\stackrel{\leftarrow}{S}\} </math>,其中<math>\mathcal{S} </math>为因果态的集合,<math>\stackrel{\leftarrow}{s} </math>为历史序列的随机变量,<math>\mathcal{S} </math>是<math>\mathcal{R} </math>的一种最优形式,因为<math>\mathcal{S} </math>的如下性质。 |
| | | |
− | (1)最大预测性————因果态集合<math>\mathcal{S} </math>在有效态集合<math>\mathcal{R} </math>的所有类型中,它的预测能力最强:对于所有有效态<math>\mathcal{R} </math>和正整数<math>L </math>,都有<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>,<math>\stackrel{\rightarrow}{S}^L </math>为<math>L </math>个长度的未来序列集合,<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}] </math>和<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>是<math>\stackrel{\rightarrow}{S}^L </math>的条件熵。它的证明过程如下:
| + | 性质(1)最大预测性————因果态集合<math>\mathcal{S} </math>在有效态集合<math>\mathcal{R} </math>的所有类型中,它的预测能力最强:对于所有有效态<math>\mathcal{R} </math>和正整数<math>L </math>,都有<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>,<math>\stackrel{\rightarrow}{S}^L </math>为<math>L </math>个长度的未来序列集合,<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}] </math>和<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>是<math>\stackrel{\rightarrow}{S}^L </math>的条件熵。它的证明过程如下: |
| | | |
| <math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}) </math> | | <math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}) </math> |
第92行: |
第92行: |
| <math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math> | | <math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math> |
| | | |
− | (2)最小复杂度————在相同预测能力的前提下,因果态集合<math>\mathcal{S} </math>在有效态集合<math>\mathcal{R} </math>的所有类型中,它的统计复杂度最小:设<math>\hat{\mathcal{R}} </math>为满足性质(1)中不等式等号成立的有效态,则对于所有的<math>\hat{\mathcal{R}} </math>,都有<math>C_\mu(\hat{\mathcal{R}})\geq C_\mu(\mathcal{S}) </math>。
| + | 性质(2)最小复杂度————在相同预测能力的前提下,因果态集合<math>\mathcal{S} </math>在有效态集合<math>\mathcal{R} </math>的所有类型中,它的统计复杂度最小:设<math>\hat{\mathcal{R}} </math>为满足性质(1)中不等式等号成立的有效态,则对于所有的<math>\hat{\mathcal{R}} </math>,都有<math>C_\mu(\hat{\mathcal{R}})\geq C_\mu(\mathcal{S}) </math>。 |
| | | |
| 结合本条性质,公式<math>K(s^L )≈C_μ (s^L )+h_μ L </math>中求<math>C_μ (s^L ) </math>就是求<math>s^L </math>对应的因果态的统计复杂度,也就是说想要计算<math>C_μ (s^L ) </math>需要先找到<math>s^L </math>对应的因果态。上式也可以理解为:序列<math>s^L </math>的总信息量≈被归纳的因果态信息量+放弃归纳的随机信息量 | | 结合本条性质,公式<math>K(s^L )≈C_μ (s^L )+h_μ L </math>中求<math>C_μ (s^L ) </math>就是求<math>s^L </math>对应的因果态的统计复杂度,也就是说想要计算<math>C_μ (s^L ) </math>需要先找到<math>s^L </math>对应的因果态。上式也可以理解为:序列<math>s^L </math>的总信息量≈被归纳的因果态信息量+放弃归纳的随机信息量 |
| | | |
− | (3)最小随机性————在相同预测能力的前提下,因果态集合[math]\displaystyle{ \mathcal{S} }[/math]在有效态集合[math]\displaystyle{ \mathcal{R} }[/math]的所有类型中,它的随机性最小:设<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>为满足性质(1)中不等式等号成立的有效态,则对于所有的<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>,都有<math>H[\hat{\mathcal{R}}^{\prime}|\hat{\mathcal{R}}]\geq H[\mathcal{S}^{\prime}|\mathcal{S}] </math>,其中<math>\hat{\mathcal{R}}^{\prime} </math>和<math>\mathcal{S}^{\prime} </math>分别是该过程的下一时刻有效态和下一时刻因果态。
| + | 性质(3)最小随机性————在相同预测能力的前提下,因果态集合[math]\displaystyle{ \mathcal{S} }[/math]在有效态集合[math]\displaystyle{ \mathcal{R} }[/math]的所有类型中,它的随机性最小:设<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>为满足性质(1)中不等式等号成立的有效态,则对于所有的<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>,都有<math>H[\hat{\mathcal{R}}^{\prime}|\hat{\mathcal{R}}]\geq H[\mathcal{S}^{\prime}|\mathcal{S}] </math>,其中<math>\hat{\mathcal{R}}^{\prime} </math>和<math>\mathcal{S}^{\prime} </math>分别是该过程的下一时刻有效态和下一时刻因果态。 |
| | | |
| 用[[互信息]]的角度去理解的话,上式等价于<math>I(\mathcal{S}^{\prime};\mathcal{S})\geq I(\hat{\mathcal{R}}^{\prime};\hat{\mathcal{R}}) </math>,可以理解为任意有效态对它自己下一时刻的互信息中,其中因果态的互信息最大,若不考虑[[Do演算|Do干预]],因果态和[[因果涌现|因果涌现理论]]中最大化[[有效信息]]所得到的宏观态意义相同。 | | 用[[互信息]]的角度去理解的话,上式等价于<math>I(\mathcal{S}^{\prime};\mathcal{S})\geq I(\hat{\mathcal{R}}^{\prime};\hat{\mathcal{R}}) </math>,可以理解为任意有效态对它自己下一时刻的互信息中,其中因果态的互信息最大,若不考虑[[Do演算|Do干预]],因果态和[[因果涌现|因果涌现理论]]中最大化[[有效信息]]所得到的宏观态意义相同。 |
第110行: |
第110行: |
| 如果将模型构建视为一个动态过程,那么在模型构建和完善过程中,它的两个量化指标香农熵率<math>h_μ </math>和统计复杂度<math>C_μ </math>可以分别用来监测智能体模型的预测能力和模型大小。由于外部环境实际熵率与智能体内部模型的熵率之间的绝对差异决定了智能体的预测误差率,因此模型的熵率越接近外部环境的熵率,智能体的生存机会就越高。但这种生存能力是有代价的,这个代价由智能体在进行预测时必须投入的计算资源决定的,这种代价的量度就是模型的统计复杂度。 | | 如果将模型构建视为一个动态过程,那么在模型构建和完善过程中,它的两个量化指标香农熵率<math>h_μ </math>和统计复杂度<math>C_μ </math>可以分别用来监测智能体模型的预测能力和模型大小。由于外部环境实际熵率与智能体内部模型的熵率之间的绝对差异决定了智能体的预测误差率,因此模型的熵率越接近外部环境的熵率,智能体的生存机会就越高。但这种生存能力是有代价的,这个代价由智能体在进行预测时必须投入的计算资源决定的,这种代价的量度就是模型的统计复杂度。 |
| | | |
− | ==模型分层重构法== | + | ==模型的创新与重构== |
| | | |
| ===模型创新=== | | ===模型创新=== |
| | | |
− | 由于智能体的计算资源有限,若测量结果中的数据量超过模型的处理极限时,就需要对原有模型进行创新(重构模型)以保障在计算资源不变的情况下智能体对外界的有效预测,创新方法主要是通过寻找原有模型状态组之间的相似性,在原有模型识别到的因果态中抽象出更高层级的因果态组。下表中列举了一种模型创新的途径:
| + | 由于智能体的计算资源有限,若测量结果中的数据量超过模型的处理极限时,就需要对原有模型进行创新以保障在计算资源不变的情况下智能体对外界的有效预测,创新方法主要是通过寻找原有模型状态组之间的相似性,在原有模型识别到的因果态中抽象出更高层级的因果态组。下表中列举了一种模型创新的途径: |
| [[文件:层次机器示意图1.jpg|居中|无框|600x600像素|WU]] | | [[文件:层次机器示意图1.jpg|居中|无框|600x600像素|WU]] |
| | | |