更改

跳到导航 跳到搜索
添加69字节 、 2024年11月13日 (星期三)
第103行: 第103行:  
智能体对环境的测量精度一般都是有限的,测量结果只能描述环境状态的投影,智能体需要对测量结果[[粗粒化]]后才能识别环境状态投影中的斑图。若将测量对象过去未来的所有信息视为限制在离散值、离散时间上的稳定[[随机过程]],用双无限序列可数集合<math>\overleftrightarrow{S}=⋯s_{-2} s_{-1} s_0 s_1 s_2…</math>表示,则测量结果为<math>\overleftrightarrow{S}</math>中任意随机变量的序列。基于时间<math>t</math>可以将<math>\overleftrightarrow{S}</math>分为单侧前向序列<math>s_t^→=s_t s_{t+1} s_{t+2} s_{t+3}…</math>和单侧后向序列<math>s_t^←=⋯s_{t-3} s_{t-2} s_{t-1} </math>两个部分,所有可能的未来序列<math>s_t^→</math>形成的集合记作<math> \overrightarrow{S}</math>,所有可能的历史序列<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>。
 
智能体对环境的测量精度一般都是有限的,测量结果只能描述环境状态的投影,智能体需要对测量结果[[粗粒化]]后才能识别环境状态投影中的斑图。若将测量对象过去未来的所有信息视为限制在离散值、离散时间上的稳定[[随机过程]],用双无限序列可数集合<math>\overleftrightarrow{S}=⋯s_{-2} s_{-1} s_0 s_1 s_2…</math>表示,则测量结果为<math>\overleftrightarrow{S}</math>中任意随机变量的序列。基于时间<math>t</math>可以将<math>\overleftrightarrow{S}</math>分为单侧前向序列<math>s_t^→=s_t s_{t+1} s_{t+2} s_{t+3}…</math>和单侧后向序列<math>s_t^←=⋯s_{t-3} s_{t-2} s_{t-1} </math>两个部分,所有可能的未来序列<math>s_t^→</math>形成的集合记作<math> \overrightarrow{S}</math>,所有可能的历史序列<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>。
   −
按照一定的划分方法( partition)将<math> \overset{\leftarrow}{S}</math>划分为若干个互斥且全面的子集,那么每个子集就是一个有效态(effective state),这些有效态的集合记作<math>\mathcal{R} </math>,划分方法可以是任意函数映射<math> η </math>,用公式表示为<math> \eta{:}\overleftarrow{S}\mapsto\mathcal{R}</math>,也可以将有效态理解为将<math> \overset{\leftarrow}{S}</math>中的某段序列[[马尔科夫链的粗粒化|粗粒化]]后得到的宏观态。
+
按照一定的划分方法( partition)将<math> \overset{\leftarrow}{S}</math>划分为若干个互斥且全面的子集,那么每个子集就是一个状态,这些划分得到的状态的集合记作<math>\mathcal{R} </math>,划分方法可以是任意函数映射<math> η </math>,用公式表示为<math> \eta{:}\overleftarrow{S}\mapsto\mathcal{R}</math>,也可以将划分得到的状态理解为将<math> \overset{\leftarrow}{S}</math>中的某段序列[[马尔科夫链的粗粒化|粗粒化]]后得到的宏观态。
 
[[文件:划分示意图.jpg|居中|400x400像素|替代=|无框]]
 
[[文件:划分示意图.jpg|居中|400x400像素|替代=|无框]]
上图为某种划分方法的示意图,将集合<math> \overset{\leftarrow}{S}</math>划分为某类有效态<math> \mathcal{R}=\{\mathcal{R}_i:i=1,2,3,4\}</math>,值得注意的是,<math> \mathcal{R}_i</math>不必形成紧致集,也可以是康托集或其他更特殊的结构,上图为了示意清楚才这样画的。
+
上图为某种划分方法的示意图,将集合<math> \overset{\leftarrow}{S}</math>划分为某类状态<math> \mathcal{R}=\{\mathcal{R}_i:i=1,2,3,4\}</math>,值得注意的是,<math> \mathcal{R}_i</math>不必形成紧致集,也可以是康托集或其他更特殊的结构,上图为了示意清楚才这样画的。
   −
用来划分集合<math> \overset{\leftarrow}{S}</math>的映射可以有很多种,若某一种划分方法( partition)能够在预测能力最强的同时消耗的计算资源最少,那么它肯定是最优的划分,我们把这种用最优的划分方法得到的有效态称为因果态。因果态就是智能体对测量结果进行处理后,根据其内部模型(尤其是状态结构)识别出的斑图,并且这种斑图不随时间发生变化。形式化定义为:对于任意的时刻<math>t </math> 和<math>t^{'} </math>,给定过去状态<math> s_t^←  </math>的条件下,未来状态<math> s^→ </math>的分布与给定过去状态<math> s_{t^{'}}^←  </math>的条件下,未来状态<math> s^→ </math>的分布相同。那么<math>t </math> 和<math>t^{'} </math>的关系就记作<math>t∼t^{'} </math>,“<math>∼ </math> ” 表示由等效未来状态所引起的等价关系,可以用公式表示为:<math>t∼t^{'} \triangleq Pr(s^→ |s_t^← )=Pr(s^→ |s_{t^{'}}^← ) </math>,若<math>t </math> 和<math>t^{'} </math>对未来状态预测的分布相同,则定义他们具有相同的因果态(casual state)。
+
用来划分集合<math> \overset{\leftarrow}{S}</math>的映射可以有很多种,若某一种划分方法( partition)能够在预测能力最强的同时消耗的计算资源最少,那么它肯定是最优的划分,我们把这种用最优的划分方法得到的状态称为因果态。因果态就是智能体对测量结果进行处理后,根据其内部模型(尤其是状态结构)识别出的斑图,并且这种斑图不随时间发生变化。形式化定义为:对于任意的时刻<math>t </math> 和<math>t^{'} </math>,给定过去状态<math> s_t^←  </math>的条件下,未来状态<math> s^→ </math>的分布与给定过去状态<math> s_{t^{'}}^←  </math>的条件下,未来状态<math> s^→ </math>的分布相同。那么<math>t </math> 和<math>t^{'} </math>的关系就记作<math>t∼t^{'} </math>,“<math>∼ </math> ” 表示由等效未来状态所引起的等价关系,可以用公式表示为:<math>t∼t^{'} \triangleq Pr(s^→ |s_t^← )=Pr(s^→ |s_{t^{'}}^← ) </math>,若<math>t </math> 和<math>t^{'} </math>对未来状态预测的分布相同,则定义他们具有相同的因果态(casual state)。
 
[[文件:因果态的定义.jpg|居中|无框|400x400px|替代=]]
 
[[文件:因果态的定义.jpg|居中|无框|400x400px|替代=]]
 
如上图所示,左侧的数字代表<math>t</math>时刻的状态序列,右侧的箭头形状代表对未来状态预测的分布,可以观察到<math>t_9</math>和<math>t_{13}</math>时刻的箭头形状完全相同,说明它们对未来状态预测的分布相同,则处于相同的因果态;同样的道理,在<math>t_{11}</math>时刻,它的箭头形状与<math>t_9</math>和<math>t_{13}</math>时刻不同,则处于不同的因果态。
 
如上图所示,左侧的数字代表<math>t</math>时刻的状态序列,右侧的箭头形状代表对未来状态预测的分布,可以观察到<math>t_9</math>和<math>t_{13}</math>时刻的箭头形状完全相同,说明它们对未来状态预测的分布相同,则处于相同的因果态;同样的道理,在<math>t_{11}</math>时刻,它的箭头形状与<math>t_9</math>和<math>t_{13}</math>时刻不同,则处于不同的因果态。
第114行: 第114行:  
因果态的划分函数记作<math>\epsilon</math>,公式为<math> \epsilon{:}\overleftarrow{S}\mapsto2^{\overset{\leftarrow}{S}}</math>,其中<math> 2^{\overset{\leftarrow}{S}}</math>是<math> \overleftarrow{S}</math>的幂集。根据因果态的定义,则存在如下关系:<math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}),\mathrm{for~all~}\overrightarrow{s}\in\overrightarrow{S},\stackrel{\leftarrow}{s}^{\prime}\in\stackrel{\leftarrow}{S}\} </math>,其中<math>\mathcal{S} </math>为因果态的集合,<math>\stackrel{\leftarrow}{s} </math>为历史序列的随机变量,<math>\mathcal{S} </math>是<math>\mathcal{R} </math>的一种最优形式,因为因果态的如下性质。
 
因果态的划分函数记作<math>\epsilon</math>,公式为<math> \epsilon{:}\overleftarrow{S}\mapsto2^{\overset{\leftarrow}{S}}</math>,其中<math> 2^{\overset{\leftarrow}{S}}</math>是<math> \overleftarrow{S}</math>的幂集。根据因果态的定义,则存在如下关系:<math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}),\mathrm{for~all~}\overrightarrow{s}\in\overrightarrow{S},\stackrel{\leftarrow}{s}^{\prime}\in\stackrel{\leftarrow}{S}\} </math>,其中<math>\mathcal{S} </math>为因果态的集合,<math>\stackrel{\leftarrow}{s} </math>为历史序列的随机变量,<math>\mathcal{S} </math>是<math>\mathcal{R} </math>的一种最优形式,因为因果态的如下性质。
   −
性质1(因果态具有最大预测性):对于所有有效态<math>\mathcal{R} </math>和正整数<math>L </math>,都有<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>,<math>\stackrel{\rightarrow}{S}^L </math>为<math>L </math>个长度的未来序列集合,<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}] </math>和<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>是<math>\stackrel{\rightarrow}{S}^L </math>的[[条件熵]]。可以理解为因果态集合<math>\mathcal{S} </math>在有效态集合<math>\mathcal{R} </math>的所有类型中,它的预测能力最强,证明过程如下:
+
性质1(因果态具有最大预测性):对于所有划分得到的状态<math>\mathcal{R} </math>和正整数<math>L </math>,都有<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>,<math>\stackrel{\rightarrow}{S}^L </math>为<math>L </math>个长度的未来序列集合,<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}] </math>和<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>是<math>\stackrel{\rightarrow}{S}^L </math>的[[条件熵]]。可以理解为因果态集合<math>\mathcal{S} </math>在划分得到的状态集合<math>\mathcal{R} </math>的所有类型中,它的预测能力最强,证明过程如下:
    
<math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}) </math>
 
<math>\epsilon(\stackrel{\leftarrow}{s})\equiv\{\stackrel{\leftarrow}{s}^{\prime}|\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s})=\mathrm{P}(\stackrel{\rightarrow}{S}=\stackrel{\rightarrow}{s}\mid\stackrel{\leftarrow}{S}=\stackrel{\leftarrow}{s}^{\prime}) </math>
第126行: 第126行:  
<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>
 
<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]\geq H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>
   −
性质2(因果态具有最小统计复杂度):设<math>\hat{\mathcal{R}} </math>为满足性质1中不等式等号成立的有效态,则对于所有的<math>\hat{\mathcal{R}} </math>,都有<math>C_\mu(\hat{\mathcal{R}})\geq C_\mu(\mathcal{S}) </math>。可以理解为在相同预测能力的前提下,因果态集合<math>\mathcal{S} </math>在有效态集合<math>\mathcal{R} </math>的所有类型中,它的统计复杂度最小,证明过程如下:
+
性质2(因果态具有最小统计复杂度):设<math>\hat{\mathcal{R}} </math>为满足性质1中不等式等号成立的划分得到的状态,则对于所有的<math>\hat{\mathcal{R}} </math>,都有<math>C_\mu(\hat{\mathcal{R}})\geq C_\mu(\mathcal{S}) </math>。可以理解为在相同预测能力的前提下,因果态集合<math>\mathcal{S} </math>在划分得到的状态集合<math>\mathcal{R} </math>的所有类型中,它的统计复杂度最小,证明过程如下:
    
对于任意的<math>\mathcal{R}</math>,若<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]= H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>,则存在函数<math>g </math>使得<math>\mathcal{S}=g(\mathcal{R}) </math>总是成立。
 
对于任意的<math>\mathcal{R}</math>,若<math>H[\stackrel{\rightarrow}{S}^L|\mathcal{R}]= H[\stackrel{\rightarrow}{S}^L|\mathcal{S}] </math>,则存在函数<math>g </math>使得<math>\mathcal{S}=g(\mathcal{R}) </math>总是成立。
第140行: 第140行:  
结合本条性质,公式<math>K(s^L )≈C_μ (s^L )+h_μ L </math>中求<math>C_μ (s^L ) </math>就是求<math>s^L </math>对应的因果态的统计复杂度,也就是说想要计算<math>C_μ (s^L ) </math>需要先找到<math>s^L </math>对应的因果态。上式也可以理解为:序列<math>s^L </math>的总信息量≈被归纳的因果态信息量+放弃归纳的随机信息量
 
结合本条性质,公式<math>K(s^L )≈C_μ (s^L )+h_μ L </math>中求<math>C_μ (s^L ) </math>就是求<math>s^L </math>对应的因果态的统计复杂度,也就是说想要计算<math>C_μ (s^L ) </math>需要先找到<math>s^L </math>对应的因果态。上式也可以理解为:序列<math>s^L </math>的总信息量≈被归纳的因果态信息量+放弃归纳的随机信息量
   −
性质3(因果态具有最小随机性):设<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>为满足性质1中不等式等号成立的有效态,则对于所有的<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>,都有<math>H[\hat{\mathcal{R}}^{\prime}|\hat{\mathcal{R}}]\geq H[\mathcal{S}^{\prime}|\mathcal{S}] </math>,其中<math>\hat{\mathcal{R}}^{\prime} </math>和<math>\mathcal{S}^{\prime} </math>分别是该过程的下一时刻有效态和下一时刻因果态。可以理解为在相同预测能力的前提下,因果态集合[math]\displaystyle{ \mathcal{S} }[/math]在有效态集合[math]\displaystyle{ \mathcal{R} }[/math]的所有类型中,它的随机性最小。
+
性质3(因果态具有最小随机性):设<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>为满足性质1中不等式等号成立的状态,则对于所有的<math>\hat{\mathcal{R}} </math>和<math>\hat{\mathcal{R}}^{\prime} </math>,都有<math>H[\hat{\mathcal{R}}^{\prime}|\hat{\mathcal{R}}]\geq H[\mathcal{S}^{\prime}|\mathcal{S}] </math>,其中<math>\hat{\mathcal{R}}^{\prime} </math>和<math>\mathcal{S}^{\prime} </math>分别是该过程的下一时刻状态和下一时刻因果态。可以理解为在相同预测能力的前提下,因果态集合[math]\displaystyle{ \mathcal{S} }[/math]在划分得到的状态集合[math]\displaystyle{ \mathcal{R} }[/math]的所有类型中,它的随机性最小。
   −
用[[互信息]]的角度去理解的话,上式等价于<math>I(\mathcal{S}^{\prime};\mathcal{S})\geq I(\hat{\mathcal{R}}^{\prime};\hat{\mathcal{R}}) </math>,可以理解为任意有效态对它自己下一时刻的互信息中,其中因果态的互信息最大。
+
用[[互信息]]的角度去理解的话,上式等价于<math>I(\mathcal{S}^{\prime};\mathcal{S})\geq I(\hat{\mathcal{R}}^{\prime};\hat{\mathcal{R}}) </math>,可以理解为任意状态对它自己下一时刻的互信息中,其中因果态的互信息最大。
    
若想更深入的理解因果态的性质可以阅读Cosma Rohilla Shalizi 和James Crutchfield合写的一篇论文<ref name=":4">Shalizi, C. R.. & Crutchfield, J. P. (2001). Computational Mechanics: Pattern and Prediction, Structure and
 
若想更深入的理解因果态的性质可以阅读Cosma Rohilla Shalizi 和James Crutchfield合写的一篇论文<ref name=":4">Shalizi, C. R.. & Crutchfield, J. P. (2001). Computational Mechanics: Pattern and Prediction, Structure and
第196行: 第196行:  
计算力学的许多概念在因果涌现理论中可以找到对应的近似等价概念,通过进行两者之间的对应和比较,可以拓展对涌现的理解和研究。
 
计算力学的许多概念在因果涌现理论中可以找到对应的近似等价概念,通过进行两者之间的对应和比较,可以拓展对涌现的理解和研究。
   −
# 计算力学中的时间序列可以看作是因果涌现中的微观状态,有效态<math>\mathcal{R}_i \in \mathcal{R} </math>对应宏观状态,因果转移映射<math>T</math> 对应于有效的宏观动力学。
+
# 计算力学中的时间序列可以看作是因果涌现中的微观状态,划分得到的状态<math>\mathcal{R}_i \in \mathcal{R} </math>对应宏观状态,因果转移映射<math>T</math> 对应于有效的宏观动力学。
# 计算力学中的有效态映射函数<math>\eta </math>可以看作是因果涌现中的粗粒化策略,其中因果态的映射函数<math>\epsilon</math>对应能够最大化有效信息的粗粒化策略。
+
# 计算力学中的划分得到的状态映射函数<math>\eta </math>可以看作是因果涌现中的粗粒化策略,其中因果态的映射函数<math>\epsilon</math>对应能够最大化有效信息的粗粒化策略。
 
# 计算力学中的斑图重构机器(ϵ-machine)和因果涌现中的[[神经信息压缩器|神经信息压缩机]](NIS+)也有相似的地方,比如斑图重构机器可以识别因果态和预测未来状态,神经信息压缩机可以识别和生成最大化有效信息的宏观态,都能够最大化的保留有用信息。
 
# 计算力学中的斑图重构机器(ϵ-machine)和因果涌现中的[[神经信息压缩器|神经信息压缩机]](NIS+)也有相似的地方,比如斑图重构机器可以识别因果态和预测未来状态,神经信息压缩机可以识别和生成最大化有效信息的宏观态,都能够最大化的保留有用信息。
  
275

个编辑

导航菜单