更改

删除4字节 、 2024年9月5日 (星期四)
第138行: 第138行:  
===因果态的定义===
 
===因果态的定义===
   −
因为智能体的测量装置精度都是有限的,在读取外部环境的测量结果时一般为时间序列上的离散值。测量结果中的某个测量值可能对应某个“隐藏”状态(“隐藏”状态是智能体存储于其内部环境中的已知状态)。若在离散时间序列上不同的测量值对未来的预测有相同的模式,都对应一个相同的 “隐藏”状态,那么,将这个“隐藏”状态称作这些不同测量值的因果态(casual state)。
+
因为智能体的测量装置精度都是有限的,在读取外部环境的测量结果时一般为时间序列上的离散值。测量结果中的某个测量值可能对应某个“隐藏”状态(“隐藏”状态是智能体存储于其内部环境中的已知状态)。若在离散时间序列上不同的测量值对未来的预测有相同的模式,那么它们都对应一个相同的 “隐藏”状态,我们将这个“隐藏”状态称作这些不同测量值的因果态(casual state)。
 
[[文件:因果态的定义.jpg|居中|无框|400x400px|替代=]]
 
[[文件:因果态的定义.jpg|居中|无框|400x400px|替代=]]
 
如上图所示,在<math>t_9</math>和<math>t_{13}</math>时刻分别对应一个状态,这两个状态处于相同的因果态,因为对未来的预测具有相同的分布;在<math>t_{11}</math>时刻的状态,则与<math>t_9</math>和<math>t_{13}</math>时刻处于不同的因果态。
 
如上图所示,在<math>t_9</math>和<math>t_{13}</math>时刻分别对应一个状态,这两个状态处于相同的因果态,因为对未来的预测具有相同的分布;在<math>t_{11}</math>时刻的状态,则与<math>t_9</math>和<math>t_{13}</math>时刻处于不同的因果态。
第146行: 第146行:  
将测量的数据流<math>s=⋯s_{-2} s_{-1} s_0 s_1 s_2…</math>分为两个部分,按照时间<math>t</math>分为前向序列<math>s_t^→=s_t s_{t+1} s_{t+2} s_{t+3}…</math>和后向序列<math>s_t^←=⋯s_{t-3} s_{t-2} s_{t-1} s_t</math>,可以得到一个单侧前向序列和一个单侧后向序列,它们分别表示<math>s_t</math>关于未来和过去的信息。
 
将测量的数据流<math>s=⋯s_{-2} s_{-1} s_0 s_1 s_2…</math>分为两个部分,按照时间<math>t</math>分为前向序列<math>s_t^→=s_t s_{t+1} s_{t+2} s_{t+3}…</math>和后向序列<math>s_t^←=⋯s_{t-3} s_{t-2} s_{t-1} s_t</math>,可以得到一个单侧前向序列和一个单侧后向序列,它们分别表示<math>s_t</math>关于未来和过去的信息。
   −
属于相同因果态的两个状态<math>t </math> 和<math>t^{'} </math>,他们之间的关系可以表示为:<math>t∼t^{'} </math>,“<math>∼ </math> ” 表示由等效未来形态所引起的等价关系。那么,就会有如下关系:
+
属于相同因果态的两个状态<math>t </math> 和<math>t^{'} </math>,他们之间的关系可以表示为:<math>t∼t^{'} </math>,“<math>∼ </math> ” 表示由等效未来形态所引起的等价关系。那么,就会有如下定义:
   −
   <math>t∼t^{'} </math>定义为<math> Pr(s^→ |s_t^← )=Pr(s^→ |s_{t^{'}}^← ) </math>  
+
   <math>t∼t^{'} \triangleq Pr(s^→ |s_t^← )=Pr(s^→ |s_{t^{'}}^← ) </math>  
    
<math> Pr(s^→ |s_t^← ) </math>和<math> Pr(s^→ |s_{t^{'}}^← ) </math>为<math> s^→  </math>的条件概率分布,式中序列<math>t </math>和<math>t^{'} </math>通常是不同的,如果生成数据流<math>s </math>的过程是遍历的,上式可以理解为,如果<math>t∼t^{'} </math>,就算在不同时刻测量到了不同状态,智能体对未来状态的预测结果也会是相同的。
 
<math> Pr(s^→ |s_t^← ) </math>和<math> Pr(s^→ |s_{t^{'}}^← ) </math>为<math> s^→  </math>的条件概率分布,式中序列<math>t </math>和<math>t^{'} </math>通常是不同的,如果生成数据流<math>s </math>的过程是遍历的,上式可以理解为,如果<math>t∼t^{'} </math>,就算在不同时刻测量到了不同状态,智能体对未来状态的预测结果也会是相同的。
263

个编辑