第88行: |
第88行: |
| 如果不是均匀分布,也就意味着某些行的熵就会被乘以一个较大的权重,有的行就会被赋予一个较小的权重,因此也就不能做到让EI能够反映因果机制的天然属性。 | | 如果不是均匀分布,也就意味着某些行的熵就会被乘以一个较大的权重,有的行就会被赋予一个较小的权重,因此也就不能做到让EI能够反映因果机制的天然属性。 |
| | | |
− | =Markovian matrix 形式(TPM)= | + | =马尔科夫链的有效信息= |
− | [[Erik Hoel]]进一步将EI应用在一个[[随机过程]]的背景下,输入变量为<math>X_t</math>,输出变量为<math>X_{t+1}</math>,在将<math>X_t</math>[[干预]]为[[最大熵分布]]时,计算二者之间的[[互信息]]。在离散情况下,[[最大熵分布]]即为[[均匀分布]]。因为这里的EI计算只关乎两个时刻,在[[干预]]的情况下更早的历史变量不起作用,所以Hoel假定该过程的动力学就是一个满足[[马尔科夫性]]的[[概率转移矩阵]]。下面给出几个马尔科夫概率转移矩阵的示例。 | + | |
| + | 最早,[[Erik Hoel]]等人是在离散状态的[[马尔科夫动力学]],即[[马尔科夫链]]上提出有效信息这一度量因果性的指标的。因此,这一节中,我们介绍有效信息在[[马尔科夫链]]上的特殊形式。 |
| + | |
| + | 所谓的[[马尔科夫链]]是指状态离散、时间离散的一种[[平稳随机过程]],它的动力学一般都可以用所谓的[[转移概率矩阵]](Transitional Probability Matrix),简称TPM来表示,有时也叫做[[概率转移矩阵]]或[[状态概率转移矩阵]]或[[状态转移矩阵]]。 |
| + | |
| + | 具体来讲,[[马尔科夫链]][math]\chi[/math]包含一组随机变量[math]X_t[/math],它在状态空间[math]\mathcal{X}=\{1,2,\cdots,N\}[/math]上取值,其中[math]t[/math]往往表示时间。所谓的[[转移概率矩阵]]是指一个概率矩阵,其中第[math]i[/math]行,第[math]j[/math]列元素:[math]p_{ij}[/math]表示了系统在任意时刻[math]t[/math]在[math]i[/math]状态的条件下,在[math]t+1[/math]时刻跳转到[math]j[/math]状态的概率。同时,每一行满足归一化条件: |
| + | |
| + | <math> |
| + | \sum_{j=1}^Np_{ij}=1, |
| + | </math> |
| + | |
| + | [[状态转移矩阵]]可以看作是[[马尔科夫链]]的[[动力学]],这是因为,任意时刻[math]t+1[/math]上的状态概率分布,即[math]Pr(X_t)[/math],可以被上一时刻的状态概率分布,即[math]Pr(X_t)[/math]和[[状态转移矩阵]]所唯一确定,并满足关系: |
| + | |
| + | <math> |
| + | Pr(X_{t+1}=j)=\sum_{i=1}^N p_{ij}\cdot Pr(X_t=i), |
| + | </math> |
| + | |
| + | 这里的[math]i,j\in \mathcal{X}[/math]都是[math]\mathcal{X}[/math]中的任意状态,且[math]N=\#(\mathcal{X})[/math]即[math]\mathcal{X}[/math]中的总状态数。 |
| + | |
| + | 下图展示的是三个不同的转移概率矩阵: |
| + | |
| [[文件:TPM EI.png|804x804px|居中|几个概率转移矩阵的案例|替代=]] | | [[文件:TPM EI.png|804x804px|居中|几个概率转移矩阵的案例|替代=]] |
| + | |
| + | 进一步将EI应用在一个[[随机过程]]的背景下,输入变量为<math>X_t</math>,输出变量为<math>X_{t+1}</math>,在将<math>X_t</math>[[干预]]为[[最大熵分布]]时,计算二者之间的[[互信息]]。在离散情况下,[[最大熵分布]]即为[[均匀分布]]。因为这里的EI计算只关乎两个时刻,在[[干预]]的情况下更早的历史变量不起作用,所以Hoel假定该过程的动力学就是一个满足[[马尔科夫性]]的[[概率转移矩阵]]。下面给出几个马尔科夫概率转移矩阵的示例。 |
| + | |
| 马尔科夫矩阵中每个元素都是一个条件概率,满足行归一化。将输入变量概率分布和矩阵直接相乘便得到输出变量的概率分布。因为有[[干预]],所以EI的大小只和转移矩阵本身有关。已知马尔科夫概率转移矩阵,我们可以用下式计算EI。 | | 马尔科夫矩阵中每个元素都是一个条件概率,满足行归一化。将输入变量概率分布和矩阵直接相乘便得到输出变量的概率分布。因为有[[干预]],所以EI的大小只和转移矩阵本身有关。已知马尔科夫概率转移矩阵,我们可以用下式计算EI。 |
| | | |