更改

跳到导航 跳到搜索
第97行: 第97行:  
第二项:[math]H(\bar{P})[/math]为平均行向量的熵,其中[math]\bar{P}\equiv \frac{1}{N}\sum_{i=1}^N P_i [/math]为所有N个行向量的平均行向量,它刻画了整个马尔科夫转移矩阵的'''非简并性'''或'''非退化性'''(non-degeneracy),即在动力学的作用下,能够以多大程度从下一时刻的状态推断上一时刻的状态。非简并性高对应,很大程度可以正确推断上一时刻状态。
 
第二项:[math]H(\bar{P})[/math]为平均行向量的熵,其中[math]\bar{P}\equiv \frac{1}{N}\sum_{i=1}^N P_i [/math]为所有N个行向量的平均行向量,它刻画了整个马尔科夫转移矩阵的'''非简并性'''或'''非退化性'''(non-degeneracy),即在动力学的作用下,能够以多大程度从下一时刻的状态推断上一时刻的状态。非简并性高对应,很大程度可以正确推断上一时刻状态。
   −
* '''EI分解'''
+
* '''确定性与简并性'''
 +
然而,上述定义中的确定性项和非简并性都是负数,为此,我们重新定义一个马尔科夫链转移矩阵P的'''确定性'''为:
 +
 
 +
<math>
 +
Determinism \equiv \log N - \langle H(P_i)\rangle = \frac{1}{N}\sum_{i=1}^N \sum_{j=1}^N p_{ij}\log \left(N\cdot p_{ij}\right)
 +
</math>
 +
 
 +
这一项是一个平均的[[负熵]],为了防止其为负数,所以加上了[math]\log N[/math]<ref name=hoel_2013 />。Determinism能刻画整个转移矩阵的确定性:也就是说如果我们知道了系统当前时刻所处的状态,则我们能够推断出系统在下一时刻所处的状态的程度。为什么这么说呢?这是因为确定性这一项是所有行向量熵的平均值,再取一个负号。我们知道,当一个向量更靠近均匀分布的时候,它的熵就越大,相反,如果一个向量越靠近一个“独热”(one-hot)的向量,也就是这个向量中只有一个1,其它元素都是0,那么它的熵就越小。我们知道,马尔科夫概率转移矩阵的一个行向量的含义就代表系统从当前状态转移到各个不同状态的概率大小。那么,当平均的行向量负熵大的时候,也就是这个行向量的某一个单元概率为1,其它为0,这就意味着系统能够确定地转移到1对应的状态。
 +
 
 +
我们定义一个马尔科夫链转移矩阵P的'''简并性'''为:
 +
 
 +
<math>
 +
Degeneracy \equiv \log N - H(\bar{P})=\log N + \sum_{j=1}^N \bar{P}_{\cdot j}\log \bar{P}_{\cdot j}=\sum_{j=1}^N \frac{\sum_{i=1}^Np_{ij}}{N}\log \left(\sum_{i=1}^Np_{ij}\right)
 +
</math>
 +
 
 +
这一项为简并性或叫退化性,为了防止其为负数,所以加上了[math]\log N[/math]<ref name=hoel_2013 />。这里的“简并性”的含义是:如果知道了系统的当前状态,能不能反推系统在上一时刻的状态的能力,如果可以推断,则这个马尔科夫矩阵的简并性就会比较低,也就是非简并的;而如果很难推断,则马尔科夫矩阵就是简并的,也即退化的。为什么“简并性”可以用平均行向量分布的负熵来刻画呢?这是因为,首先,当所有的P中的行向量都是彼此独立的独热向量,那么它们的平均分布就会非常接近于一个均匀分布,即[math]\bar{P}\approx (\frac{1}{N},\frac{1}{N},\cdots,\frac{1}{N})[/math],这个时候,它的[[Shannon熵]]最大,即[math]\log N[/math]。而在此时,这个马尔科夫转移矩阵是一个'''可逆矩阵'''(由彼此独立的“独热”向量形成的全体彼此线性无关,因此矩阵满秩,因此是可逆的)。这也就意味着,我们从系统当前的状态,是可以推断出系统的上一时刻的状态的,所以这个马尔科夫转移矩阵是非简并的,计算出的简并度恰恰也为0;
 +
 
 +
其次,当P中的行向量都是相同的独热向量的时候,则平均向量也是一个独热的向量,而这种向量的[[熵]]是最小的。在此时,由于所有的上一时刻状态都会转移到行向量中1对应的状态,因此我们也就很难推断出当前这个状态是由哪一个上一步的状态转移过来的。因此,这种情形下的马尔科夫矩阵是简并的(或退化的),计算出来的简并度则恰恰是[math]\log N[/math]。
 +
 
 +
对于更一般的情况,如果P中的行向量靠近一个彼此独立的独热行向量构成的矩阵,则P就越非简并,相反,如果行向量彼此相同且靠近同一个独热向量,则P就越简并。
 +
 
 
因此,有效信息通常可以分解为两个部分:<math>EI=Det-Deg</math>,Det是确定性(Determinism)的缩写,Deg是简并性(Degeneracy)的缩写。因此,如果一个转移矩阵具有较高的确定性和较低的简并性,则它的EI就会很高。
 
因此,有效信息通常可以分解为两个部分:<math>EI=Det-Deg</math>,Det是确定性(Determinism)的缩写,Deg是简并性(Degeneracy)的缩写。因此,如果一个转移矩阵具有较高的确定性和较低的简并性,则它的EI就会很高。
  
2,435

个编辑

导航菜单