更改

跳到导航 跳到搜索
添加423字节 、 2024年6月2日 (星期日)
第229行: 第229行:     
===确定性与简并性===
 
===确定性与简并性===
 +
我们定义一个马尔科夫链转移矩阵P的'''确定性'''为:
   −
第一项是一个平均的[[负熵]],所以,它能刻画整个转移矩阵的确定性:也就是说如果我们知道了系统当前时刻所处的状态,则我们能够确定性地推断出系统在下一时刻所处的状态。为什么这么说呢?这是因为确定性这一项是所有行向量熵的平均值,再取一个负号。我们知道,当一个向量更靠近均匀分布的时候,它的熵就最大,相反,如果一个向量越靠近一个“独热”(one-hot)的向量,也就是这个向量中只有一个1,其它元素都是0,那么它的熵就越小。我们知道,马尔科夫的一个行向量的含义就代表系统从当前状态转移到各个不同状态的概率大小。那么,当平均的行向量负熵大的时候,也就是这个行向量的某一个单元概率为1,其它为0,这就意味着系统能够确定地转移到1对应的状态。
+
<math>
 +
Determinism \equiv -\langle H(P_i)\rangle = \frac{1}{N}\sum_{i=1}^N \sum_{j=1}^N p_{ij}\log p_{ij}
 +
</math>
   −
第二项为非简并性或叫非退化性,这里的“非简并性”的含义是:如果我知道了系统的当前状态,我能不能反推系统在上一时刻的状态的能力,如果可以推断,则这个马尔科夫矩阵的简并性就会比较低,也就是非简并的;而如果很难推断,则马尔科夫矩阵就是简并的,也即退化的。为什么“非简并性”可以用平均行向量分布的熵来刻画呢?这是因为,首先,当所有的P中的行向量都是彼此独立的独热向量,那么它们的平均分布就会非常接近于一个均匀分布,即[math]\bar{P}\approx (\frac{1}{N},\frac{1}{N},\cdots,\frac{1}{N})[/math],这个时候,它的[[Shannon熵]]最大,即[math]\log N[/math]。而在此时,这个马尔科夫转移矩阵是一个'''可逆矩阵'''(由彼此独立的“独热”向量形成的全体彼此线性无关,因此矩阵满秩,因此是可逆的)。这也就意味着,我们从系统当前的状态,是可以推断出系统的上一时刻的状态的,所以这个马尔科夫转移矩阵是非简并的;
+
这一项是一个平均的[[负熵]],所以,它能刻画整个转移矩阵的确定性:也就是说如果我们知道了系统当前时刻所处的状态,则我们能够确定性地推断出系统在下一时刻所处的状态。为什么这么说呢?这是因为确定性这一项是所有行向量熵的平均值,再取一个负号。我们知道,当一个向量更靠近均匀分布的时候,它的熵就最大,相反,如果一个向量越靠近一个“独热”(one-hot)的向量,也就是这个向量中只有一个1,其它元素都是0,那么它的熵就越小。我们知道,马尔科夫的一个行向量的含义就代表系统从当前状态转移到各个不同状态的概率大小。那么,当平均的行向量负熵大的时候,也就是这个行向量的某一个单元概率为1,其它为0,这就意味着系统能够确定地转移到1对应的状态。
 +
 
 +
我们定义一个马尔科夫链转移矩阵P的'''简并性'''为:
 +
 
 +
<math>
 +
Degeneracy \equiv -H(\bar{P})=\sum_{j=1}^N \bar{P}_{\cdot j}\log \bar{P}_{\cdot j}=\sum_{j=1}^N \frac{\sum_{i=1}^Np_{ij}}{N}\log \frac{\sum_{i=1}^Np_{ij}}{N}
 +
</math>
 +
 
 +
这一项为简并性或叫退化性,这里的“简并性”的含义是:如果我知道了系统的当前状态,我能不能反推系统在上一时刻的状态的能力,如果可以推断,则这个马尔科夫矩阵的简并性就会比较低,也就是非简并的;而如果很难推断,则马尔科夫矩阵就是简并的,也即退化的。为什么“简并性”可以用平均行向量分布的负熵来刻画呢?这是因为,首先,当所有的P中的行向量都是彼此独立的独热向量,那么它们的平均分布就会非常接近于一个均匀分布,即[math]\bar{P}\approx (\frac{1}{N},\frac{1}{N},\cdots,\frac{1}{N})[/math],这个时候,它的[[Shannon熵]]最大,即[math]\log N[/math]。而在此时,这个马尔科夫转移矩阵是一个'''可逆矩阵'''(由彼此独立的“独热”向量形成的全体彼此线性无关,因此矩阵满秩,因此是可逆的)。这也就意味着,我们从系统当前的状态,是可以推断出系统的上一时刻的状态的,所以这个马尔科夫转移矩阵是非简并的;
    
其次,当P中的行向量都相同的独热向量的时候,则平均向量也是一个独热的向量,而这种向量的[[熵]]是最小的。在此时,由于所有的上一时刻状态都会转移到行向量中1对应的状态,因此我们也就很难推断出当前这个状态是由哪一个上一步的状态转移过来的。因此,这种情形下的马尔科夫矩阵是简并的(或退化的)。
 
其次,当P中的行向量都相同的独热向量的时候,则平均向量也是一个独热的向量,而这种向量的[[熵]]是最小的。在此时,由于所有的上一时刻状态都会转移到行向量中1对应的状态,因此我们也就很难推断出当前这个状态是由哪一个上一步的状态转移过来的。因此,这种情形下的马尔科夫矩阵是简并的(或退化的)。
346

个编辑

导航菜单