更改

马尔科夫链的粗粒化 (查看源代码)

2024年9月6日 (五) 20:30的版本

添加2,610字节、 2024年9月6日 (星期五)

无编辑摘要

第2行：第2行：

<math>P</math>的每一行对应的每个状态转移到其他状态的概率。比如当<math>x_t</math>等于第一个状态的时候，<math>P</math>的第一行展示了<math>x_{t+1}</math>状态的概率。

+

由上可见，马尔科夫链不只是一个马尔科夫矩阵那么简单，还涉及到了不同的状态，也会有状态之间的状态转移，所以我们可以从不同的角度来看待粗粒化：

+

# 对马尔科夫矩阵做粗粒化：在看待一个方阵时，我们可以把它想象成一个网络的邻接矩阵。节点为状态，连边为状态转移概率，而粗粒化则是对这个网络做降维。

+

# 对状态空间做粗粒化：我们这里讨论的是离散状态的马尔科夫链，状态空间的大小等于马尔科夫链的大小。粗粒化可以看作对状态空间做分组并投影到新的状态空间。

+

# 对转移概率做粗粒化：从概率论出发，把状态的发生看作事件，通过计算事件发生的频率来构建概率空间。在降维表达事件的同时也构建了新的概率空间。

+

这三种出发点看似互有联系，但是具体关心的东西不同。第一种关注状态之间的连边拓扑结构，第二种关注不同状态的历史分布和相似性，第三种关注如何降维表达整个系统中的事件概率分布。

+

对马尔科夫链做粗粒化并没有一个统一的定义，目前该题目也没有一个完整的文献综述。在许多文献中，粗粒化coarse-graining和降维dimension reduction是重叠等价的。

+

多数文献中会出现如此一个定义：

+

对状态空间<math>S</math>和转移函数<math>T(t):S->S</math>，我们需要一个投影矩阵<math>R:S->S'</math>，和一个新的转移函数<math>T'(t):S'->S'</math>，而且S'和T'要符合马尔科夫链定义。

+

所以，我们能看出<math>R</math>是一个对状态空间<math>S</math>的降维函数（得到<math>S'</math>）。而且，我们还需要把<math>T</math>降维成<math>T'</math>。如果<math>T:s_{t+1} = s_{t} P</math>，<math>P</math>为离散马尔科夫矩阵的话，这个针对马尔科夫矩阵的降维可以表示为<math>P = U P' V^T</math>，其中<math>P \in \mathbb{R}^{n \times n}</math>，<math>P' \in \mathbb{R}^{k \times k}</math>，而且<math>U, V \in \mathbb{R}^{n \times k}</math>。

+

所以，我们能看到，对马尔科夫链做粗粒化的时候，不仅要对状态空间做降维，还要对马尔科夫矩阵都要做降维，当中也包含了对概率空间的降维。

第7行：第29行：

那对马尔科夫链做粗粒化做粗粒化的意义是什么呢？我们看到文献中着重强调这两点：

+

# 我们在研究一个超大的系统的时候，比如复杂城市系统时，并不会关注每一个微观的状态的变化，在粗粒化中我们希望能过滤掉一些我们不感兴趣的噪声和异质性，而是想从中微观尺度中总结一些中尺度或宏观尺度的规律；

# 有些状态的转移概率非常相似，所以可以被看成同一类状态，对这种马尔科夫链做partitioning可以减少系统表示的冗余性；

# 在用到马尔科夫决策过程的强化学习里，对马尔科夫链做粗粒化可以减少状态空间的大小，提高训练效率。

Liangjh

97

个编辑