更改

添加532字节 、 2024年8月24日 (星期六)
第440行: 第440行:  
存在一些相关领域研究与因果涌现理论联系比较紧密,重点介绍与[[模型约简]]、[[动力学模式分解]]以及[[马尔科夫链的简化]]的区别和联系。
 
存在一些相关领域研究与因果涌现理论联系比较紧密,重点介绍与[[模型约简]]、[[动力学模式分解]]以及[[马尔科夫链的简化]]的区别和联系。
   −
===模型约简===
+
===动力学模型约简===
 
因果涌现的一个重要的指标就是粗粒化策略的选取,而如果微观模型已知的时候,对微观态的粗粒化就等价于对微观模型进行'''模型约简'''(Model Reduction)。模型约简是控制论中的一个重要子领域,Antoulas就曾经写过相关的综述文章<ref name=":15">Antoulas A C. An overview of approximation methods for large-scale dynamical systems[J]. Annual reviews in Control, 2005, 29(2): 181-190.</ref>。
 
因果涌现的一个重要的指标就是粗粒化策略的选取,而如果微观模型已知的时候,对微观态的粗粒化就等价于对微观模型进行'''模型约简'''(Model Reduction)。模型约简是控制论中的一个重要子领域,Antoulas就曾经写过相关的综述文章<ref name=":15">Antoulas A C. An overview of approximation methods for large-scale dynamical systems[J]. Annual reviews in Control, 2005, 29(2): 181-190.</ref>。
   第447行: 第447行:  
一般情况下基于模型约简前后输出函数的误差损失函数可以用来判断粗粒化参数,这一过程默认了系统约简的过程会损失信息量,因此误差最小化是判断约简方法有效性的唯一方法。但是如果从因果涌现角度考虑,[[有效信息]]会因为降维而增大,这也是因果涌现研究中的粗粒化策略和控制论中的模型约简最大的不同。当动力系统是随机系统的时候<ref>CHRISTIAN DE VILLEMAGNE & ROBERT E. SKELTON (1987) Model reductions using a projection formulation, International Journal of Control, 46:6, 2141-2169, DOI: 10.1080/00207178708934040 </ref>,直接计算损失函数会因为随机性的存在,导致损失函数的稳定性无法保证,因而约简的有效性也会无法准确测量。而本身就是基于随机动力系统的有效信息和因果涌现指标,一定程度上可以增加评判指标的有效性,使对随机动力系统的控制研究更加严谨。
 
一般情况下基于模型约简前后输出函数的误差损失函数可以用来判断粗粒化参数,这一过程默认了系统约简的过程会损失信息量,因此误差最小化是判断约简方法有效性的唯一方法。但是如果从因果涌现角度考虑,[[有效信息]]会因为降维而增大,这也是因果涌现研究中的粗粒化策略和控制论中的模型约简最大的不同。当动力系统是随机系统的时候<ref>CHRISTIAN DE VILLEMAGNE & ROBERT E. SKELTON (1987) Model reductions using a projection formulation, International Journal of Control, 46:6, 2141-2169, DOI: 10.1080/00207178708934040 </ref>,直接计算损失函数会因为随机性的存在,导致损失函数的稳定性无法保证,因而约简的有效性也会无法准确测量。而本身就是基于随机动力系统的有效信息和因果涌现指标,一定程度上可以增加评判指标的有效性,使对随机动力系统的控制研究更加严谨。
   −
===动力学模式分解===
+
===动力学模态分解===
动态模态分解(Dynamic Mode Decomposition, DMD)<ref>Schmid P J. Dynamic mode decomposition and its variants[J]. Annual Review of Fluid Mechanics, 2022, 54(1): 225-254.</ref><ref>J. Proctor, S. Brunton and J. N. Kutz, Dynamic mode decomposition with control, arXiv:1409.6358</ref>模型的基本思想是直接从数据中得到的流场中提取流动的动态信息,根据不同频率的流场变动寻找数据映射。该方法基于动态非线性无穷维转化成动态线性有穷维的方式,采用了Arnoldi 方法以及奇异值分解SVD降维的思想,借鉴了ARIMA、SARIMA以及季节模型等许多时间序列的关键特征,被广泛的使用在数学、物理、金融等领域<ref>J. Grosek and J. N. Kutz, Dynamic mode decomposition for real-time background/foreground separation in video, arXiv:1404.7592.</ref>。动态模式分解按照频率对系统进行排序,提取系统特征频率,从而观察不同频率的流动结构对流场的贡献,同时动态模式分解模态特征值可以进行流场预测。因为动态模态分解算法具有理论的严密性、稳定性、简易性等优点。在不断应用的同时,动态模态分解算法也在原有基础之上不断被完善,如与SPA检验结合起来,以验证股票价格预测对比基准点的强有效性:以及通过联系动态模态分解算法和光谱研究的方式,模拟股票市场在循环经济当中的振动模式等,这些应用均能够有效地采集分析数据,并最终得到结果。
+
除了动力学模型约简之外,动力学模态分解也和粗粒化有着密切的联系。动力学模态分解(Dynamic Mode Decomposition, DMD)<ref>Schmid P J. Dynamic mode decomposition and its variants[J]. Annual Review of Fluid Mechanics, 2022, 54(1): 225-254.</ref><ref>J. Proctor, S. Brunton and J. N. Kutz, Dynamic mode decomposition with control, arXiv:1409.6358</ref>模型的基本思想是直接从数据中得到的流场中提取流动的动态信息,根据不同频率的流场变动寻找数据映射。该方法基于动态非线性无穷维转化成动态线性有穷维的方式,采用了Arnoldi 方法以及奇异值分解SVD降维的思想,借鉴了ARIMA、SARIMA以及季节模型等许多时间序列的关键特征,被广泛的使用在数学、物理、金融等领域<ref>J. Grosek and J. N. Kutz, Dynamic mode decomposition for real-time background/foreground separation in video, arXiv:1404.7592.</ref>。动态模式分解按照频率对系统进行排序,提取系统特征频率,从而观察不同频率的流动结构对流场的贡献,同时动态模式分解模态特征值可以进行流场预测。因为动态模态分解算法具有理论的严密性、稳定性、简易性等优点。在不断应用的同时,动态模态分解算法也在原有基础之上不断被完善,如与SPA检验结合起来,以验证股票价格预测对比基准点的强有效性:以及通过联系动态模态分解算法和光谱研究的方式,模拟股票市场在循环经济当中的振动模式等,这些应用均能够有效地采集分析数据,并最终得到结果。
    
动力学模式分解,属于利用线性变换同时对变量、动力学、观测函数进行降维<ref>B. Brunton, L. Johnson, J. Ojemann and J. N. Kutz, Extracting spatial-temporal coherent patterns in large-scale neural recordings using dynamic mode decomposition arXiv:1409.5496</ref>的方法。这种方法是另一种和因果涌现中粗粒化策略相近,依然基于误差最小化来进行优化的方法。模型约简和动力学模式分解虽然都和模型粗粒化十分接近,但是他们都没有基于有效信息的优化,本质上都是默认了一定会损失信息,而不会增强因果效应。在文献<ref>Liu K, Yuan B, Zhang J. An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems[J]. arXiv preprint arXiv:2405.09207, 2024.</ref>中,作者们证明了其实有效信息最大化的最优解集包含因果涌最大化的解集,因此如果要优化因果涌现,可以先最小化误差,在最小误差的解集中寻找最佳的粗粒化策略。
 
动力学模式分解,属于利用线性变换同时对变量、动力学、观测函数进行降维<ref>B. Brunton, L. Johnson, J. Ojemann and J. N. Kutz, Extracting spatial-temporal coherent patterns in large-scale neural recordings using dynamic mode decomposition arXiv:1409.5496</ref>的方法。这种方法是另一种和因果涌现中粗粒化策略相近,依然基于误差最小化来进行优化的方法。模型约简和动力学模式分解虽然都和模型粗粒化十分接近,但是他们都没有基于有效信息的优化,本质上都是默认了一定会损失信息,而不会增强因果效应。在文献<ref>Liu K, Yuan B, Zhang J. An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems[J]. arXiv preprint arXiv:2405.09207, 2024.</ref>中,作者们证明了其实有效信息最大化的最优解集包含因果涌最大化的解集,因此如果要优化因果涌现,可以先最小化误差,在最小误差的解集中寻找最佳的粗粒化策略。
    
===马尔科夫链的简化===
 
===马尔科夫链的简化===
除了对向量以及高维动力学的降维之外,马尔科夫链的简化也和因果涌现有着重要的联系。马尔科夫链的简化,其实就是对复杂的马尔科夫链进行分块与重整。而分块的重要依据就是马尔科夫链是否可约<ref>Gebali F, Gebali F. Reducible Markov Chains[J]. Analysis of Computer Networks, 2015: 157-189.</ref>。
+
除了对向量以及高维动力学的降维之外,马尔科夫链的简化也和因果涌现有着重要的联系。
   −
可约马尔可夫链描述的系统具有特定状态,一旦我们访问了其中一种状态,就无法访​​问其他状态。可以用可约马尔可夫链建模的系统的一个例子是赌博游戏,一旦赌徒破产,游戏就会停止。更形象的一个例子是研究一条鱼在海洋中游动的位置。鱼可以自由地游动到任何位置,这取决于水流​​、食物或捕食者的存在。一旦鱼被网住,它就无法逃脱,因此它能游动的空间也是有限的。
+
马尔可夫过程的模型约简<ref>Zhang A, Wang M. Spectral state compression of markov processes[J]. IEEE transactions on information theory, 2019, 66(5): 3202-3231.</ref>是状态转移系统建模中的一个重要问题。有限马尔可夫链的状态简化可以视为其转移矩阵的一种特殊分解<ref>Barreto A M S, Fragoso M D. Lumping the states of a finite Markov chain through stochastic factorization[J]. IFAC Proceedings Volumes, 2011, 44(1): 4206-4211.</ref>,称为随机因子分解。当一个转移矩阵被分解为两个随机矩阵的乘积时,人们可以交换乘法的因子来获得另一个模型,这个模型可能比原始模型小得多。较小的马尔可夫链与原始模型具有相同的可约性和相同的闭集数,两条链的平稳分布通过线性变换相关联。其主要是基于控制理论中状态聚合方法,从经验轨迹研究了离散状态马尔可夫链的统计状态压缩。通过奇异值谱分析,可以通过马尔可夫过程的秩和特征,描述可表示性、聚集性和集总性等性质。反之,也可以用谱方法来估计低秩马尔可夫模型的转移矩阵,估计马尔可夫特征跨越的前导子空间,并恢复状态空间的状态聚合和可分块划分等潜在结构。而奇异值谱的分布,反应的集总性和可逆性的概念起着核心作用<ref>Marin A, Rossi S. On the relations between lumpability and reversibility[C]//2014 IEEE 22nd International Symposium on Modelling, Analysis & Simulation of Computer and Telecommunication Systems. IEEE, 2014: 427-432.</ref>,反应的马尔科夫过程的可逆性,和有效信息与因果涌现也有着重要联系。而对聚合方案的最优化<ref>Derisavi S, Hermanns H, Sanders W H. Optimal state-space lumping in Markov chains[J]. Information processing letters, 2003, 87(6): 309-315.</ref>,和因果涌现的最优化都会受可逆性影响。
   −
但如果从任何状态开始,我们都能够直接、一步或间接地通过一个或多个中间状态到达图中的任何其他状态,这样的马尔可夫链就称为不可约马尔可夫链。在可以长时间运行的系统中,我们会遇到不可约马尔可夫链,例如银行营业时间内的排队状态,排队的顾客数量一直在零到最大值之间变化。或是路由器或交换机中的缓冲区占用状态。缓冲区占用根据到达的流量模式在完全空和完全满之间变化。从任何状态开始,我们都可能无法直接或间接地到达图中的其他状态。这种马尔可夫链被称为可约马尔可夫。
+
而分块的重要依据就是马尔科夫链是否可约<ref>Gebali F, Gebali F. Reducible Markov Chains[J]. Analysis of Computer Networks, 2015: 157-189.</ref>。可约马尔可夫链描述的系统具有特定状态,一旦我们访问了其中一种状态,就无法访​​问其他状态。但如果从任何状态开始,我们都能够直接、一步或间接地通过一个或多个中间状态到达图中的任何其他状态,这样的马尔可夫链就称为不可约马尔可夫链。在可以长时间运行的系统中,我们会遇到不可约马尔可夫链,对马尔科夫概率转移矩阵实施粗粒化的方法,其实就利用了马尔科夫链的可约性与不可约性。关于具体的粗粒化马尔科夫链的方法,请参考[[马尔科夫链的粗粒化]]。
 
  −
对马尔科夫概率转移矩阵实施粗粒化的方法,其实就利用了马尔科夫链的可约性与不可约性。关于具体的粗粒化马尔科夫链的方法,请参考[[马尔科夫链的粗粒化]]。
  −
 
  −
例如
  −
{| style="text-align: center;"
  −
|-
  −
|<math>
  −
P_m=\begin{pmatrix}
  −
&1/3    &1/3          &1/3          &0& \\
  −
&1/3    &1/3          &1/3          &0& \\
  −
&1/3    &1/3          &1/3          &0& \\
  −
&0      &1            &0            &1& \\
  −
\end{pmatrix}
  −
</math>,
  −
|}前三个状态之间可以相互转化,因此前三个节点这部分就是不可约的,而前三个节点无论如何无法进入第四个节点,反之亦然,因此整个马尔科夫链就是可约的,我们可以将前三个节点组成一个整体,生成宏观态,我们也可以把因果涌现作为指标,评判马尔科夫链的简化是否最佳。
      
==参考文献==
 
==参考文献==
225

个编辑