第1行: |
第1行: |
− | '''因果涌现(causal emergence)'''是指动力系统中的一类特殊的[[涌现]]现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于一类马尔可夫动力学系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性,那么称该系统发生了因果涌现<ref name=":0">Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref name=":1">Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>。马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态,而与更早的状态无关。这里的粗粒化是指对系统的状态空间进行约简的一种方法,它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的(supervenes)动力学,它完全取决于微观的动力学和粗粒化方式。 | + | '''因果涌现(causal emergence)'''是指动力系统中的一类特殊的[[涌现]]现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于此类马尔可夫动力学系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性,那么称该系统发生了因果涌现<ref name=":0">Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref name=":1">Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>。马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态,而与更早的状态无关。这里的粗粒化是指对系统的状态空间进行约简的一种方法,它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的(supervenes)动力学,它完全取决于微观的动力学和粗粒化方式。 |
| | | |
| ==历史== | | ==历史== |
第34行: |
第34行: |
| |} | | |} |
| | | |
− | 这是一个离散时间离散状态(<math>S=\{a,b,c\}</math>)的马尔可夫动力学中的状态概率转移矩阵,其中每一行、列都对应一个状态,第i行第j列表示状
| + | 这是一个离散状态离散(<math>S=\{a,b,c\}</math>)时间的马尔可夫动力学中的状态概率转移表,其中每一行、列都对应一个状态,第i行第j列表示状 |
| | | |
| 态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。 | | 态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。 |
− | [[文件:马尔科夫状态转移图.png|居中|缩略图|马尔可夫状态转移图]] | + | [[文件:马尔科夫状态转移图.png|居中|缩略图|马尔科夫状态转移图]] |
− | 目前对因果涌现的讨论大多集中于这种离散时间、离散状态的马尔可夫动力学。
| + | 目前对因果涌现的讨论大多集中于这种离散状态、离散时间的马尔可夫动力学。 |
| | | |
| 当然,还存在着连续时间、连续状态的马尔可夫动力学,例如[[朗之万方程]]: | | 当然,还存在着连续时间、连续状态的马尔可夫动力学,例如[[朗之万方程]]: |
第56行: |
第56行: |
| | | |
| ====计算力学==== | | ====计算力学==== |
− | 计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>R</math>,<math>R\in\mathcal{R}</math>中的任意子集可以看作是一个状态,定义一个分解函数<math>\eta:S→R</math>。 | + | 计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>R</math>,任何集<math>R\in\mathcal{R}</math>的子集可以看作是一个状态,定义一个分解函数<math>\eta:S→R</math>。 |
| | | |
| 此外,定义了因果等价的概念,如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>,则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>(表示<math>\overleftarrow{s}</math>的子集)是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>,将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>,一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>,是一种模式发现机器,其中<math>\epsilon</math>是因果状态函数, <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。 | | 此外,定义了因果等价的概念,如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>,则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>(表示<math>\overleftarrow{s}</math>的子集)是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>,将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>,一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>,是一种模式发现机器,其中<math>\epsilon</math>是因果状态函数, <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。 |
第73行: |
第73行: |
| | | |
| ====Hoel的粗粒化方法==== | | ====Hoel的粗粒化方法==== |
− | Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居中|368x368像素|缩略图]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math> EI </math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标, <math> EI </math>的计算公式如下所示: | + | Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论抽象框架|alt=因果涌现理论抽象框架|居中|368x368像素|缩略图]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math>\left ( EI \right )</math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标,<math>\left ( EI \right )</math>的计算公式如下所示: |
| | | |
| <math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math> | | <math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math> |
第105行: |
第105行: |
| | | |
| ===因果涌现的识别=== | | ===因果涌现的识别=== |
− | 前面已经介绍了一些通过因果关系和其他信息理论概念来量化涌现的工作。然而,在实际应用中,往往只能收集到观测数据,无法得到系统的真实动力学。因此,从可观测数据中辨别系统中因果涌现的发生是一个更为重要的问题。此外,在因果涌现的识别问题中往往希望寻找一个最优的宏观尺度,使其有效信息达到最大值,此时的系统具有最大因果力,并且能以最可靠、最有效的方式预测未来的状态。下面介绍两种因果涌现的识别方法,包括基于信息分解和神经信息压缩方法。
| + | 从可观测数据中辨别系统中因果涌现的发生是一个更为重要的问题。此外,在因果涌现的识别问题中往往希望寻找一个最优的宏观尺度,使其有效信息达到最大值,此时的系统具有最大因果力,并且能以最可靠、最有效的方式预测未来的状态。下面介绍两种因果涌现的识别方法,包括基于信息分解和神经信息压缩方法。 |
| | | |
− | ====信息分解方法==== | + | ====因果涌现信息分解方法==== |
− | Rosas虽然给出因果涌现的严格定义,但在<math>\varphi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: | + | Rosas虽然给出因果涌现的严格定义,但在<math>\Phi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: |
| | | |
| <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> | | <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> |
第122行: |
第122行: |
| 当<math>\mathrm{\Delta}>0 </math>且<math>\mathrm{\Gamma}=0 </math>时,宏观状态<math>V </math>发生因果涌现且发生因果解耦。 | | 当<math>\mathrm{\Delta}>0 </math>且<math>\mathrm{\Gamma}=0 </math>时,宏观状态<math>V </math>发生因果涌现且发生因果解耦。 |
| | | |
− | 该方法避开讨论粗粒化策略。但是也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。
| + | 该方法避开讨论粗粒化策略。也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。 |
| | | |
| ====神经信息压缩方法==== | | ====神经信息压缩方法==== |
第150行: |
第150行: |
| <math>\begin{gathered}EI_L(f)=I(do(X\sim U([-L,L]^n));Y)\approx-\frac{n+nln(2\pi)+\sum_{i=1}^n\sigma_i^2}2+nln(2L)+\operatorname{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|)\end{gathered} </math> | | <math>\begin{gathered}EI_L(f)=I(do(X\sim U([-L,L]^n));Y)\approx-\frac{n+nln(2\pi)+\sum_{i=1}^n\sigma_i^2}2+nln(2L)+\operatorname{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|)\end{gathered} </math> |
| | | |
− | 其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围在<math>\left[-L ,L\right] </math>上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>Y_i </math>的标准差,可以通过<math>Y_i </math>的均方误差来估计,<math>det </math>表示函数<math>f </math>的雅可比行列式。为了消除有效信息计算公式会受到输入维度的影响,作者定义了新的有效信息计算公式<math>d E I_L(f) </math>,具体公式如下所示: | + | 其中<math>U\left(\left[-L, L\right]^n\right) </math>表示范围<math>\left[-L ,L\right] </math>在上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>Y_i </math>的标准差,可以通过<math>Y_i </math>的均方误差来估计,<math>det </math>表示函数<math>f </math>的雅可比行列式。为了消除有效信息计算公式会受到输入维度的影响,作者定义了新的有效信息计算公式<math>d E I_L(f) </math>,具体公式如下所示: |
| | | |
| <math>dEI_L(f)\approx-\frac{1+ln(2\pi)+\sum_{i=1}^n\frac{\sigma_i^2}n}2+ln(2L)+\frac1n\mathrm{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|) </math> | | <math>dEI_L(f)\approx-\frac{1+ln(2\pi)+\sum_{i=1}^n\frac{\sigma_i^2}n}2+ln(2L)+\frac1n\mathrm{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|) </math> |
第159行: |
第159行: |
| | | |
| ==实例 == | | ==实例 == |
− | ===状态空间上的因果涌现=== | + | ===状态空间的因果涌现=== |
| 下图给出一个含有四个状态的马尔可夫链的状态转移矩阵,其中前三个状态之间等概率转移,最后一个状态是独立的,通过将前三个状态粗粒化成一个状态,可以得到右图确定的宏观系统,即系统的未来状态完全可以由当前状态决定。此时<math>EI(S_M\ )>EI(S_m\ ) </math>,系统发生了因果涌现。 | | 下图给出一个含有四个状态的马尔可夫链的状态转移矩阵,其中前三个状态之间等概率转移,最后一个状态是独立的,通过将前三个状态粗粒化成一个状态,可以得到右图确定的宏观系统,即系统的未来状态完全可以由当前状态决定。此时<math>EI(S_M\ )>EI(S_m\ ) </math>,系统发生了因果涌现。 |
− | [[文件:马尔科夫状态转移矩阵.png|居中|474x474像素|状态空间上的因果涌现|替代=|缩略图]] | + | [[文件:马尔科夫状态转移矩阵.png|居中|474x474像素|马尔科夫状态转移矩阵|替代=|缩略图]] |
| | | |
− | ===离散布尔网络上的因果涌现=== | + | ===离散布尔动力学网络上的因果涌现=== |
| 下图展示1个含有4个节点的布尔网络例子,每个节点有0和1两种状态,每个节点与其中两个节点相连,遵循相同的微观动力学机制(a图),因此,一共含有十六个微观状态,可以得到一个<math>16\times16 </math>的状态转移矩阵(c图),然后给定分组方式,如将A和B进行合并,C和D进行合并(b图),同时给定微观状态到宏观状态的映射函数(d图),就可以得到新的宏观动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(e图),通过对比发现宏观动力学的有效信息大于微观动力学的有效信息(<math>EI(S_M\ )>EI(S_m\ ) </math>),系统发生了因果涌现。 | | 下图展示1个含有4个节点的布尔网络例子,每个节点有0和1两种状态,每个节点与其中两个节点相连,遵循相同的微观动力学机制(a图),因此,一共含有十六个微观状态,可以得到一个<math>16\times16 </math>的状态转移矩阵(c图),然后给定分组方式,如将A和B进行合并,C和D进行合并(b图),同时给定微观状态到宏观状态的映射函数(d图),就可以得到新的宏观动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(e图),通过对比发现宏观动力学的有效信息大于微观动力学的有效信息(<math>EI(S_M\ )>EI(S_m\ ) </math>),系统发生了因果涌现。 |
− | [[文件:含有4个节点的布尔网络.png|居中|677x677像素|离散布尔网络上的因果涌现|替代=含有4个节点布尔网络的因果涌现|缩略图]] | + | [[文件:含有4个节点的布尔网络.png|居中|677x677像素|含有4个节点布尔网络的因果涌现|替代=含有4个节点布尔网络的因果涌现|缩略图]] |
| | | |
| ===时域空间上的因果涌现=== | | ===时域空间上的因果涌现=== |
− | 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=\left \{ A_t,A_{t+1} \right \} </math>,<math>\beta=\left \{ B_t,B_{t+1} \right \} </math>, 同时采用与离散布尔网络相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 | + | 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=\left \{ A_t,A_{t+1} \right \} </math>,<math>\beta=\left \{ B_t,B_{t+1} \right \} </math>, 同时采用与离散布尔函数相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 |
− | [[文件:时间粗粒化.png|居中|382x382像素|时域空间上的因果涌现|替代=时间粗粒化|缩略图]] | + | [[文件:时间粗粒化.png|居中|382x382像素|时间粗粒化|替代=时间粗粒化|缩略图]] |
| | | |
| ===连续空间上的因果涌现=== | | ===连续空间上的因果涌现=== |
第181行: |
第181行: |
| | | |
| 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中, | | 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中, |
− | 其中<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>,需要根据<math>v_i </math>中的数值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \in\{1,2, \ldots, D\} </math>,节点序列<math>s </math>表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 | + | 其中<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>,需要根据<math>v_i </math>中数值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \in\{1,2, \ldots, D\} </math>,节点序列<math>s </math>表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 |
− | [[文件:指标变化.png|居中|627x627像素|替代=网络的有效信息度量方法|系统的确定性、简并性以及有效系数随参数的变化|缩略图]] | + | [[文件:指标变化.png|居中|627x627像素|替代=网络的有效信息度量方法|网络的有效信息度量方法|缩略图]] |
| 通过实验比较发现,随着参数<math>a </math>的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 | | 通过实验比较发现,随着参数<math>a </math>的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 |
− | [[文件:恒定值.png|居中|420x420像素|因果涌现随参数的变化|替代=参数恒定值震荡|缩略图]] | + | [[文件:恒定值.png|居中|420x420像素|参数恒定值震荡|替代=参数恒定值震荡|缩略图]] |
| Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 | | Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 |
| | | |
第197行: |
第197行: |
| 在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。 | | 在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。 |
| | | |
− | ===在生物系统上的应用=== | + | ===在生物中的应用=== |
| 生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。 | | 生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。 |
| | | |
第206行: |
第206行: |
| Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。 | | Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。 |
| | | |
− | ===在人工神经网络上的应用=== | + | ===在人工神经网络中的应用=== |
| Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。 | | Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。 |
| | | |
第231行: |
第231行: |
| | | |
| ==编者推荐== | | ==编者推荐== |
− | 下面是一些链接能够帮助读者更好的了解因果涌现的相关信息:
| + | 下为一些链接能够更好的了解因果涌现的相关信息: |
| | | |
| ===因果涌现读书会=== | | ===因果涌现读书会=== |
| *[https://campus.swarma.org/course/3110 因果涌现读书会简介] | | *[https://campus.swarma.org/course/3110 因果涌现读书会简介] |
− | [[文件:读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。.jpg|缩略图|370x370px|读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。]]分享近期发展起来的一些理论与工具,包括因果涌现理论、机器学习驱动的重整化技术,以及自指动力学正在发展一套跨尺度的分析框架等。 | + | [[文件:读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。.jpg|缩略图|346x346px|读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。]]分享近期发展起来的一些理论与工具,包括因果涌现理论、机器学习驱动的重整化技术,以及自指动力学正在发展一套跨尺度的分析框架等。 |
− | | |
− | *[https://pattern.swarma.org/study_group/7 因果涌现读书会第一季]
| |
− | | |
− | 涌现现象无非是复杂系统中诸多现象中最神秘莫测的一个,而Erik Hoel提出的“因果涌现”理论为这种跨层次的奇妙涌现现象提供了一种新的可能解释途径。通过跨层次的粗粒化(Coarse-graining, 或称重整化Renormalization)操作,我们便可以在同一个动力学系统上在不同的尺度得到完全不同的动力学,通过本季读书会梳理,我们希望探讨这一新兴领域的前沿进展,衍生更多新的研究课题。
| |
| | | |
− | *[https://pattern.swarma.org/study_group/16 因果涌现读书会第二季] | + | *[https://campus.swarma.org/course/3106 因果涌现读书会] |
| | | |
− | 涌现与因果的结合创造了因果涌现的概念。这是一套利用因果性来定量刻画涌现的理论体系,本季读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。第二季读书会更加集中在探讨因果科学与因果涌现之间的关系,以及对涌现进行定量刻画,聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。
| + | 读书会将围绕”因果涌现“主题系统性的讨论因果涌现理论和技术实现、涌现理论、重整化与机器学习、自指动力学、整合信息论、多尺度建模等重要概念和方法。 |
| | | |
− | *[https://pattern.swarma.org/study_group/28 因果涌现读书会第三季] | + | *[https://campus.swarma.org/course/4523 因果涌现读书会第二季] |
| | | |
− | 因果涌现第三季的读书会中,将进一步围绕因果涌现的核心研究问题『因果涌现的定义』以及『因果涌现的辨识』来进行深入的学习和讨论,对 Erik Hoel 提出的 Causal Emergence,Causal Geometry 等因果涌现的核心理论进行深入的探讨和剖析,并且详细梳理其中涉及到的方法论,包括从动力学约简、隐空间动力学学习等其他研究领域中学习和借鉴相关的研究思路,最后探讨因果涌现的应用,包括基于生物网络、脑网络或者涌现探测等问题展开扩展,发掘更多的实际应用场景。
| + | 读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。 |
| | | |
− | ===文章推荐=== | + | ===文章推荐 === |
| *Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26. | | *Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26. |
| | | |
− | 文章提出了一种名为 "神经信息挤压器"(Neural Information Squeezer)的通用机器学习框架,能自动提取有效的粗粒化策略和宏观动力学,并直接从时间序列数据中识别因果涌现。 | + | 文章提出了一种名为 "神经信息挤压器"(Neural Information Squeezer)的通用机器学习框架,以自动提取有效的粗粒化策略和宏观动态,并直接从时间序列数据中识别因果涌现。 |
− | | + | ===路径推荐 === |
− | ===路径推荐=== | + | 张江老师根据因果科学读书会第一季梳理的关于因果涌现的学习路径:https://pattern.swarma.org/article/153 |
− | *张江老师根据因果涌现读书会第一季梳理的关于因果涌现的学习路径:https://pattern.swarma.org/article/153
| |
| | | |
| | | |
| ---- | | ---- |
− | 此词条由王志鹏编写,张江、王志鹏和江森-JS整理和审校。
| + | 此词条暂由王志鹏翻译,张江、王志鹏和江森-JS整理和审校。 |
| | | |
| '''本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。''' | | '''本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。''' |