更改

删除115字节 、 2024年7月19日 (星期五)
替换G-emergence理论图
第20行: 第20行:  
====G-emergence====
 
====G-emergence====
 
而G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性[[格兰杰因果关系|格兰杰因果]]来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,[[自回归模型]]存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰杰因果的方法来测量。
 
而G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性[[格兰杰因果关系|格兰杰因果]]来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,[[自回归模型]]存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰杰因果的方法来测量。
[[文件:G-emergence.png|G-emergence理论图|alt=G-emergence理论图|居中|400x400像素|缩略图]]
+
[[文件:G Emergence Theory.png|G-emergence理论图|alt=G-emergence理论图|居中|400x400像素|缩略图]]
 
基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象,然而,作者使用的因果关系是[[格兰杰因果关系|格兰杰因果]],这不是一个严格的因果关系,同时结果也取决于所使用的回归方法。此外,方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。
 
基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象,然而,作者使用的因果关系是[[格兰杰因果关系|格兰杰因果]],这不是一个严格的因果关系,同时结果也取决于所使用的回归方法。此外,方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。
   第61行: 第61行:  
[[文件:含有4个节点的布尔网络.png|居中|500x500像素|离散布尔网络上的因果涌现|替代=含有4个节点布尔网络的因果涌现|缩略图]]
 
[[文件:含有4个节点的布尔网络.png|居中|500x500像素|离散布尔网络上的因果涌现|替代=含有4个节点布尔网络的因果涌现|缩略图]]
   −
然而,该方法只能应用到离散的状态转移矩阵中,为了拓展该方法,Hoel等人提出了[[因果几何]]框架<ref name=Chvykov_causal_geometry>{{cite journal|author1=Chvykov P|author2=Hoel E.|title=Causal Geometry|journal=Entropy|year=2021|volume=23|issue=1|page=24|url=https://doi.org/10.3390/e2}}</ref>尝试将有效信息指标拓展到连续系统中,解决了[[随机函数映射]]的EI计算问题,同时还引入了干预噪音和[[因果几何]]的概念,并定义了EI的局部形式,并将这种形式与[[信息几何]]进行了对照和类比。然而该方法也存在一些局限性,只能应用到随机映射函数中无法应用到动力学上。
+
然而,该方法只能应用到离散的状态转移矩阵中,为了拓展该方法,Hoel等人提出了[[因果几何]]框架<ref name="Chvykov_causal_geometry">{{cite journal|author1=Chvykov P|author2=Hoel E.|title=Causal Geometry|journal=Entropy|year=2021|volume=23|issue=1|page=24|url=https://doi.org/10.3390/e2}}</ref>尝试将有效信息指标拓展到连续系统中,解决了[[随机函数映射]]的EI计算问题,同时还引入了干预噪音和[[因果几何]]的概念,并定义了EI的局部形式,并将这种形式与[[信息几何]]进行了对照和类比。然而该方法也存在一些局限性,只能应用到随机映射函数中无法应用到动力学上。
    
====Rosas的因果涌现理论====
 
====Rosas的因果涌现理论====
第112行: 第112行:  
总结来看,该定量化因果涌现的方法好处在于不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。其缺点是不能像<math>EI</math>那样分解为确定度和简并度两个分量,并且该方案需要事先给定系统的动力学。
 
总结来看,该定量化因果涌现的方法好处在于不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。其缺点是不能像<math>EI</math>那样分解为确定度和简并度两个分量,并且该方案需要事先给定系统的动力学。
   −
[[文件:Gamma例子.png|居中|900*600像素|缩略图|<math>EI</math>与<math>\Gamma</math>对比]]
+
[[文件:Gamma例子.png|居中|缩略图|<math>EI</math>与<math>\Gamma</math>对比]]
    
文中作者对比了状态转移矩阵的<math>EI</math>和<math>\Gamma</math>,对比图a,b发现对于不同的状态转移矩阵,<math>EI</math>降低,<math>\Gamma</math>也同步降低。进一步对比粗粒化前后的效果,其中图d是对图c状态转移矩阵的粗粒化,对比归一化后的指标发现,由于粗粒化后的宏观状态转移矩阵是一个确定性系统,因此,在指标<math>eff</math>和<math>\gamma</math>都达到了最大值1。
 
文中作者对比了状态转移矩阵的<math>EI</math>和<math>\Gamma</math>,对比图a,b发现对于不同的状态转移矩阵,<math>EI</math>降低,<math>\Gamma</math>也同步降低。进一步对比粗粒化前后的效果,其中图d是对图c状态转移矩阵的粗粒化,对比归一化后的指标发现,由于粗粒化后的宏观状态转移矩阵是一个确定性系统,因此,在指标<math>eff</math>和<math>\gamma</math>都达到了最大值1。
第147行: 第147行:  
动力学解耦的性质
 
动力学解耦的性质
   −
# '''预测解释''': 动力学独立性可以通过预测性来解释:给定自身历史的情况下,过程 Y 在时间 t 的不可预测性由条件熵 H(Yt​∣Yt−​) 量化。而动力学依赖性 Tt​(X→Y) 量化了 X 对 Y 的预测超出 Y 自身预测的程度。
+
#'''预测解释''': 动力学独立性可以通过预测性来解释:给定自身历史的情况下,过程 Y 在时间 t 的不可预测性由条件熵 H(Yt​∣Yt−​) 量化。而动力学依赖性 Tt​(X→Y) 量化了 X 对 Y 的预测超出 Y 自身预测的程度。
# '''信息论条件''': 动力学独立性与香农条件互信息直接相关,通过互信息可以衡量系统中变量之间的信息传递。
+
#'''信息论条件''': 动力学独立性与香农条件互信息直接相关,通过互信息可以衡量系统中变量之间的信息传递。
# '''推广''': 动力学独立性可以推广到包含第三个条件变量的情况,通过条件转移熵来衡量。对于确定性系统,需要采用不同的方法进行框架化。
+
#'''推广''': 动力学独立性可以推广到包含第三个条件变量的情况,通过条件转移熵来衡量。对于确定性系统,需要采用不同的方法进行框架化。
    
动力学独立的概念广泛适用于多种复杂动态系统,包括神经系统、经济过程和进化过程。通过粗粒化方法,可以将高维微观系统简化为低维宏观系统,从而揭示出复杂系统中的突现结构。
 
动力学独立的概念广泛适用于多种复杂动态系统,包括神经系统、经济过程和进化过程。通过粗粒化方法,可以将高维微观系统简化为低维宏观系统,从而揭示出复杂系统中的突现结构。
第158行: 第158行:  
===几种因果涌现理论比较===
 
===几种因果涌现理论比较===
 
{| class="wikitable"
 
{| class="wikitable"
|+ 方法异同比较
+
|+方法异同比较
 
|-
 
|-
! 方法 !! 是否考虑因果 !! 是否涉及粗粒化 !! 适用的动力学系统 !! 度量指标
+
!方法!!是否考虑因果!!是否涉及粗粒化!!适用的动力学系统!!度量指标
 
|-
 
|-
| Hoel的因果涌现理论 || 考虑了,引入do干预 || 考虑了粗粒化,但是需要人为选择 || 离散马尔可夫动力学 || 有效信息
+
|Hoel的因果涌现理论||考虑了,引入do干预||考虑了粗粒化,但是需要人为选择||离散马尔可夫动力学||有效信息
 
|-
 
|-
| Rosas的因果涌现理论 || 未考虑,只是互信息的组合 || 基于协同信息判断时不涉及粗粒化,基于冗余信息计算也涉及宏观态的选择 || 任意动力学 || 协同信息与冗余信息  
+
|Rosas的因果涌现理论||未考虑,只是互信息的组合||基于协同信息判断时不涉及粗粒化,基于冗余信息计算也涉及宏观态的选择||任意动力学||协同信息与冗余信息
 
|-
 
|-
| 基于可逆性的因果涌现理论 || 未考虑 ||不依赖于具体的粗粒化策略 || 离散马尔可夫动力学 || <math>\Gamma</math>  
+
|基于可逆性的因果涌现理论||未考虑||不依赖于具体的粗粒化策略||离散马尔可夫动力学||<math>\Gamma</math>
 
|-
 
|-
| Dynamic independence || 只是格兰杰因果,不知真正的因果 || 涉及,基于梯度下降求解线性变换(粗粒化函数) || 任意动力学 || 转移熵
+
|Dynamic independence||只是格兰杰因果,不知真正的因果||涉及,基于梯度下降求解线性变换(粗粒化函数)||任意动力学||转移熵
 
|}
 
|}
   第192行: 第192行:     
该方法避开讨论粗粒化策略。但是也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。
 
该方法避开讨论粗粒化策略。但是也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。
[[文件:信息分解猕猴例子.png|居中|800*600像素|缩略图|猕猴脑实验]]
+
[[文件:信息分解猕猴例子.png|居中|缩略图|猕猴脑实验]]
 
为了验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas等做了如下实验:基于猕猴的皮质脑电图(ECoG)和动作捕捉(MoCap)数据,其中 ECoG 和 MoCap 分别由 64 个通道和 3 个通道的数据构成微观和宏观数据;由于最原始的 MoCap 数据不满足随附特征的条件独立假设,因此,他们利用[[偏最小二乘]]和[[支持向量机]]算法,推断出与预测猕猴行为有关的编码在 ECoG 信号中的那部分神经活动,并推测该信息是潜在神经活动的涌现特征;基于计算所得宏观特征与微观状态,验证了因果涌现的存在。
 
为了验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas等做了如下实验:基于猕猴的皮质脑电图(ECoG)和动作捕捉(MoCap)数据,其中 ECoG 和 MoCap 分别由 64 个通道和 3 个通道的数据构成微观和宏观数据;由于最原始的 MoCap 数据不满足随附特征的条件独立假设,因此,他们利用[[偏最小二乘]]和[[支持向量机]]算法,推断出与预测猕猴行为有关的编码在 ECoG 信号中的那部分神经活动,并推测该信息是潜在神经活动的涌现特征;基于计算所得宏观特征与微观状态,验证了因果涌现的存在。
   第232行: 第232行:     
作者在弹簧振子模型中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
 
作者在弹簧振子模型中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
[[文件:弹簧振子模型1.png|居中|900*800像素|替代=弹簧振子模型1|弹簧振子模型|缩略图]]
+
[[文件:弹簧振子模型1.png|居中|替代=弹簧振子模型1|弹簧振子模型|缩略图]]
    
但是该方法存在一些不足,作者将优化过程分为两个阶段,但是没有真正的最大化有效信息。因此,杨等人<ref name=":6" />进一步改进该方法,通过引入反向动力学以及[[重加权技术]]借助[[变分不等式]]将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。目标函数可以被定义为在给定微观预测足够小的情况下最大化宏观动力学的有效信息:
 
但是该方法存在一些不足,作者将优化过程分为两个阶段,但是没有真正的最大化有效信息。因此,杨等人<ref name=":6" />进一步改进该方法,通过引入反向动力学以及[[重加权技术]]借助[[变分不等式]]将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。目标函数可以被定义为在给定微观预测足够小的情况下最大化宏观动力学的有效信息:
第255行: 第255行:  
这些定量的量化因果涌现的方法已经广泛应用到很多[[复杂系统 Complex Systems|复杂系统]]中,包括具有成百上千节点的复杂网络以及神经网络,到具有明显涌现现象的[[康威的生命游戏 Conway's Game of Life|生命游戏]]、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。
 
这些定量的量化因果涌现的方法已经广泛应用到很多[[复杂系统 Complex Systems|复杂系统]]中,包括具有成百上千节点的复杂网络以及神经网络,到具有明显涌现现象的[[康威的生命游戏 Conway's Game of Life|生命游戏]]、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。
   −
=== 复杂网络中的因果涌现 ===
+
===复杂网络中的因果涌现===
 
2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到[[复杂网络]]中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将[[有效信息]]与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。
 
2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到[[复杂网络]]中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将[[有效信息]]与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。
   第262行: 第262行:  
在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别[[偏好依附网络]]中的因果涌现。相比[[贪婪算法]]以及[[梯度下降算法]],[[谱聚类算法]]的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。
 
在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别[[偏好依附网络]]中的因果涌现。相比[[贪婪算法]]以及[[梯度下降算法]],[[谱聚类算法]]的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。
   −
=== 在生物系统上的应用 ===
+
===在生物系统上的应用===
 
生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。
 
生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。
[[文件:蛋白质网络中的因果涌现.png|居中|800*600像素|缩略图|蛋白质网络中的因果涌现]]
+
[[文件:蛋白质网络中的因果涌现.png|居中|缩略图|蛋白质网络中的因果涌现]]
 
Hoel等<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>借助[[有效信息]]理论进一步研究生物系统中的因果涌现,作者将有效信息应用到基因调控网络中,识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现,揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
 
Hoel等<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>借助[[有效信息]]理论进一步研究生物系统中的因果涌现,作者将有效信息应用到基因调控网络中,识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现,揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
   第271行: 第271行:  
Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
 
Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
   −
=== 在人工神经网络上的应用 ===
+
===在人工神经网络上的应用===
 
在人工神经网络上的应用,Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于[[信息论]]的指标即有效信息来量化和跟踪训练过程中DNN[[因果结构]]的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括[[灵敏性]]和[[简并性]]的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。
 
在人工神经网络上的应用,Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于[[信息论]]的指标即有效信息来量化和跟踪训练过程中DNN[[因果结构]]的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括[[灵敏性]]和[[简并性]]的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。
   −
=== 在脑神经系统上的应用 ===
+
===在脑神经系统上的应用===
 
脑神经系统是一个涌现的多尺度[[复杂系统 Complex Systems|复杂系统]],在张等提出的[[NIS+]]方法中<ref>Yang, M.; Wang, Z.; Liu, K.; Rong, Y.; Yuan, B.; Zhang, J. Finding emergence in data: Causal emergence inspired dynamics learning. arXiv 2023, arXiv:2308.09952 .</ref>,在FMRI数据上进行实验,选择人的静息态和看电影视觉任务,通过使用Schaefer atlas方法对原始的14000维数据降维到100个脑区,构建了6个不同尺度动力学,在视觉任务数据中发现scale=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大,与真实的场景保持一致。此外,Luppi等人<ref>Luppi AI, Mediano PA, Rosas FE, Allanson J, Pickard JD, Carhart-Harris RL, Williams GB, Craig MM, Finoia P, Owen AM, Naci L. A synergistic workspace for human consciousness revealed by integrated information decomposition. BioRxiv. 2020 Nov 26:2020-11.</ref>,基于整合信息分解揭示人类意识的协同工作空间,作者构建了脑认知的三层架构,包括:外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段,第一个阶段负责将来自多个不同模块的信息收集到工作空间中,第二个阶段负责在工作空间中整合收集到的信息,第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的FMRI数据上进行实验,包括100个正常人、15个被试者(包括麻醉前、麻醉以及恢复三种不同状态)以及22个慢性意识障碍 (DOC)的被试者,论文方法使用整合信息分解得到协同信息和冗余信息,以及使用修正后的整合信息值<math>\Phi_R</math>,通过计算每两个脑区之间的协同和冗余值可以得到每个脑区发挥更大作用的信息,同时对比有意识人的数据,发现无意识人的整合信息发生显著降低的区域都属于协同信息发挥更大作用的脑区,同时发现整合信息显著降低的区域都属于DMN这样的功能区,从而定位到对于发生意识具有显著作用的脑区。
 
脑神经系统是一个涌现的多尺度[[复杂系统 Complex Systems|复杂系统]],在张等提出的[[NIS+]]方法中<ref>Yang, M.; Wang, Z.; Liu, K.; Rong, Y.; Yuan, B.; Zhang, J. Finding emergence in data: Causal emergence inspired dynamics learning. arXiv 2023, arXiv:2308.09952 .</ref>,在FMRI数据上进行实验,选择人的静息态和看电影视觉任务,通过使用Schaefer atlas方法对原始的14000维数据降维到100个脑区,构建了6个不同尺度动力学,在视觉任务数据中发现scale=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大,与真实的场景保持一致。此外,Luppi等人<ref>Luppi AI, Mediano PA, Rosas FE, Allanson J, Pickard JD, Carhart-Harris RL, Williams GB, Craig MM, Finoia P, Owen AM, Naci L. A synergistic workspace for human consciousness revealed by integrated information decomposition. BioRxiv. 2020 Nov 26:2020-11.</ref>,基于整合信息分解揭示人类意识的协同工作空间,作者构建了脑认知的三层架构,包括:外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段,第一个阶段负责将来自多个不同模块的信息收集到工作空间中,第二个阶段负责在工作空间中整合收集到的信息,第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的FMRI数据上进行实验,包括100个正常人、15个被试者(包括麻醉前、麻醉以及恢复三种不同状态)以及22个慢性意识障碍 (DOC)的被试者,论文方法使用整合信息分解得到协同信息和冗余信息,以及使用修正后的整合信息值<math>\Phi_R</math>,通过计算每两个脑区之间的协同和冗余值可以得到每个脑区发挥更大作用的信息,同时对比有意识人的数据,发现无意识人的整合信息发生显著降低的区域都属于协同信息发挥更大作用的脑区,同时发现整合信息显著降低的区域都属于DMN这样的功能区,从而定位到对于发生意识具有显著作用的脑区。
 
[[文件:大脑工作的三阶段.png|居中|缩略图|大脑认知过程框架]]
 
[[文件:大脑工作的三阶段.png|居中|缩略图|大脑认知过程框架]]
   −
=== 在人工智能系统上的应用 ===
+
===在人工智能系统上的应用 ===
==== 因果表示学习 ====
+
====因果表示学习====
 
因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系。具体来说,宏观状态可以看成因果变量,动力学学习器类比因果机制,粗粒化策略可以看作是一个从原始数据到因果表示的编码过程,有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处,使得两个领域的技术和概念可以相互学习。例如,因果表征学习技术可以应用于识别因果涌现,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增加因果表征学习的可解释性。但是两者也存在一些差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中没有这个要求。但是,从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息,从而获得具有因果效应更强的表征。
 
因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系。具体来说,宏观状态可以看成因果变量,动力学学习器类比因果机制,粗粒化策略可以看作是一个从原始数据到因果表示的编码过程,有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处,使得两个领域的技术和概念可以相互学习。例如,因果表征学习技术可以应用于识别因果涌现,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增加因果表征学习的可解释性。但是两者也存在一些差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中没有这个要求。但是,从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息,从而获得具有因果效应更强的表征。
   −
==== 基于世界模型的强化学习 ====
+
====基于世界模型的强化学习====
 
基于[[世界模型]]的[[强化学习]]假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒化描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。
 
基于[[世界模型]]的[[强化学习]]假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒化描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。
  
68

个编辑