第7行: |
第7行: |
| ==== 信息熵与互信息 ==== | | ==== 信息熵与互信息 ==== |
| | | |
− | 在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。 | + | 在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。[[文件:Mutual Info.png|替代=|左|无框]] |
− | | |
− | [[文件:Mutual Info.png|替代=|居左|无框]] | |
| | | |
| 给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math> 的底数(即 对数)的选择因应用不同而不同(通常采用2)。 | | 给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math> 的底数(即 对数)的选择因应用不同而不同(通常采用2)。 |
第21行: |
第19行: |
| | | |
| 其中 <math>P_{(X,Y)></math> 是 <math>X</math> 和 <math>Y</math> 的 联合概率 ''mass'' 函数,并且<math>P_X</math> 和 <math>P_Y</math> 分别是 <math>X</math> 和 <math>Y</math> 的 边际概率 质量函数。 | | 其中 <math>P_{(X,Y)></math> 是 <math>X</math> 和 <math>Y</math> 的 联合概率 ''mass'' 函数,并且<math>P_X</math> 和 <math>P_Y</math> 分别是 <math>X</math> 和 <math>Y</math> 的 边际概率 质量函数。 |
− |
| |
| ==== 部分信息分解 ==== | | ==== 部分信息分解 ==== |
| 在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论所关注的成对关系拓展到多个变量间的复杂相互作用。 | | 在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论所关注的成对关系拓展到多个变量间的复杂相互作用。 |
第29行: |
第26行: |
| 这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。 | | 这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。 |
| | | |
− | 对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分: | + | 对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分:[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math> |
− | | |
− | [[文件:PID Venn.png|替代=|居左|无框]] | |
− | | |
− | <math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math> | |
| | | |
| 此处各个信息原子定义为 | | 此处各个信息原子定义为 |
第39行: |
第32行: |
| *<math>\text{Syn}(X_1,X_2;Y)</math> 表示[[协同信息]],是指所有微观态 <math>X_1</math> 和 <math>X_2</math> 联合在一起给宏观态 <math>Y</math> 提供的信息。 | | *<math>\text{Syn}(X_1,X_2;Y)</math> 表示[[协同信息]],是指所有微观态 <math>X_1</math> 和 <math>X_2</math> 联合在一起给宏观态 <math>Y</math> 提供的信息。 |
| *<math>\text{Red}(X_1,X_2;Y)</math> 表示[[冗余信息]],是指两个微观态<math>X^1 </math>和<math>X^2 </math>重复地给宏观态 <math>Y</math> 的“冗余”信息。 | | *<math>\text{Red}(X_1,X_2;Y)</math> 表示[[冗余信息]],是指两个微观态<math>X^1 </math>和<math>X^2 </math>重复地给宏观态 <math>Y</math> 的“冗余”信息。 |
− | 其中 <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y)</math> , <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y)</math>。 | + | 其中 <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y)</math> , <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y)</math>。[[文件:Lattice of 2.png|替代=|左|无框]]信息分解除了能够被韦恩图所直观的呈现,更常被表示为晶格图的形式以在更多变量的情况下维持简洁的结构。晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 <math>\{X_1,X_2\></math> 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 <nowiki>{{1,2}}</nowiki> <nowiki>{{2}}</nowiki> <nowiki>{{1}}</nowiki> 和 <nowiki>{{1}{2}}</nowiki>。如下图所示,这些反链(anti-chain)与上图的信息原子一一对应,既<nowiki>{{1,2}}</nowiki> 对应协同信息,<nowiki>{{2}}</nowiki> 和 <nowiki>{{1}}</nowiki> 对应特有信息,<nowiki>{{1}{2}}</nowiki>对应冗余信息。 |
− | | |
− | [[文件:Lattice of 2.png|替代=|居左|无框]] | |
| | | |
− | 信息分解除了能够被韦恩图所直观的呈现,更常被表示为晶格图的形式以在更多变量的情况下维持简洁的结构。晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 <math>\{X_1,X_2\></math> 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 <nowiki>{{1,2}}</nowiki> <nowiki>{{2}}</nowiki> <nowiki>{{1}}</nowiki> 和 <nowiki>{{1}{2}}</nowiki>。如下图所示,这些反链(anti-chain)与上图的信息原子一一对应,既<nowiki>{{1,2}}</nowiki> 对应协同信息,<nowiki>{{2}}</nowiki> 和 <nowiki>{{1}}</nowiki> 对应特有信息,<nowiki>{{1}{2}}</nowiki>对应冗余信息。
| |
| | | |
| ==== 整合信息分解 ==== | | ==== 整合信息分解 ==== |
− | 整合信息分解(Integrated Information Decomposition)是Rosas等<ref name=":0">P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>对于信息分解理论的进一步拓展。与部分信息分解关注一组变量与一个变量间的互信息不同,整合信息分解关注于两组变量间互信息的更细致划分。具体而言,该框架对两组变量间的互信息进行了两次不同方向的部分信息分解,分别是 1)将第一组的变量视为源变量,第二组的联合变量视作目标变量进行部分信息分解。2)反之,将第二组的变量视为源变量,第一组的联合变量视作目标变量进行部分信息分解。由于两次分解都是针对相同的两组变量间的互信息,因此我们得到了对该互信息的两种划分方式,通过对这两种划分方式进行组合,我们便得到了更加细粒度的信息分解框架。 | + | 整合信息分解(Integrated Information Decomposition)是Rosas等<ref name=":0">P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>对于信息分解理论的进一步拓展。与部分信息分解关注一组变量与一个变量间的互信息不同,整合信息分解关注于两组变量间互信息的更细致划分。具体而言,该框架对两组变量间的互信息进行了两次不同方向的部分信息分解,分别是 1)将第一组的变量视为源变量,第二组的联合变量视作目标变量进行部分信息分解。2)反之,将第二组的变量视为源变量,第一组的联合变量视作目标变量进行部分信息分解。由于两次分解都是针对相同的两组变量间的互信息,因此我们得到了对该互信息的两种划分方式,通过对这两种划分方式进行组合,我们便得到了更加细粒度的信息分解框架。该框架对部分信息分解框架中目标变量的数量进行了进一步的拓展,使得我们能够分析源变量等于目标变量的场景。而其中最重要的应用场景之一就是马尔科夫系统的上下时刻间子系统间的关系,这也奠定了整合信息分解框架作为因果涌现框架的理论基础。[[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。]] |
− | | |
| 以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。 | | 以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。 |
− |
| |
− | [[文件:Lattice Phi.png|576x576像素|替代=|居左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例,
| |
− |
| |
− | 下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。]]
| |
| | | |
| === 基本概念 === | | === 基本概念 === |
第58行: |
第43行: |
| Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>从整合信息分解理论的视角出发,提出一种基于信息原子定义因果涌现的方法,并将因果涌现进一步区分为:因果解耦(Causal Decoupling)和向下因果(Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) | | Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>从整合信息分解理论的视角出发,提出一种基于信息原子定义因果涌现的方法,并将因果涌现进一步区分为:因果解耦(Causal Decoupling)和向下因果(Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) |
| </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。 | | </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。 |
− | | + | [[文件:向下因果与因果解耦2.png|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%B8%8E%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A62.png|替代=|300x300像素|左|无框]] |
− | [[文件:向下因果与因果解耦2.png|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%B8%8E%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A62.png|替代=|300x300像素|居左|无框]] | |
| | | |
| | | |
第123行: |
第107行: |
| | | |
| 因此,当前的因果涌现理论框架缺乏一个实用和有效的识别算法。尽管以前的研究提出了基于静态网络结构和信息分解近似的方法,但仍然需要一个全面的方法,可以应用于一般的马尔可夫动态系统。主要挑战之一是,需要在数据中搜索粗粒度或分解子集的所有可能功能,以识别复杂系统中的因果关系。然而,传统的数值方法无法处理与在广阔的函数空间中进行如此广泛的搜索相关的计算成本。因此,开发新的方法来解决这些问题势在必行。我们探索了机器学习技术的应用,以解决在时间序列数据中识别因果出现的挑战。 | | 因此,当前的因果涌现理论框架缺乏一个实用和有效的识别算法。尽管以前的研究提出了基于静态网络结构和信息分解近似的方法,但仍然需要一个全面的方法,可以应用于一般的马尔可夫动态系统。主要挑战之一是,需要在数据中搜索粗粒度或分解子集的所有可能功能,以识别复杂系统中的因果关系。然而,传统的数值方法无法处理与在广阔的函数空间中进行如此广泛的搜索相关的计算成本。因此,开发新的方法来解决这些问题势在必行。我们探索了机器学习技术的应用,以解决在时间序列数据中识别因果出现的挑战。 |
| + | |
| + | |
| + | |
| + | |
| + | |
| + | |
| | | |
| === 应用案例 === | | === 应用案例 === |