第26行: |
第26行: |
| 在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。 | | 在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。 |
| | | |
− | 信息论可以通过 相互信息 <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。
| + | 信息论可以通过相互信息 <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。 |
| | | |
| 假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 协同 信息,而这无法用经典信息论量轻易捕捉到。 | | 假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 协同 信息,而这无法用经典信息论量轻易捕捉到。 |
第40行: |
第40行: |
| 其中 <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y)</math> , <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y)</math>。[[文件:PID Venn.png|居中|缩略图]]晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 <math>\{X_1,X_2\></math> 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 <nowiki>{{1,2}}</nowiki> <nowiki>{{2}}</nowiki> <nowiki>{{1}}</nowiki> 和 <nowiki>{{1}{2}}</nowiki>。如下图所示,这些anti-chain与上图的信息原子一一对应,既<nowiki>{{1,2}}</nowiki> 对应协同信息,<nowiki>{{2}}</nowiki> 和 <nowiki>{{1}}</nowiki> 对应特有信息,<nowiki>{{1}{2}}</nowiki>对应冗余信息。 | | 其中 <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y)</math> , <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y)</math>。[[文件:PID Venn.png|居中|缩略图]]晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 <math>\{X_1,X_2\></math> 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 <nowiki>{{1,2}}</nowiki> <nowiki>{{2}}</nowiki> <nowiki>{{1}}</nowiki> 和 <nowiki>{{1}{2}}</nowiki>。如下图所示,这些anti-chain与上图的信息原子一一对应,既<nowiki>{{1,2}}</nowiki> 对应协同信息,<nowiki>{{2}}</nowiki> 和 <nowiki>{{1}}</nowiki> 对应特有信息,<nowiki>{{1}{2}}</nowiki>对应冗余信息。 |
| [[文件:Lattice of 2.png|居中|缩略图]] | | [[文件:Lattice of 2.png|居中|缩略图]] |
| + | |
| + | |
| + | |
| + | |
| | | |
| ==== 整合信息分解 ==== | | ==== 整合信息分解 ==== |
第48行: |
第52行: |
| | | |
| === 基本概念 === | | === 基本概念 === |
| + | |
| + | |
| | | |
| ==== 因果涌现框架 ==== | | ==== 因果涌现框架 ==== |
第53行: |
第59行: |
| </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。 | | </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。 |
| [[文件:向下因果与因果解耦2.png|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%B8%8E%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A62.png|替代=|居中|300x300像素]] | | [[文件:向下因果与因果解耦2.png|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%B8%8E%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A62.png|替代=|居中|300x300像素]] |
| + | |
| + | |
| + | |
| | | |
| =====因果涌现定义===== | | =====因果涌现定义===== |
第68行: |
第77行: |
| | | |
| <math>V_t </math> | | <math>V_t </math> |
| + | |
| + | |
| + | |
| | | |
| === 应用案例 === | | === 应用案例 === |
第83行: |
第95行: |
| ==== 与Hoel 的框架的比较 ==== | | ==== 与Hoel 的框架的比较 ==== |
| 将 Hoel 的框架与 Rosas 的因果涌现量化框架进行比较,可以发现后者有几个明显的优势。首先,Rosas 的理论不需要预先确定的粗粒化方法,这使得它在数学上更加严谨和正式。其次,它对因果涌现进行了详细的分解,特别是向下因果关系和因果解耦。最后,它有效地避免了伪因果涌现的情况,即宏观变量仅依赖于微观变量中的独特或冗余信息。然而,也有一些缺点需要考虑。首先,为了获得完整的信息格,需要对所有变量组成进行系统迭代。此外,尽管使用了公式(38),但仍需要定义一个宏变量。不幸的是,作者没有提供任何方法来识别这样的变量。其次,所有互信息及其分解都是基于相关性而不是因果关系。讨论如何将因果因素(例如干预和反事实)纳入框架至关重要。最后,前面的讨论并没有解决根据给定的行为时间序列数据来识别系统中是否发生因果涌现的问题。为了解决这个问题,需要应用机器学习和人工智能等新兴技术。这些技术可以为检测和分析因果涌现提供有价值的工具和技术。 | | 将 Hoel 的框架与 Rosas 的因果涌现量化框架进行比较,可以发现后者有几个明显的优势。首先,Rosas 的理论不需要预先确定的粗粒化方法,这使得它在数学上更加严谨和正式。其次,它对因果涌现进行了详细的分解,特别是向下因果关系和因果解耦。最后,它有效地避免了伪因果涌现的情况,即宏观变量仅依赖于微观变量中的独特或冗余信息。然而,也有一些缺点需要考虑。首先,为了获得完整的信息格,需要对所有变量组成进行系统迭代。此外,尽管使用了公式(38),但仍需要定义一个宏变量。不幸的是,作者没有提供任何方法来识别这样的变量。其次,所有互信息及其分解都是基于相关性而不是因果关系。讨论如何将因果因素(例如干预和反事实)纳入框架至关重要。最后,前面的讨论并没有解决根据给定的行为时间序列数据来识别系统中是否发生因果涌现的问题。为了解决这个问题,需要应用机器学习和人工智能等新兴技术。这些技术可以为检测和分析因果涌现提供有价值的工具和技术。 |
| + | |
| + | |
| + | |
| + | |
| | | |
| === 附录 === | | === 附录 === |