更改

基于信息分解的因果涌现理论 (查看源代码)

2024年10月27日 (日) 14:34的版本

添加5字节、 2024年10月27日 (星期日)

第7行：第7行：

==== 信息熵与互信息 ====

−

在信息论中，随机变量的'''熵'''（entropy，又称'''信息熵'''、'''信源熵'''、'''平均自信息量'''）量化了变量的不确定性。考虑到变量所有潜在状态的概率分布，该指标衡量了描述变量状态所需的预期信息量。[[文件:Mutual Info.png|替代=|左|无框]]

+

在信息论中，随机变量的'''熵'''（entropy，又称'''信息熵'''、'''信源熵'''、'''平均自信息量'''）量化了变量的不确定性。考虑到变量所有潜在状态的概率分布，该指标衡量了描述变量状态所需的预期信息量。

+

[[文件:Mutual Info.png|替代=|左|无框]]

给定一个离散随机变量 <math>X</math>，其取值于集合 <math>\mathcal{X></math>，且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布，则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math> 的底数（即对数）的选择因应用不同而不同（通常采用2）。

第26行：第28行：

这种传统测度局限性的一个体现就是变量间的协同效应：假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下，总互信息 <math>I(X_1,X_2;Y)=1</math>，而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说，<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息，而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。

−

对于更加一般的三变量场景而言，部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分：[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>

+

对于更加一般的三变量场景而言，部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分：

+

[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>

此处各个信息原子定义为

第39行：第43行：

以两变量系统 <math>\{X_1,X_2\></math> 为例，下图a中是前后向视角下分别对系统上下时刻互信息的分解结果，通过对这两种视角进行结合便得到了下图b中的16个信息原子。

−

[[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> ~~为例，下图a中是前后向视角下分别对系统上下时刻互信息的分解结果，通过对这两种视角进行结合便得到了下图b中的16个信息原子。]]~~

+

[[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例，

+

下图a中是前后向视角下分别对系统上下时刻互信息的分解结果，通过对这两种视角进行结合便得到了下图b中的16个信息原子。]]

=== 基本概念 ===

相信未来

2,435

个编辑