更改

第7行: 第7行:  
==== 信息熵与互信息 ====
 
==== 信息熵与互信息 ====
   −
在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。[[文件:Mutual Info.png|替代=|左|无框]]
+
在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。
 +
 
 +
[[文件:Mutual Info.png|替代=|左|无框]]
    
给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math>  的底数(即 对数)的选择因应用不同而不同(通常采用2)。
 
给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math>  的底数(即 对数)的选择因应用不同而不同(通常采用2)。
第26行: 第28行:  
这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。
 
这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。
   −
对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分:[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>
+
对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分:
 +
 
 +
[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>
    
此处各个信息原子定义为
 
此处各个信息原子定义为
第39行: 第43行:     
以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。
 
以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。
[[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。]]
+
[[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例,
    +
下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。]]
    
=== 基本概念 ===
 
=== 基本概念 ===
2,435

个编辑