第7行: |
第7行: |
| ==== 信息熵与互信息 ==== | | ==== 信息熵与互信息 ==== |
| | | |
− | 在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。[[文件:Mutual Info.png|替代=|左|无框]] | + | 在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。 |
| + | |
| + | [[文件:Mutual Info.png|替代=|左|无框]] |
| | | |
| 给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math> 的底数(即 对数)的选择因应用不同而不同(通常采用2)。 | | 给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math> 的底数(即 对数)的选择因应用不同而不同(通常采用2)。 |
第26行: |
第28行: |
| 这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。 | | 这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。 |
| | | |
− | 对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分:[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math> | + | 对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分: |
| + | |
| + | [[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math> |
| | | |
| 此处各个信息原子定义为 | | 此处各个信息原子定义为 |
第39行: |
第43行: |
| | | |
| 以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。 | | 以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。 |
− | [[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。]] | + | [[文件:Lattice Phi.png|576x576像素|替代=|左|无框|以两变量系统 <math>\{X_1,X_2\></math> 为例, |
| | | |
| + | 下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。]] |
| | | |
| === 基本概念 === | | === 基本概念 === |