第8行: |
第8行: |
| | | |
| 在'''<font color="#ff8000"> 概率论Probability theory</font>'''中,特别是与'''<font color="#ff8000"> 信息论Information theory</font>'''相关的情况下,最基本形式的'''<font color="#ff8000"> 条件互信息Conditional mutual information </font>''',是在给定第三个值的两个随机变量间互信息的期望值。 | | 在'''<font color="#ff8000"> 概率论Probability theory</font>'''中,特别是与'''<font color="#ff8000"> 信息论Information theory</font>'''相关的情况下,最基本形式的'''<font color="#ff8000"> 条件互信息Conditional mutual information </font>''',是在给定第三个值的两个随机变量间互信息的期望值。 |
| + | |
| + | |
| | | |
| == Definition 定义 == | | == Definition 定义 == |
第39行: |
第41行: |
| | | |
| 因此,相较于互信息的定义,<math>I(X;Y|Z)</math>可以表达为期望的'''<font color="#ff8000"> Kullback-Leibler散度</font>'''(相对于<math>Z</math>),即从条件联合分布<math>P_{(X,Y)|Z}</math>到条件边际<math>P_{X|Z}</math> 和 <math>P_{Y|Z}</math>的乘积。 | | 因此,相较于互信息的定义,<math>I(X;Y|Z)</math>可以表达为期望的'''<font color="#ff8000"> Kullback-Leibler散度</font>'''(相对于<math>Z</math>),即从条件联合分布<math>P_{(X,Y)|Z}</math>到条件边际<math>P_{X|Z}</math> 和 <math>P_{Y|Z}</math>的乘积。 |
| + | |
| + | |
| | | |
| == In terms of pmf's for discrete distributions 关于离散分布的概率质量函数 == | | == In terms of pmf's for discrete distributions 关于离散分布的概率质量函数 == |
第69行: |
第73行: |
| |border colour = #0073CF | | |border colour = #0073CF |
| |background colour=#F5FFFA}} | | |background colour=#F5FFFA}} |
| + | |
| + | |
| | | |
| == In terms of pdf's for continuous distributions 关于连续分布的概率密度函数 == | | == In terms of pdf's for continuous distributions 关于连续分布的概率密度函数 == |
第99行: |
第105行: |
| |border colour = #0073CF | | |border colour = #0073CF |
| |background colour=#F5FFFA}} | | |background colour=#F5FFFA}} |
| + | |
| + | |
| | | |
| == Some identities 部分特性 == | | == Some identities 部分特性 == |
第150行: |
第158行: |
| :<math> I(X;Y|Z) = \sum_{z \in \mathcal{Z}} p( Z=z ) D_{\mathrm{KL}}[ p(X,Y|z) \| p(X|z)p(Y|z) ]</math>, | | :<math> I(X;Y|Z) = \sum_{z \in \mathcal{Z}} p( Z=z ) D_{\mathrm{KL}}[ p(X,Y|z) \| p(X|z)p(Y|z) ]</math>, |
| :<math> I(X;Y|Z) = \sum_{y \in \mathcal{Y}} p( Y=y ) D_{\mathrm{KL}}[ p(X,Z|y) \| p(X|Z)p(Z|y) ]</math>. | | :<math> I(X;Y|Z) = \sum_{y \in \mathcal{Y}} p( Y=y ) D_{\mathrm{KL}}[ p(X,Z|y) \| p(X|Z)p(Z|y) ]</math>. |
| + | |
| + | |
| | | |
| == More general definition 其他定义== | | == More general definition 其他定义== |
第204行: |
第214行: |
| | | |
| 其中被积函数是'''<font color="#ff8000"> 拉东-尼科迪姆导数Radon–Nikodym derivative</font>'''的对数,涉及我们刚刚定义的一些条件概率测度。 | | 其中被积函数是'''<font color="#ff8000"> 拉东-尼科迪姆导数Radon–Nikodym derivative</font>'''的对数,涉及我们刚刚定义的一些条件概率测度。 |
| + | |
| + | |
| | | |
| == Note on notation 注释符号 == | | == Note on notation 注释符号 == |
第209行: |
第221行: |
| | | |
| 在诸如<math>I(A;B|C)</math>的表达式中,<math>A</math> <math>B</math> 和 <math>C</math>不限于表示单个随机变量,它们同时可以表示在同一概率空间上定义的任意随机变量集合的联合分布。类似概率论中的表达方式,我们可以使用逗号来表示这种联合分布,例如<math>I(A_0,A_1;B_1,B_2,B_3|C_0,C_1).</math>。因此,使用分号(或有时用冒号或楔形<math>\wedge</math>)来分隔互信息符号的主要参数。(在联合熵的符号中,不需要作这样的区分,因为任意数量随机变量的'''<font color="#ff8000"> 联合熵Joint entropy</font>'''与它们联合分布的熵相同。) | | 在诸如<math>I(A;B|C)</math>的表达式中,<math>A</math> <math>B</math> 和 <math>C</math>不限于表示单个随机变量,它们同时可以表示在同一概率空间上定义的任意随机变量集合的联合分布。类似概率论中的表达方式,我们可以使用逗号来表示这种联合分布,例如<math>I(A_0,A_1;B_1,B_2,B_3|C_0,C_1).</math>。因此,使用分号(或有时用冒号或楔形<math>\wedge</math>)来分隔互信息符号的主要参数。(在联合熵的符号中,不需要作这样的区分,因为任意数量随机变量的'''<font color="#ff8000"> 联合熵Joint entropy</font>'''与它们联合分布的熵相同。) |
| + | |
| + | |
| | | |
| == Properties 属性== | | == Properties 属性== |
第223行: |
第237行: |
| | | |
| 该结果已被用作证明信息理论中其他不等式的基础,尤其是香农不等式。对于某些正则条件下的连续随机变量,条件互信息也是非负的。 | | 该结果已被用作证明信息理论中其他不等式的基础,尤其是香农不等式。对于某些正则条件下的连续随机变量,条件互信息也是非负的。 |
| + | |
| + | |
| | | |
| === Interaction information 交互信息 === | | === Interaction information 交互信息 === |
− | Conditioning on a third random variable may either increase or decrease the mutual information: that is, the difference <math>I(X;Y) - I(X;Y|Z)</math>, called the [[interaction information]], may be positive, negative, or zero. This is the case even when random variables are pairwise independent. Such is the case when: <math display="block">X \sim \mathrm{Bernoulli}(0.5), Z \sim \mathrm{Bernoulli}(0.5), \quad Y=\left\{\begin{array}{ll} X & \text{if }Z=0\\ 1-X & \text{if }Z=1 \end{array}\right.</math>in which case <math>X</math>, <math>Y</math> and <math>Z</math> are pairwise independent and in particular <math>I(X;Y)=0</math>, but <math>I(X;Y|Z)=1.</math> | + | |
| + | Conditioning on a third random variable may either increase or decrease the mutual information: that is, the difference <math>I(X;Y) - I(X;Y|Z)</math>, called the [[interaction information]], may be positive, negative, or zero. This is the case even when random variables are pairwise independent. Such is the case when: |
| + | |
| + | <math display="block">X \sim \mathrm{Bernoulli}(0.5), Z \sim \mathrm{Bernoulli}(0.5), \quad Y=\left\{\begin{array}{ll} X & \text{if }Z=0\\ 1-X & \text{if }Z=1 \end{array}\right.</math> |
| + | |
| + | in which case <math>X</math>, <math>Y</math> and <math>Z</math> are pairwise independent and in particular <math>I(X;Y)=0</math>, but <math>I(X;Y|Z)=1.</math> |
| | | |
| 考虑到第三个随机变量条件可能会增加或减少'''<font color="#ff8000"> 互信息Mutual information </font>''':例如其差值<math>I(X;Y) - I(X;Y|Z)</math>,称为'''<font color="#ff8000"> 交互信息Interaction information </font>'''(注意区分互信息Mutual information),可以为正,负或零。即使随机变量是成对独立的也是如此。比如以下情况下: | | 考虑到第三个随机变量条件可能会增加或减少'''<font color="#ff8000"> 互信息Mutual information </font>''':例如其差值<math>I(X;Y) - I(X;Y|Z)</math>,称为'''<font color="#ff8000"> 交互信息Interaction information </font>'''(注意区分互信息Mutual information),可以为正,负或零。即使随机变量是成对独立的也是如此。比如以下情况下: |
第234行: |
第255行: |
| | | |
| <math>X</math>, <math>Y</math> 和 <math>Z</math>是成对独立的,特别是<math>I(X;Y)=0</math>,不过这里<math>I(X;Y|Z)=1.</math>。 | | <math>X</math>, <math>Y</math> 和 <math>Z</math>是成对独立的,特别是<math>I(X;Y)=0</math>,不过这里<math>I(X;Y|Z)=1.</math>。 |
| + | |
| + | |
| | | |
| === Chain rule for mutual information 互信息的链式法则 === | | === Chain rule for mutual information 互信息的链式法则 === |
| :<math>I(X;Y,Z) = I(X;Z) + I(X;Y|Z)</math> | | :<math>I(X;Y,Z) = I(X;Z) + I(X;Y|Z)</math> |
| + | |
| + | |
| | | |
| == Multivariate mutual information 多元互信息 == | | == Multivariate mutual information 多元互信息 == |
第258行: |
第283行: |
| | | |
| 该定义与'''<font color="#ff8000"> 交互信息Interaction information</font>'''的定义相同,只是在随机数为奇数的情况下符号发生了变化。一个复杂的问题是,该多元互信息(以及交互信息)可以是正,负或零,这使得其数量难以直观地解释。实际上,对于n个随机变量,存在2n-1个自由度。那么如何在信息理论上将它们关联,并对应于这些变量的每个非空子集,就是解决问题的关键。特别是这些自由度受到信息论中各种香农和非香农不等式的制约。 | | 该定义与'''<font color="#ff8000"> 交互信息Interaction information</font>'''的定义相同,只是在随机数为奇数的情况下符号发生了变化。一个复杂的问题是,该多元互信息(以及交互信息)可以是正,负或零,这使得其数量难以直观地解释。实际上,对于n个随机变量,存在2n-1个自由度。那么如何在信息理论上将它们关联,并对应于这些变量的每个非空子集,就是解决问题的关键。特别是这些自由度受到信息论中各种香农和非香农不等式的制约。 |
| + | |
| + | |
| | | |
| == References 参考文献 == | | == References 参考文献 == |