第5行: |
第5行: |
| | | |
| ==== 信息熵与互信息 ==== | | ==== 信息熵与互信息 ==== |
| + | |
| + | 在信息论中,'''熵'''(英语:entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')是接收的每条消息中包含的信息的平均量。这里的“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。) |
| + | |
| + | <nowiki>:</nowiki><nowiki><math>\Eta(X) = \sum_{i} {\mathrm{P}(x_i)\,\mathrm{I}(x_i)} = -\sum_{i} {\mathrm{P}(x_i) \log_b \mathrm{P}(x_i)},</math></nowiki> |
| | | |
| | | |
| 在概率论和信息论中,两个随机变量的'''互信息'''(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。 | | 在概率论和信息论中,两个随机变量的'''互信息'''(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。 |
| | | |
− | 离散随机变量 X 和 Y 的互信息可以计算为:<syntaxhighlight lang="latex">
| + | |
| + | |
| 离散随机变量 X 和 Y 的互信息可以计算为: | | 离散随机变量 X 和 Y 的互信息可以计算为: |
| | | |
− | :<math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X} | + | <nowiki>:</nowiki><nowiki><math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X} </nowiki> |
− | p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
| + | |
− | \right) }, \,\!
| + | p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} |
− | </math>
| + | |
| + | \right) }, \,\! |
| | | |
− | 其中 ''p''(''x'', ''y'') 是 ''X'' 和 ''Y'' 的联合概率质量函数,而 <math>p(x)</math> 和 <math>p(y)</math> 分别是 ''X'' 和 ''Y'' 的边缘概率质量函数。
| + | <nowiki></math></nowiki> |
− | </syntaxhighlight> | |
| | | |
| 其中 <nowiki>''</nowiki>p<nowiki>''</nowiki>(<nowiki>''</nowiki>x<nowiki>''</nowiki>, <nowiki>''</nowiki>y<nowiki>''</nowiki>) 是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的联合概率质量函数,而 <nowiki><math>p(x)</math></nowiki> 和 <nowiki><math>p(y)</math></nowiki> 分别是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的边缘概率质量函数。 | | 其中 <nowiki>''</nowiki>p<nowiki>''</nowiki>(<nowiki>''</nowiki>x<nowiki>''</nowiki>, <nowiki>''</nowiki>y<nowiki>''</nowiki>) 是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的联合概率质量函数,而 <nowiki><math>p(x)</math></nowiki> 和 <nowiki><math>p(y)</math></nowiki> 分别是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的边缘概率质量函数。 |
| | | |
| ==== 部分信息分解 ==== | | ==== 部分信息分解 ==== |
− | 对前者目的在多变量系统的推广。
| + | 部分信息分解是信息论的一个扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。 |
| + | |
| + | 信息论可以通过 [[相互信息]] <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。 |
| + | |
| + | 假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 [[协同]] 信息,而这无法用经典信息论量轻易捕捉到。 |
| + | |
| + | 部分信息分解进一步将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为 |
| + | |
| + | <math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math> |
| | | |
| + | 此处各个信息原子定义为 |
| + | *<math>\text{Unq}(X_1;Y \setminus X_2)</math> 是 <math>X_1</math> 具有的关于 <math>Y</math> 的“独特”信息,而 <math>X_2</math> 中没有这些信息 |
| + | *<math>\text{Syn}(X_1,X_2;Y)</math> 是 <math>X_1</math> 和 <math>X_2</math> 相互作用中关于 <math>Y</math> 的“协同”信息 |
| + | *<math>\text{Red}(X_1,X_2;Y)</math> 是 <math>X_1</math> 或 <math>X_2</math> 中关于 <math>Y</math> 的“冗余”信息 |
| ==== 整合信息分解 ==== | | ==== 整合信息分解 ==== |
| 对部分信息分解框架在在方向上的推广。 | | 对部分信息分解框架在在方向上的推广。 |