更改

跳到导航 跳到搜索
无编辑摘要
第5行: 第5行:     
==== 信息熵与互信息 ====
 
==== 信息熵与互信息 ====
 +
 +
在信息论中,'''熵'''(英语:entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')是接收的每条消息中包含的信息的平均量。这里的“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)
 +
 +
<nowiki>:</nowiki><nowiki><math>\Eta(X) = \sum_{i} {\mathrm{P}(x_i)\,\mathrm{I}(x_i)} = -\sum_{i} {\mathrm{P}(x_i) \log_b \mathrm{P}(x_i)},</math></nowiki>
       
在概率论和信息论中,两个随机变量的'''互信息'''(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。
 
在概率论和信息论中,两个随机变量的'''互信息'''(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。
   −
离散随机变量 X 和 Y 的互信息可以计算为:<syntaxhighlight lang="latex">
+
 
 +
 
 
离散随机变量 X 和 Y 的互信息可以计算为:
 
离散随机变量 X 和 Y 的互信息可以计算为:
   −
:<math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X}  
+
<nowiki>:</nowiki><nowiki><math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X} </nowiki>
                p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
+
 
                              \right) }, \,\!
+
                 p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
</math>
+
 
 +
                              \right) }, \,\!
   −
其中 ''p''(''x'', ''y'') 是 ''X'' 和 ''Y'' 的联合概率质量函数,而 <math>p(x)</math> 和 <math>p(y)</math> 分别是 ''X'' 和 ''Y'' 的边缘概率质量函数。
+
<nowiki></math></nowiki>
</syntaxhighlight>
      
其中 <nowiki>''</nowiki>p<nowiki>''</nowiki>(<nowiki>''</nowiki>x<nowiki>''</nowiki>, <nowiki>''</nowiki>y<nowiki>''</nowiki>) 是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的联合概率质量函数,而 <nowiki><math>p(x)</math></nowiki> 和 <nowiki><math>p(y)</math></nowiki>  分别是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的边缘概率质量函数。
 
其中 <nowiki>''</nowiki>p<nowiki>''</nowiki>(<nowiki>''</nowiki>x<nowiki>''</nowiki>, <nowiki>''</nowiki>y<nowiki>''</nowiki>) 是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的联合概率质量函数,而 <nowiki><math>p(x)</math></nowiki> 和 <nowiki><math>p(y)</math></nowiki>  分别是 <nowiki>''</nowiki>X<nowiki>''</nowiki> 和 <nowiki>''</nowiki>Y<nowiki>''</nowiki> 的边缘概率质量函数。
    
==== 部分信息分解 ====
 
==== 部分信息分解 ====
对前者目的在多变量系统的推广。
+
部分信息分解是信息论的一个扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。
 +
 
 +
信息论可以通过 [[相互信息]] <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。
 +
 
 +
假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 [[协同]] 信息,而这无法用经典信息论量轻易捕捉到。
 +
 
 +
部分信息分解进一步将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为
 +
 
 +
<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>
    +
此处各个信息原子定义为
 +
*<math>\text{Unq}(X_1;Y \setminus X_2)</math> 是 <math>X_1</math> 具有的关于 <math>Y</math> 的“独特”信息,而 <math>X_2</math> 中没有这些信息
 +
*<math>\text{Syn}(X_1,X_2;Y)</math> 是 <math>X_1</math> 和 <math>X_2</math> 相互作用中关于 <math>Y</math> 的“协同”信息
 +
*<math>\text{Red}(X_1,X_2;Y)</math> 是 <math>X_1</math> 或 <math>X_2</math> 中关于 <math>Y</math> 的“冗余”信息
 
==== 整合信息分解 ====
 
==== 整合信息分解 ====
 
对部分信息分解框架在在方向上的推广。
 
对部分信息分解框架在在方向上的推广。
2,435

个编辑

导航菜单