更改

跳到导航 跳到搜索
无编辑摘要
第6行: 第6行:  
==== 信息熵与互信息 ====
 
==== 信息熵与互信息 ====
   −
在信息论中,'''熵'''(英语:entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')是接收的每条消息中包含的信息的平均量。这里的“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)
+
在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。
   −
在[[信息论]]中,[[随机变量]]的“熵”量化了与变量的潜在状态或可能结果相关的不确定性或信息的平均水平。考虑到所有潜在状态的概率分布,这衡量了描述变量状态所需的预期信息量。给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<ref group="Note" name="Note01" /> <math>\log</math> 的底数(即 [[对数]])的选择因应用不同而不同。
+
给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math>   的底数(即 对数)的选择因应用不同而不同(通常采用2)。
   −
 
+
与熵紧密相关的是'''互信息'''(mutual Information,MI)。对于两个随机变量,互信息度量了两者间相互依赖的程度(成对关系)。具体来说,互信息测量了一个随机变量由于已知另一个随机变量而减少的“信息量”。
 
  −
在概率论和信息论中,两个随机变量的'''互信息'''(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。
      
离散随机变量 X 和 Y 的互信息可以计算为:
 
离散随机变量 X 和 Y 的互信息可以计算为:
第21行: 第19行:  
  </math>}}
 
  </math>}}
   −
其中 <math>P_{(X,Y)></math> 是 <math>X</math> 和 <math>Y</math> 的 [[联合分布|联合概率 ''mass'' 函数]],并且<math>P_X</math> 和 <math>P_Y</math> 分别是 <math>X</math> 和 <math>Y</math> 的 [[边际概率]] 质量函数。
+
其中 <math>P_{(X,Y)></math> 是 <math>X</math> 和 <math>Y</math> 的 联合概率 ''mass'' 函数,并且<math>P_X</math> 和 <math>P_Y</math> 分别是 <math>X</math> 和 <math>Y</math> 的 边际概率 质量函数。
    
==== 部分信息分解 ====
 
==== 部分信息分解 ====
部分信息分解是信息论的一个扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。
+
在信息熵与互信息的基础上,部分信息分解是信息论的进一步扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。
   −
信息论可以通过 [[相互信息]] <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。
+
信息论可以通过 相互信息 <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。
   −
假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 [[协同]] 信息,而这无法用经典信息论量轻易捕捉到。
+
假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 协同 信息,而这无法用经典信息论量轻易捕捉到。
    
部分信息分解进一步将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为
 
部分信息分解进一步将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为
第38行: 第36行:  
*<math>\text{Syn}(X_1,X_2;Y)</math> 是 <math>X_1</math> 和 <math>X_2</math> 相互作用中关于 <math>Y</math> 的“协同”信息
 
*<math>\text{Syn}(X_1,X_2;Y)</math> 是 <math>X_1</math> 和 <math>X_2</math> 相互作用中关于 <math>Y</math> 的“协同”信息
 
*<math>\text{Red}(X_1,X_2;Y)</math> 是 <math>X_1</math> 或 <math>X_2</math> 中关于 <math>Y</math> 的“冗余”信息
 
*<math>\text{Red}(X_1,X_2;Y)</math> 是 <math>X_1</math> 或 <math>X_2</math> 中关于 <math>Y</math> 的“冗余”信息
 +
[[文件:PID Venn.png|居中|缩略图]]
 +
 
==== 整合信息分解 ====
 
==== 整合信息分解 ====
 
<s>对部分信息分解框架在在方向上的推广。</s>
 
<s>对部分信息分解框架在在方向上的推广。</s>
第67行: 第67行:     
值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态<math>V_t </math>的选择,其中方法一是方法二的下界。这是因为,<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math>衡成立。所以,如果<math>Un(V_t;X_{t+1}| X_t\ )</math>大于0,则系统出现因果涌现。然而<math>V_t </math>的选择往往需要预先定义粗粒化函数,因此无法回避[[Erik Hoel因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,有待提出更加合理的量化方法。
 
值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态<math>V_t </math>的选择,其中方法一是方法二的下界。这是因为,<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math>衡成立。所以,如果<math>Un(V_t;X_{t+1}| X_t\ )</math>大于0,则系统出现因果涌现。然而<math>V_t </math>的选择往往需要预先定义粗粒化函数,因此无法回避[[Erik Hoel因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,有待提出更加合理的量化方法。
=====具体实例=====
+
=====因果涌现充分指标=====
 +
受计算的局限而提出的用于识别因果涌现的充分条件(三个指标)。
 +
 
 +
=== 应用案例 ===
 +
<s>文中的三个案例(生命游戏,鸟群,猴脑)</s>
 +
 
 +
 
 +
具体实例
 +
 
 
[[文件:因果解耦以及向下因果例子1.png|500x500像素|因果解耦以及向下因果例子|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A6%E4%BB%A5%E5%8F%8A%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%BE%8B%E5%AD%901.png]]
 
[[文件:因果解耦以及向下因果例子1.png|500x500像素|因果解耦以及向下因果例子|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A6%E4%BB%A5%E5%8F%8A%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%BE%8B%E5%AD%901.png]]
   第75行: 第83行:     
因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_t^1[/math]是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。
 
因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_t^1[/math]是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。
==== 因果涌现充分指标 ====
  −
受计算的局限而提出的用于识别因果涌现的充分条件(三个指标)。
  −
  −
=== 应用案例 ===
  −
<s>文中的三个案例(生命游戏,鸟群,猴脑)</s>
  −
   
=== 与同类框架的比较 ===
 
=== 与同类框架的比较 ===
 
<s>与EI,可逆性因果涌现原理,矩阵论因果涌现等框架的比较。</s>
 
<s>与EI,可逆性因果涌现原理,矩阵论因果涌现等框架的比较。</s>
1,117

个编辑

导航菜单