更改

删除16字节 、 2024年7月25日 (星期四)
第21行: 第21行:     
为了简化问题且不失通用性,以有两个输入变量(X<sub>1</sub>、X<sub>2</sub>)和一个输出变量(Y)的系统为例,目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解(Partial Information Decomposition,简称PID)分解成三种信息,分别是冗余信息(Redundant information,简称Red)、独特信息(Unique information,简称Un)、协同信息(Synergistic information,简称Syn),具体公式如下:
 
为了简化问题且不失通用性,以有两个输入变量(X<sub>1</sub>、X<sub>2</sub>)和一个输出变量(Y)的系统为例,目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解(Partial Information Decomposition,简称PID)分解成三种信息,分别是冗余信息(Redundant information,简称Red)、独特信息(Unique information,简称Un)、协同信息(Synergistic information,简称Syn),具体公式如下:
  −
   
<math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math>
 
<math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math>
    
不过,PID只适用于单个目标变量的情景,无法有效的应用于跨时间步长的系统。故,Rosas等学者提出了集成信息分解(Integrated Information Decomposition,简称ΦID)。在给定宏观状态<math>V </math>的情况下,如果宏观变量(V<sub>t</sub>)所持有的关于微观变量独特信息大于0,则出现因果涌现。
 
不过,PID只适用于单个目标变量的情景,无法有效的应用于跨时间步长的系统。故,Rosas等学者提出了集成信息分解(Integrated Information Decomposition,简称ΦID)。在给定宏观状态<math>V </math>的情况下,如果宏观变量(V<sub>t</sub>)所持有的关于微观变量独特信息大于0,则出现因果涌现。
  −
      
<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math>
 
<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math>
  −
   
通过互信息的相关计算公式,可以得知:
 
通过互信息的相关计算公式,可以得知:
  −
   
<math>Un(V_t;X_{t+1}|X_t)  ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>
 
<math>Un(V_t;X_{t+1}|X_t)  ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>
    
式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量。
 
式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量。
  −
   
由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。
 
由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。
    
当<math>\Psi_{t, t+1}(V) > 0 </math>,宏观状态<math>V </math>发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定宏观状态<math>V </math>是否发生因果涌现。
 
当<math>\Psi_{t, t+1}(V) > 0 </math>,宏观状态<math>V </math>发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定宏观状态<math>V </math>是否发生因果涌现。
  −
      
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
  −
      
该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
 
该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
  −
      
Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
 
Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
196

个编辑