第21行: |
第21行: |
| | | |
| 为了简化问题且不失通用性,以有两个输入变量(X<sub>1</sub>、X<sub>2</sub>)和一个输出变量(Y)的系统为例,目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解(Partial Information Decomposition,简称PID)分解成三种信息,分别是冗余信息(Redundant information,简称Red)、独特信息(Unique information,简称Un)、协同信息(Synergistic information,简称Syn),具体公式如下: | | 为了简化问题且不失通用性,以有两个输入变量(X<sub>1</sub>、X<sub>2</sub>)和一个输出变量(Y)的系统为例,目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解(Partial Information Decomposition,简称PID)分解成三种信息,分别是冗余信息(Redundant information,简称Red)、独特信息(Unique information,简称Un)、协同信息(Synergistic information,简称Syn),具体公式如下: |
− |
| |
− |
| |
| <math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math> | | <math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math> |
| | | |
| 不过,PID只适用于单个目标变量的情景,无法有效的应用于跨时间步长的系统。故,Rosas等学者提出了集成信息分解(Integrated Information Decomposition,简称ΦID)。在给定宏观状态<math>V </math>的情况下,如果宏观变量(V<sub>t</sub>)所持有的关于微观变量独特信息大于0,则出现因果涌现。 | | 不过,PID只适用于单个目标变量的情景,无法有效的应用于跨时间步长的系统。故,Rosas等学者提出了集成信息分解(Integrated Information Decomposition,简称ΦID)。在给定宏观状态<math>V </math>的情况下,如果宏观变量(V<sub>t</sub>)所持有的关于微观变量独特信息大于0,则出现因果涌现。 |
− |
| |
− |
| |
| | | |
| <math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math> | | <math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math> |
− |
| |
− |
| |
| 通过互信息的相关计算公式,可以得知: | | 通过互信息的相关计算公式,可以得知: |
− |
| |
− |
| |
| <math>Un(V_t;X_{t+1}|X_t) ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math> | | <math>Un(V_t;X_{t+1}|X_t) ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math> |
| | | |
| 式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量。 | | 式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量。 |
− |
| |
− |
| |
| 由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。 | | 由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。 |
| | | |
| 当<math>\Psi_{t, t+1}(V) > 0 </math>,宏观状态<math>V </math>发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定宏观状态<math>V </math>是否发生因果涌现。 | | 当<math>\Psi_{t, t+1}(V) > 0 </math>,宏观状态<math>V </math>发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定宏观状态<math>V </math>是否发生因果涌现。 |
− |
| |
− |
| |
| | | |
| <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> | | <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> |
− |
| |
− |
| |
| | | |
| 该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。 | | 该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。 |
− |
| |
− |
| |
| | | |
| Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''<u>(暂定)</u>'' | | Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''<u>(暂定)</u>'' |