更改

跳到导航 跳到搜索
添加4,462字节 、 2024年8月4日 (星期日)
第85行: 第85行:  
[[文件:因果解耦以及向下因果例子1.png|缩略图|500x500像素|居中|因果解耦以及向下因果例子]]
 
[[文件:因果解耦以及向下因果例子1.png|缩略图|500x500像素|居中|因果解耦以及向下因果例子]]
 
文中作者举了一个前后两个时间序列数据的奇偶是否相同的例子来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。当第二个判断条件中只有第一项成立时是用来判断向下因果条件,只有第二项成立时是用来判断因果解耦条件,两种同时成立时用来判断因果涌现条件。这里,<math>X_t=(X_t^1,…,X_t^n )\in \left\{0,1\right\}^n </math>,宏观态是微观输入的异或结果。
 
文中作者举了一个前后两个时间序列数据的奇偶是否相同的例子来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。当第二个判断条件中只有第一项成立时是用来判断向下因果条件,只有第二项成立时是用来判断因果解耦条件,两种同时成立时用来判断因果涌现条件。这里,<math>X_t=(X_t^1,…,X_t^n )\in \left\{0,1\right\}^n </math>,宏观态是微观输入的异或结果。
 +
 +
 +
= 其他 =
 +
Rosas等学者通过将过量熵(excess entropy)分解成不重叠的部分来识别量化因果涌现,且提出了判定因果涌现发生的充分条件。
 +
 +
为了简化问题且不失通用性,以有两个输入变量(X<sub>1</sub>、X<sub>2</sub>)和一个输出变量(Y)的系统为例,目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解(Partial Information Decomposition,简称PID)分解成三种信息,分别是冗余信息(Redundant information,简称Red)、独特信息(Unique information,简称Un)、协同信息(Synergistic information,简称Syn),具体公式如下:
 +
 +
<math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math>
 +
 +
不过,PID只适用于单个目标变量的情景,无法有效的应用于跨时间步长的系统。故,Rosas等学者提出了整合信息分解(Integrated Information Decomposition,简称ΦID)。当且仅当协同信息大于0的时候,系统有能力发生因果涌现。
 +
 +
<math>Syn(X_{t};X_{t+1})  > 0 </math>
 +
 +
在给定宏观状态<math>V </math>的情况下,<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) </math>。所以,如果宏观变量(V<sub>t</sub>)所持有的关于微观变量独特信息大于0,则出现因果涌现。
 +
 +
<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math>
 +
 +
通过互信息的相关计算公式,可以得知:
 +
 +
<math>Un(V_t;X_{t+1}|X_t)  ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>
 +
 +
式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量,<math>V_t ; V_{t+1} </math>代表两个连续时间的宏观状态变量。
 +
 +
由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。
 +
 +
当<math>\Psi_{t, t+1}(V) > 0 </math>,系统发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定系统是否发生因果涌现。
 +
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 +
 +
该方法避开讨论粗粒化策略,但是也存在很多缺点:
 +
 +
1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的近似的充分条件;
 +
 +
2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;
 +
 +
3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
 +
 +
Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
 +
 +
 +
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,相关关系的来源可以分成三种:
 +
 +
1)因果关系(Causation):当且仅当T发生改变时,Y发生改变。比如在夏天的时候,冰淇淋的销量会上升。
 +
 +
2)混杂因素(Confounding):X导致T和Y都上升,但是模型没有学到背后的X,只学出了T的上升导致Y上升,是一种虚假的相关关系。比如当人的年龄增加,很多人会吸烟和发福,而模型可能学出了是因为人吸烟,所以人发福。当给模型输入一组年龄一样,但是吸烟情况不一样的数据时,模型的有效性变会下降。
 +
 +
3)样本选择偏差(Sample Selection Bias):当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。
    
====基于可逆性的因果涌现理论====
 
====基于可逆性的因果涌现理论====
1,856

个编辑

导航菜单