第7行: |
第7行: |
| 尽管已经存在许多跨时间和空间尺度的[[因果涌现]]的具体例子,我们仍然需要一种仅从数据中识别因果涌现的方法。解决这一问题的困难主要在于,需要一种方法来系统地、自动地搜索所有可能的粗粒化策略(函数、映射),从而显示因果涌现。但搜索空间是微观和宏观之间所有可能的映射函数,体量非常巨大。为了解决这个问题,Klein 等人重点研究了具有网络结构的复杂系统,将粗粒化问题转化为节点聚类,即找到一种方法将节点分组,使得簇级别的连接比原始网络具有更大的[[有效信息]]。虽然该方法假设底层节点动态是扩散(随机游走)的,它还是被广泛应用于各个领域。同时,现实世界中的的复杂系统具有更丰富的节点动态。对于一般的动态系统,即使给定节点分组,粗粒化策略仍然需要考虑如何将簇中所有节点的微观状态映射到簇的宏观状态,也需要在巨大的粗粒化策略函数空间上进行繁琐的搜索。 | | 尽管已经存在许多跨时间和空间尺度的[[因果涌现]]的具体例子,我们仍然需要一种仅从数据中识别因果涌现的方法。解决这一问题的困难主要在于,需要一种方法来系统地、自动地搜索所有可能的粗粒化策略(函数、映射),从而显示因果涌现。但搜索空间是微观和宏观之间所有可能的映射函数,体量非常巨大。为了解决这个问题,Klein 等人重点研究了具有网络结构的复杂系统,将粗粒化问题转化为节点聚类,即找到一种方法将节点分组,使得簇级别的连接比原始网络具有更大的[[有效信息]]。虽然该方法假设底层节点动态是扩散(随机游走)的,它还是被广泛应用于各个领域。同时,现实世界中的的复杂系统具有更丰富的节点动态。对于一般的动态系统,即使给定节点分组,粗粒化策略仍然需要考虑如何将簇中所有节点的微观状态映射到簇的宏观状态,也需要在巨大的粗粒化策略函数空间上进行繁琐的搜索。 |
| | | |
− | 当我们考虑所有可能的映射时,另一个难点是如何避免使用琐碎的粗粒化策略。一种简单的方法是将所有微观状态的值映射到与宏观状态相同的值。这样,系统的宏观动力学就只是一个相同的映射,它将具有较大的有效信息 (EI) 度量。但这种方法不能称为因果涌现,因为所有信息都被粗粒化方法本身抹去了。因此,我们必须找到一种方法来排除这种平凡解。
| + | 当我们考虑所有可能的映射时,另一个难点是如何避免使用平凡的粗粒化策略。一种简单的方法是将所有微观状态的值映射到与宏观状态相同的值。这样,系统的宏观动力学就只是一个相同的映射,它将具有较大的有效信息 (EI) 度量。但这种方法不能称为因果涌现,因为所有信息都被粗粒化方法本身抹去了。因此,我们必须找到一种方法来排除这种平凡解。 |
| | | |
| 另一种从数据中识别因果涌现的方法是部分信息分解方法。虽然基于信息分解的方法可以避免对粗粒化策略的讨论,但是如果我们想获得精确的结果,也需要在系统状态空间的子集上进行长时间的搜索。此外,已发表的数值近似方法只能提供充分条件。同时,该方法不能给出具有现实意义的、明确的粗粒化策略和相应的宏观动力学。上述两种方法的另一个共同缺点是需要一个明确的宏观和微观动力学的马尔可夫转移矩阵才可以从数据中估计转移概率。因此,上述方法对罕见事件概率的预测将产生几乎无法避免的、较大的偏差,尤其对于连续数据。 | | 另一种从数据中识别因果涌现的方法是部分信息分解方法。虽然基于信息分解的方法可以避免对粗粒化策略的讨论,但是如果我们想获得精确的结果,也需要在系统状态空间的子集上进行长时间的搜索。此外,已发表的数值近似方法只能提供充分条件。同时,该方法不能给出具有现实意义的、明确的粗粒化策略和相应的宏观动力学。上述两种方法的另一个共同缺点是需要一个明确的宏观和微观动力学的马尔可夫转移矩阵才可以从数据中估计转移概率。因此,上述方法对罕见事件概率的预测将产生几乎无法避免的、较大的偏差,尤其对于连续数据。 |
| | | |
− | 近年来,基于神经网络的机器学习方法取得了进展,并催生了许多跨学科应用[18–21]。借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动态成为可能。机器学习和神经网络还可以帮助我们找到更好的粗粒化策略。如果将粗粒化映射视为从微观状态到宏观状态的函数,那么显然可以用参数化的神经网络来近似这个函数。这些技术也能帮助我们从数据中发现宏观层面的因果关系。 | + | 近年来,基于神经网络的机器学习方法取得了进展,并催生了许多跨学科应用<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。机器学习和神经网络还可以帮助我们找到更好的粗粒化策略。如果将粗粒化映射视为从微观状态到宏观状态的函数,那么显然可以用参数化的神经网络来近似这个函数。这些技术也能帮助我们从数据中发现宏观层面的因果关系。 |
| | | |
| ==标准化流技术== | | ==标准化流技术== |
第19行: |
第19行: |
| *流(Flows):数据的分布可以非常的复杂,需要多个同样的操作组合来达到标准化的效果,这个组合的过程称为流。 | | *流(Flows):数据的分布可以非常的复杂,需要多个同样的操作组合来达到标准化的效果,这个组合的过程称为流。 |
| | | |
− | 需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。 | + | 需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。 |
| | | |
− | 王磊、尤亦庄等由标准化流技术提出了神经重整化群技术,引入了神经重整化群,作为设计相互作用场论通用全息映射的通用方法。给定一个场论作用,训练一个基于流的分层深度生成神经网络,从不相干的体场波动中再现边界场集合。这样,神经网络就能开发出最优的重整化群变换。标准化流模型和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。 | + | 王磊、尤亦庄等由标准化流技术提出了神经重整化群技术,引入了神经重整化群,作为设计相互作用场论通用全息映射的通用方法。给定一个场论作用,训练一个基于流的分层深度生成神经网络,从不相干的体场波动中再现边界场集合。这样,神经网络就能开发出最优的重整化群变换。标准化流模型和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观状态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。 |
| | | |
| ==数学框架:最大化EI== | | ==数学框架:最大化EI== |
第45行: |
第45行: |
| <nowiki>其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI,即dEI)。[math]\displaystyle{ \phi_q }[/math]是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q}}[/math]是一种有效的宏观动力学。</nowiki> | | <nowiki>其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI,即dEI)。[math]\displaystyle{ \phi_q }[/math]是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q}}[/math]是一种有效的宏观动力学。</nowiki> |
| | | |
− | 该定义符合近似因果模型的抽象<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。 | + | 该定义符合近似因果模型的抽象<ref name=":1">Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。 |
| | | |
| ==神经网络框架== | | ==神经网络框架== |
第74行: |
第74行: |
| 动力系统状态(式{{EquationNote|1}})<math>\mathbf{x}_t</math> 的每一个样本称为时间步长 <math>t</math> 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 <math>\mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T</math> 可形成微观状态时间序列。 | | 动力系统状态(式{{EquationNote|1}})<math>\mathbf{x}_t</math> 的每一个样本称为时间步长 <math>t</math> 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 <math>\mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T</math> 可形成微观状态时间序列。 |
| | | |
− | 重建 <math>g</math> 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。 | + | 重建 <math>g</math> 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的能描述系统演化的宏观动力学。信息丢弃过程即为粗粒化策略(或映射方法)。 |
| | | |
| *'''<math>q</math> 维粗粒化策略''' | | *'''<math>q</math> 维粗粒化策略''' |
第86行: |
第86行: |
| 其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math> 是连续微分函数,可最小化方程{{EquationNote|2}}在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 | | 其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math> 是连续微分函数,可最小化方程{{EquationNote|2}}在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 |
| {{NumBlk|:|<math>\mathbf{y}(t)</math> :<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'}</math></blockquote>|{{EquationRef|3}}}} | | {{NumBlk|:|<math>\mathbf{y}(t)</math> :<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'}</math></blockquote>|{{EquationRef|3}}}} |
− | 此公式不能排除一些平凡解。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math> , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免平凡解和动力学。 | + | 此公式不能排除一些平凡解。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math> , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是平凡的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免平凡解和动力学。 |
| | | |
| ===有效粗粒化策略和宏观动力学=== | | ===有效粗粒化策略和宏观动力学=== |
第92行: |
第92行: |
| | | |
| *'''<math>\epsilon</math>-effective q维粗粒化与宏观动力学''' | | *'''<math>\epsilon</math>-effective q维粗粒化与宏观动力学''' |
− | 如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效): | + | 如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 维粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的: |
| {{NumBlk|:|<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon ,</math></blockquote>|{{EquationRef|4}}}} | | {{NumBlk|:|<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon ,</math></blockquote>|{{EquationRef|4}}}} |
| 同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>: | | 同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>: |
第107行: |
第107行: |
| 其中<math>\mathcal{I}</math>是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。<math>\phi_q</math> 是一种有效的粗粒化策略,<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动力学。 | | 其中<math>\mathcal{I}</math>是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。<math>\phi_q</math> 是一种有效的粗粒化策略,<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动力学。 |
| | | |
− | 该定义与近似因果模型摘要一致<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。
| + | 该定义与近似因果模型抽象一致<ref name=":1" />。 |
| | | |
| | | |
第127行: |
第127行: |
| | | |
| ==动力学学习器== | | ==动力学学习器== |
− | 动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为: | + | 动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为: |
| {{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|9}}}} | | {{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|9}}}} |
| 其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作: | | 其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作: |
第140行: |
第140行: |
| 解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中,粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>,因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而,由于宏观状态的维度是 <math>q</math>,而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>,因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>,解码映射可以定义为: | | 解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中,粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>,因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而,由于宏观状态的维度是 <math>q</math>,而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>,因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>,解码映射可以定义为: |
| {{NumBlk|:|<blockquote><math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^†</math></blockquote>|{{EquationRef|11}}}} | | {{NumBlk|:|<blockquote><math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^†</math></blockquote>|{{EquationRef|11}}}} |
− | 其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数,<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有 | + | 其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的逆函数,<math> \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有 |
| {{NumBlk|:|<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q})</math></blockquote>|{{EquationRef|12}}}} | | {{NumBlk|:|<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q})</math></blockquote>|{{EquationRef|12}}}} |
| 其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微观状态。 | | 其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微观状态。 |
第260行: |
第260行: |
| \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ | | \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ |
| \end{cases}</math></blockquote>|{{EquationRef|27}}}} | | \end{cases}</math></blockquote>|{{EquationRef|27}}}} |
− | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}_1}</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 | + | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 |
| [[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]] | | [[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]] |
| 根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。 | | 根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。 |
第288行: |
第288行: |
| 通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。 | | 通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。 |
| | | |
− | 将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。图6d验证了定理2。 | + | 将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。图6d验证了信息压缩的信息瓶颈定理,即宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同。 |
| | | |
| ==简单布尔网络 == | | ==简单布尔网络 == |
第294行: |
第294行: |
| 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 | | 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 |
| [[文件:NIS Fig 8.png|居中|600px|'''图8.''' 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] | | [[文件:NIS Fig 8.png|居中|600px|'''图8.''' 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] |
− | 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(上图c, d部分)。 | + | 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论(NIS中宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同)与信道互信息之间的关系(上图c, d部分)。 |
| | | |
| =有效信息的度量= | | =有效信息的度量= |