神经网络的有效信息计算
人工神经网络(artificial neural networks)主要通过分析节点与数据集间的互信息(Mutual Information,MI),来研究其对输入的响应。然而,神经网络还可以在因果关系层面进行探讨,揭示网络内部各层间“谁影响谁”及其作用机制。有效信息(Effective Information, EI)作为一种基于信息论的工具,可以通过最大熵扰动下的输入与输出之间的互信息,量化网络层间的因果作用。此外,基于神经信息压缩机(Neural Information Squeezer,NIS)框架的有效信息计算方法可以识别系统从微观状态到宏观状态的因果涌现。
简介
人工神经网络在语音合成[1]、图像识别[2][3]和翻译[4]等各个领域都表现出了先进的性能。然而,人工神经网络底层机制还存在很多未知。例如,基本的机器学习理论表明,拥有大量参数的模型往往容易记住数据集中的所有信息,导致泛化能力差,特别是在未正则化的模型中[5]。深度神经网络(DNN)的主要原理是将深度学习技术[6]引入人工神经网络,以及将GPU用于高速计算[7]。在实践中,研究者发现即使没有显式正则化的DNN也具有良好的泛化性能[8]。虽然众所周知,尽管人工神经网络可以逼近任何函数[9],但它们得出的函数是如何超越训练数据进行泛化的,仍缺乏清晰的理论解释。
信息瓶颈(information bottleneck)是一种被提出来解释人工神经网络泛化能力的理论框架[10]。它认为神经网络在压缩输入数据与预测输出之间寻找最佳平衡。通过分析网络在信息平面(information plane)上的行为——即输入数据与每层网络之间的互信息,研究者尝试揭示网络的学习机制[11]。虽然寻找信息瓶颈是一个可行的方法,但更大的网络仍然受到信息估计问题的困扰[12],并且某些网络拓扑和激活函数的预测或偏差存在错误[13]。更根本的是,信息瓶颈方法的数学公式是数据依赖的,也就是说,它的互信息得分随着输入分布的变化而变化。然而,从定义上讲,泛化能力是不同数据集(输入频率不同,甚至是未知且尚未定义的未来数据集)性能的函数。因此,为了理解泛化能力,有必要关注神经网络在具有不同属性的不同数据集上的不变性[14]。
为更深入理解神经网络的泛化能力,我们需要关注网络中独立于数据分布的因果结构。因果结构描述了网络中节点间的依赖关系,反映了节点之间的连接机制和作用方式。这里我们介绍一种微扰方法,该方法使用信息理论以逐层的方式跟踪神经网络内的因果作用。具体来说,我们引入了有效信息(Effective Information, EI),它可以捕获因果关系的信息量和强度。EI最初是作为复杂系统两个子集之间因果关系的信息论度量而引入的[15]。已经有学者证明,EI可以量化布尔网络的因果结构[16],也可以量化图形[17]。值得注意的是,EI与信息瓶颈方法在数学上有相似之处,但EI侧重于因果关系。在神经网络中,EI通过对网络层节点施加独立且随机的最大熵噪声,计算扰动后输出与输入之间的互信息,捕捉层间因果结构的信息总量。研究发现,网络训练过程中损失函数的快速下降往往伴随着EI的剧烈变化,揭示了网络因果结构的动态演化。
更重要的是,EI可以帮助我们追踪网络训练过程中各层因果结构的变化路径。通过观察网络连接的“敏感度”(Sensitivity,即扰动的传递效果,类似Erik Hoel的Determinism概念[18])和“简并度”(Degeneracy,即连接重叠导致的信息丢失),我们可以看到不同任务如何塑造神经网络的因果结构。复杂任务往往导致网络因果结构分化更明显,而简单任务中这种分化较弱。此外,冗余层通常无法在因果平面中显著变化,显示其对网络功能贡献较小。此外,我们会展示如何使用EI来计算一层中节点的总联合效应和总个体效应之间的差异,从而可以测量神经网络中的前馈集成信息[19]。
此外,神经信息压缩机(Neural Information Squeezer, NIS)是用于量化神经网络有效信息另一个重要方法[20]。NIS旨在通过可逆神经网络(Invertible Neural Network,INN)和投影操作,自动从时间序列数据中提取有效的粗粒化策略和宏观动力学,并识别因果涌现。NIS的核心思想是将粗粒化策略分解为信息转换和信息丢弃两个过程,通过可逆神经网络实现信息无损的转换,再通过投影操作丢弃冗余信息,从而在宏观尺度上获得更强的因果连接。NIS框架通过优化有效信息来寻找最优的粗粒化策略和宏观动力学,实验表明,NIS能够在多个经典系统中自动发现有效的宏观状态和动力学,并在不同尺度下展现出显著的因果涌现效应。
量化神经网络中的有效信息为解决人工神经网络的可解释性问题提供了新的思路。由于人工神经网络拥有大量参数,常被视为“黑匣子”,其内部机制难以理解,影响了模型的透明度[21]。缺乏可解释性可能会掩盖其他问题,如数据集[22]或模型选择[23]中的偏见,对于那些想使用人工神经网络做出关于人生命的事情来说是一个重大问题,例如在自动驾驶汽车[24]、自动驾驶无人机[25]或医疗诊断[26]的情况下。因此使用这套技术,研究人员将能够在训练过程中直接观察神经网络的整体因果结构发生变化的过程,这是打开“黑匣子”和了解神经网络中的作用的关键一步。
基于互信息的有效信息计算
干预揭示因果关系
干预(也称为“扰动”)是揭示因果关系的关键工具。前馈深度神经网络(DNN)的因果关系集合(也称为“因果结构”)由多个层、层之间的连接以及节点的激活函数组成。我们引入了一套工具,用于探索一个假设:DNN的泛化能力取决于其因果结构如何适应所训练的任务(详见 https://github.com/ei-research-group/deep-ei )。
为了研究这一问题,我们采用了一种广泛用于因果分析的正式方法,其中干预被表示为对系统中的某个变量应用[math]\displaystyle{ do(x) }[/math]操作符[27]。通常,[math]\displaystyle{ do(x) }[/math]用于将一个变量设置为特定值,例如在有向无环图中,它可以用来对单个节点进行干预(例如,之前在DNN中已用于应用单个干预[28]。[math]\displaystyle{ do(x) }[/math]通常用于将给定系统中的单个变量(如有向无环图)设置为特定值(例如,它以前曾被用于在DNN中应用单个干预[29][30])。然而,我们在这里引入了一种新的方法,即使用“干预分布”(Intervention Distribution, [math]\displaystyle{ I_D }[/math]),它是对[math]\displaystyle{ do(x) }[/math]操作符的概率分布描述。简单来说,[math]\displaystyle{ I_D }[/math]是对一系列干预的数学描述。当我们在一个网络层的输入上应用[math]\displaystyle{ I_D }[/math]时,会导致输出节点产生某种效应分布([math]\displaystyle{ E_D }[/math])[31]。
通过信息理论,我们可以量化这些因果关系的信息量。更强的因果关系意味着它们传递了更多的信息。我们使用有效信息(Effective Information, EI)来衡量因果关系的强度。具体来说,EI是干预分布([math]\displaystyle{ I_D }[/math])和效应分布([math]\displaystyle{ E_D }[/math])之间的互信息(Mutual Information, MI),当[math]\displaystyle{ I_D }[/math]为最大熵分布(即[math]\displaystyle{ H^{max} }[/math])时。换句话说,EI是通过向网络注入噪声(随机化)后计算的互信息。这种随机化有多个作用:首先,它确保了所有传递的互信息都是由噪声引起的,而不是简单的相关性;其次,作为最大熵的干预,EI反映了随机化变量所产生的信息量,这在科学中是因果关系的“黄金标准”;最后,EI可以被视为对输入状态空间的无偏采样,反映了网络如何处理分布外的数据。
此外,EI还可以被理解为衡量函数映射的“图像”如何帮助恢复“原像”,并且与Kolmogorov复杂度和VC熵有重要关系[32]。最重要的是,先前的研究表明,EI能够反映因果关系的重要特性,例如其确定性(缺乏噪声)或退化性(缺乏唯一性)[16],而这些特性是标准互信息无法捕捉的。
测量层与层之间的有效信息
首先我们介绍一种方法,用于测量深度神经网络中层与层之间的有效信息,从而捕捉一个层对另一个层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1在最大熵[math]\displaystyle{ do(L_{1}=H^{\max}) }[/math]处受到扰动,这意味着节点的所有激活都被迫进入随机选择的状态。[math]\displaystyle{ L_{1}=H^{\max} }[/math]最大限度地放大了L1中所有节点的同时和独立的最大熵扰动:
[math]\displaystyle{ \begin{equation} EI = I(L_1, L_2) \mid do(L_1 = H^{\text{max}}) \end{equation} }[/math]
这个公式表示在L1被最大熵扰动的情况下,L1和L2之间的互信息。
互信息的计算
互信息 [math]\displaystyle{ I(L_1, L_2) }[/math] 的计算基于输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的联合分布。具体步骤如下:
1.离散化 将输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的激活值离散化为若干个区间(bins)。 假设每个节点的激活值被划分为 [math]\displaystyle{ B }[/math] 个区间,则输入层 [math]\displaystyle{ L_1 }[/math] 的离散化状态空间大小为 [math]\displaystyle{ B^n }[/math],输出层 [math]\displaystyle{ L_2 }[/math] 的离散化状态空间大小为 [math]\displaystyle{ B^m }[/math],其中 [math]\displaystyle{ n }[/math] 和 [math]\displaystyle{ m }[/math] 分别是输入层和输出层的节点数。
2.构建联合分布 通过多次最大熵扰动,记录输入层和输出层的离散化状态,构建输入-输出的联合分布 [math]\displaystyle{ P(L_1, L_2) }[/math]。 具体来说,对于每次扰动,输入层 [math]\displaystyle{ L_1 }[/math] 的激活值被随机化,输出层 [math]\displaystyle{ L_2 }[/math] 的激活值通过网络计算得到。然后将这些值离散化并记录到联合分布中。
3.计算互信息 根据联合分布 [math]\displaystyle{ P(L_1, L_2) }[/math],计算互信息 [math]\displaystyle{ I(L_1, L_2) }[/math]:
[math]\displaystyle{ I(L_1, L_2) = \sum_{x \in L_1} \sum_{y \in L_2} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} }[/math]
其中: [math]\displaystyle{ P(x, y) }[/math] 是输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的联合概率分布。 [math]\displaystyle{ P(x) }[/math] 和 [math]\displaystyle{ P(y) }[/math] 分别是输入层和输出层的边缘概率分布。
有效信息的分解
EI 可以进一步分解为两个部分:敏感性(Sensitivity)和简并性(Degeneracy)。
1.敏感性(Sensitivity) 敏感性衡量的是网络中每个边对输出的独立贡献。具体来说,敏感性是每个输入节点 [math]\displaystyle{ i \in L_1 }[/math] 和输出节点 [math]\displaystyle{ j \in L_2 }[/math] 之间的互信息之和:
[math]\displaystyle{ \text{Sensitivity} = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j) \mid do(i = H^{\text{max}}) }[/math]
其中: [math]\displaystyle{ t_i }[/math] 和 [math]\displaystyle{ t_j }[/math] 分别是输入节点 [math]\displaystyle{ i }[/math] 和输出节点 [math]\displaystyle{ j }[/math] 的激活值。 [math]\displaystyle{ do(i = H^{\text{max}}) }[/math] 表示仅对节点 [math]\displaystyle{ i }[/math] 进行最大熵扰动,其他节点的激活值设为 0。
2.简并性(Degeneracy) 简并性衡量的是由于输入节点之间的重叠(即多个输入节点连接到同一个输出节点)导致的信息损失。简并性通过以下公式计算:
[math]\displaystyle{ \text{Degeneracy} = \text{Sensitivity} - EI }[/math]
简并性反映了网络中因果关系的冗余程度。
外推法估计有效信息
使用推法来估计EI。具体公式为:
[math]\displaystyle{ EI_{\text{parts}}(s) = \frac{A}{s^\alpha} + C }[/math]
其中: [math]\displaystyle{ s }[/math] 是样本数量。 [math]\displaystyle{ A }[/math]、[math]\displaystyle{ \alpha }[/math] 和 [math]\displaystyle{ C }[/math] 是通过拟合实验数据得到的参数。
通过拟合少量样本的 EI 值,可以外推出大样本下的 EI 值。
通过以上这些步骤,EI 能够量化神经网络中层与层之间的因果关系,并揭示网络在训练过程中因果结构的变化。
基于NIS框架的有效信息计算
NIS框架概述
神经信息压缩机(Neural Information Squeezer, NIS)框架是一种基于机器学习的新方法,旨在通过自动化地发现有效的粗粒化策略(Coarse-Graining Strategies)和宏观动态(Macro-Dynamics),从数据中识别因果涌现(Causal Emergence)[33]。该框架由以下三个关键组成部分构成:
1. 编码器(Encoder):编码器采用可逆神经网络(Invertible Neural Network, INN)实现,从微观状态 [math]\displaystyle{ x_t }[/math] 映射到宏观状态 [math]\displaystyle{ y_t }[/math],保证信息无损。映射过程包括一个双射变换 [math]\displaystyle{ \psi_\alpha }[/math] 和一个投影算子(Projection Operator, [math]\displaystyle{ \chi }[/math]),后者通过丢弃冗余信息实现降维。其数学表达式如下:
[math]\displaystyle{ \phi_q = \chi_q \circ \psi_\alpha }[/math]
其中,[math]\displaystyle{ \psi_\alpha }[/math] 是双射变换,[math]\displaystyle{ \chi_q }[/math] 是投影算子。
2. 动态学习器(Dynamics Learner):动态学习器是一个带参数 [math]\displaystyle{ \beta }[/math] 的前馈神经网络,用于学习宏观动态 [math]\displaystyle{ f_\beta }[/math]。它近似描述了宏观状态的时间演化,通过约束粗粒化策略以保持对微观动态的可预测性来最大化有效信息(Effective Information, EI)。
3. 解码器(Decoder):解码器使用可逆神经网络的逆变换 [math]\displaystyle{ \psi^{-1}_\alpha }[/math],将宏观状态 [math]\displaystyle{ y_{t+1} }[/math] 和附加的高斯噪声重构为微观状态 [math]\displaystyle{ x_{t+1} }[/math]。这一过程确保宏观状态保留了关于微观状态的必要信息。其重构过程定义为:
[math]\displaystyle{ \phi^\dagger_q = \psi^{-1}_\alpha \circ \chi^\dagger_q }[/math]
NIS中的粗粒化策略明确分为两个过程:信息转换(Information Conversion)和信息丢弃(Information Discarding)。在信息转换阶段,可逆神经网络确保所有相关信息被保留;在信息丢弃阶段,投影算子 [math]\displaystyle{ \chi }[/math] 丢弃不必要的维度,从而将微观状态压缩为有意义的宏观状态。这种分离提供了对信息通道宽度(Width of the Information Channel)的控制,并支持将过程分解为可逆和不可逆的组件进行解析。通过结合这两个过程,NIS框架在保持宏观状态因果性最大化的同时,保证计算的可行性。
有效信息的近似计算
在传统方法中,计算有效信息通常需要对输入和输出空间进行离散化,并基于频率估计概率分布。然而,这种方法在高维空间下计算效率低,并且对低概率区域的估计不准确。NIS框架通过引入基于雅可比矩阵的近似方法,提出了适用于神经网络的有效信息计算公式。
有效信息基于输入 [math]\displaystyle{ X }[/math] 和输出 [math]\displaystyle{ Y }[/math] 的互信息定义为:
[math]\displaystyle{ I(X; Y) = \int_{X,Y} p(X,Y) \ln \frac{p(X,Y)}{p(X)p(Y)} dXdY }[/math]
为了简化计算,假设神经网络的输出 [math]\displaystyle{ Y }[/math] 可以用条件高斯分布建模,其条件概率密度函数为:
[math]\displaystyle{ p(Y|X) = \frac{1}{\sqrt{(2\pi)^m |\Sigma|}} \exp\left( -\frac{1}{2}(Y - \mu(X))^T \Sigma^{-1} (Y - \mu(X)) \right) }[/math]
其中: [math]\displaystyle{ \mu(X) }[/math] 是神经网络的输出映射函数; [math]\displaystyle{ \Sigma = \text{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_m^2) }[/math] 是协方差矩阵,其对角元素为每个输出维度的噪声方差; [math]\displaystyle{ m }[/math] 是输出维度。
基于这一假设,计算有效信息可分为两个主要部分:条件熵部分和边际熵部分。
根据条件概率密度的定义,条件熵可表示为:
[math]\displaystyle{ H(Y|X) = -\int_Y p(Y|X) \ln p(Y|X) dY }[/math]
将条件高斯分布代入公式并求积分,条件熵的计算结果为:
[math]\displaystyle{ H(Y|X) = -\frac{m}{2} + m \ln(2\pi) + \frac{1}{2} \ln |\Sigma| }[/math]
其中: [math]\displaystyle{ \ln |\Sigma| }[/math] 是协方差矩阵对角元素的对数和(即 [math]\displaystyle{ \sum_{i=1}^m \ln \sigma_i^2 }[/math])。
边际熵通过边际概率密度 [math]\displaystyle{ p(Y) }[/math] 计算,定义为:
[math]\displaystyle{ H(Y) = -\int_Y p(Y) \ln p(Y) dY }[/math]
在高维输入空间中,假设输入 [math]\displaystyle{ X }[/math] 的分布是均匀分布 [math]\displaystyle{ U([-L, L]^n) }[/math],且神经网络的映射 [math]\displaystyle{ Y = \mu(X) }[/math] 在局部上可近似为线性映射:
[math]\displaystyle{ \mu(X') \approx \mu(X) + J(X) (X' - X) }[/math]
其中: [math]\displaystyle{ J(X) = \frac{\partial \mu(X)}{\partial X} }[/math] 是雅可比矩阵,表示输入对输出的局部映射关系。
通过这一近似,输出的边际概率密度 [math]\displaystyle{ p(Y) }[/math] 可近似为:
[math]\displaystyle{ p(Y) \propto \frac{1}{|\text{det}(J(X))|} }[/math]
代入边际熵公式后,边际熵计算为:
[math]\displaystyle{ H(Y) = -\mathbb{E}_{X \sim U([-L, L]^n)} [\ln |\text{det}(J(X))|] }[/math]
根据互信息的定义 [math]\displaystyle{ I(X; Y) = H(Y) - H(Y|X) }[/math],结合上述两部分的结果,得到有效信息的近似计算公式:
[math]\displaystyle{ EI_L \approx -\frac{m + m \ln(2\pi) + \ln |\det(\Sigma)|}{2} - \ln \rho + \mathbb{E}_{X \sim U([-L, L]^n)} \ln |\det(\partial_{X' }\mu(X))| }[/math]
其中: [math]\displaystyle{ n }[/math] 和 [math]\displaystyle{ m }[/math]是分别表示输入和输出的维度; [math]\displaystyle{ L }[/math]为输入变量的取值范围; [math]\displaystyle{ \Sigma }[/math]是协方差矩阵; [math]\displaystyle{ \rho }[/math]为归一化因子,用于修正概率分布; [math]\displaystyle{ \partial_{X'} \mu(X) }[/math]表示输出对输入的导数矩阵,等价于雅可比矩阵; [math]\displaystyle{ |\det(\partial_{X'} \mu(X))| }[/math]为导数矩阵行列式的绝对值,表示输入输出的局部线性映射比例。
特殊情况如下: 1.行列式为零的情况。当雅可比矩阵的行列式为零时,输出 [math]\displaystyle{ Y }[/math] 的分布在输入空间中没有对应点,导致边际熵无限大,但无有效输入扰动,因此有效信息为零。 2.输出变量完全独立的情况.如果输出变量 [math]\displaystyle{ Y }[/math] 的每一维度相互独立,则雅可比矩阵为对角矩阵,其行列式为对角元素的乘积。此时,有效信息退化为简单的条件熵计算。
最后,为了避免输入维度对有效信息计算的影响,引入了归一化指标,即维度归一化有效信息(Dimension-Averaged Effective Information, dEI):
[math]\displaystyle{ dEI = \frac{EI}{n} }[/math]
该指标通过归一化,使得有效信息的比较不受输入维度大小的影响,更适合不同规模系统的对比分析。
基于互信息方法量化联合效应
综合信息理论(Integrated Information Theory, IIT) 是一种用来评估系统中联合效应和独立效应的工具[34]。简单来说,联合效应指的是多个节点(或变量)共同作用产生的效果,而独立效应则是单个节点单独作用的效果。IIT帮助我们分析网络中这些效应是如何整合在一起的[35][36]。
以前,研究人员通过计算有效信息的损失来衡量综合信息[37]。EI是一种衡量因果关系的工具,它通过向网络输入随机噪声(最大熵扰动),然后测量输入层和输出层之间的互信息来量化因果强度。然而,目前还没有一个通用的标准来衡量综合信息[38]。不同的系统可能需要不同的方法来衡量[39][40]。
在传统的前馈神经网络中,综合信息通常被认为是零,因为前馈神经网络没有反馈连接(即信息只能从输入层流向输出层)。然而,即使在前馈网络中,一层的节点仍然可能对另一层产生联合效应,即多个节点共同作用的效果。为了衡量这种联合效应,我们引入了一种新的度量方法,称为前馈集成信息(Feedforward Integrated Information, [math]\displaystyle{ \Phi_{feedforward} }[/math])。
量化联合效应
为了量化联合效应,我们首先需要计算每条边的独立贡献。我们引入了一个叫做[math]\displaystyle{ EI_{parts} }[/math]的度量方法。具体来说,对于每一层的每个节点,我们记录它在随机扰动下的激活值,然后计算这些激活值与下一层节点之间的互信息。最后,我们将所有这些互信息值相加,得到[math]\displaystyle{ EI_{parts} }[/math]:
[math]\displaystyle{ \begin{equation} EI_{\text{parts}}(L_1 \rightarrow L_2) = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j) \mid \text{do}(L_1 = H^{\max}). \end{equation} }[/math]
这里的[math]\displaystyle{ I(t_i, t_j) }[/math]表示节点[math]\displaystyle{ i }[/math]和节点[math]\displaystyle{ j }[/math]之间的互信息,[math]\displaystyle{ \text{do}(L_1 = H^{\max}) }[/math]表示对输入层[math]\displaystyle{ L_1 }[/math]进行最大熵扰动。
联合效应与独立效应的差异
[math]\displaystyle{ EI_{parts} }[/math]衡量的是网络中每条边的独立贡献,但它可能会忽略一些联合效应。为了捕捉这些联合效应,我们计算[math]\displaystyle{ EI }[/math]和[math]\displaystyle{ EI_{parts} }[/math]之间的差异,即:
[math]\displaystyle{ \begin{equation} \Phi_{feedforward} = EI - EI_{parts}. \end{equation} }[/math]
这个差值[math]\displaystyle{ \Phi_{feedforward} }[/math]表示网络中联合效应的总量。如果[math]\displaystyle{ \Phi_{feedforward} }[/math]是正的,说明网络中的联合效应是有益的;如果是负的,说明这些联合效应可能是噪声。
训练过程中联合效应的变化
为了了解联合效应在训练过程中的变化,我们分析了两个经典的数据集:Iris和MNIST。我们发现,MNIST数据集上的网络比Iris数据集上的网络具有更高的[math]\displaystyle{ \Phi_{feedforward} }[/math]。这表明,MNIST任务更复杂,网络需要更多的联合效应来学习(见下图)。
基于NIS方法恢复系统宏观状态
这个实验使用弹簧振子模型来测试神经信息压缩机的有效性。这个方法的目的是从带有噪声的观测数据中恢复出系统的宏观状态,并预测未来的状态变化。弹簧振子是一个经典的物理系统,它的运动可以用位置([math]\displaystyle{ z }[/math])和速度([math]\displaystyle{ v }[/math])来描述。
弹簧振子模型
弹簧振子的运动遵循以下动力学方程:
[math]\displaystyle{ \begin{cases} \frac{dz}{dt} = v \\ \frac{dv}{dt} = -z \end{cases} }[/math]
这里,[math]\displaystyle{ z }[/math] 是位置,[math]\displaystyle{ v }[/math] 是速度。系统的状态可以用一个二维向量 [math]\displaystyle{ \mathbf{x} = (z, v) }[/math] 来表示。
然而,实验中我们无法直接观测到系统的真实状态 [math]\displaystyle{ \mathbf{x} }[/math],而是通过两个传感器来测量,每个传感器的测量结果都带有噪声。具体的观测模型如下:
[math]\displaystyle{ \begin{cases} \tilde{\mathbf{x}}_1 = \mathbf{x} + \zeta \\ \tilde{\mathbf{x}}_2 = \mathbf{x} - \zeta \end{cases} }[/math]
其中,[math]\displaystyle{ \zeta }[/math] 是一个服从二维高斯分布的随机噪声,[math]\displaystyle{ \zeta \sim \mathcal{N}(0, \sigma) }[/math],[math]\displaystyle{ \sigma }[/math] 是噪声的标准差。这里的 [math]\displaystyle{ \tilde{\mathbf{x}}_1 }[/math] 和 [math]\displaystyle{ \tilde{\mathbf{x}}_2 }[/math] 是我们实际观测到的微观状态。
宏观状态恢复情况比较
实验结果显示,NIS能够准确地恢复潜在的宏观状态 [math]\displaystyle{ \mathbf{x} }[/math],而普通的神经网络无法做到这一点(下图a, b)。通过绘制宏观状态的导数 [math]\displaystyle{ (dz/dt, dv/dt) }[/math] 与宏观状态变量 [math]\displaystyle{ (v, z) }[/math] 的关系,NIS能够捕捉到弹簧振子的动力学(下图c),而普通神经网络无法做到(下图d)。同时,NIS能够进行多步预测,尽管随着时间步的增加,预测误差逐渐增大,但NIS仍然能够捕捉到系统的整体趋势(下图e)。通过有效信息的计算,量化不同尺度([math]\displaystyle{ q }[/math])下的维度平均因果涌现(dCE),NIS发现dCE在[math]\displaystyle{ q=2 }[/math]时达到峰值(下图f)。这与真实情况一致,表明在[math]\displaystyle{ q=2 }[/math]时,宏观动力学具有最强的因果涌现效应。
在本实验中,有效信息(EI)用于衡量宏观动力学的因果涌现强度,帮助NIS自动选择最优的粗粒化策略(如[math]\displaystyle{ q=2 }[/math]时EI最大),并验证宏观动力学是否有效捕捉系统行为。EI还反映了信息压缩的效率,确保宏观状态保留足够信息来描述系统动力学,同时支持NIS框架的理论分析,验证其在不同尺度下的表现。
总结
人工神经网络的有效信息计算是理解其内部机制和泛化能力的关键。通过引入基于信息论的工具——有效信息,研究者能够量化神经网络中层与层之间的因果关系。在互信息方法中,EI通过最大熵扰动下的输入与输出之间的互信息,捕捉网络层间的因果作用强度,揭示网络在训练过程中因果结构的动态演化。具体而言,EI通过对网络层节点施加独立且随机的最大熵噪声,计算扰动后输出与输入之间的互信息,从而量化因果关系的强度。这种方法不仅能够反映网络因果结构的敏感性和简并性,还能帮助研究者追踪网络训练过程中各层因果结构的变化路径。此外,神经信息压缩机框架则是通过引入基于雅可比矩阵的近似方法,提出了适用于神经网络的有效信息计算公式。NIS通过优化有效信息来寻找最优的粗粒化策略和宏观动力学,实验表明其能够在多个经典系统中自动发现有效的宏观状态和动力学,并在不同尺度下展现出显著的因果涌现效应。这些基于有效信息的计算方法为解决神经网络的可解释性问题提供了新思路,帮助研究者观察网络训练过程中因果结构的变化,推动对神经网络内部机制的理解。
参考文献
- ↑ Zhizheng Wu, Oliver Watts, and Simon King. Merlin: An open source neural network speech synthesis system. In SSW, pages 202–207, 2016.
- ↑ Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
- ↑ Edgar Xi, Selina Bing, and Yang Jin. Capsule network performance on complex data. arXiv preprint arXiv:1712.03480, 2017.
- ↑ I Sutskever, O Vinyals, and QV Le. Sequence to sequence learning with neural networks. Advances in NIPS, 2014.
- ↑ Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.
- ↑ Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436–444, 2015.
- ↑ Rajat Raina, Anand Madhavan, and Andrew Y Ng. Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning, pages 873–880. ACM, 2009.
- ↑ Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, and Nati Srebro. Exploring generalization in deep learning. In Advances in Neural Information Processing Systems, pages 5947–5956, 2017.
- ↑ Kurt Hornik, Maxwell Stinchcombe, and Halbert White. Multilayer feedforward networks are universal approximators. Neural networks, 2(5):359–366, 1989.
- ↑ Naftali Tishby, Fernando C Pereira, and William Bialek. The information bottleneck method. arXiv preprint physics/0004057, 2000.
- ↑ Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
- ↑ Kristoffer Wickstrøm, Sigurd Løkse, Michael Kampffmeyer, Shujian Yu, Jose Principe, and Robert Jenssen. Information plane analysis of deep neural networks via matrix-based renyi’s entropy and tensor kernels.arXiv preprint arXiv:1909.11396, 2019.
- ↑ Andrew M Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy Kolchinsky, Brendan D Tracey, and David DCox. On the information bottleneck theory of deep learning. Journal of Statistical Mechanics: Theory and Experiment, 2019(12):124020, 2019.
- ↑ Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.
- ↑ Giulio Tononi and Olaf Sporns. Measuring information integration. BMC neuroscience, 4(1):31, 2003.
- ↑ 16.0 16.1 Erik P Hoel, Larissa Albantakis, and Giulio Tononi. Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):19790–19795, 2013.
- ↑ Erik P Hoel, Larissa Albantakis, and Giulio Tononi. Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):19790–19795, 2013.
- ↑ Hoel, Erik P.; Albantakis, L.; Tononi, G. (2013). "Quantifying causal emergence shows that macro can beat micro". Proceedings of the National Academy of Sciences. 110 (49): 19790–19795.
- ↑ Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.
- ↑ Jianyu Zhang, Kai Liu. Neural Information Squeezer for Causal Emergence. In Entropy, volume 25, pages 1–26, 2023.
- ↑ David Gunning. Explainable artificial intelligence (xai). Defense Advanced Research Projects Agency (DARPA), nd Web, 2, 2017.
- ↑ Mohsan Alvi, Andrew Zisserman, and Christoffer Nellåker. Turning a blind eye: Explicit removal of biases and variation from deep neural network embeddings. In Proceedings of the European Conference on Computer Vision(ECCV) , pages 0–0, 2018.
- ↑ Arnaud Mignan and Marco Broccardo. One neuron versus deep learning in aftershock prediction. Nature, 574(7776): E1–E3, 2019.
- ↑ Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D Jackel, Mathew Monfort, Urs Muller, Jiakai Zhang, et al. End to end learning for self-driving cars. arXiv preprint arXiv:1604.07316, 2016.
- ↑ Dario Floreano and Robert J Wood. Science, technology and the future of small autonomous drones. Nature, 521(7553):460–466, 2015.
- ↑ Hoo-Chang Shin, Holger R Roth, Mingchen Gao, Le Lu, Ziyue Xu, Isabella Nogues, Jianhua Yao, Daniel Mollura, and Ronald M Summers. Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning. IEEE transactions on medical imaging, 35(5):1285–1298, 2016.
- ↑ Judea Pearl. Causality. New York: Cambridge, 2000. doi: 10.1017/CBO9780511803161.
- ↑ Judea Pearl. Causality. New York: Cambridge, 2000. doi: 10.1017/CBO9780511803161.
- ↑ Michael Harradon, Jeff Druce, and Brian Ruttenberg. Causal learning and explanation of deep neural networks via autoencoded activations. arXiv preprint arXiv:1802.00541, 2018.
- ↑ Tanmayee Narendra, Anush Sankaran, Deepak Vijaykeerthy, and Senthil Mani. Explaining deep learning models using causal inference. arXiv preprint arXiv:1811.04376, 2018.
- ↑ Erik P. Hoel. When the map is better than the territory. Entropy, 19(5):188, 2017. ISSN 1099-4300. doi: 10.3390/e19050188.
- ↑ R. A. Fisher. The Design of Experiments. The American Mathematical Monthly, 43(3):180, 1936. ISSN 00029890. doi: 10.2307/2300364.
- ↑ Jianyu Zhang, Kai Liu. Neural Information Squeezer for Causal Emergence. In Entropy, volume 25, pages 1–26, 2023.
- ↑ Giulio Tononi. Consciousness as integrated information: a provisional manifesto. The Biological Bulletin, 215(3): 216–242, 2008.
- ↑ William Marshall, Hyunju Kim, Sara I Walker, Giulio Tononi, and Larissa Albantakis. How causal analysis can reveal autonomy in models of biological systems. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 375(2109):20160358, 2017.
- ↑ Larissa Albantakis, William Marshall, Erik Hoel, and Giulio Tononi. What caused what? a quantitative account of actual causation using dynamical causal networks. Entropy, , 21(5):459, 2019.
- ↑ David Balduzzi and Giulio Tononi. Integrated information in discrete dynamical systems: motivation and theoretical framework. PLoS Comput Biol, 4(6):e1000091, 2008.
- ↑ Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.
- ↑ Max Tegmark. Improved measures of integrated information. PLoS computational biology, 12(11):e1005123, 2016.
- ↑ Pedro AM Mediano, Anil K Seth, and Adam B Barrett. Measuring integrated information: Comparison of candidate measures in theory and simulation. Entropy, 21(1):17, 2019.