神经网络的有效信息计算

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

人工神经网络(artificial neural networks)主要通过分析节点与数据集间的互信息(Mutual Information,MI),来研究其对输入的响应。然而,神经网络还可以在因果关系层面进行探讨,揭示网络内部各层间“谁影响谁”及其作用机制。有效信息(Effective Information, EI)作为一种基于信息论的工具,可以刻画神经网络上的这种因果效应。本词条介绍如何通过离散和连续两种方法对神经网络上面的因果效应度量指标有效信息进行计算。

简介

人工神经网络在语音合成[1]、图像识别[2][3]和翻译[4]等各个领域都表现出了先进的性能。然而,人工神经网络底层机制还存在很多尚不清楚的因素。例如,基本的机器学习理论表明,拥有大量参数的模型往往容易记住数据集中的所有信息,导致泛化能力差,特别是在未正则化的模型中[5]深度神经网络(DNN)的主要原理是将深度学习技术[6]引入人工神经网络,以及将GPU用于高速计算[7]。在实践中,研究者发现即使没有显式正则化的DNN也具有良好的泛化性能[8]。虽然人工神经网络可以逼近任何函数[9],但它们得出的函数是如何超越训练数据进行泛化的,仍缺乏清晰的理论解释。

信息瓶颈(information bottleneck)理论是一种被提出来解释人工神经网络泛化能力的理论框架[10]。它认为神经网络在压缩输入数据与预测输出之间寻找最佳平衡。通过分析网络在信息平面(information plane)上的行为——即输入数据与每层网络之间的互信息,研究者尝试揭示网络的学习机制[11]。虽然寻找信息瓶颈是一个可行的方法,但更大的网络仍然受到信息估计问题的困扰[12],并且某些网络拓扑和激活函数的预测或偏差存在错误[13]。更根本的是,信息瓶颈方法的数学公式是数据依赖的,也就是说,它的互信息计算会随着输入分布的变化而变化。然而,从定义上讲,泛化能力衡量的应该是网络在不同数据集下(输入分布不同,甚至是未知且尚未定义的未来数据集)的性能。因此,为了理解泛化能力,有必要关注神经网络在具有不同属性的不同数据集上的不变性[14]

为更深入理解神经网络的泛化能力,我们需要关注网络中独立于数据分布的因果结构。因果结构描述了网络中节点间的依赖关系,反映了节点之间的连接机制和作用方式。这里我们介绍一种微扰方法,该方法使用信息理论以逐层的方式跟踪神经网络内的因果作用。具体来说,我们引入了有效信息(Effective Information, EI),它可以捕获因果关系中的信息量或因果效应强度。EI最初是作为复杂系统两个子集之间因果关系的信息论度量而引入的[15]。已经有学者证明,EI可以量化布尔网络的因果结构[16],也可以量化网络[17]。值得注意的是,EI与信息瓶颈方法在数学上有相似之处,但EI侧重于因果关系。

更重要的是,EI可以帮助我们追踪网络训练过程中各层因果结构的变化路径。通过观察网络连接的“敏感度”(Sensitivity,即扰动的传递效果,类似有效信息中的确定性(Determinism)概念[16]和“简并度”(Degeneracy,即一果多因映射导致的信息丢失),我们可以看到不同任务如何塑造神经网络的因果结构。复杂任务往往导致网络因果结构分化更明显,而简单任务中这种分化较弱。此外,冗余层通常无法在因果平面中显著变化,显示其对网络功能贡献较小。此外,我们会展示如何使用EI来计算一层中节点的总联合效应和总个体效应之间的差异,从而可以测量神经网络中的前馈集成信息[18]

量化神经网络中的有效信息为解决人工神经网络的可解释性问题提供了新的思路。由于人工神经网络拥有大量参数,常被视为“黑匣子”,其内部机制难以理解,影响了模型的透明度[19]。缺乏可解释性可能会掩盖其他问题,如数据集[20]或模型选择[21]中的偏见,对于那些想使用人工神经网络实现人工智能来说是一个重大问题,例如在自动驾驶汽车[22]、自动驾驶无人机[23]或医疗诊断[24]的情况下。因此使用这套技术,研究人员将能够在训练过程中直接观察神经网络的整体因果结构发生变化的过程,这是打开“黑匣子”和了解神经网络中的作用的关键一步。

本词条主要介绍基于离散方法和连续方法的神经网络有效信息计算,这两种计算方法都是研究人工神经网络内部机制的重要工具。离散方法通过将神经网络的输入和输出值划分为若干个区间(bins),然后计算这些离散化状态之间的互信息来量化层间的因果关系。具体来说,离散方法通过对网络层施加最大熵噪声(即随机化节点的激活状态),记录扰动后的输入和输出,并构建联合概率分布,最终通过互信息公式计算EI。而连续方法则假设因果变量映射对应的条件概率分布是一个高斯分布,从而通过引入雅可比矩阵来近似计算EI,避免了离散化带来的计算复杂性和精度问题。雅可比矩阵描述了输入对输出的局部敏感性,通过计算其行列式和对数期望值,结合输入熵和噪声惩罚项,得到EI的近似值。这种方法在高维空间中更为高效,适用于实际场景中的神经网络因果结构的评估。

基于离散方法的有效信息计算

干预揭示因果关系

干预(也称为“扰动”)是揭示因果关系的关键工具。前馈深度神经网络(DNN)的因果关系集合(也称为“因果结构”)由多个层、层之间的连接以及节点的激活函数组成。我们引入了一套工具,用于探索一个假设:DNN的泛化能力取决于其因果结构如何适应所训练的任务(详见 https://github.com/ei-research-group/deep-ei )。

为了研究这一问题,我们采用了一种广泛用于因果分析的方法,其中干预被表示为对系统中的某个变量应用[math]\displaystyle{ do(x) }[/math]操作[25]。通常,[math]\displaystyle{ do(x) }[/math]用于将一个变量设置为特定值,例如在有向无环图中,它可以用来对单个节点进行干预(例如,之前在DNN中已用于应用单个干预[26][27])。然而,我们在这里引入了一种新的方法,即使用“干预分布”(Intervention Distribution, [math]\displaystyle{ I_D }[/math]),它是对[math]\displaystyle{ do(x) }[/math]操作的概率分布描述。简单来说,[math]\displaystyle{ I_D }[/math]是对一系列干预的数学描述。当我们在一个网络层的输入上应用[math]\displaystyle{ I_D }[/math]时,会导致输出节点产生某种效应分布([math]\displaystyle{ E_D }[/math][28]

通过信息理论,我们可以量化这些因果关系的信息量。更强的因果关系意味着它们传递了更多的信息。我们使用有效信息(Effective Information, EI)来衡量因果关系的强度。具体来说,EI是当[math]\displaystyle{ I_D }[/math]为最大熵分布(即[math]\displaystyle{ H^{max} }[/math])时,干预分布([math]\displaystyle{ I_D }[/math])和效应分布([math]\displaystyle{ E_D }[/math])之间的互信息(Mutual Information, MI)。换句话说,EI是通过向网络注入噪声(随机化)后计算的互信息。这种随机化有多个作用:首先,它确保了所有传递的互信息都是由噪声引起的,而不是简单的相关性;其次,作为最大熵的干预,EI反映了随机化变量所产生的信息量,这在科学中是因果关系的“黄金标准”;最后,EI可以被视为对输入状态空间的无偏采样,反映了网络如何处理分布外的数据。

此外,EI还与Kolmogorov复杂度和VC熵有重要关系[29][30]。最重要的是,先前的研究表明,EI能够反映因果关系的重要特性,例如其确定性(缺乏噪声)或退化性(缺乏唯一性),而这些特性是标准互信息无法捕捉的。

测量层与层之间的有效信息

首先我们介绍一种方法,用于测量深度神经网络中任意两层神经元之间的有效信息,从而捕捉一个层对另一个层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1被干预为最大熵分布[math]\displaystyle{ do(L_{1}=H^{\max}) }[/math],这意味着节点的所有激活与否的状态组合都被赋予了同等的概率。EI衡量了在这一最大熵干预下,输入变量([math]L_1[/math])和输出变量([math]L_2[/math])彼此之间的互信息:

[math]\displaystyle{ \begin{equation} EI = I(L_1, L_2|do(L_1 = H^{\text{max}})) \end{equation} }[/math]

这个公式表示该层神经网络的有效信息

有效信息的计算

互信息 [math]\displaystyle{ I(L_1, L_2) }[/math] 的计算基于输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的联合分布。具体步骤如下:

1.离散化: 将输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的激活值离散化为若干个区间(bins)。 假设每个节点的激活值被划分为 [math]\displaystyle{ B }[/math] 个区间,则输入层 [math]\displaystyle{ L_1 }[/math] 的离散化状态空间大小为 [math]\displaystyle{ B^n }[/math],输出层 [math]\displaystyle{ L_2 }[/math] 的离散化状态空间大小为 [math]\displaystyle{ B^m }[/math],其中 [math]\displaystyle{ n }[/math][math]\displaystyle{ m }[/math] 分别是输入层和输出层的节点数。

2.构建联合分布: 通过多次最大熵扰动,记录输入层和输出层的离散化状态,构建输入-输出的联合分布 [math]\displaystyle{ P(L_1, L_2) }[/math]。 具体来说,对于每次扰动,输入层 [math]\displaystyle{ L_1 }[/math] 的激活值被随机化,输出层 [math]\displaystyle{ L_2 }[/math] 的激活值通过网络计算得到。然后将这些值离散化并记录到联合分布中。

3.计算有效信息: 根据联合分布 [math]\displaystyle{ P(L_1, L_2) }[/math],计算有效信息 [math]\displaystyle{ \begin{equation} EI \end{equation} }[/math]

[math]\displaystyle{ EI = I(L_1, L_2|do(L_1 = H^{\text{max}})) = \sum_{x \in L_1} \sum_{y \in L_2} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} }[/math]

其中: [math]\displaystyle{ P(x, y) }[/math] 是输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的联合概率分布。 [math]\displaystyle{ P(x) }[/math][math]\displaystyle{ P(y) }[/math] 分别是输入层和输出层的边缘概率分布。 下图为离散有效信息的关系图。

Sensitivity.png

有效信息的分解

正如任意一个因果机制有效信息可以被分为确定性和简并性(或称非退化性),单个神经元的有效信息也可以进一步分解为两个部分:敏感性(Sensitivity)和简并性(Degeneracy)。

1.敏感性(Sensitivity) 敏感性衡量的是网络中每个边对输出的独立贡献,即输入层的每个节点对输出层每个节点的单独影响有多大。具体来说,敏感性是每个输入节点 [math]\displaystyle{ i \in L_1 }[/math] 和输出节点 [math]\displaystyle{ j \in L_2 }[/math] 之间的互信息之和:

[math]\displaystyle{ \text{Sensitivity} = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j \mid do(i = H^{\text{max}})) }[/math]

其中: [math]\displaystyle{ t_i }[/math][math]\displaystyle{ t_j }[/math] 分别是输入节点 [math]\displaystyle{ i }[/math] 和输出节点 [math]\displaystyle{ j }[/math] 的激活值。 [math]\displaystyle{ do(i = H^{\text{max}}) }[/math] 表示仅对节点 [math]\displaystyle{ i }[/math] 进行最大熵扰动,其他节点的激活值设为 0。

敏感性(Sensitivity)与EI的区别: EI是全局最大熵输入下所有输入向量和输出向量的互信息;Sensitivity是对每个输入节点,单独做最大熵干预,其他固定为0, 是每条输入–输出单边传递了多少,全部累加;EI ≤ Sensitivity (除非输入完全独立无冗余),因为局部干预把信息传递“拆开了”,它们会重复叠加输入间的冗余部分,EI 反映了去重后的“有效信息”。

2.简并性(Degeneracy) 简并性衡量的是由于输入节点之间的重叠(即多个输入节点连接到同一个输出节点)导致的信息损失。简并性通过以下公式计算:

[math]\displaystyle{ \text{Degeneracy} = \text{Sensitivity} - EI }[/math]

简并性反映了网络中因果关系的冗余程度。

基于连续方法的有效信息计算

在传统方法中,计算有效信息通常需要对输入和输出空间进行离散化处理,然后基于频率估计出联合概率分布。然而,这种方法在高维空间下计算效率非常低,并且会低估低概率区域的概率值。这里我们通过引入高斯分布假说,从而提出了一种新的适用于高维连续变量的神经网络有效信息计算方法[31]。详细计算步骤如下:

定义输入输出空间与噪声模型

1. 输入空间: 输入 [math]\displaystyle{ X }[/math][math]\displaystyle{ n }[/math] 维向量,取值范围为 [math]\displaystyle{ [-L, L]^n }[/math][math]\displaystyle{ L }[/math] 为大整数)。 假设输入服从均匀分布:[math]\displaystyle{ X \sim U([-L, L]^n) }[/math]

2. 输出空间与噪声模型:

由于神经网络的输出 [math]\displaystyle{ Y = \mu(X) }[/math],其中 [math]\displaystyle{ \mu }[/math] 代表了神经网络的确定性映射,故而我们可以将这一确定性的映射关系看做一个近似的高斯分布,即我们假设有如下噪声模型:

[math]\displaystyle{ p(Y|X) = \frac{1}{\sqrt{(2\pi)^m|\Sigma|}} \exp\left(-\frac{1}{2}(Y - \mu(X))^T \Sigma^{-1} (Y - \mu(X))\right), }[/math]

这是一个以[math]\mu(X)[/math]为均值,以[math]\displaystyle{ \Sigma = \operatorname{diag}(\sigma_1^2, \dots, \sigma_m^2) }[/math]为协方差矩阵的高斯分布,其中[math]\displaystyle{ \sigma_i }[/math] 为第 [math]\displaystyle{ i }[/math] 维上的标准差。在实际运算中,[math]\sigma_i[/math]通常由第[math]i[/math]个维度输出值的均方误差(Mean Square Error, 简称MSE)误差。对于隐含层节点,这一标准差可以由输出神经元经过误差反传算法而计算出来。

除了使用高斯分布,我们也可以等价地使用拉普拉斯分布:

[math]\displaystyle{ p(Y|X) = \prod_{i=1}^m \frac{1}{2b_i} \exp\left(-\frac{|y_i - \mu_i(X)|}{b_i}\right) }[/math]

其中 [math]\displaystyle{ b_i }[/math] 为第 [math]\displaystyle{ i }[/math] 维输出的误差,可以由输出神经元的平均绝对误差(Mean Absolute Error,MAE误差)或经由梯度反传算法计算得到。

有效信息计算公式

若存在至少一个输入点使 [math]\displaystyle{ \det(\partial_X \mu(X)) \neq 0 }[/math],则EI近似为: [math]\displaystyle{ EI \approx n \ln(2L) - \frac{m}{2} \left(1 + \ln(2\pi)\right) - \frac{1}{2} \sum_{i=1}^m \ln(\sigma_i^2) + \mathbb{E}_{X \sim U} \left[ \ln |\det(\partial_X \mu(X))| \right]. }[/math]

其中:

  • [math]\displaystyle{ n \ln(2L) }[/math] 为输入分布(最大熵分布)的信息熵,它可以表示输入空间的多样性,取值范围越大([math]\displaystyle{ L }[/math] 越大),则EI越高。
  • [math]\displaystyle{ -\frac{m}{2} \left(1 + \ln(2\pi)\right) }[/math] 为输出维度惩罚。输出维度 [math]\displaystyle{ m }[/math] 越高,信息分散到更多维度,EI越低。
  • [math]\displaystyle{ -\frac{1}{2} \sum_{i=1}^m \ln(\sigma_i^2) }[/math] 为噪声惩罚项。噪声标准差 [math]\displaystyle{ \sigma_i }[/math] 越大,输出不确定性越高,EI越低。


  • 公式中,雅可比矩阵 [math]\displaystyle{ \partial_X \mu(X) }[/math] 描述了输入对输出的局部敏感性,其元素为:

[math]\displaystyle{ \partial_X \mu(X) = \left[ \frac{\partial \mu_i(X)}{\partial x_j} \right]_{n \times m}, }[/math]

即第 [math]\displaystyle{ i }[/math] 个输出对第 [math]\displaystyle{ j }[/math] 个输入的偏导数矩阵。


它的行列式 [math]\displaystyle{ \det(\partial_X \mu(X)) }[/math] 反映了输入变化对输出的整体影响强度。 若行列式在所有输入点均为零,则EI为零(网络无法区分不同输入)。 [math]\displaystyle{ \mathbb{E}[\ln |\det(\partial_X \mu)|] }[/math] 为敏感度增益项,它为雅可比行列式对数的期望值([math]\displaystyle{ n=m }[/math]可直接求,若不等则应该求其广义行列式),该项可以衡量网络对输入变化的全局敏感性。行列式绝对值越大,则EI越高。

蒙特卡洛采样实现期望计算

数学期望 [math]\displaystyle{ \mathbb{E}_{X \sim U}[\cdot] }[/math] 通过以下步骤近似:

1. 均匀采样:从输入空间 [math]\displaystyle{ [-L, L]^n }[/math] 随机采样 [math]\displaystyle{ N }[/math] 个点(如 [math]\displaystyle{ N=1000 }[/math])。

2. 计算行列式:对每个采样点 [math]\displaystyle{ X_k }[/math],计算雅可比矩阵 [math]\displaystyle{ \partial_X \mu(X_k) }[/math] 及其行列式。

3. 对数平均:计算所有行列式对数的平均值: [math]\displaystyle{ \mathbb{E}[\ln |\det(\partial_X \mu)|] \approx \frac{1}{N} \sum_{k=1}^N \ln |\det(\partial_X \mu(X_k))|. }[/math]

最终输出:

将上述四项代入公式,即可得到神经网络的有效信息值。此方法通过解析公式与采样结合,显著降低了高维空间的计算复杂度,适用于实际场景中的EI评估。

计算实例

基于离散方法计算神经网络层间EI

本实验通过传统互信息方法计算了在两个基准分类任务(Iris和MNIST)上训练的网络的有效信息并观察有效信息在层之间的动态,并进一步观察EI动态与损失函数的关系。对于Iris任务,我们训练了一个具有三层全连接的网络(4→5→5→3),而对于MNIST任务,我们使用了一个四层全连接神经网络(25→6→6→5),两个任务都使用了Sigmoid激活函数且没有偏置项。我们通过从均匀分布中采样来初始化权重,并使用均方误差(MSE)损失函数和普通梯度下降法进行训练。为了计算EI,我们对每一层的输入注入最大熵的噪声,并记录每一层的输出与输入之间的互信息。我们发现,EI的最大变化与训练过程中损失函数最陡峭的部分显著匹配。在过拟合期间,EI在所有层中通常是平坦的,说明网络的因果结构已经趋于稳定,不再发生显著变化。

下图展示了训练过程中神经网络各层EI和损失函数的变化。图(a)和图(c)分别显示了Iris任务中训练集和测试集的损失函数变化。可以看到,在训练初期,损失函数快速下降,同时图(b)和图(d)的EI也发生了显著变化。在过拟合阶段,损失函数趋于平缓,EI也基本保持不变。由于MNIST任务复杂度更高,EI的变化幅度更大,表明网络在复杂任务中需要更多的因果结构调整来适应任务需求。总体而言,EI的变化与损失函数的变化密切相关,尤其是在学习的关键阶段,这一发现有助于我们理解神经网络如何通过调整其内部因果结构来适应不同的任务。

MNIST和Iris任务中训练集和测试集的损失函数变化,引自[32]


基于连续方法观察神经网络EI

本实验基于连续方法计算有效信息的思路,复现了两个基准分类任务(Iris和MNIST)上训练的网络的有效信息计算,并观察有效信息在层之间的动态变化。进一步,我们可以观察EI动态与损失函数的关系。

对于Iris任务,我们训练了一个具有三层全连接的网络(4→5→5→3),而对于MNIST任务,我们使用了一个四层全连接的网络(25→6→6→6→5),两个任务都使用了Sigmoid激活函数且没有偏置项。我们通过从均匀分布中采样来初始化权重,并使用均方误差(MSE)损失函数和普通梯度下降法进行训练。


首先,我们复现了文献[32]中的结果,我们按照离散的方法计算了(单节点→单节点)EI随着激活函数网络权重的变化趋势(如图所示),发现在相同激活函数,不同的bins,对于EI值最高点所对应的网络权重都是一样的,然而在相同bins,不同激活函数网络中,EI值最高点所对应的网络权重是不一样的。

AB

其次,我们使用连续变量计算有效信息的方法,我们同样发现,EI的最大变化与训练过程中损失函数最陡峭的部分显著匹配;在过拟合期间,EI在所有层中通常是平坦的,说明网络的因果结构已经趋于稳定,不再发生显著变化了。

下图展示了连续方法训练过程中神经网络各层EI和损失函数的变化。图(b)和图(d)分别显示了Iris任务中训练集和测试集的损失函数变化。可以看到,在训练初期,损失函数快速下降,同时图(a)和图(c)的EI也发生了显著变化。该网络在过拟合阶段,损失函数趋于平缓,EI基本保持不变。由于MNIST任务复杂度更高,EI的变化幅度更大,表明网络在复杂任务中需要更多的因果结构调整来适应任务需求。总体而言,EI的变化与损失函数的变化密切相关,尤其是在学习的关键阶段,这一发现有助于我们理解神经网络如何通过调整其内部因果结构来适应不同的任务。

EI.jpg

总结

人工神经网络有效信息计算是理解其内部机制和泛化能力的关键。通过引入基于信息论的工具——有效信息,研究者能够量化神经网络中层与层之间的因果关系。在离散方法中,EI通过最大熵扰动下的输入与输出之间的互信息,捕捉网络层间的因果效应强度,揭示网络在训练过程中因果结构的动态演化。具体而言,EI通过对网络层节点施加独立且随机的最大熵噪声,计算扰动后输出与输入之间的有效信息,从而量化因果效应的强度。这种方法不仅能够反映网络因果结构的敏感性简并性,还能帮助研究者追踪网络训练过程中各层因果结构的变化路径。

此外,本词条还给出了计算有效信息的新方法,即基于高斯分布假设的有效信息计算方法,该方法则是通过引入基于雅可比矩阵的近似方法,可以得到更适合于高维变量的快速计算有效信息的方法。这些基于有效信息的计算方法为解决神经网络的可解释性问题提供了新思路,帮助研究者观察网络训练过程中因果结构的变化,推动对神经网络内部机制的理解。

参考文献

  1. Zhizheng Wu, Oliver Watts, and Simon King. Merlin: An open source neural network speech synthesis system. In SSW, pages 202–207, 2016.
  2. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
  3. Edgar Xi, Selina Bing, and Yang Jin. Capsule network performance on complex data. arXiv preprint arXiv:1712.03480, 2017.
  4. I Sutskever, O Vinyals, and QV Le. Sequence to sequence learning with neural networks. Advances in NIPS, 2014.
  5. Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.
  6. Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436–444, 2015.
  7. Rajat Raina, Anand Madhavan, and Andrew Y Ng. Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning, pages 873–880. ACM, 2009.
  8. Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, and Nati Srebro. Exploring generalization in deep learning. In Advances in Neural Information Processing Systems, pages 5947–5956, 2017.
  9. Kurt Hornik, Maxwell Stinchcombe, and Halbert White. Multilayer feedforward networks are universal approximators. Neural networks, 2(5):359–366, 1989.
  10. Naftali Tishby, Fernando C Pereira, and William Bialek. The information bottleneck method. arXiv preprint physics/0004057, 2000.
  11. Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
  12. Kristoffer Wickstrøm, Sigurd Løkse, Michael Kampffmeyer, Shujian Yu, Jose Principe, and Robert Jenssen. Information plane analysis of deep neural networks via matrix-based renyi’s entropy and tensor kernels.arXiv preprint arXiv:1909.11396, 2019.
  13. Andrew M Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy Kolchinsky, Brendan D Tracey, and David DCox. On the information bottleneck theory of deep learning. Journal of Statistical Mechanics: Theory and Experiment, 2019(12):124020, 2019.
  14. Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.
  15. Giulio Tononi and Olaf Sporns. Measuring information integration. BMC neuroscience, 4(1):31, 2003.
  16. 16.0 16.1 Hoel, Erik P.; Albantakis, L.; Tononi, G. (2013). "Quantifying causal emergence shows that macro can beat micro". Proceedings of the National Academy of Sciences. 110 (49): 19790–19795.
  17. Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.
  18. Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.
  19. David Gunning. Explainable artificial intelligence (xai). Defense Advanced Research Projects Agency (DARPA), nd Web, 2, 2017.
  20. Mohsan Alvi, Andrew Zisserman, and Christoffer Nellåker. Turning a blind eye: Explicit removal of biases and variation from deep neural network embeddings. In Proceedings of the European Conference on Computer Vision(ECCV) , pages 0–0, 2018.
  21. Arnaud Mignan and Marco Broccardo. One neuron versus deep learning in aftershock prediction. Nature, 574(7776): E1–E3, 2019.
  22. Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D Jackel, Mathew Monfort, Urs Muller, Jiakai Zhang, et al. End to end learning for self-driving cars. arXiv preprint arXiv:1604.07316, 2016.
  23. Dario Floreano and Robert J Wood. Science, technology and the future of small autonomous drones. Nature, 521(7553):460–466, 2015.
  24. Hoo-Chang Shin, Holger R Roth, Mingchen Gao, Le Lu, Ziyue Xu, Isabella Nogues, Jianhua Yao, Daniel Mollura, and Ronald M Summers. Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning. IEEE transactions on medical imaging, 35(5):1285–1298, 2016.
  25. Judea Pearl. Causality. New York: Cambridge, 2000. doi: 10.1017/CBO9780511803161.
  26. Michael Harradon, Jeff Druce, and Brian Ruttenberg. Causal learning and explanation of deep neural networks via autoencoded activations. arXiv preprint arXiv:1802.00541, 2018.
  27. Tanmayee Narendra, Anush Sankaran, Deepak Vijaykeerthy, and Senthil Mani. Explaining deep learning models using causal inference. arXiv preprint arXiv:1811.04376, 2018.
  28. Erik P. Hoel. When the map is better than the territory. Entropy, 19(5):188, 2017. ISSN 1099-4300. doi: 10.3390/e19050188.
  29. R. A. Fisher. The Design of Experiments. The American Mathematical Monthly, 43(3):180, 1936. ISSN 00029890. doi: 10.2307/2300364.
  30. Balduzzi, D. (2011). Information, learning and falsification. arXiv preprint arXiv:1110.3592.
  31. Zhang, Jiang; Liu, Kaiwei (2022). "Neural Information Squeezer for Causal Emergence". Entropy. 25 (1): 26.
  32. 32.0 32.1 Scythia Marrow, Eric J. Michaud, and Erik Hoel. Examining the Causal Structures of Deep Neural Networks Using Information Theory. In Entropy, volume 22, pages 1429, 2020.