人工神经网络上的有效信息计算

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

人工神经网络(artificial neural networks)主要通过分析节点与数据集间的互信息(Mutual Information,MI),来研究其对输入的响应。然而,神经网络还可以在因果关系层面进行探讨,揭示网络内部各层间“谁影响谁”及其作用机制。有效信息(Effective Information, EI)作为一种基于信息论的工具,可以通过最大熵扰动下的输入与输出之间的互信息,量化网络层间的因果作用。通过引入EI方法,我们能够在因果平面(Causal Plane)中观察网络训练过程中各层因果结构的演化,从而揭示不同任务对网络结构的需求,提供提升人工神经网络泛化能力和可解释性的新思路。


简介

人工神经网络在语音合成[1]、图像识别[2][3]和翻译[4]等各个领域都表现出了先进的性能。然而,人工神经网络底层机制还存在很多未知。例如,基本的机器学习理论表明,拥有大量参数的模型往往容易记住数据集中的所有信息,导致泛化能力差,特别是在未正则化的模型中[5]深度神经网络(DNN)的主要原理是将深度学习技术[6]引入人工神经网络,以及将GPU用于高速计算[7]。在实践中,研究者发现即使没有显式正则化的DNN也具有良好的泛化性能[8]。虽然众所周知,尽管人工神经网络可以逼近任何函数[9],但它们得出的函数是如何超越训练数据进行泛化的,仍缺乏清晰的理论解释。

信息瓶颈(information bottleneck)是一种被提出来解释人工神经网络泛化能力的理论框架[10]。它认为神经网络在压缩输入数据与预测输出之间寻找最佳平衡。通过分析网络在信息平面(information plane)上的行为——即输入数据与每层网络之间的互信息,研究者尝试揭示网络的学习机制[11]。虽然寻找信息瓶颈是一个可行的方法,但更大的网络仍然受到信息估计问题的困扰[12],并且某些网络拓扑和激活函数的预测或偏差存在错误[13]。更根本的是,信息瓶颈方法的数学公式是数据依赖的,也就是说,它的互信息得分随着输入分布的变化而变化。然而,从定义上讲,泛化能力是不同数据集(输入频率不同,甚至是未知且尚未定义的未来数据集)性能的函数。因此,为了理解泛化能力,有必要关注神经网络在具有不同属性的不同数据集上的不变性[14]

为更深入理解神经网络的泛化能力,我们需要关注网络中独立于数据分布的因果结构。因果结构描述了网络中节点间的依赖关系,反映了节点之间的连接机制和作用方式。这里我们介绍一种微扰方法,该方法使用信息理论以逐层的方式跟踪神经网络内的因果作用。具体来说,我们引入了有效信息(Effective Information, EI),它可以捕获因果关系的信息量和强度。EI最初是作为复杂系统两个子集之间因果关系的信息论度量而引入的[15]。已经有学者证明,EI可以量化布尔网络的因果结构[16],也可以量化图形[17]。值得注意的是,EI与信息瓶颈方法在数学上有相似之处,但EI侧重于因果关系。在神经网络中,EI通过对网络层节点施加独立且随机的最大熵噪声,计算扰动后输出与输入之间的互信息,捕捉层间因果结构的信息总量。研究发现,网络训练过程中损失函数的快速下降往往伴随着EI的剧烈变化,揭示了网络因果结构的动态演化。

更重要的是,EI可以帮助我们追踪网络训练过程中各层因果结构的变化路径,称之为因果平面(causal plane)。通过观察网络连接的“敏感度”(Sensitivity,即扰动的传递效果,类似Erik Hoel的Determinism概念[18])和“简并度”(Degeneracy,即连接重叠导致的信息丢失),我们可以看到不同任务如何塑造神经网络的因果结构。复杂任务往往导致网络因果结构分化更明显,而简单任务中这种分化较弱。此外,冗余层通常无法在因果平面中显著变化,显示其对网络功能贡献较小。此外,我们会展示如何使用EI来计算一层中节点的总联合效应和总个体效应之间的差异,从而可以测量神经网络中的前馈集成信息[19]

这种分析工具为解决人工神经网络的可解释性问题提供了新的思路。由于人工神经网络拥有大量参数,常被视为“黑匣子”,其内部机制难以理解,影响了模型的透明度[20]。缺乏可解释性可能会掩盖其他问题,如数据集[21]或模型选择[22]中的偏见,对于那些想使用人工神经网络做出关于人生命的事情来说是一个重大问题,例如在自动驾驶汽车[23]、自动驾驶无人机[24]或医疗诊断[25]的情况下。因此使用这套技术,研究人员将能够在训练过程中直接观察神经网络的整体因果结构发生变化的过程,这是打开“黑匣子”和了解神经网络中的作用的关键一步。

有效信息的计算

干预揭示因果关系

干预(也称为“扰动”)是揭示因果关系的关键工具。前馈深度神经网络(DNN)的因果关系集合(也称为“因果结构”)由多个层、层之间的连接以及节点的激活函数组成。我们引入了一套工具,用于探索一个假设:DNN的泛化能力取决于其因果结构如何适应所训练的任务(详见 https://github.com/ei-research-group/deep-ei )。

为了研究这一问题,我们采用了一种广泛用于因果分析的正式方法,其中干预被表示为对系统中的某个变量应用[math]\displaystyle{ do(x) }[/math]操作符[26]。通常,[math]\displaystyle{ do(x) }[/math]用于将一个变量设置为特定值,例如在有向无环图中,它可以用来对单个节点进行干预(例如,之前在DNN中已用于应用单个干预[27][math]\displaystyle{ do(x) }[/math]通常用于将给定系统中的单个变量(如有向无环图)设置为特定值(例如,它以前曾被用于在DNN中应用单个干预[28][29])。然而,我们在这里引入了一种新的方法,即使用“干预分布”(Intervention Distribution, [math]\displaystyle{ I_D }[/math]),它是对[math]\displaystyle{ do(x) }[/math]操作符的概率分布描述。简单来说,[math]\displaystyle{ I_D }[/math]是对一系列干预的数学描述。当我们在一个网络层的输入上应用[math]\displaystyle{ I_D }[/math]时,会导致输出节点产生某种效应分布([math]\displaystyle{ E_D }[/math][30]

通过信息理论,我们可以量化这些因果关系的信息量。更强的因果关系意味着它们传递了更多的信息。我们使用有效信息(Effective Information, EI)来衡量因果关系的强度。具体来说,EI是干预分布([math]\displaystyle{ I_D }[/math])和效应分布([math]\displaystyle{ E_D }[/math])之间的互信息(Mutual Information, MI),当[math]\displaystyle{ I_D }[/math]为最大熵分布(即[math]\displaystyle{ H^{max} }[/math])时。换句话说,EI是通过向网络注入噪声(随机化)后计算的互信息。这种随机化有多个作用:首先,它确保了所有传递的互信息都是由噪声引起的,而不是简单的相关性;其次,作为最大熵的干预,EI反映了随机化变量所产生的信息量,这在科学中是因果关系的“黄金标准”;最后,EI可以被视为对输入状态空间的无偏采样,反映了网络如何处理分布外的数据。

此外,EI还可以被理解为衡量函数映射的“图像”如何帮助恢复“原像”,并且与Kolmogorov复杂度和VC熵有重要关系[31]。最重要的是,先前的研究表明,EI能够反映因果关系的重要特性,例如其确定性(缺乏噪声)或退化性(缺乏唯一性)[16],而这些特性是标准互信息无法捕捉的。

测量层与层之间的有效信息

首先我们介绍一种方法,用于测量深度神经网络中层与层之间的有效信息,从而捕捉一个层对另一个层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1在最大熵[math]\displaystyle{ do(L_{1}=H^{\max}) }[/math]处受到扰动,这意味着节点的所有激活都被迫进入随机选择的状态。[math]\displaystyle{ L_{1}=H^{\max} }[/math]最大限度地放大了L1中所有节点的同时和独立的最大熵扰动:

[math]\displaystyle{ \begin{equation} EI = I(L_1, L_2) \mid do(L_1 = H^{\text{max}}) \end{equation} }[/math]

这个公式表示在L1被最大熵扰动的情况下,L1和L2之间的互信息。

互信息的计算

互信息 [math]\displaystyle{ I(L_1, L_2) }[/math] 的计算基于输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的联合分布。具体步骤如下:

1.离散化 将输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的激活值离散化为若干个区间(bins)。 假设每个节点的激活值被划分为 [math]\displaystyle{ B }[/math] 个区间,则输入层 [math]\displaystyle{ L_1 }[/math] 的离散化状态空间大小为 [math]\displaystyle{ B^n }[/math],输出层 [math]\displaystyle{ L_2 }[/math] 的离散化状态空间大小为 [math]\displaystyle{ B^m }[/math],其中 [math]\displaystyle{ n }[/math][math]\displaystyle{ m }[/math] 分别是输入层和输出层的节点数。

2.构建联合分布 通过多次最大熵扰动,记录输入层和输出层的离散化状态,构建输入-输出的联合分布 [math]\displaystyle{ P(L_1, L_2) }[/math]。 具体来说,对于每次扰动,输入层 [math]\displaystyle{ L_1 }[/math] 的激活值被随机化,输出层 [math]\displaystyle{ L_2 }[/math] 的激活值通过网络计算得到。然后将这些值离散化并记录到联合分布中。

3.计算互信息 根据联合分布 [math]\displaystyle{ P(L_1, L_2) }[/math],计算互信息 [math]\displaystyle{ I(L_1, L_2) }[/math]

[math]\displaystyle{ I(L_1, L_2) = \sum_{x \in L_1} \sum_{y \in L_2} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} }[/math]

其中: [math]\displaystyle{ P(x, y) }[/math] 是输入层 [math]\displaystyle{ L_1 }[/math] 和输出层 [math]\displaystyle{ L_2 }[/math] 的联合概率分布。 [math]\displaystyle{ P(x) }[/math][math]\displaystyle{ P(y) }[/math] 分别是输入层和输出层的边缘概率分布。


有效信息的分解

EI 可以进一步分解为两个部分:敏感性(Sensitivity)和简并性(Degeneracy)。

1.敏感性(Sensitivity) 敏感性衡量的是网络中每个边对输出的独立贡献。具体来说,敏感性是每个输入节点 [math]\displaystyle{ i \in L_1 }[/math] 和输出节点 [math]\displaystyle{ j \in L_2 }[/math] 之间的互信息之和:

[math]\displaystyle{ \text{Sensitivity} = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j) \mid do(i = H^{\text{max}}) }[/math]

其中: [math]\displaystyle{ t_i }[/math][math]\displaystyle{ t_j }[/math] 分别是输入节点 [math]\displaystyle{ i }[/math] 和输出节点 [math]\displaystyle{ j }[/math] 的激活值。 [math]\displaystyle{ do(i = H^{\text{max}}) }[/math] 表示仅对节点 [math]\displaystyle{ i }[/math] 进行最大熵扰动,其他节点的激活值设为 0。

2.简并性(Degeneracy) 简并性衡量的是由于输入节点之间的重叠(即多个输入节点连接到同一个输出节点)导致的信息损失。简并性通过以下公式计算:

[math]\displaystyle{ \text{Degeneracy} = \text{Sensitivity} - EI }[/math]

简并性反映了网络中因果关系的冗余程度。

外推法估计有效信息

使用推法来估计EI。具体公式为:

[math]\displaystyle{ EI_{\text{parts}}(s) = \frac{A}{s^\alpha} + C }[/math]

其中: [math]\displaystyle{ s }[/math] 是样本数量。 [math]\displaystyle{ A }[/math][math]\displaystyle{ \alpha }[/math][math]\displaystyle{ C }[/math] 是通过拟合实验数据得到的参数。

通过拟合少量样本的 EI 值,可以外推出大样本下的 EI 值。

通过以上这些步骤,EI 能够量化神经网络中层与层之间的因果关系,并揭示网络在训练过程中因果结构的变化。

有效信息在节点之间的表现

在不同激活函数中的表现

EI在不同的常用激活函数中具有一致的特性。下图a-c展示了两个节点A和B之间单个连接的EI,其中A→B的权重逐渐增加,每个面板展示了不同的激活函数(sigmoid、tanh、ReLU)。我们可以看到,对于每个具有特定激活函数的孤立连接,存在一个依赖于A到B连接权重的特征EI曲线,并且该曲线的形状与选择的bins数量(8、16、32和64)无关。

在低权重时,EI表明B对A的扰动不敏感,尽管这种敏感性在所有三个激活函数中都会上升到一个峰值。随着权重的增加,激活函数趋于饱和,B对A的扰动变得不敏感,EI曲线随之下降。

值得注意的是,这些特征峰值揭示了哪些权重代表了强因果关系(在孤立连接的情况下)。例如,sigmoid激活函数在权重等于欧拉数e时具有最具信息量的因果关系,tanh激活函数在权重为coth(1)时达到峰值,而ReLU激活函数在权重为1时达到峰值。这表明,DNN中最重要的权重可能是最具因果效力的,而不是绝对值最高的权重。例如,在使用sigmoid激活函数时,如果A→B的连接权重非常高,A的激活对扰动的信息量会变得很小,因为大多数扰动都会导致B的输出饱和到1。

多节点连接情况下的表现

在存在多个连接的情况下,EI曲线会变成一个更高维的EI流形。下图d-f展示了由两个节点A和B组成的层,每个节点都有一个连接到C的单个连接的EI (A, B→C)。由于扰动之间可能相互干扰,EI不仅取决于节点之间关系的敏感性,还取决于网络连接的重叠或退化性,从而形成一个流形。例如,在sigmoid激活函数中,EI流形大致是2倍对称的,这是由于sigmoid函数在正负权重周围的对称性,以及网络本身的对称性(因为神经元A和B都只连接到C)。

有效信息揭示神经网络中因果结构的变化

为了了解DNN的因果结构在学习过程中是如何变化的,我们跟踪了用两个基准分类任务训练的EIin网络:Iris[32]和MNIST[33]。对于Iris,我们训练了具有三个密集连接层4→5→5→3的网络,对于MNIST,我们使用了具有四个紧密连接层25→6→6→5的网络,使用sigmoid激活函数,并且两个任务都没有偏差。对于MNIST,我们将输入从28x28整形为5x5,并从数据集中删除了数字5-9的示例,这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练,学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布[math]\displaystyle{ W_{ij} = \mathscr{U}\left([ -\frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}}, \frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}} ]\right) }[/math]中采样来初始化权重。对于每个任务和体系结构,我们执行三次具有不同初始化的运行。使用相同的网络架构,我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI,我们使用107个样本的固定噪声注入长度。我们发现,在我们的网络中,注入这个长度就足以确保收敛(见SI第7.1节)。然而,请注意,更宽的网络层可能需要更多的样本。

从定性上讲,我们观察到,EI的最大变化与训练过程中损失曲线的最陡部分显著匹配,并且在最大学习期间,EI通常是动态的(如下图所示)。在训练性能与测试性能分离的过拟合期间,EI在所有层上通常都是平坦的,这表明在网络适当拟合后,因果结构中的信息在此期间没有变化。

有效信息量化联合效应与独立效应

综合信息理论(IIT)已被用于评估系统中联合效应与独立效应所包含的总信息[34]。它是因果分析的有用工具,分析网络因果结构中整合的信息量[35][36]。以前,综合信息被衡量为给定分区的EI损失[37],使EI成为综合信息的上限。然而,目前还没有一种公认的通用综合信息衡量标准[38]。相反,在不同的系统中提出了各种集成信息的措施[39][40]。传统上,前馈网络中的集成信息量为零,因为没有可重入连接,因为它基于在系统的所有可能子集中找到最小信息分区。然而,即使在前馈网络中,一层的节点仍然可能对另一层产生不可约的联合效应,因此我们引入了一种度量,即前馈集成信息,应用于DNN。

通常,计算集成信息需要检查所有可能分区的集合,这使得这种方法不适用于维数较小的系统。或者,为了评估单个边对EI的协同贡献,可能需要使用多变量信息理论,例如部分信息分解,当包含源时,它会按照Dedekind数的顺序增长[41]

为了避免这些问题,我们引入了一种基于每条边的贡献计算的度量方法[math]\displaystyle{ EI_{parts} }[/math]。也就是说,对于每个节点i∈L1,记录其在该扰动下的激活函数的时间序列估计,以及每个节点j∈L2的激活函数。为了计算EI部分,然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小,并计算和求和每个(i,j)对的MI:10)。

[math]\displaystyle{ \begin{equation} EI_{\text{parts}}(L_1 \rightarrow L_2) = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j) \mid \text{do}(L_1 = H^{\max}). \end{equation} }[/math]

请注意,对于具有单个节点的层,EI和EI部分是相同的。当网络的每个节点只接收单个边缘时,情况也是如此。然而,[math]\displaystyle{ EI_{parts} }[/math]措施必然会错过某些积极的联合效应。重要的是,EI和EIparts度量之间的差异可以捕捉到联合效应的量,从而捕捉到逐层以前馈方式整合的信息量。具体来说,我们将EI(综合信息的上限)与第3节中定义的[math]\displaystyle{ EI_{parts} }[/math]进行比较,即[math]\displaystyle{ \Phi_{feedforward} = EI - EI_{parts} }[/math]。应该指出的是,向前的φf虽然旨在捕捉一层到另一层的总联合效应,但不受零的限制,可以是负的。

为了了解DNN训练过程中层间联合效应的变化,我们分析了Iris和MNIST数据集训练过程中[math]\displaystyle{ φ_f }[/math]的前向变化(有关我们测量[math]\displaystyle{ EI_{parts} }[/math]的方法的详细信息,请参阅SI第7.1节)。我们观察到,MNIST训练的网络比Iris训练的网络具有更高的φf前馈,这表明因果结构确实根据任务的复杂性而有所不同,需要更多的联合效应来学习(见下图)。


总结

在这里,我们引入了信息论技术,根据扰动后的信息流对DNN的因果结构进行分类和量化。这些技术是围绕有效信息(EI)构建的,我们将其应用于DNN。它被定义为在一组最大熵扰动之后的互信息,它揭示了层因果结构中包含的信息。对于在Iris和MNIST任务上训练的网络,EI在训练期间发生了变化,特别是在实际发生学习时(如损失函数中的阶跃变化所反映的)。

EI取决于网络的灵敏度和简并性。两个节点之间的灵敏度反映了孤立因果关系的强度,并在不同激活函数的特定特征权重处达到峰值(例如,在sigmoid激活函数中,它达到峰值)。层的退化反映了由于边缘权重的重叠,上游扰动的下游重建的困难。我们的结果表明,DNN的因果结构反映了它所训练的任务。例如,在MNIST任务中,DNN因果结构中的不同层有一个明确的任务,这反映在每一层在因果平面上的不同轨迹上,添加新的冗余层不会对EI产生影响,因此不会向因果结构添加新的信息。

这些技术提供了一种与信息瓶颈研究不同的方法[42],后者侧重于使用互信息来衡量输入和节点活动之间的相关性。这两种方法都有类似的目标来解释DNN的泛化性,并且都有形式上的相似之处,尽管这里的重点是逐层因果结构本身,而不是DNN的输入。未来,这项工作可以扩展到这里考虑的三种激活函数之外的不同激活函数[43][44]、无监督任务[45]、LSTM等循环神经网络[46]和卷积神经网络[2]。所有这些可能有助于理解为什么某些网络架构具有普遍性,为什么有些没有。未来,这些技术也为直接测量DNN中的个别因果关系提供了可能性[36]

参考文献

  1. Zhizheng Wu, Oliver Watts, and Simon King. Merlin: An open source neural network speech synthesis system. In SSW, pages 202–207, 2016.
  2. 2.0 2.1 Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
  3. Edgar Xi, Selina Bing, and Yang Jin. Capsule network performance on complex data. arXiv preprint arXiv:1712.03480, 2017.
  4. I Sutskever, O Vinyals, and QV Le. Sequence to sequence learning with neural networks. Advances in NIPS, 2014.
  5. Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.
  6. Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436–444, 2015.
  7. Rajat Raina, Anand Madhavan, and Andrew Y Ng. Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning, pages 873–880. ACM, 2009.
  8. Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, and Nati Srebro. Exploring generalization in deep learning. In Advances in Neural Information Processing Systems, pages 5947–5956, 2017.
  9. Kurt Hornik, Maxwell Stinchcombe, and Halbert White. Multilayer feedforward networks are universal approximators. Neural networks, 2(5):359–366, 1989.
  10. Naftali Tishby, Fernando C Pereira, and William Bialek. The information bottleneck method. arXiv preprint physics/0004057, 2000.
  11. Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
  12. Kristoffer Wickstrøm, Sigurd Løkse, Michael Kampffmeyer, Shujian Yu, Jose Principe, and Robert Jenssen. Information plane analysis of deep neural networks via matrix-based renyi’s entropy and tensor kernels.arXiv preprint arXiv:1909.11396, 2019.
  13. Andrew M Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy Kolchinsky, Brendan D Tracey, and David DCox. On the information bottleneck theory of deep learning. Journal of Statistical Mechanics: Theory and Experiment, 2019(12):124020, 2019.
  14. Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.
  15. Giulio Tononi and Olaf Sporns. Measuring information integration. BMC neuroscience, 4(1):31, 2003.
  16. 16.0 16.1 Erik P Hoel, Larissa Albantakis, and Giulio Tononi. Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):19790–19795, 2013.
  17. Erik P Hoel, Larissa Albantakis, and Giulio Tononi. Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):19790–19795, 2013.
  18. Hoel, Erik P.; Albantakis, L.; Tononi, G. (2013). "Quantifying causal emergence shows that macro can beat micro". Proceedings of the National Academy of Sciences. 110 (49): 19790–19795.
  19. Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.
  20. David Gunning. Explainable artificial intelligence (xai). Defense Advanced Research Projects Agency (DARPA), nd Web, 2, 2017.
  21. Mohsan Alvi, Andrew Zisserman, and Christoffer Nellåker. Turning a blind eye: Explicit removal of biases and variation from deep neural network embeddings. In Proceedings of the European Conference on Computer Vision(ECCV) , pages 0–0, 2018.
  22. Arnaud Mignan and Marco Broccardo. One neuron versus deep learning in aftershock prediction. Nature, 574(7776): E1–E3, 2019.
  23. Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D Jackel, Mathew Monfort, Urs Muller, Jiakai Zhang, et al. End to end learning for self-driving cars. arXiv preprint arXiv:1604.07316, 2016.
  24. Dario Floreano and Robert J Wood. Science, technology and the future of small autonomous drones. Nature, 521(7553):460–466, 2015.
  25. Hoo-Chang Shin, Holger R Roth, Mingchen Gao, Le Lu, Ziyue Xu, Isabella Nogues, Jianhua Yao, Daniel Mollura, and Ronald M Summers. Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning. IEEE transactions on medical imaging, 35(5):1285–1298, 2016.
  26. Judea Pearl. Causality. New York: Cambridge, 2000. doi: 10.1017/CBO9780511803161.
  27. Judea Pearl. Causality. New York: Cambridge, 2000. doi: 10.1017/CBO9780511803161.
  28. Michael Harradon, Jeff Druce, and Brian Ruttenberg. Causal learning and explanation of deep neural networks via autoencoded activations. arXiv preprint arXiv:1802.00541, 2018.
  29. Tanmayee Narendra, Anush Sankaran, Deepak Vijaykeerthy, and Senthil Mani. Explaining deep learning models using causal inference. arXiv preprint arXiv:1811.04376, 2018.
  30. Erik P. Hoel. When the map is better than the territory. Entropy, 19(5):188, 2017. ISSN 1099-4300. doi: 10.3390/e19050188.
  31. R. A. Fisher. The Design of Experiments. The American Mathematical Monthly, 43(3):180, 1936. ISSN 00029890. doi: 10.2307/2300364.
  32. R. A. Fisher. The Design of Experiments. The American Mathematical Monthly, 43(3):180, 1936. ISSN 00029890. doi: 10.2307/2300364.
  33. Yann LeCun, Corinna Cortes, and CJ Burges. Mnist handwritten digit database. ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist, 2, 2010.
  34. Giulio Tononi. Consciousness as integrated information: a provisional manifesto. The Biological Bulletin, 215(3): 216–242, 2008.
  35. William Marshall, Hyunju Kim, Sara I Walker, Giulio Tononi, and Larissa Albantakis. How causal analysis can reveal autonomy in models of biological systems. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 375(2109):20160358, 2017.
  36. 36.0 36.1 Larissa Albantakis, William Marshall, Erik Hoel, and Giulio Tononi. What caused what? a quantitative account of actual causation using dynamical causal networks. Entropy, , 21(5):459, 2019.
  37. David Balduzzi and Giulio Tononi. Integrated information in discrete dynamical systems: motivation and theoretical framework. PLoS Comput Biol, 4(6):e1000091, 2008.
  38. Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.
  39. Max Tegmark. Improved measures of integrated information. PLoS computational biology, 12(11):e1005123, 2016.
  40. Pedro AM Mediano, Anil K Seth, and Adam B Barrett. Measuring integrated information: Comparison of candidate measures in theory and simulation. Entropy, 21(1):17, 2019.
  41. Paul L Williams and Randall D Beer. Nonnegative decomposition of multivariate information. arXiv preprint arXiv:1004.2515, 2010.
  42. Naftali Tishby and Noga Zaslavsky. Deep learning and the information bottleneck principle. In 2015 IEEE Information Theory Workshop (ITW) , pages 1–5. IEEE, 2015.
  43. Bekir Karlik and A Vehbi Olgac. Performance analysis of various activation functions in generalized mlp architectures of neural networks. International Journal of Artificial Intelligence and Expert Systems, 1(4):111–122, 2011.
  44. Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) , pages 807–814, 2010.
  45. Laurenz Wiskott and Terrence J Sejnowski. Slow feature analysis: Unsupervised learning of invariances. Neural computation, 14(4):715–770, 2002.
  46. Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.