人工神经网络上的有效信息计算
深度神经网络 (DNN) 通常在其对输入的响应级别进行检查,例如分析节点和数据集之间的互信息。然而,DNN 也可以在因果关系层面上进行检查,探索网络本身层内的“什么做什么”。从历史上看,分析 DNN 的因果结构比了解它们对输入的反应受到的关注要少。然而,从定义上讲,泛化性必须是 DNN 因果结构的一个函数,因为它反映了 DNN 如何响应看不见甚至尚未定义的未来输入。
引言
深度神经网络(DNN)在语音合成(Wu等人,2016)、图像识别(Krizhevsky等人,2012;Xi等人,2017)和翻译(Sutskever等人,2014)等各个领域都表现出了最先进的性能。这些巨大的进步是由于将深度学习技术(LeCun等人,2015)引入人工神经网络,以及将GPU用于高速计算(Raina等人,2009)。然而,DNN的性能在多个方面仍然是神秘的。例如,基本的机器学习理论表明,具有足够参数来完全记忆大型图像数据集的模型应该大大过拟合训练数据,导致泛化能力差,特别是在未正则化的模型中(Zhang等人,2016)。然而,在实践中,即使没有显式正则化,深度神经网络也具有良好的泛化性能(Neyshabur等人,2017)。虽然众所周知,人工神经网络可以近似任何给定的函数(Hornik等人,1989),但他们得出的函数是如何超越训练数据进行泛化的,这一点还不太清楚。
解释DNN泛化能力的一种有前景的方法是信息瓶颈方法(Tishby等人,2000)。信息瓶颈方法将DNN设想为优化将输入数据压缩到内部表示和使用该表示预测输出之间的权衡。这种方法的支持者通过DNN在“信息平面”中的行为来分析DNN,该平面由给定数据集作为输入的层到输入互信息分数组成(Shwartz-Ziv和Tishby,2017)。虽然寻找信息瓶颈一直是一个丰富的研究项目,但更大的网络仍然受到信息估计问题的困扰(Wickstrøm等人,2019),并且某些网络拓扑和激活函数的预测或偏差存在错误(Saxe等人,2019年)。更根本的是,信息瓶颈方法的数学公式是数据依赖的,也就是说,它的互信息得分随着输入分布的变化而变化。然而,从定义上讲,泛化能力是不同数据集(输入频率不同,甚至是未知且尚未定义的未来数据集)性能的函数。因此,为了理解泛化能力,有必要关注DNN在具有不同属性的不同数据集上的不变性(Zhang等人,2016)。
检查不同数据集之间的独立性意味着调查DNN的配偶结构。也就是说,使用因果分析领域的技术来揭示网络中节点之间的一组因果关系(依赖关系)。在这里,我们介绍了一种微扰方法,该方法使用信息理论以逐层的方式跟踪DNN内的因果影响。具体来说,我们引入了有效信息(EI),它捕获了因果关系的信息量和强度。EI最初是作为复杂系统两个子集之间因果关系的信息论度量而引入的(Tononi和Sporns,2003)。已经证明,通过测量随机步行者动力学中包含的信息量,EI可以量化布尔网络的因果结构(Hoelet等人,2013),也可以量化图形(Klein和Hoel,2020)。值得注意的是,EI与信息瓶颈方法在数学上有相似之处,尽管它侧重于因果关系,因此在关键方面有所不同。
为了测量DNN前馈层之间的EI,我们将节点的激活水平分类,将独立和同时的白噪声(最大熵)注入一层,然后计算传输到下游目标的互信息。这捕获了该层到层连接的因果结构中的信息总量。纵观网络架构、任务和激活函数,我们观察到损耗曲线的急剧变化反映在EI的急剧变化上。
此外,EI可用于跟踪DNN中各层的因果结构在训练过程中如何以特征方式变化。具体来说,我们展示了如何在训练过程中在可能的因果结构空间(“因果平面”)中跟踪DNN,例如连接是否变得更加信息退化或更加敏感。这使我们能够展示DNN在训练过程中是如何发展特定的逐层因果结构的。我们假设,逐层因果结构的分化可能有助于普遍性,因为在更简单的任务上训练的网络比在复杂的任务上培训的网络分化程度低,分化在网络适应其任务后停止或减慢,冗余层通常无法在因果平面上分化。此外,我们展示了如何使用EI来计算一层中节点的总联合效应和总个体效应之间的差异,从而可以测量深度神经网络中的前馈集成信息(Oizumi等人,2014)。
这里提出的帮助使用信息论分析DNN因果结构的工具应该有助于解决该领域的另一个核心问题,即大型参数化通常会使DNN成为具有数百万微调权重的“黑匣子”,这些权重可以实现成功的性能,但在其操作和功能中是无法穿透的(Gunning,2017)。缺乏可解释性可能会掩盖其他问题,如数据集(Alvi等人,2018)或模型选择(Mignan和Broccardo,2019)中的偏见,对于那些想使用DNN做出生死决定的人来说是一个严重的问题,例如在自动驾驶汽车(Bojarski等人,2016)、自动驾驶无人机(Floreano和Wood,2015)或医疗诊断(Shin等人,2016年)的情况下。使用这套技术,研究人员将能够在训练过程中直接观察DNN的整体因果结构发生变化的过程,这是打开“黑匣子”和了解DNN中的作用的关键一步。