更改

参考文献按照模板改正
第3行: 第3行:  
=引言=
 
=引言=
   −
深度神经网络(DNN)在语音合成(Wu等人,2016)、图像识别(Krizhevsky等人,2012;Xi等人,2017)和翻译(Sutskever等人,2014)等各个领域都表现出了最先进的性能。这些巨大的进步是由于将深度学习技术(LeCun等人,2015)引入人工神经网络,以及将GPU用于高速计算(Raina等人,2009)。然而,DNN的性能在多个方面仍然是神秘的。例如,基本的机器学习理论表明,具有足够参数来完全记忆大型图像数据集的模型应该大大过拟合训练数据,导致泛化能力差,特别是在未正则化的模型中(Zhang等人,2016)。然而,在实践中,即使没有显式正则化,深度神经网络也具有良好的泛化性能(Neyshabur等人,2017)。虽然众所周知,人工神经网络可以近似任何给定的函数(Hornik等人,1989),但他们得出的函数是如何超越训练数据进行泛化的,这一点还不太清楚。
+
深度神经网络(DNN)在语音合成<ref>Zhizheng Wu, Oliver Watts, and Simon King.  Merlin:  An open source neural network speech synthesis system.  In SSW, pages 202–207, 2016.</ref>、图像识别<ref name=":2">Alex  Krizhevsky,  Ilya  Sutskever,  and  Geoffrey  E  Hinton.  Imagenet  classification  with  deep  convolutional  neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.</ref><ref>Edgar  Xi,  Selina  Bing,  and  Yang  Jin. Capsule  network  performance  on  complex  data. arXiv  preprint arXiv:1712.03480, 2017.</ref>和翻译<ref>I Sutskever, O Vinyals, and QV Le. Sequence to sequence learning with neural networks. Advances in NIPS, 2014.</ref>等各个领域都表现出了最先进的性能。这些巨大的进步是由于将深度学习技术<ref>Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436–444, 2015.</ref>引入人工神经网络,以及将GPU用于高速计算<ref>Rajat Raina, Anand Madhavan, and Andrew Y Ng. Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning, pages 873–880. ACM, 2009.</ref>。然而,DNN的性能在多个方面仍然是神秘的。例如,基本的机器学习理论表明,具有足够参数来完全记忆大型图像数据集的模型应该大大过拟合训练数据,导致泛化能力差,特别是在未正则化的模型中<ref>Chiyuan  Zhang,  Samy  Bengio,  Moritz  Hardt,  Benjamin  Recht,  and  Oriol  Vinyals.  Understanding  deep  learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.</ref>。然而,在实践中,即使没有显式正则化,深度神经网络也具有良好的泛化性能<ref>Behnam  Neyshabur,  Srinadh  Bhojanapalli,  David  McAllester,  and  Nati  Srebro.  Exploring  generalization  in  deep learning. In Advances in Neural Information Processing Systems, pages 5947–5956, 2017.</ref>。虽然众所周知,人工神经网络可以近似任何给定的函数<ref>Kurt Hornik, Maxwell Stinchcombe, and Halbert White.  Multilayer feedforward networks are universal approximators. Neural networks, 2(5):359–366, 1989.</ref>,但他们得出的函数是如何超越训练数据进行泛化的,这一点还不太清楚。
   −
解释DNN泛化能力的一种有前景的方法是信息瓶颈方法(Tishby等人,2000)。信息瓶颈方法将DNN设想为优化将输入数据压缩到内部表示和使用该表示预测输出之间的权衡。这种方法的支持者通过DNN在“信息平面”中的行为来分析DNN,该平面由给定数据集作为输入的层到输入互信息分数组成(Shwartz-Ziv和Tishby,2017)。虽然寻找信息瓶颈一直是一个丰富的研究项目,但更大的网络仍然受到信息估计问题的困扰(Wickstrøm等人,2019),并且某些网络拓扑和激活函数的预测或偏差存在错误(Saxe等人,2019年)。更根本的是,信息瓶颈方法的数学公式是数据依赖的,也就是说,它的互信息得分随着输入分布的变化而变化。然而,从定义上讲,泛化能力是不同数据集(输入频率不同,甚至是未知且尚未定义的未来数据集)性能的函数。因此,为了理解泛化能力,有必要关注DNN在具有不同属性的不同数据集上的不变性(Zhang等人,2016)。
+
解释DNN泛化能力的一种有前景的方法是信息瓶颈方法<ref>Naftali  Tishby,  Fernando  C  Pereira,  and  William  Bialek.    The  information  bottleneck  method. arXiv  preprint physics/0004057, 2000.</ref>。信息瓶颈方法将DNN设想为优化将输入数据压缩到内部表示和使用该表示预测输出之间的权衡。这种方法的支持者通过DNN在“信息平面”中的行为来分析DNN,该平面由给定数据集作为输入的层到输入互信息分数组成<ref>Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.</ref>。虽然寻找信息瓶颈一直是一个丰富的研究项目,但更大的网络仍然受到信息估计问题的困扰<ref>Kristoffer Wickstrøm, Sigurd Løkse, Michael Kampffmeyer, Shujian Yu, Jose Principe, and Robert Jenssen.  Information plane analysis of deep neural networks via matrix-based renyi’s entropy and tensor kernels.arXiv preprint arXiv:1909.11396, 2019.</ref>,并且某些网络拓扑和激活函数的预测或偏差存在错误<ref>Andrew M Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy Kolchinsky, Brendan D Tracey, and David DCox. On the information bottleneck theory of deep learning. Journal of Statistical Mechanics: Theory and Experiment, 2019(12):124020, 2019.</ref>。更根本的是,信息瓶颈方法的数学公式是数据依赖的,也就是说,它的互信息得分随着输入分布的变化而变化。然而,从定义上讲,泛化能力是不同数据集(输入频率不同,甚至是未知且尚未定义的未来数据集)性能的函数。因此,为了理解泛化能力,有必要关注DNN在具有不同属性的不同数据集上的不变性<ref>Chiyuan  Zhang,  Samy  Bengio,  Moritz  Hardt,  Benjamin  Recht,  and  Oriol  Vinyals.  Understanding  deep  learning requires rethinking generalization. arXiv preprint arXiv:1611.03530, 2016.</ref>。
   −
检查不同数据集之间的独立性意味着调查DNN的配偶结构。也就是说,使用因果分析领域的技术来揭示网络中节点之间的一组因果关系(依赖关系)。在这里,我们介绍了一种微扰方法,该方法使用信息理论以逐层的方式跟踪DNN内的因果影响。具体来说,我们引入了有效信息(EI),它捕获了因果关系的信息量和强度。EI最初是作为复杂系统两个子集之间因果关系的信息论度量而引入的(Tononi和Sporns,2003)。已经证明,通过测量随机步行者动力学中包含的信息量,EI可以量化布尔网络的因果结构(Hoelet等人,2013),也可以量化图形(Klein和Hoel,2020)。值得注意的是,EI与信息瓶颈方法在数学上有相似之处,尽管它侧重于因果关系,因此在关键方面有所不同。
+
检查不同数据集之间的独立性意味着调查DNN的配偶结构。也就是说,使用因果分析领域的技术来揭示网络中节点之间的一组因果关系(依赖关系)。在这里,我们介绍了一种微扰方法,该方法使用信息理论以逐层的方式跟踪DNN内的因果影响。具体来说,我们引入了有效信息(EI),它捕获了因果关系的信息量和强度。EI最初是作为复杂系统两个子集之间因果关系的信息论度量而引入的<ref name=":3">Giulio Tononi and Olaf Sporns. Measuring information integration. BMC neuroscience, 4(1):31, 2003.</ref>。已经证明,通过测量随机步行者动力学中包含的信息量,EI可以量化布尔网络的因果结构<ref name=":0">Erik P Hoel, Larissa Albantakis, and Giulio Tononi.  Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):19790–19795, 2013.</ref>,也可以量化图形<ref name=":1">Erik P Hoel, Larissa Albantakis, and Giulio Tononi.  Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):19790–19795, 2013.</ref>。值得注意的是,EI与信息瓶颈方法在数学上有相似之处,尽管它侧重于因果关系,因此在关键方面有所不同。
    
为了测量DNN前馈层之间的EI,我们将节点的激活水平分类,将独立和同时的白噪声(最大熵)注入一层,然后计算传输到下游目标的互信息。这捕获了该层到层连接的因果结构中的信息总量。纵观网络架构、任务和激活函数,我们观察到损耗曲线的急剧变化反映在EI的急剧变化上。
 
为了测量DNN前馈层之间的EI,我们将节点的激活水平分类,将独立和同时的白噪声(最大熵)注入一层,然后计算传输到下游目标的互信息。这捕获了该层到层连接的因果结构中的信息总量。纵观网络架构、任务和激活函数,我们观察到损耗曲线的急剧变化反映在EI的急剧变化上。
   −
此外,EI可用于跟踪DNN中各层的因果结构在训练过程中如何以特征方式变化。具体来说,我们展示了如何在训练过程中在可能的因果结构空间(“因果平面”)中跟踪DNN,例如连接是否变得更加信息退化或更加敏感。这使我们能够展示DNN在训练过程中是如何发展特定的逐层因果结构的。我们假设,逐层因果结构的分化可能有助于普遍性,因为在更简单的任务上训练的网络比在复杂的任务上培训的网络分化程度低,分化在网络适应其任务后停止或减慢,冗余层通常无法在因果平面上分化。此外,我们展示了如何使用EI来计算一层中节点的总联合效应和总个体效应之间的差异,从而可以测量深度神经网络中的前馈集成信息(Oizumi等人,2014)。
+
此外,EI可用于跟踪DNN中各层的因果结构在训练过程中如何以特征方式变化。具体来说,我们展示了如何在训练过程中在可能的因果结构空间(“因果平面”)中跟踪DNN,例如连接是否变得更加信息退化或更加敏感。这使我们能够展示DNN在训练过程中是如何发展特定的逐层因果结构的。我们假设,逐层因果结构的分化可能有助于普遍性,因为在更简单的任务上训练的网络比在复杂的任务上培训的网络分化程度低,分化在网络适应其任务后停止或减慢,冗余层通常无法在因果平面上分化。此外,我们展示了如何使用EI来计算一层中节点的总联合效应和总个体效应之间的差异,从而可以测量深度神经网络中的前馈集成信息<ref>Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.</ref>。
   −
这里提出的帮助使用信息论分析DNN因果结构的工具应该有助于解决该领域的另一个核心问题,即大型参数化通常会使DNN成为具有数百万微调权重的“黑匣子”,这些权重可以实现成功的性能,但在其操作和功能中是无法穿透的(Gunning,2017)。缺乏可解释性可能会掩盖其他问题,如数据集(Alvi等人,2018)或模型选择(Mignan和Broccardo,2019)中的偏见,对于那些想使用DNN做出生死决定的人来说是一个严重的问题,例如在自动驾驶汽车(Bojarski等人,2016)、自动驾驶无人机(Floreano和Wood,2015)或医疗诊断(Shin等人,2016年)的情况下。使用这套技术,研究人员将能够在训练过程中直接观察DNN的整体因果结构发生变化的过程,这是打开“黑匣子”和了解DNN中的作用的关键一步。
+
这里提出的帮助使用信息论分析DNN因果结构的工具应该有助于解决该领域的另一个核心问题,即大型参数化通常会使DNN成为具有数百万微调权重的“黑匣子”,这些权重可以实现成功的性能,但在其操作和功能中是无法穿透的<ref>David Gunning.  Explainable artificial intelligence (xai). Defense Advanced Research Projects Agency (DARPA), nd Web, 2, 2017.</ref>。缺乏可解释性可能会掩盖其他问题,如数据集<ref>Mohsan Alvi,  Andrew Zisserman,  and Christoffer Nellåker.  Turning a blind eye:  Explicit removal of biases and variation from deep neural network embeddings.  In Proceedings of the European Conference on Computer Vision(ECCV) , pages 0–0, 2018.</ref>或模型选择<ref>Arnaud Mignan and Marco Broccardo. One neuron versus deep learning in aftershock prediction. Nature, 574(7776): E1–E3, 2019.</ref>中的偏见,对于那些想使用DNN做出生死决定的人来说是一个严重的问题,例如在自动驾驶汽车<ref>Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D Jackel, Mathew Monfort, Urs Muller, Jiakai Zhang, et al.  End to end learning for self-driving cars. arXiv preprint arXiv:1604.07316, 2016.</ref>、自动驾驶无人机<ref>Dario Floreano and Robert J Wood.  Science, technology and the future of small autonomous drones. Nature, 521(7553):460–466, 2015.</ref>或医疗诊断<ref>Hoo-Chang Shin, Holger R Roth, Mingchen Gao, Le Lu, Ziyue Xu, Isabella Nogues, Jianhua Yao, Daniel Mollura, and Ronald M Summers.  Deep convolutional neural networks for computer-aided detection:  Cnn architectures, dataset characteristics and transfer learning. IEEE transactions on medical imaging, 35(5):1285–1298, 2016.</ref>的情况下。使用这套技术,研究人员将能够在训练过程中直接观察DNN的整体因果结构发生变化的过程,这是打开“黑匣子”和了解DNN中的作用的关键一步。
      第20行: 第20行:  
干预(也称为“扰动”)揭示了因果关系。前馈DNN的因果关系集(也称为“因果结构”)由层、它们各自的连接和节点的激活函数组成。我们介绍了一些工具来探索这样一个假设,即DNN的泛化能力取决于它们的因果结构如何区分以适应它们所训练的任务(所有代码都是公开的,请参阅此处的假设)。
 
干预(也称为“扰动”)揭示了因果关系。前馈DNN的因果关系集(也称为“因果结构”)由层、它们各自的连接和节点的激活函数组成。我们介绍了一些工具来探索这样一个假设,即DNN的泛化能力取决于它们的因果结构如何区分以适应它们所训练的任务(所有代码都是公开的,请参阅此处的假设)。
   −
为了研究这个问题,我们使用了一种广泛用于研究因果关系的正式方法,其中干预被表示为ado(x)算子的应用(Pearl,2000)。Thedo(x)通常用于将给定系统中的单个变量(如有向无环图)设置为特定值(例如,它以前曾被用于在DNN中应用单个干预(Harradon等人,2018;Narendra等人,2018))。为了对DNN层的完整因果结构进行分析理解,我们在这里引入了干预分布ID的使用,而不是跟踪个体干预,ID是do(x)算子上的概率分布。它们只是对一组干预措施的数学描述。在层的输入上应用ID会导致下游输出(theED)的一些效应分布(Hoel,2017)。
+
为了研究这个问题,我们使用了一种广泛用于研究因果关系的正式方法,其中干预被表示为ado(x)算子的应用<ref>Judea Pearl. Causality. New York: Cambridge, 2000. doi: 10.1017/CBO9780511803161.</ref>。Thedo(x)通常用于将给定系统中的单个变量(如有向无环图)设置为特定值(例如,它以前曾被用于在DNN中应用单个干预<ref>Michael Harradon, Jeff Druce, and Brian Ruttenberg.  Causal learning and explanation of deep neural networks via autoencoded activations. arXiv preprint arXiv:1802.00541, 2018.</ref><ref>Tanmayee Narendra,  Anush Sankaran,  Deepak Vijaykeerthy,  and Senthil Mani.  Explaining deep learning models using causal inference. arXiv preprint arXiv:1811.04376, 2018.</ref>。为了对DNN层的完整因果结构进行分析理解,我们在这里引入了干预分布ID的使用,而不是跟踪个体干预,ID是do(x)算子上的概率分布。它们只是对一组干预措施的数学描述。在层的输入上应用ID会导致下游输出(theED)的一些效应分布<ref>Erik P. Hoel.  When the map is better than the territory. Entropy, 19(5):188, 2017.  ISSN 1099-4300.  doi:  10.3390/e19050188.</ref>。
    
因果关系的信息量可以通过使用ID的信息论来衡量。更多的信息因果关系更强。在这里,我们使用有效信息(EI)来量化和检查一个层的因果结构,有效信息是衡量因果关系信息含量的指标。具体来说,当<math>I_D = H^{\max}</math>,即最大熵分布时,EI是干预和效果之间的相互信息<math>I(I_D, E_D)</math>。更简单地说,EI是以随机化形式注入噪声后的互信息(MI)。      图1:EI是权重和连接性的函数。图(a-c)显示了EIvs。使用sigmoid、tanh和ReLU激活函数,使用8、16、32和64个区间计算单个输入和输出神经元的权重。标记的是用于传输每个激活函数的一组扰动的最有信息量的权重(单独)。图(d-f)显示了具有两个输入节点a和一个输出节点C的层的EI。不同的激活函数具有不同的特征。
 
因果关系的信息量可以通过使用ID的信息论来衡量。更多的信息因果关系更强。在这里,我们使用有效信息(EI)来量化和检查一个层的因果结构,有效信息是衡量因果关系信息含量的指标。具体来说,当<math>I_D = H^{\max}</math>,即最大熵分布时,EI是干预和效果之间的相互信息<math>I(I_D, E_D)</math>。更简单地说,EI是以随机化形式注入噪声后的互信息(MI)。      图1:EI是权重和连接性的函数。图(a-c)显示了EIvs。使用sigmoid、tanh和ReLU激活函数,使用8、16、32和64个区间计算单个输入和输出神经元的权重。标记的是用于传输每个激活函数的一组扰动的最有信息量的权重(单独)。图(d-f)显示了具有两个输入节点a和一个输出节点C的层的EI。不同的激活函数具有不同的特征。
   −
然而,与作为相关性度量的标准MI不同(Shannon,1948),所有具有噪声注入的相互比特都必然是由该噪声引起的。此外,作为信息量最大的干预(就其熵而言),EI表示变量随机化产生的信息,这是科学解释的金标准(Fisher,1936)。它可以被认为是衡量函数的图像在多大程度上可以用于恢复预图像,并且与Kolmogorov复杂性和VC熵有重要关系(Bal-duzzi,2011)。最值得注意的是,之前的研究表明,EI反映了因果关系的重要属性,捕捉了因果关系有多信息,例如它们的决定论(缺乏噪声)或简并性(缺乏唯一性)(Hoel等人,2013)。
+
然而,与作为相关性度量的标准MI不同<ref>Claude E. Shannon.  A mathematical theory of communication. The Bell System Technical Journal, 27(July 1928): 379–423, 1948. ISSN 07246811. doi: 10.1145/584091.584093.</ref>,所有具有噪声注入的相互比特都必然是由该噪声引起的。此外,作为信息量最大的干预(就其熵而言),EI表示变量随机化产生的信息,这是科学解释的金标准<ref>R. A. Fisher.  The Design of Experiments. The American Mathematical Monthly, 43(3):180, 1936.  ISSN 00029890. doi: 10.2307/2300364.</ref>。它可以被认为是衡量函数的图像在多大程度上可以用于恢复预图像,并且与Kolmogorov复杂性和VC熵有重要关系<ref>David Balduzzi. Information, learning and falsification. arXiv preprint arXiv:1110.3592, 2011.</ref>。最值得注意的是,之前的研究表明,EI反映了因果关系的重要属性,捕捉了因果关系有多信息,例如它们的决定论(缺乏噪声)或简并性(缺乏唯一性)<ref name=":0" />。
 
首先,我们介绍了一种测量DNN中层间连接性的EIf的方法,捕捉一层对另一层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1在最大熵<math>do(L_{1}=H^{\max})</math>处受到扰动,这意味着节点的所有激活都被迫进入随机选择的状态。<math>L_{1}=H^{\max}</math>最大限度地放大了L1中所有节点的同时和独立的最大熵扰动:
 
首先,我们介绍了一种测量DNN中层间连接性的EIf的方法,捕捉一层对另一层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1在最大熵<math>do(L_{1}=H^{\max})</math>处受到扰动,这意味着节点的所有激活都被迫进入随机选择的状态。<math>L_{1}=H^{\max}</math>最大限度地放大了L1中所有节点的同时和独立的最大熵扰动:
   第51行: 第51行:  
=训练过程中因果结构的变化=
 
=训练过程中因果结构的变化=
   −
为了了解DNN的因果结构在学习过程中是如何变化的,我们跟踪了用两个基准分类任务训练的EIin网络:Iris(Fisher,1936)和MNIST-LeCun等人(2010)。对于Iris,我们训练了具有三个密集连接层4→5→5→3的网络,对于MNIST,我们使用了具有四个紧密连接层25→6→6→5的网络,使用sigmoid激活函数,并且两个任务都没有偏差。对于MNIST,我们将输入从28x28整形为5x5,并从数据集中删除了数字5-9的示例,这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练,学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布<math>W_{ij} = \mathscr{U}\left([ -\frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}}, \frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}} ]\right)</math>中采样来初始化权重。对于每个任务和体系结构,我们执行三次具有不同初始化的运行。使用相同的网络架构,我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI,我们使用107个样本的固定噪声注入长度。我们发现,在我们的网络中,注入这个长度就足以确保收敛(见SI第7.1节)。然而,请注意,更宽的网络层可能需要更多的样本。       
+
为了了解DNN的因果结构在学习过程中是如何变化的,我们跟踪了用两个基准分类任务训练的EIin网络:Iris<ref>R. A. Fisher.  The Design of Experiments. The American Mathematical Monthly, 43(3):180, 1936.  ISSN 00029890. doi: 10.2307/2300364.</ref>和MNIST<ref>Yann  LeCun,  Corinna  Cortes,  and  CJ  Burges.  Mnist  handwritten  digit  database. ATT  Labs  [Online].  Available: <nowiki>http://yann.lecun.com/exdb/mnist</nowiki>, 2, 2010.</ref>。对于Iris,我们训练了具有三个密集连接层4→5→5→3的网络,对于MNIST,我们使用了具有四个紧密连接层25→6→6→5的网络,使用sigmoid激活函数,并且两个任务都没有偏差。对于MNIST,我们将输入从28x28整形为5x5,并从数据集中删除了数字5-9的示例,这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练,学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布<math>W_{ij} = \mathscr{U}\left([ -\frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}}, \frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}} ]\right)</math>中采样来初始化权重。对于每个任务和体系结构,我们执行三次具有不同初始化的运行。使用相同的网络架构,我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI,我们使用107个样本的固定噪声注入长度。我们发现,在我们的网络中,注入这个长度就足以确保收敛(见SI第7.1节)。然而,请注意,更宽的网络层可能需要更多的样本。       
      第61行: 第61行:  
=因果平面中的深度神经网络=
 
=因果平面中的深度神经网络=
   −
如第2节所述,EI取决于连接的权重及其重叠程度,这两者共同构成了EI流形。这表明,EI可以分解为两个属性:由个体权重表示的因果关系的敏感性,以及由于输入权重重叠而导致的这些关系的通用性。这反映了之前将EIin布尔网络或马尔可夫链分解为确定性(这里用灵敏度代替,因为神经网络传统上是确定性的)和简并性(Hoel等人,2013;Klein和Hoel,2020)。
+
如第2节所述,EI取决于连接的权重及其重叠程度,这两者共同构成了EI流形。这表明,EI可以分解为两个属性:由个体权重表示的因果关系的敏感性,以及由于输入权重重叠而导致的这些关系的通用性。这反映了之前将EIin布尔网络或马尔可夫链分解为确定性(这里用灵敏度代替,因为神经网络传统上是确定性的)和简并性<ref name=":0" /><ref name=":1" />。
    
在DNN中,层的灵敏度衡量输入将扰动传输到输出节点的程度,而层的简并性衡量通过检查层输出可以重建输入扰动源的程度。如果扰动源不能很好地重建,则网络被称为扰动。这两个维度的因果关系共同构成了一个所有DNN层都占据的“因果平面”。随着层通过学习而不同,它们的因果结构应该在因果平面中占据独特的位置,反映出它们通过变得更敏感或更退化而对DNN功能的贡献。
 
在DNN中,层的灵敏度衡量输入将扰动传输到输出节点的程度,而层的简并性衡量通过检查层输出可以重建输入扰动源的程度。如果扰动源不能很好地重建,则网络被称为扰动。这两个维度的因果关系共同构成了一个所有DNN层都占据的“因果平面”。随着层通过学习而不同,它们的因果结构应该在因果平面中占据独特的位置,反映出它们通过变得更敏感或更退化而对DNN功能的贡献。
第77行: 第77行:  
一层的简并性衡量因果关系中有多少信息因重叠连接而丢失,并通过代数方法计算其增敏性-EI,增敏性衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点(具有S形激活)的层的增敏性和简并流形。它们之间的差异形成了EI歧管。
 
一层的简并性衡量因果关系中有多少信息因重叠连接而丢失,并通过代数方法计算其增敏性-EI,增敏性衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点(具有S形激活)的层的增敏性和简并流形。它们之间的差异形成了EI歧管。
   −
之前对图的EI(基于随机游走动力学)的研究已经找到了一种对不同规范网络进行分类的方法,如Erd̋os-Rényi随机图、无标度网络和轮辐模型,基于它们在随机游走的决定论和简并性方面的位置(Klein和Hoel,2020)。在DNN中,一个敏感术语取代了决定论。
+
之前对图的EI(基于随机游走动力学)的研究已经找到了一种对不同规范网络进行分类的方法,如Erd̋os-Rényi随机图、无标度网络和轮辐模型,基于它们在随机游走的决定论和简并性方面的位置<ref name=":1" />。在DNN中,一个敏感术语取代了决定论。
    
为了可视化灵敏度和简并性之间的层偏移,我们引入了DNN的“因果平面”,其中平面的二维表示两个相应的值。因果平面利用了这样一个事实,即由于EI=灵敏度−简并,如果两者都等量增加,EI本身就不会改变。当绘制简并性与灵敏度时,y=x线上的点表示零EI,我们将这条45◦的线称为EI的“零点斜率”。更倾向于敏感性的路径会增加EI,更倾向于简并的路径会降低EI,而沿着EI零点的路径不会改变EI。
 
为了可视化灵敏度和简并性之间的层偏移,我们引入了DNN的“因果平面”,其中平面的二维表示两个相应的值。因果平面利用了这样一个事实,即由于EI=灵敏度−简并,如果两者都等量增加,EI本身就不会改变。当绘制简并性与灵敏度时,y=x线上的点表示零EI,我们将这条45◦的线称为EI的“零点斜率”。更倾向于敏感性的路径会增加EI,更倾向于简并的路径会降低EI,而沿着EI零点的路径不会改变EI。
第87行: 第87行:  
=测量层间连通性的联合效应=
 
=测量层间连通性的联合效应=
   −
综合信息理论(IIT)已被用于评估系统中联合效应与独立效应所包含的总信息(Tononi,2008)。它是因果分析的有用工具,分析网络因果结构中整合的信息量(Marshall等人,2017;Albantakis等人,2019)。以前,综合信息被衡量为给定分区的EI损失(Balduzzi和Tononi,2008),使EI成为综合信息的上限。然而,目前还没有一种公认的通用综合信息衡量标准(Oizumi等人,20142016)。相反,在不同的系统中提出了各种集成信息的措施(Tegmark,2016;Mediano等人,2019)。传统上,前馈网络中的集成信息量为零,因为没有可重入连接,因为它基于在系统的所有可能子集中找到最小信息分区。然而,即使在前馈网络中,一层的节点仍然可能对另一层产生不可约的联合效应,因此我们引入了一种度量,即前馈集成信息,应用于DNN。      
+
综合信息理论(IIT)已被用于评估系统中联合效应与独立效应所包含的总信息<ref>Giulio Tononi.  Consciousness as integrated information:  a provisional manifesto. The Biological Bulletin, 215(3): 216–242, 2008.</ref>。它是因果分析的有用工具,分析网络因果结构中整合的信息量<ref>William Marshall, Hyunju Kim, Sara I Walker, Giulio Tononi, and Larissa Albantakis. How causal analysis can reveal autonomy  in  models  of  biological  systems. Philosophical  Transactions  of  the  Royal  Society  A:  Mathematical, Physical and Engineering Sciences, 375(2109):20160358, 2017.</ref><ref name=":4">Larissa Albantakis, William Marshall, Erik Hoel, and Giulio Tononi.  What caused what?  a quantitative account of actual causation using dynamical causal networks. Entropy, , 21(5):459, 2019.</ref>。以前,综合信息被衡量为给定分区的EI损失<ref>David Balduzzi and Giulio Tononi.  Integrated information in discrete dynamical systems: motivation and theoretical framework. PLoS Comput Biol, 4(6):e1000091, 2008.</ref>,使EI成为综合信息的上限。然而,目前还没有一种公认的通用综合信息衡量标准<ref>Masafumi Oizumi, Larissa Albantakis, and Giulio Tononi. From the phenomenology to the mechanisms of consciousness: integrated information theory 3.0. PLoS Comput Biol, 10(5):e1003588, 2014.</ref>。相反,在不同的系统中提出了各种集成信息的措施<ref>Max Tegmark. Improved measures of integrated information. PLoS computational biology, 12(11):e1005123, 2016.</ref><ref>Pedro AM Mediano, Anil K Seth, and Adam B Barrett.  Measuring integrated information: Comparison of candidate measures in theory and simulation. Entropy, 21(1):17, 2019.</ref>。传统上,前馈网络中的集成信息量为零,因为没有可重入连接,因为它基于在系统的所有可能子集中找到最小信息分区。然而,即使在前馈网络中,一层的节点仍然可能对另一层产生不可约的联合效应,因此我们引入了一种度量,即前馈集成信息,应用于DNN。      
       
图4:训练期间因果平面上的行为。在不同层次的因果平面上追踪的路径。在过拟合期间,所有路径随着时间的推移都会变得不那么平滑,在因果平面上的移动也会减少。与在MNIST任务上训练的网络相比,在更简单的Iris任务中训练的网络在层之间的差异更小。
 
图4:训练期间因果平面上的行为。在不同层次的因果平面上追踪的路径。在过拟合期间,所有路径随着时间的推移都会变得不那么平滑,在因果平面上的移动也会减少。与在MNIST任务上训练的网络相比,在更简单的Iris任务中训练的网络在层之间的差异更小。
   −
通常,计算集成信息需要检查所有可能分区的集合,这使得这种方法不适用于维数较小的系统。或者,为了评估单个边对EI的协同贡献,可能需要使用多变量信息理论,例如部分信息分解,当包含源时,它会按照Dedekind数的顺序增长(WilliamsandBeer,20
+
通常,计算集成信息需要检查所有可能分区的集合,这使得这种方法不适用于维数较小的系统。或者,为了评估单个边对EI的协同贡献,可能需要使用多变量信息理论,例如部分信息分解,当包含源时,它会按照Dedekind数的顺序增长<ref>Paul  L  Williams  and  Randall  D  Beer.    Nonnegative  decomposition  of  multivariate  information. arXiv  preprint arXiv:1004.2515, 2010.</ref>
 +
 
 
为了避免这些问题,我们引入了一种基于每条边的贡献计算的度量方法<math>EI_{parts}</math>。也就是说,对于每个节点i∈L1,记录其在该扰动下的激活函数的时间序列估计,以及每个节点j∈L2的激活函数。为了计算EI部分,然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小,并计算和求和每个(i,j)对的MI:10)。
 
为了避免这些问题,我们引入了一种基于每条边的贡献计算的度量方法<math>EI_{parts}</math>。也就是说,对于每个节点i∈L1,记录其在该扰动下的激活函数的时间序列估计,以及每个节点j∈L2的激活函数。为了计算EI部分,然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小,并计算和求和每个(i,j)对的MI:10)。
   第114行: 第115行:  
EI取决于网络的灵敏度和简并性。两个节点之间的灵敏度反映了孤立因果关系的强度,并在不同激活函数的特定特征权重处达到峰值(例如,在sigmoid激活函数中,它达到峰值)。层的退化反映了由于边缘权重的重叠,上游扰动的下游重建的困难。分析EI揭示了网络在灵敏度/简并空间上的位置,我们称之为“因果平面”。将网络架构放置在这个平面上的能力意味着我们可以跟踪任何给定的DNN的因果结构在训练过程中如何在空间中演变。我们的结果表明,DNN的因果结构反映了它所训练的任务。例如,在MNIST任务中,DNN因果结构中的不同层有一个明确的任务,这反映在每一层在因果平面上的不同轨迹上,添加新的冗余层不会对EI产生影响,因此不会向因果结构添加新的信息。
 
EI取决于网络的灵敏度和简并性。两个节点之间的灵敏度反映了孤立因果关系的强度,并在不同激活函数的特定特征权重处达到峰值(例如,在sigmoid激活函数中,它达到峰值)。层的退化反映了由于边缘权重的重叠,上游扰动的下游重建的困难。分析EI揭示了网络在灵敏度/简并空间上的位置,我们称之为“因果平面”。将网络架构放置在这个平面上的能力意味着我们可以跟踪任何给定的DNN的因果结构在训练过程中如何在空间中演变。我们的结果表明,DNN的因果结构反映了它所训练的任务。例如,在MNIST任务中,DNN因果结构中的不同层有一个明确的任务,这反映在每一层在因果平面上的不同轨迹上,添加新的冗余层不会对EI产生影响,因此不会向因果结构添加新的信息。
   −
这些技术提供了一种与信息瓶颈研究不同的方法(Tishby和Zaslavsky,2015),后者侧重于使用互信息来衡量输入和节点活动之间的相关性。这两种方法都有类似的目标来解释DNN的泛化性,并且都有形式上的相似之处,尽管这里的重点是逐层因果结构本身,而不是DNN的输入。未来,这项工作可以扩展到这里考虑的三种激活函数之外的不同激活函数(Karlik和Olgac,2011;Nair和Hinton,2010)、无监督任务(Wiskott和Sejnowski,2002)、LSTM等循环神经网络(Hochreiter和Schmidhuber,1997)和卷积神经网络(Krizhevsky等人,2012)。
+
这些技术提供了一种与信息瓶颈研究不同的方法<ref>Naftali Tishby and Noga Zaslavsky. Deep learning and the information bottleneck principle. In 2015 IEEE Information Theory Workshop (ITW) , pages 1–5. IEEE, 2015.</ref>,后者侧重于使用互信息来衡量输入和节点活动之间的相关性。这两种方法都有类似的目标来解释DNN的泛化性,并且都有形式上的相似之处,尽管这里的重点是逐层因果结构本身,而不是DNN的输入。未来,这项工作可以扩展到这里考虑的三种激活函数之外的不同激活函数<ref>Bekir Karlik and A Vehbi Olgac. Performance analysis of various activation functions in generalized mlp architectures of neural networks. International Journal of Artificial Intelligence and Expert Systems, 1(4):111–122, 2011.</ref><ref>Vinod Nair and Geoffrey E Hinton.  Rectified linear units improve restricted boltzmann machines.  In Proceedings of the 27th international conference on machine learning (ICML-10) , pages 807–814, 2010.</ref>、无监督任务<ref>Laurenz Wiskott and Terrence J Sejnowski.  Slow feature analysis:  Unsupervised learning of invariances. Neural computation, 14(4):715–770, 2002.</ref>、LSTM等循环神经网络<ref>Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.</ref>和卷积神经网络<ref name=":2" />。
 +
 
 +
这些技术开辟了评估EI分解和扩展的可能性,例如DNN的集成信息(因为集成信息可以使用网络子集之间的最小EI来计算<ref name=":3" />,集成信息也可以分解为类似于灵敏度和简并性的属性<ref>Erik P Hoel, Larissa Albantakis, William Marshall, and Giulio Tononi.  Can the macro beat the micro?  Integrated information across spatiotemporal scales. Neuroscience of Consciousness, 2016(1), 2016.</ref>。这里,概述了一种综合信息的度量方法φf forward,用于度量前馈层连通性中的不可约联合效应。
 +
所有这些可能有助于理解为什么某些网络架构具有普遍性,为什么有些没有。未来,这些技术也为直接测量DNN中的个别因果关系提供了可能性<ref name=":4" />。
 +
 
 +
= 致谢 =
 +
资金:本出版物是在陆军研究办公室的资助下出版的(提案77111-PH-II)。这项研究也得到了艾伦探索中心项目通过保罗·G·艾伦前沿小组(12171)的支持。作者贡献:S.M.、E.J.M.和E.H.构思了这些想法并撰写了这篇文章。S.M.和E.J.M.创建了代码。E.J.M.做了这些数字并进行了分析。利益冲突:作者声明没有利益冲突。
   −
这些技术开辟了评估EI分解和扩展的可能性,例如DNN的集成信息(因为集成信息可以使用网络子集之间的最小EI来计算(Tononi和Sporns,2003),集成信息也可以分解为类似于灵敏度和简并性的属性(Hoel等人,2016)。这里,概述了一种综合信息的度量方法φf forward,用于度量前馈层连通性中的不可约联合效应。
+
= 参考文献 =
所有这些可能有助于理解为什么某些网络架构具有普遍性,为什么有些没有。未来,这些技术也为直接测量DNN中的个别因果关系提供了可能性(Albantakis等人,2019)。
+
<references />
1,117

个编辑