更改

第74行: 第74行:     
在这里,我们引入了信息论技术,根据扰动后的信息流对DNN的因果结构进行分类和量化。这些技术是围绕有效信息(EI)构建的,我们将其应用于DNN。它被定义为在一组最大熵扰动之后的互信息,它揭示了层因果结构中包含的信息。对于在Iris和MNIST任务上训练的网络,EI在训练期间发生了变化,特别是在实际发生学习时(如损失函数中的阶跃变化所反映的)。
 
在这里,我们引入了信息论技术,根据扰动后的信息流对DNN的因果结构进行分类和量化。这些技术是围绕有效信息(EI)构建的,我们将其应用于DNN。它被定义为在一组最大熵扰动之后的互信息,它揭示了层因果结构中包含的信息。对于在Iris和MNIST任务上训练的网络,EI在训练期间发生了变化,特别是在实际发生学习时(如损失函数中的阶跃变化所反映的)。
 +
 
EI取决于网络的灵敏度和简并性。两个节点之间的灵敏度反映了孤立因果关系的强度,并在不同激活函数的特定特征权重处达到峰值(例如,在sigmoid激活函数中,它达到峰值)。层的退化反映了由于边缘权重的重叠,上游扰动的下游重建的困难。分析EI揭示了网络在灵敏度/简并空间上的位置,我们称之为“因果平面”。将网络架构放置在这个平面上的能力意味着我们可以跟踪任何给定的DNN的因果结构在训练过程中如何在空间中演变。我们的结果表明,DNN的因果结构反映了它所训练的任务。例如,在MNIST任务中,DNN因果结构中的不同层有一个明确的任务,这反映在每一层在因果平面上的不同轨迹上,添加新的冗余层不会对EI产生影响,因此不会向因果结构添加新的信息。
 
EI取决于网络的灵敏度和简并性。两个节点之间的灵敏度反映了孤立因果关系的强度,并在不同激活函数的特定特征权重处达到峰值(例如,在sigmoid激活函数中,它达到峰值)。层的退化反映了由于边缘权重的重叠,上游扰动的下游重建的困难。分析EI揭示了网络在灵敏度/简并空间上的位置,我们称之为“因果平面”。将网络架构放置在这个平面上的能力意味着我们可以跟踪任何给定的DNN的因果结构在训练过程中如何在空间中演变。我们的结果表明,DNN的因果结构反映了它所训练的任务。例如,在MNIST任务中,DNN因果结构中的不同层有一个明确的任务,这反映在每一层在因果平面上的不同轨迹上,添加新的冗余层不会对EI产生影响,因此不会向因果结构添加新的信息。
 +
 
这些技术提供了一种与信息瓶颈研究不同的方法(Tishby和Zaslavsky,2015),后者侧重于使用互信息来衡量输入和节点活动之间的相关性。这两种方法都有类似的目标来解释DNN的泛化性,并且都有形式上的相似之处,尽管这里的重点是逐层因果结构本身,而不是DNN的输入。未来,这项工作可以扩展到这里考虑的三种激活函数之外的不同激活函数(Karlik和Olgac,2011;Nair和Hinton,2010)、无监督任务(Wiskott和Sejnowski,2002)、LSTM等循环神经网络(Hochreiter和Schmidhuber,1997)和卷积神经网络(Krizhevsky等人,2012)。
 
这些技术提供了一种与信息瓶颈研究不同的方法(Tishby和Zaslavsky,2015),后者侧重于使用互信息来衡量输入和节点活动之间的相关性。这两种方法都有类似的目标来解释DNN的泛化性,并且都有形式上的相似之处,尽管这里的重点是逐层因果结构本身,而不是DNN的输入。未来,这项工作可以扩展到这里考虑的三种激活函数之外的不同激活函数(Karlik和Olgac,2011;Nair和Hinton,2010)、无监督任务(Wiskott和Sejnowski,2002)、LSTM等循环神经网络(Hochreiter和Schmidhuber,1997)和卷积神经网络(Krizhevsky等人,2012)。
 +
 
这些技术开辟了评估EI分解和扩展的可能性,例如DNN的集成信息(因为集成信息可以使用网络子集之间的最小EI来计算(Tononi和Sporns,2003),集成信息也可以分解为类似于灵敏度和简并性的属性(Hoel等人,2016)。这里,概述了一种综合信息的度量方法φf forward,用于度量前馈层连通性中的不可约联合效应。
 
这些技术开辟了评估EI分解和扩展的可能性,例如DNN的集成信息(因为集成信息可以使用网络子集之间的最小EI来计算(Tononi和Sporns,2003),集成信息也可以分解为类似于灵敏度和简并性的属性(Hoel等人,2016)。这里,概述了一种综合信息的度量方法φf forward,用于度量前馈层连通性中的不可约联合效应。
 
所有这些可能有助于理解为什么某些网络架构具有普遍性,为什么有些没有。未来,这些技术也为直接测量DNN中的个别因果关系提供了可能性(Albantakis等人,2019)。
 
所有这些可能有助于理解为什么某些网络架构具有普遍性,为什么有些没有。未来,这些技术也为直接测量DNN中的个别因果关系提供了可能性(Albantakis等人,2019)。
251

个编辑