第14行: |
第14行: |
| | | |
| 这里提出的帮助使用信息论分析DNN因果结构的工具应该有助于解决该领域的另一个核心问题,即大型参数化通常会使DNN成为具有数百万微调权重的“黑匣子”,这些权重可以实现成功的性能,但在其操作和功能中是无法穿透的(Gunning,2017)。缺乏可解释性可能会掩盖其他问题,如数据集(Alvi等人,2018)或模型选择(Mignan和Broccardo,2019)中的偏见,对于那些想使用DNN做出生死决定的人来说是一个严重的问题,例如在自动驾驶汽车(Bojarski等人,2016)、自动驾驶无人机(Floreano和Wood,2015)或医疗诊断(Shin等人,2016年)的情况下。使用这套技术,研究人员将能够在训练过程中直接观察DNN的整体因果结构发生变化的过程,这是打开“黑匣子”和了解DNN中的作用的关键一步。 | | 这里提出的帮助使用信息论分析DNN因果结构的工具应该有助于解决该领域的另一个核心问题,即大型参数化通常会使DNN成为具有数百万微调权重的“黑匣子”,这些权重可以实现成功的性能,但在其操作和功能中是无法穿透的(Gunning,2017)。缺乏可解释性可能会掩盖其他问题,如数据集(Alvi等人,2018)或模型选择(Mignan和Broccardo,2019)中的偏见,对于那些想使用DNN做出生死决定的人来说是一个严重的问题,例如在自动驾驶汽车(Bojarski等人,2016)、自动驾驶无人机(Floreano和Wood,2015)或医疗诊断(Shin等人,2016年)的情况下。使用这套技术,研究人员将能够在训练过程中直接观察DNN的整体因果结构发生变化的过程,这是打开“黑匣子”和了解DNN中的作用的关键一步。 |
| + | |
| | | |
| =量化DNN的因果结构= | | =量化DNN的因果结构= |
第21行: |
第22行: |
| 为了研究这个问题,我们使用了一种广泛用于研究因果关系的正式方法,其中干预被表示为ado(x)算子的应用(Pearl,2000)。Thedo(x)通常用于将给定系统中的单个变量(如有向无环图)设置为特定值(例如,它以前曾被用于在DNN中应用单个干预(Harradon等人,2018;Narendra等人,2018))。为了对DNN层的完整因果结构进行分析理解,我们在这里引入了干预分布ID的使用,而不是跟踪个体干预,ID是do(x)算子上的概率分布。它们只是对一组干预措施的数学描述。在层的输入上应用ID会导致下游输出(theED)的一些效应分布(Hoel,2017)。 | | 为了研究这个问题,我们使用了一种广泛用于研究因果关系的正式方法,其中干预被表示为ado(x)算子的应用(Pearl,2000)。Thedo(x)通常用于将给定系统中的单个变量(如有向无环图)设置为特定值(例如,它以前曾被用于在DNN中应用单个干预(Harradon等人,2018;Narendra等人,2018))。为了对DNN层的完整因果结构进行分析理解,我们在这里引入了干预分布ID的使用,而不是跟踪个体干预,ID是do(x)算子上的概率分布。它们只是对一组干预措施的数学描述。在层的输入上应用ID会导致下游输出(theED)的一些效应分布(Hoel,2017)。 |
| | | |
− | 因果关系的信息量可以通过使用ID的信息论来衡量。更多的信息因果关系更强。在这里,我们使用有效信息(EI)来量化和检查一个层的因果结构,有效信息是衡量因果关系信息含量的指标。具体来说,当ID=Hmax,即最大熵分布时,EI是干预和效果之间的相互信息I(ID,ED)。更简单地说,EI是以随机化形式注入噪声后的互信息(MI)。 图1:EI是权重和连接性的函数。图(a-c)显示了EIvs。使用sigmoid、tanh和ReLU激活函数,使用8、16、32和64个区间计算单个输入和输出神经元的权重。标记的是用于传输每个激活函数的一组扰动的最有信息量的权重(单独)。图(d-f)显示了具有两个输入节点a和一个输出节点C的层的EI。不同的激活函数具有不同的特征。
| + | 因果关系的信息量可以通过使用ID的信息论来衡量。更多的信息因果关系更强。在这里,我们使用有效信息(EI)来量化和检查一个层的因果结构,有效信息是衡量因果关系信息含量的指标。具体来说,当<math>I_D = H^{\max}</math>,即最大熵分布时,EI是干预和效果之间的相互信息<math>I(I_D, E_D)</math>。更简单地说,EI是以随机化形式注入噪声后的互信息(MI)。 图1:EI是权重和连接性的函数。图(a-c)显示了EIvs。使用sigmoid、tanh和ReLU激活函数,使用8、16、32和64个区间计算单个输入和输出神经元的权重。标记的是用于传输每个激活函数的一组扰动的最有信息量的权重(单独)。图(d-f)显示了具有两个输入节点a和一个输出节点C的层的EI。不同的激活函数具有不同的特征。 |
| | | |
| 然而,与作为相关性度量的标准MI不同(Shannon,1948),所有具有噪声注入的相互比特都必然是由该噪声引起的。此外,作为信息量最大的干预(就其熵而言),EI表示变量随机化产生的信息,这是科学解释的金标准(Fisher,1936)。它可以被认为是衡量函数的图像在多大程度上可以用于恢复预图像,并且与Kolmogorov复杂性和VC熵有重要关系(Bal-duzzi,2011)。最值得注意的是,之前的研究表明,EI反映了因果关系的重要属性,捕捉了因果关系有多信息,例如它们的决定论(缺乏噪声)或简并性(缺乏唯一性)(Hoel等人,2013)。 | | 然而,与作为相关性度量的标准MI不同(Shannon,1948),所有具有噪声注入的相互比特都必然是由该噪声引起的。此外,作为信息量最大的干预(就其熵而言),EI表示变量随机化产生的信息,这是科学解释的金标准(Fisher,1936)。它可以被认为是衡量函数的图像在多大程度上可以用于恢复预图像,并且与Kolmogorov复杂性和VC熵有重要关系(Bal-duzzi,2011)。最值得注意的是,之前的研究表明,EI反映了因果关系的重要属性,捕捉了因果关系有多信息,例如它们的决定论(缺乏噪声)或简并性(缺乏唯一性)(Hoel等人,2013)。 |
− | 首先,我们介绍了一种测量DNN中层间连接性的EIf的方法,捕捉一层对另一层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1在最大熵do(L1=Hmax)处受到扰动,这意味着节点的所有激活都被迫进入随机选择的状态。L1=H最大限度地放大了L1中所有节点的同时和独立的最大熵扰动:
| + | 首先,我们介绍了一种测量DNN中层间连接性的EIf的方法,捕捉一层对另一层的总联合效应。因此,我们从L1开始,L1是一组与L2有加权前馈连接的节点,我们假设所有节点都有一些激活函数,如sigmoid函数。为了测量EI,L1在最大熵<math>do(L_{1}=H^{\max})</math>处受到扰动,这意味着节点的所有激活都被迫进入随机选择的状态。<math>L_{1}=H^{\max}</math>最大限度地放大了L1中所有节点的同时和独立的最大熵扰动: |
− | 公式
| + | |
− | 也就是说,在L1=Hmax的条件下,通过测量L1和L2的关节状态之间的互信息来进行计算。
| + | <math> |
| + | \begin{equation} |
| + | EI = I(L_1, L_2) \mid do(L_1 = H^{\text{max}}) |
| + | \end{equation} |
| + | </math> |
| + | |
| + | 也就是说,在<math>L_{1}=H^{\max}</math>的条件下,通过测量L1和L2的关节状态之间的互信息来进行计算。 |
| | | |
| EI可跨不同的常用激活函数进行扩展。图1a-c显示了两个节点a和B之间的单条边的EI,其中a→B的权重逐渐增加,每个面板显示了不同的激活函数(sigmoid、tanh、ReLU)。我们可以看到,对于每个具有给定激活函数的孤立边,都存在一条依赖于来自AtoB的连接权重的特征isticEIcurve,并且这条曲线的形状与所选的箱数(8、16、32和64)无关。在低权重下,EI表明B对a中的扰动不敏感,尽管这种敏感性在所有三个激活函数中都达到了峰值。然后,当权重饱和激活函数时,曲线会衰减,使B对A的扰动敏感。 | | EI可跨不同的常用激活函数进行扩展。图1a-c显示了两个节点a和B之间的单条边的EI,其中a→B的权重逐渐增加,每个面板显示了不同的激活函数(sigmoid、tanh、ReLU)。我们可以看到,对于每个具有给定激活函数的孤立边,都存在一条依赖于来自AtoB的连接权重的特征isticEIcurve,并且这条曲线的形状与所选的箱数(8、16、32和64)无关。在低权重下,EI表明B对a中的扰动不敏感,尽管这种敏感性在所有三个激活函数中都达到了峰值。然后,当权重饱和激活函数时,曲线会衰减,使B对A的扰动敏感。 |
| | | |
− | 请注意,特征峰值揭示了哪些权重代表(孤立考虑的连接)的强因果关系。例如,一个sigmoid激活函数在等于欧拉数的aweight处具有最具信息量的因果关系,一个tanh激活函数在权重coth(1)处具有信息量,一个ReLU激活函数在重量1处具有信息力。这表明DNN中最重要的权重可能是最具因果效力的,而不是绝对值最高的。例如,对于sigmoid激活函数和连接A→B的极高权重,A的激活对扰动的信息量不大,因为大多数扰动都会导致B的输出在1处饱和。 图2:在三次不同的跑步训练中,EIand是如何演变的。值得注意的是,在Iris训练网络(顶部)和MNIST训练网络(底部)的损失函数最大幅度降低期间,EI发生了最大的变化。 | + | 请注意,特征峰值揭示了哪些权重代表(孤立考虑的连接)的强因果关系。例如,一个sigmoid激活函数在等于欧拉数的aweight处具有最具信息量的因果关系,一个tanh激活函数在权重coth(1)处具有信息量,一个ReLU激活函数在重量1处具有信息力。这表明DNN中最重要的权重可能是最具因果效力的,而不是绝对值最高的。例如,对于sigmoid激活函数和连接A→B的极高权重,A的激活对扰动的信息量不大,因为大多数扰动都会导致B的输出在1处饱和。 |
| + | |
| + | [[文件:Nn ei1.png|有框]] |
| + | |
| + | 图2:在三次不同的跑步训练中,EIand是如何演变的。值得注意的是,在Iris训练网络(顶部)和MNIST训练网络(底部)的损失函数最大幅度降低期间,EI发生了最大的变化。 |
| | | |
| 在多个连接的情况下,EI曲线成为更高维度的EI歧管。图1d-f显示了由两个节点(A、B)组成的层的EI(A,B→C),每个节点都与C有一个连接。由于扰动会相互干扰,EI不仅取决于节点之间关系的敏感性,还取决于网络连接的重叠或通用性,从而形成流形。例如,在sigmoid激活函数中,EI流形大约是2倍对称的,这是由于sigmoid在正负权重周围的对称性,再加上网络本身的对称性(因为神经元A和Bony都连接到C)。 | | 在多个连接的情况下,EI曲线成为更高维度的EI歧管。图1d-f显示了由两个节点(A、B)组成的层的EI(A,B→C),每个节点都与C有一个连接。由于扰动会相互干扰,EI不仅取决于节点之间关系的敏感性,还取决于网络连接的重叠或通用性,从而形成流形。例如,在sigmoid激活函数中,EI流形大约是2倍对称的,这是由于sigmoid在正负权重周围的对称性,再加上网络本身的对称性(因为神经元A和Bony都连接到C)。 |