更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:37的版本

添加210字节、 2024年8月3日 (星期六)

第14行：第14行：

这里提出的帮助使用信息论分析DNN因果结构的工具应该有助于解决该领域的另一个核心问题，即大型参数化通常会使DNN成为具有数百万微调权重的“黑匣子”，这些权重可以实现成功的性能，但在其操作和功能中是无法穿透的（Gunning，2017）。缺乏可解释性可能会掩盖其他问题，如数据集（Alvi等人，2018）或模型选择（Mignan和Broccardo，2019）中的偏见，对于那些想使用DNN做出生死决定的人来说是一个严重的问题，例如在自动驾驶汽车（Bojarski等人，2016）、自动驾驶无人机（Floreano和Wood，2015）或医疗诊断（Shin等人，2016年）的情况下。使用这套技术，研究人员将能够在训练过程中直接观察DNN的整体因果结构发生变化的过程，这是打开“黑匣子”和了解DNN中的作用的关键一步。

+

=量化DNN的因果结构=

第21行：第22行：

为了研究这个问题，我们使用了一种广泛用于研究因果关系的正式方法，其中干预被表示为ado（x）算子的应用（Pearl，2000）。Thedo（x）通常用于将给定系统中的单个变量（如有向无环图）设置为特定值（例如，它以前曾被用于在DNN中应用单个干预（Harradon等人，2018；Narendra等人，2018））。为了对DNN层的完整因果结构进行分析理解，我们在这里引入了干预分布ID的使用，而不是跟踪个体干预，ID是do（x）算子上的概率分布。它们只是对一组干预措施的数学描述。在层的输入上应用ID会导致下游输出（theED）的一些效应分布（Hoel，2017）。

−

因果关系的信息量可以通过使用ID的信息论来衡量。更多的信息因果关系更强。在这里，我们使用有效信息（EI）来量化和检查一个层的因果结构，有效信息是衡量因果关系信息含量的指标。具体来说，当ID=~~Hmax，即最大熵分布时，EI是干预和效果之间的相互信息I（ID，ED）。更简单地说，EI是以随机化形式注入噪声后的互信息（MI）。~~ 图1:EI是权重和连接性的函数。图（a-c）显示了EIvs。使用sigmoid、tanh和ReLU激活函数，使用8、16、32和64个区间计算单个输入和输出神经元的权重。标记的是用于传输每个激活函数的一组扰动的最有信息量的权重（单独）。图（d-f）显示了具有两个输入节点a和一个输出节点C的层的EI。不同的激活函数具有不同的特征。

+

因果关系的信息量可以通过使用ID的信息论来衡量。更多的信息因果关系更强。在这里，我们使用有效信息（EI）来量化和检查一个层的因果结构，有效信息是衡量因果关系信息含量的指标。具体来说，当<math>I_D = H^{\max}</math>，即最大熵分布时，EI是干预和效果之间的相互信息<math>I(I_D, E_D)</math>。更简单地说，EI是以随机化形式注入噪声后的互信息（MI）。图1:EI是权重和连接性的函数。图（a-c）显示了EIvs。使用sigmoid、tanh和ReLU激活函数，使用8、16、32和64个区间计算单个输入和输出神经元的权重。标记的是用于传输每个激活函数的一组扰动的最有信息量的权重（单独）。图（d-f）显示了具有两个输入节点a和一个输出节点C的层的EI。不同的激活函数具有不同的特征。

然而，与作为相关性度量的标准MI不同（Shannon，1948），所有具有噪声注入的相互比特都必然是由该噪声引起的。此外，作为信息量最大的干预（就其熵而言），EI表示变量随机化产生的信息，这是科学解释的金标准（Fisher，1936）。它可以被认为是衡量函数的图像在多大程度上可以用于恢复预图像，并且与Kolmogorov复杂性和VC熵有重要关系（Bal-duzzi，2011）。最值得注意的是，之前的研究表明，EI反映了因果关系的重要属性，捕捉了因果关系有多信息，例如它们的决定论（缺乏噪声）或简并性（缺乏唯一性）（Hoel等人，2013）。

−

首先，我们介绍了一种测量DNN中层间连接性的EIf的方法，捕捉一层对另一层的总联合效应。因此，我们从L1开始，L1是一组与L2有加权前馈连接的节点，我们假设所有节点都有一些激活函数，如sigmoid函数。为了测量EI，L1在最大熵do（L1=~~Hmax）处受到扰动，这意味着节点的所有激活都被迫进入随机选择的状态。L1~~=~~H最大限度地放大了L1中所有节点的同时和独立的最大熵扰动：~~

+

首先，我们介绍了一种测量DNN中层间连接性的EIf的方法，捕捉一层对另一层的总联合效应。因此，我们从L1开始，L1是一组与L2有加权前馈连接的节点，我们假设所有节点都有一些激活函数，如sigmoid函数。为了测量EI，L1在最大熵<math>do(L_{1}=H^{\max})</math>处受到扰动，这意味着节点的所有激活都被迫进入随机选择的状态。<math>L_{1}=H^{\max}</math>最大限度地放大了L1中所有节点的同时和独立的最大熵扰动：

−

公式

+

−

~~也就是说，在L1~~=~~Hmax的条件下，通过测量L1和L2的关节状态之间的互信息来进行计算。~~

+

<math>

+

\begin{equation}

+

EI = I(L_1, L_2) \mid do(L_1 = H^{\text{max}})

+

\end{equation}

+

</math>

+

也就是说，在<math>L_{1}=H^{\max}</math>的条件下，通过测量L1和L2的关节状态之间的互信息来进行计算。

EI可跨不同的常用激活函数进行扩展。图1a-c显示了两个节点a和B之间的单条边的EI，其中a→B的权重逐渐增加，每个面板显示了不同的激活函数（sigmoid、tanh、ReLU）。我们可以看到，对于每个具有给定激活函数的孤立边，都存在一条依赖于来自AtoB的连接权重的特征isticEIcurve，并且这条曲线的形状与所选的箱数（8、16、32和64）无关。在低权重下，EI表明B对a中的扰动不敏感，尽管这种敏感性在所有三个激活函数中都达到了峰值。然后，当权重饱和激活函数时，曲线会衰减，使B对A的扰动敏感。

−

请注意，特征峰值揭示了哪些权重代表（孤立考虑的连接）的强因果关系。例如，一个sigmoid激活函数在等于欧拉数的aweight处具有最具信息量的因果关系，一个tanh激活函数在权重coth（1）处具有信息量，一个ReLU激活函数在重量1处具有信息力。这表明DNN中最重要的权重可能是最具因果效力的，而不是绝对值最高的。例如，对于sigmoid激活函数和连接A→B的极高权重，A的激活对扰动的信息量不大，因为大多数扰动都会导致B的输出在1处饱和。图2：在三次不同的跑步训练中，EIand是如何演变的。值得注意的是，在Iris训练网络（顶部）和MNIST训练网络（底部）的损失函数最大幅度降低期间，EI发生了最大的变化。

+

请注意，特征峰值揭示了哪些权重代表（孤立考虑的连接）的强因果关系。例如，一个sigmoid激活函数在等于欧拉数的aweight处具有最具信息量的因果关系，一个tanh激活函数在权重coth（1）处具有信息量，一个ReLU激活函数在重量1处具有信息力。这表明DNN中最重要的权重可能是最具因果效力的，而不是绝对值最高的。例如，对于sigmoid激活函数和连接A→B的极高权重，A的激活对扰动的信息量不大，因为大多数扰动都会导致B的输出在1处饱和。

+

[[文件:Nn ei1.png|有框]]

+

图2：在三次不同的跑步训练中，EIand是如何演变的。值得注意的是，在Iris训练网络（顶部）和MNIST训练网络（底部）的损失函数最大幅度降低期间，EI发生了最大的变化。

在多个连接的情况下，EI曲线成为更高维度的EI歧管。图1d-f显示了由两个节点（A、B）组成的层的EI（A，B→C），每个节点都与C有一个连接。由于扰动会相互干扰，EI不仅取决于节点之间关系的敏感性，还取决于网络连接的重叠或通用性，从而形成流形。例如，在sigmoid激活函数中，EI流形大约是2倍对称的，这是由于sigmoid在正负权重周围的对称性，再加上网络本身的对称性（因为神经元A和Bony都连接到C）。

Matthew

264

个编辑

更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:37的版本

导航菜单

搜索