更改

人工神经网络上的有效信息计算 (查看源代码)

2024年7月22日 (一) 11:56的版本

添加6字节、 2024年7月22日 (星期一)

第46行：第46行：

如第2节所述，EI取决于连接的权重及其重叠程度，这两者共同构成了EI流形。这表明，EI可以分解为两个属性：由个体权重表示的因果关系的敏感性，以及由于输入权重重叠而导致的这些关系的通用性。这反映了之前将EIin布尔网络或马尔可夫链分解为确定性（这里用灵敏度代替，因为神经网络传统上是确定性的）和简并性（Hoel等人，2013；Klein和Hoel，2020）。

+

在DNN中，层的灵敏度衡量输入将扰动传输到输出节点的程度，而层的简并性衡量通过检查层输出可以重建输入扰动源的程度。如果扰动源不能很好地重建，则网络被称为扰动。这两个维度的因果关系共同构成了一个所有DNN层都占据的“因果平面”。随着层通过学习而不同，它们的因果结构应该在因果平面中占据独特的位置，反映出它们通过变得更敏感或更退化而对DNN功能的贡献。

+

为了确定DNN层在因果平面中的位置或轨迹，根据EI的分量明确计算灵敏度和衰减。在参数之间没有相互作用的情况下，通过将每条边的总贡献单独相加来计算灵敏度。因此，层L1到下一层L2的总灵敏度为：

公式

第52行：第54行：

层的简并性衡量因果关系中有多少信息因重叠连接而丢失，并通过代数方法计算其灵敏度-EI，因为灵敏度衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点（具有S形激活）的层的本质性和简并流形。它们之间的差异形成了EI流形。

一层的简并性衡量因果关系中有多少信息因重叠连接而丢失，并通过代数方法计算其增敏性-EI，增敏性衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点（具有S形激活）的层的增敏性和简并流形。它们之间的差异形成了EI歧管。

+

之前对图的EI（基于随机游走动力学）的研究已经找到了一种对不同规范网络进行分类的方法，如Erd̋os-Rényi随机图、无标度网络和轮辐模型，基于它们在随机游走的决定论和简并性方面的位置（Klein和Hoel，2020）。在DNN中，一个敏感术语取代了决定论。

+

为了可视化灵敏度和简并性之间的层偏移，我们引入了DNN的“因果平面”，其中平面的二维表示两个相应的值。因果平面利用了这样一个事实，即由于EI=灵敏度−简并，如果两者都等量增加，EI本身就不会改变。当绘制简并性与灵敏度时，y=x线上的点表示零EI，我们将这条45◦的线称为EI的“零点斜率”。更倾向于敏感性的路径会增加EI，更倾向于简并的路径会降低EI，而沿着EI零点的路径不会改变EI。

+

在这里，我们探讨了这样一个假设，即DNN的内部因果结构会发生变化，以匹配它所训练的任务，并且这会在整个训练过程的特定阶段发生。为了研究这一点，我们在训练过程中测量了Iris和MNIST数据集上通过因果平面的三次运行的路径（如图4a-b所示）。在这两项任务中，对MNIST数字进行分类更为退化和复杂，因为网络必须将高维空间中的流形转换为仅10个不同的输出类（或者更确切地说，对于我们简化的MNIST版本，是5个）。对鸢尾花进行分类的任务既不退化也不复杂，因为网络必须将4维空间转换为3个（大多）线性可分的类。如果一个网络通过将其内部因果结构与数据集进行匹配来学习，那么在MNIST上训练的网络将比在Iris上训练的更大程度上塑造自己。这正是我们在图4中观察到的，在MNIST-训练的网络中，因果平面内的差异和运动要大得多，而Iris训练的网络的因果结构中的差异较小，因为它遵循EI零点律。在许多情况下，特别是对于隐藏层和输出层，运行首先表现出灵敏度的增加（增加EI），然后表现出简并性的增加（降低EI）。

+

为了检验层的因果结构在训练过程中必然会发生差异的假设，对具有sigmoid激活函数的MNIST训练网络进行了两种修改：一种情况下删除了隐藏层，另一种情况是添加了许多冗余的隐藏层（图4c-d）。网络的两个修改都与之前的网络一样准确。在因果平面上，添加的冗余层几乎没有变化，表明在训练过程中对EI的净贡献为零（有关电影，请参阅GitHub）。这显示了与更动态的层相比，对网络因果结构没有贡献的冗余层如何沿着EI零点聚集并且移动很少。

Matthew

272

个编辑

更改

人工神经网络上的有效信息计算 (查看源代码)

2024年7月22日 (一) 11:56的版本

导航菜单

搜索