第46行: |
第46行: |
| | | |
| 如第2节所述,EI取决于连接的权重及其重叠程度,这两者共同构成了EI流形。这表明,EI可以分解为两个属性:由个体权重表示的因果关系的敏感性,以及由于输入权重重叠而导致的这些关系的通用性。这反映了之前将EIin布尔网络或马尔可夫链分解为确定性(这里用灵敏度代替,因为神经网络传统上是确定性的)和简并性(Hoel等人,2013;Klein和Hoel,2020)。 | | 如第2节所述,EI取决于连接的权重及其重叠程度,这两者共同构成了EI流形。这表明,EI可以分解为两个属性:由个体权重表示的因果关系的敏感性,以及由于输入权重重叠而导致的这些关系的通用性。这反映了之前将EIin布尔网络或马尔可夫链分解为确定性(这里用灵敏度代替,因为神经网络传统上是确定性的)和简并性(Hoel等人,2013;Klein和Hoel,2020)。 |
| + | |
| 在DNN中,层的灵敏度衡量输入将扰动传输到输出节点的程度,而层的简并性衡量通过检查层输出可以重建输入扰动源的程度。如果扰动源不能很好地重建,则网络被称为扰动。这两个维度的因果关系共同构成了一个所有DNN层都占据的“因果平面”。随着层通过学习而不同,它们的因果结构应该在因果平面中占据独特的位置,反映出它们通过变得更敏感或更退化而对DNN功能的贡献。 | | 在DNN中,层的灵敏度衡量输入将扰动传输到输出节点的程度,而层的简并性衡量通过检查层输出可以重建输入扰动源的程度。如果扰动源不能很好地重建,则网络被称为扰动。这两个维度的因果关系共同构成了一个所有DNN层都占据的“因果平面”。随着层通过学习而不同,它们的因果结构应该在因果平面中占据独特的位置,反映出它们通过变得更敏感或更退化而对DNN功能的贡献。 |
| + | |
| 为了确定DNN层在因果平面中的位置或轨迹,根据EI的分量明确计算灵敏度和衰减。在参数之间没有相互作用的情况下,通过将每条边的总贡献单独相加来计算灵敏度。因此,层L1到下一层L2的总灵敏度为: | | 为了确定DNN层在因果平面中的位置或轨迹,根据EI的分量明确计算灵敏度和衰减。在参数之间没有相互作用的情况下,通过将每条边的总贡献单独相加来计算灵敏度。因此,层L1到下一层L2的总灵敏度为: |
| 公式 | | 公式 |
第52行: |
第54行: |
| 层的简并性衡量因果关系中有多少信息因重叠连接而丢失,并通过代数方法计算其灵敏度-EI,因为灵敏度衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点(具有S形激活)的层的本质性和简并流形。它们之间的差异形成了EI流形。 | | 层的简并性衡量因果关系中有多少信息因重叠连接而丢失,并通过代数方法计算其灵敏度-EI,因为灵敏度衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点(具有S形激活)的层的本质性和简并流形。它们之间的差异形成了EI流形。 |
| 一层的简并性衡量因果关系中有多少信息因重叠连接而丢失,并通过代数方法计算其增敏性-EI,增敏性衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点(具有S形激活)的层的增敏性和简并流形。它们之间的差异形成了EI歧管。 | | 一层的简并性衡量因果关系中有多少信息因重叠连接而丢失,并通过代数方法计算其增敏性-EI,增敏性衡量网络中非重叠连接的信息贡献。图3显示了具有不同连接权重的两个输入节点和一个输出节点(具有S形激活)的层的增敏性和简并流形。它们之间的差异形成了EI歧管。 |
| + | |
| 之前对图的EI(基于随机游走动力学)的研究已经找到了一种对不同规范网络进行分类的方法,如Erd̋os-Rényi随机图、无标度网络和轮辐模型,基于它们在随机游走的决定论和简并性方面的位置(Klein和Hoel,2020)。在DNN中,一个敏感术语取代了决定论。 | | 之前对图的EI(基于随机游走动力学)的研究已经找到了一种对不同规范网络进行分类的方法,如Erd̋os-Rényi随机图、无标度网络和轮辐模型,基于它们在随机游走的决定论和简并性方面的位置(Klein和Hoel,2020)。在DNN中,一个敏感术语取代了决定论。 |
| + | |
| 为了可视化灵敏度和简并性之间的层偏移,我们引入了DNN的“因果平面”,其中平面的二维表示两个相应的值。因果平面利用了这样一个事实,即由于EI=灵敏度−简并,如果两者都等量增加,EI本身就不会改变。当绘制简并性与灵敏度时,y=x线上的点表示零EI,我们将这条45◦的线称为EI的“零点斜率”。更倾向于敏感性的路径会增加EI,更倾向于简并的路径会降低EI,而沿着EI零点的路径不会改变EI。 | | 为了可视化灵敏度和简并性之间的层偏移,我们引入了DNN的“因果平面”,其中平面的二维表示两个相应的值。因果平面利用了这样一个事实,即由于EI=灵敏度−简并,如果两者都等量增加,EI本身就不会改变。当绘制简并性与灵敏度时,y=x线上的点表示零EI,我们将这条45◦的线称为EI的“零点斜率”。更倾向于敏感性的路径会增加EI,更倾向于简并的路径会降低EI,而沿着EI零点的路径不会改变EI。 |
| + | |
| 在这里,我们探讨了这样一个假设,即DNN的内部因果结构会发生变化,以匹配它所训练的任务,并且这会在整个训练过程的特定阶段发生。为了研究这一点,我们在训练过程中测量了Iris和MNIST数据集上通过因果平面的三次运行的路径(如图4a-b所示)。在这两项任务中,对MNIST数字进行分类更为退化和复杂,因为网络必须将高维空间中的流形转换为仅10个不同的输出类(或者更确切地说,对于我们简化的MNIST版本,是5个)。对鸢尾花进行分类的任务既不退化也不复杂,因为网络必须将4维空间转换为3个(大多)线性可分的类。如果一个网络通过将其内部因果结构与数据集进行匹配来学习,那么在MNIST上训练的网络将比在Iris上训练的更大程度上塑造自己。这正是我们在图4中观察到的,在MNIST-训练的网络中,因果平面内的差异和运动要大得多,而Iris训练的网络的因果结构中的差异较小,因为它遵循EI零点律。在许多情况下,特别是对于隐藏层和输出层,运行首先表现出灵敏度的增加(增加EI),然后表现出简并性的增加(降低EI)。 | | 在这里,我们探讨了这样一个假设,即DNN的内部因果结构会发生变化,以匹配它所训练的任务,并且这会在整个训练过程的特定阶段发生。为了研究这一点,我们在训练过程中测量了Iris和MNIST数据集上通过因果平面的三次运行的路径(如图4a-b所示)。在这两项任务中,对MNIST数字进行分类更为退化和复杂,因为网络必须将高维空间中的流形转换为仅10个不同的输出类(或者更确切地说,对于我们简化的MNIST版本,是5个)。对鸢尾花进行分类的任务既不退化也不复杂,因为网络必须将4维空间转换为3个(大多)线性可分的类。如果一个网络通过将其内部因果结构与数据集进行匹配来学习,那么在MNIST上训练的网络将比在Iris上训练的更大程度上塑造自己。这正是我们在图4中观察到的,在MNIST-训练的网络中,因果平面内的差异和运动要大得多,而Iris训练的网络的因果结构中的差异较小,因为它遵循EI零点律。在许多情况下,特别是对于隐藏层和输出层,运行首先表现出灵敏度的增加(增加EI),然后表现出简并性的增加(降低EI)。 |
| + | |
| 为了检验层的因果结构在训练过程中必然会发生差异的假设,对具有sigmoid激活函数的MNIST训练网络进行了两种修改:一种情况下删除了隐藏层,另一种情况是添加了许多冗余的隐藏层(图4c-d)。网络的两个修改都与之前的网络一样准确。在因果平面上,添加的冗余层几乎没有变化,表明在训练过程中对EI的净贡献为零(有关电影,请参阅GitHub)。这显示了与更动态的层相比,对网络因果结构没有贡献的冗余层如何沿着EI零点聚集并且移动很少。 | | 为了检验层的因果结构在训练过程中必然会发生差异的假设,对具有sigmoid激活函数的MNIST训练网络进行了两种修改:一种情况下删除了隐藏层,另一种情况是添加了许多冗余的隐藏层(图4c-d)。网络的两个修改都与之前的网络一样准确。在因果平面上,添加的冗余层几乎没有变化,表明在训练过程中对EI的净贡献为零(有关电影,请参阅GitHub)。这显示了与更动态的层相比,对网络因果结构没有贡献的冗余层如何沿着EI零点聚集并且移动很少。 |
| | | |