更改

第87行: 第87行:  
=测量层间连通性的联合效应=
 
=测量层间连通性的联合效应=
   −
综合信息理论(IIT)已被用于评估系统中联合效应与独立效应所包含的总信息(Tononi,2008)。它是因果分析的有用工具,分析网络因果结构中整合的信息量(Marshall等人,2017;Albantakis等人,2019)。以前,综合信息被衡量为给定分区的EI损失(Balduzzi和Tononi,2008),使EI成为综合信息的上限。然而,目前还没有一种公认的通用综合信息衡量标准(Oizumi等人,20142016)。相反,在不同的系统中提出了各种集成信息的措施(Tegmark,2016;Mediano等人,2019)。传统上,前馈网络中的集成信息量为零,因为没有可重入连接,因为它基于在系统的所有可能子集中找到最小信息分区。然而,即使在前馈网络中,一层的节点仍然可能对另一层产生不可约的联合效应,因此我们引入了一种度量,即前馈集成信息,应用于DNN。      图4:训练期间因果平面上的行为。在不同层次的因果平面上追踪的路径。在过拟合期间,所有路径随着时间的推移都会变得不那么平滑,在因果平面上的移动也会减少。与在MNIST任务上训练的网络相比,在更简单的Iris任务中训练的网络在层之间的差异更小。
+
综合信息理论(IIT)已被用于评估系统中联合效应与独立效应所包含的总信息(Tononi,2008)。它是因果分析的有用工具,分析网络因果结构中整合的信息量(Marshall等人,2017;Albantakis等人,2019)。以前,综合信息被衡量为给定分区的EI损失(Balduzzi和Tononi,2008),使EI成为综合信息的上限。然而,目前还没有一种公认的通用综合信息衡量标准(Oizumi等人,20142016)。相反,在不同的系统中提出了各种集成信息的措施(Tegmark,2016;Mediano等人,2019)。传统上,前馈网络中的集成信息量为零,因为没有可重入连接,因为它基于在系统的所有可能子集中找到最小信息分区。然而,即使在前馈网络中,一层的节点仍然可能对另一层产生不可约的联合效应,因此我们引入了一种度量,即前馈集成信息,应用于DNN。       
 +
 
 +
 
 +
图4:训练期间因果平面上的行为。在不同层次的因果平面上追踪的路径。在过拟合期间,所有路径随着时间的推移都会变得不那么平滑,在因果平面上的移动也会减少。与在MNIST任务上训练的网络相比,在更简单的Iris任务中训练的网络在层之间的差异更小。
    
通常,计算集成信息需要检查所有可能分区的集合,这使得这种方法不适用于维数较小的系统。或者,为了评估单个边对EI的协同贡献,可能需要使用多变量信息理论,例如部分信息分解,当包含源时,它会按照Dedekind数的顺序增长(WilliamsandBeer,20
 
通常,计算集成信息需要检查所有可能分区的集合,这使得这种方法不适用于维数较小的系统。或者,为了评估单个边对EI的协同贡献,可能需要使用多变量信息理论,例如部分信息分解,当包含源时,它会按照Dedekind数的顺序增长(WilliamsandBeer,20
为了避免这些问题,我们引入了一种基于每条边的贡献计算的度量方法EIparts。也就是说,对于每个节点i∈L1,记录其在该扰动下的激活函数的时间序列估计,以及每个节点j∈L2的激活函数。为了计算EI部分,然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小,并计算和求和每个(i,j)对的MI:10)。
+
为了避免这些问题,我们引入了一种基于每条边的贡献计算的度量方法<math>EI_{parts}</math>。也就是说,对于每个节点i∈L1,记录其在该扰动下的激活函数的时间序列估计,以及每个节点j∈L2的激活函数。为了计算EI部分,然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小,并计算和求和每个(i,j)对的MI:10)。
 +
 
 +
<math>
 +
\begin{equation}
 +
EI_{\text{parts}}(L_1 \rightarrow L_2) = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j) \mid \text{do}(L_1 = H^{\max}).
 +
\end{equation}
 +
</math>
 +
 
 +
请注意,对于具有单个节点的层,EI和EI部分是相同的。当网络的每个节点只接收单个边缘时,情况也是如此。然而,<math>EI_{parts}</math>措施必然会错过某些积极的联合效应。重要的是,EI和EIparts度量之间的差异可以捕捉到联合效应的量,从而捕捉到逐层以前馈方式整合的信息量。具体来说,我们将EI(综合信息的上限)与第3节中定义的<math>EI_{parts}</math>进行比较,即<math>\Phi_{feedforward} = EI - EI_{parts}</math>。应该指出的是,向前的φf虽然旨在捕捉一层到另一层的总联合效应,但不受零的限制,可以是负的。
 +
 
 +
为了了解DNN训练过程中层间联合效应的变化,我们分析了Iris和MNIST数据集训练过程中<math>φ_f</math>的前向变化(有关我们测量<math>EI_{parts}</math>的方法的详细信息,请参阅SI第7.1节)。我们观察到,MNIST训练的网络比Iris训练的网络具有更高的φf前馈,这表明因果结构确实根据任务的复杂性而有所不同,需要更多的联合效应来学习(图5)。     
   −
请注意,对于具有单个节点的层,EI和EI部分是相同的。当网络的每个节点只接收单个边缘时,情况也是如此。然而,EIparts措施必然会错过某些积极的联合效应。重要的是,EI和EIparts度量之间的差异可以捕捉到联合效应的量,从而捕捉到逐层以前馈方式整合的信息量。具体来说,我们将EI(综合信息的上限)与第3节中定义的EIparts进行比较,即φf eed f orward=EI−EIparts。应该指出的是,向前的φf虽然旨在捕捉一层到另一层的总联合效应,但不受零的限制,可以是负的。
     −
为了了解DNN训练过程中层间联合效应的变化,我们分析了Iris和MNIST数据集训练过程中φf的前向变化(有关我们测量EIparts的方法的详细信息,请参阅SI第7.1节)。我们观察到,MNIST训练的网络比Iris训练的网络具有更高的φf前馈,这表明因果结构确实根据任务的复杂性而有所不同,需要更多的联合效应来学习(图5)。      图5:培训中的综合信息。MNIST训练的网络在训练过程中比IRIS训练的网络发展得更快。
+
图5:培训中的综合信息。MNIST训练的网络在训练过程中比IRIS训练的网络发展得更快。
    
=讨论=
 
=讨论=
251

个编辑