更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:58的版本

添加267字节、 2024年8月3日 (星期六)

第87行：第87行：

=测量层间连通性的联合效应=

−

综合信息理论（IIT）已被用于评估系统中联合效应与独立效应所包含的总信息（Tononi，2008）。它是因果分析的有用工具，分析网络因果结构中整合的信息量（Marshall等人，2017；Albantakis等人，2019）。以前，综合信息被衡量为给定分区的EI损失（Balduzzi和Tononi，2008），使EI成为综合信息的上限。然而，目前还没有一种公认的通用综合信息衡量标准（Oizumi等人，20142016）。相反，在不同的系统中提出了各种集成信息的措施（Tegmark，2016；Mediano等人，2019）。传统上，前馈网络中的集成信息量为零，因为没有可重入连接，因为它基于在系统的所有可能子集中找到最小信息分区。然而，即使在前馈网络中，一层的节点仍然可能对另一层产生不可约的联合效应，因此我们引入了一种度量，即前馈集成信息，应用于DNN。图4：训练期间因果平面上的行为。在不同层次的因果平面上追踪的路径。在过拟合期间，所有路径随着时间的推移都会变得不那么平滑，在因果平面上的移动也会减少。与在MNIST任务上训练的网络相比，在更简单的Iris任务中训练的网络在层之间的差异更小。

+

综合信息理论（IIT）已被用于评估系统中联合效应与独立效应所包含的总信息（Tononi，2008）。它是因果分析的有用工具，分析网络因果结构中整合的信息量（Marshall等人，2017；Albantakis等人，2019）。以前，综合信息被衡量为给定分区的EI损失（Balduzzi和Tononi，2008），使EI成为综合信息的上限。然而，目前还没有一种公认的通用综合信息衡量标准（Oizumi等人，20142016）。相反，在不同的系统中提出了各种集成信息的措施（Tegmark，2016；Mediano等人，2019）。传统上，前馈网络中的集成信息量为零，因为没有可重入连接，因为它基于在系统的所有可能子集中找到最小信息分区。然而，即使在前馈网络中，一层的节点仍然可能对另一层产生不可约的联合效应，因此我们引入了一种度量，即前馈集成信息，应用于DNN。

+

图4：训练期间因果平面上的行为。在不同层次的因果平面上追踪的路径。在过拟合期间，所有路径随着时间的推移都会变得不那么平滑，在因果平面上的移动也会减少。与在MNIST任务上训练的网络相比，在更简单的Iris任务中训练的网络在层之间的差异更小。

通常，计算集成信息需要检查所有可能分区的集合，这使得这种方法不适用于维数较小的系统。或者，为了评估单个边对EI的协同贡献，可能需要使用多变量信息理论，例如部分信息分解，当包含源时，它会按照Dedekind数的顺序增长（WilliamsandBeer，20

−

为了避免这些问题，我们引入了一种基于每条边的贡献计算的度量方法EIparts。也就是说，对于每个节点i∈L1，记录其在该扰动下的激活函数的时间序列估计，以及每个节点j∈L2的激活函数。为了计算EI部分，然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小，并计算和求和每个（i，j）对的MI：10）。

+

为了避免这些问题，我们引入了一种基于每条边的贡献计算的度量方法<math>EI_{parts}</math>。也就是说，对于每个节点i∈L1，记录其在该扰动下的激活函数的时间序列估计，以及每个节点j∈L2的激活函数。为了计算EI部分，然后将每个节点的每个单独的时间序列离散为一些共享的选定bin大小，并计算和求和每个（i，j）对的MI：10）。

+

<math>

+

\begin{equation}

+

EI_{\text{parts}}(L_1 \rightarrow L_2) = \sum_{(i \in L_1, j \in L_2)} I(t_i, t_j) \mid \text{do}(L_1 = H^{\max}).

+

\end{equation}

+

</math>

+

请注意，对于具有单个节点的层，EI和EI部分是相同的。当网络的每个节点只接收单个边缘时，情况也是如此。然而，<math>EI_{parts}</math>措施必然会错过某些积极的联合效应。重要的是，EI和EIparts度量之间的差异可以捕捉到联合效应的量，从而捕捉到逐层以前馈方式整合的信息量。具体来说，我们将EI（综合信息的上限）与第3节中定义的<math>EI_{parts}</math>进行比较，即<math>\Phi_{feedforward} = EI - EI_{parts}</math>。应该指出的是，向前的φf虽然旨在捕捉一层到另一层的总联合效应，但不受零的限制，可以是负的。

+

为了了解DNN训练过程中层间联合效应的变化，我们分析了Iris和MNIST数据集训练过程中<math>φ_f</math>的前向变化（有关我们测量<math>EI_{parts}</math>的方法的详细信息，请参阅SI第7.1节）。我们观察到，MNIST训练的网络比Iris训练的网络具有更高的φf前馈，这表明因果结构确实根据任务的复杂性而有所不同，需要更多的联合效应来学习（图5）。

−

请注意，对于具有单个节点的层，EI和EI部分是相同的。当网络的每个节点只接收单个边缘时，情况也是如此。然而，EIparts措施必然会错过某些积极的联合效应。重要的是，EI和EIparts度量之间的差异可以捕捉到联合效应的量，从而捕捉到逐层以前馈方式整合的信息量。具体来说，我们将EI（综合信息的上限）与第3节中定义的EIparts进行比较，即φf eed f orward=EI−EIparts。应该指出的是，向前的φf虽然旨在捕捉一层到另一层的总联合效应，但不受零的限制，可以是负的。

−

为了了解DNN训练过程中层间联合效应的变化，我们分析了Iris和MNIST数据集训练过程中φf的前向变化（有关我们测量EIparts的方法的详细信息，请参阅SI第7.1节）。我们观察到，MNIST训练的网络比Iris训练的网络具有更高的φf前馈，这表明因果结构确实根据任务的复杂性而有所不同，需要更多的联合效应来学习（图5）。图5：培训中的综合信息。MNIST训练的网络在训练过程中比IRIS训练的网络发展得更快。

+

图5：培训中的综合信息。MNIST训练的网络在训练过程中比IRIS训练的网络发展得更快。

=讨论=

Matthew

251

个编辑