更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:43的版本

添加141字节、 2024年8月3日 (星期六)

第51行：第51行：

=训练过程中因果结构的变化=

−

为了了解DNN的因果结构在学习过程中是如何变化的，我们跟踪了用两个基准分类任务训练的EIin网络：Iris（Fisher，1936）和MNIST-LeCun等人（2010）。对于Iris，我们训练了具有三个密集连接层4→5→5→3的网络，对于MNIST，我们使用了具有四个紧密连接层25→6→6→5的网络，使用sigmoid激活函数，并且两个任务都没有偏差。对于MNIST，我们将输入从28x28整形为5x5，并从数据集中删除了数字5-9的示例，这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练，学习率为0.01。我们训练了批量大小为10的Irisnetworks ~~4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布Wi-j~~=U（[-~~1√fanin，1√fanin~~]）中采样来初始化权重。对于每个任务和体系结构，我们执行三次具有不同初始化的运行。使用相同的网络架构，我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI，我们使用107个样本的固定噪声注入长度。我们发现，在我们的网络中，注入这个长度就足以确保收敛（见SI第7.1节）。然而，请注意，更宽的网络层可能需要更多的样本。图3:EI由灵敏度和简并性组成。上述曲面是具有两个输入节点和一个输出节点的alayer的灵敏度和简并性，具有sigmoid激活函数。从表面（a）中减去表面（b）得到EImanifold，如（c）所示

+

为了了解DNN的因果结构在学习过程中是如何变化的，我们跟踪了用两个基准分类任务训练的EIin网络：Iris（Fisher，1936）和MNIST-LeCun等人（2010）。对于Iris，我们训练了具有三个密集连接层4→5→5→3的网络，对于MNIST，我们使用了具有四个紧密连接层25→6→6→5的网络，使用sigmoid激活函数，并且两个任务都没有偏差。对于MNIST，我们将输入从28x28整形为5x5，并从数据集中删除了数字5-9的示例，这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练，学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布<math>W_{ij} = \mathscr{U}\left([ -\frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}}, \frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}} ]\right)</math>中采样来初始化权重。对于每个任务和体系结构，我们执行三次具有不同初始化的运行。使用相同的网络架构，我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI，我们使用107个样本的固定噪声注入长度。我们发现，在我们的网络中，注入这个长度就足以确保收敛（见SI第7.1节）。然而，请注意，更宽的网络层可能需要更多的样本。

+

[[文件:Nnei.png|有框|居中]]

+

图3:EI由灵敏度和简并性组成。上述曲面是具有两个输入节点和一个输出节点的alayer的灵敏度和简并性，具有sigmoid激活函数。从表面（a）中减去表面（b）得到EImanifold，如（c）所示

从定性上讲，我们观察到，EI的最大变化与训练过程中损失曲线的最陡部分显著匹配，并且在最大学习期间，EI通常是动态的（如图2所示）。在训练性能与测试性能分离的过拟合期间，EI在所有层上通常都是平坦的，这表明在网络适当拟合后，因果结构中的信息在此期间没有变化。

Matthew

264

个编辑

更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:43的版本

导航菜单

搜索