更改

跳到导航 跳到搜索
第51行: 第51行:  
=训练过程中因果结构的变化=
 
=训练过程中因果结构的变化=
   −
为了了解DNN的因果结构在学习过程中是如何变化的,我们跟踪了用两个基准分类任务训练的EIin网络:Iris(Fisher,1936)和MNIST-LeCun等人(2010)。对于Iris,我们训练了具有三个密集连接层4→5→5→3的网络,对于MNIST,我们使用了具有四个紧密连接层25→6→6→5的网络,使用sigmoid激活函数,并且两个任务都没有偏差。对于MNIST,我们将输入从28x28整形为5x5,并从数据集中删除了数字5-9的示例,这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练,学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布Wi-j=U([-1√fanin,1√fanin])中采样来初始化权重。对于每个任务和体系结构,我们执行三次具有不同初始化的运行。使用相同的网络架构,我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI,我们使用107个样本的固定噪声注入长度。我们发现,在我们的网络中,注入这个长度就足以确保收敛(见SI第7.1节)。然而,请注意,更宽的网络层可能需要更多的样本。      图3:EI由灵敏度和简并性组成。上述曲面是具有两个输入节点和一个输出节点的alayer的灵敏度和简并性,具有sigmoid激活函数。从表面(a)中减去表面(b)得到EImanifold,如(c)所示
+
为了了解DNN的因果结构在学习过程中是如何变化的,我们跟踪了用两个基准分类任务训练的EIin网络:Iris(Fisher,1936)和MNIST-LeCun等人(2010)。对于Iris,我们训练了具有三个密集连接层4→5→5→3的网络,对于MNIST,我们使用了具有四个紧密连接层25→6→6→5的网络,使用sigmoid激活函数,并且两个任务都没有偏差。对于MNIST,我们将输入从28x28整形为5x5,并从数据集中删除了数字5-9的示例,这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练,学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布<math>W_{ij} = \mathscr{U}\left([ -\frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}}, \frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}} ]\right)</math>中采样来初始化权重。对于每个任务和体系结构,我们执行三次具有不同初始化的运行。使用相同的网络架构,我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI,我们使用107个样本的固定噪声注入长度。我们发现,在我们的网络中,注入这个长度就足以确保收敛(见SI第7.1节)。然而,请注意,更宽的网络层可能需要更多的样本。       
 +
 
 +
[[文件:Nnei.png|有框|居中]]
 +
 
 +
 
 +
图3:EI由灵敏度和简并性组成。上述曲面是具有两个输入节点和一个输出节点的alayer的灵敏度和简并性,具有sigmoid激活函数。从表面(a)中减去表面(b)得到EImanifold,如(c)所示
 
从定性上讲,我们观察到,EI的最大变化与训练过程中损失曲线的最陡部分显著匹配,并且在最大学习期间,EI通常是动态的(如图2所示)。在训练性能与测试性能分离的过拟合期间,EI在所有层上通常都是平坦的,这表明在网络适当拟合后,因果结构中的信息在此期间没有变化。
 
从定性上讲,我们观察到,EI的最大变化与训练过程中损失曲线的最陡部分显著匹配,并且在最大学习期间,EI通常是动态的(如图2所示)。在训练性能与测试性能分离的过拟合期间,EI在所有层上通常都是平坦的,这表明在网络适当拟合后,因果结构中的信息在此期间没有变化。
  
264

个编辑

导航菜单