更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:45的版本

添加2字节、 2024年8月3日 (星期六)

第53行：第53行：

为了了解DNN的因果结构在学习过程中是如何变化的，我们跟踪了用两个基准分类任务训练的EIin网络：Iris（Fisher，1936）和MNIST-LeCun等人（2010）。对于Iris，我们训练了具有三个密集连接层4→5→5→3的网络，对于MNIST，我们使用了具有四个紧密连接层25→6→6→5的网络，使用sigmoid激活函数，并且两个任务都没有偏差。对于MNIST，我们将输入从28x28整形为5x5，并从数据集中删除了数字5-9的示例，这样最后一层只有5个节点——这是为了降低准确计算EI的计算成本。这两个任务的网络都用MSE损失和香草梯度下降训练，学习率为0.01。我们训练了批量大小为10的Irisnetworks 4000个epoch和批量大小为50的MNIST网络500个epoch。我们通过从均匀分布<math>W_{ij} = \mathscr{U}\left([ -\frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}}, \frac{1}{\sqrt{\mathrm{fan}_{\mathrm{in}}}} ]\right)</math>中采样来初始化权重。对于每个任务和体系结构，我们执行三次具有不同初始化的运行。使用相同的网络架构，我们还训练了具有tanh和ReLU激活函数的网络——结果可以在SI第7.2节中找到。为了计算EI，我们使用107个样本的固定噪声注入长度。我们发现，在我们的网络中，注入这个长度就足以确保收敛（见SI第7.1节）。然而，请注意，更宽的网络层可能需要更多的样本。

−

~~[[文件:Nnei.png|有框|居中]]~~

+

[[文件:Nn ei2.png|有框|居中]]

图3:EI由灵敏度和简并性组成。上述曲面是具有两个输入节点和一个输出节点的alayer的灵敏度和简并性，具有sigmoid激活函数。从表面（a）中减去表面（b）得到EImanifold，如（c）所示

Matthew

251

个编辑

更改

人工神经网络上的有效信息计算 (查看源代码)

2024年8月3日 (六) 20:45的版本

导航菜单

搜索