更改
跳到导航
跳到搜索
第135行:
第135行:
− +
→反向传播
反向传播的权重更新可以通过【随机梯度下降】完成,使用下面的等式:
反向传播的权重更新可以通过【随机梯度下降】完成,使用下面的等式:
: <math> w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} +\xi(t) </math>
: <math> w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} +\xi(t) </math>
其中<math> \eta </math> 是学习速率, <math> C </math>是损失函数, <math>\xi(t)</math> 是一个随机项。损失函数的选择由如学习类型(监督,无监督,强化等等)和【激活函数】等因素决定。例如,当在【多类分类】问题上使用监督学习,激活函数和损失函数的通常选择分别是【柔性最大值传输函数】和【交叉熵】函数。柔性最大值传输函数定义为 <math> p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} </math> 其中 <math> p_j </math> 代表类的概率(单元<math> j </math>的输出), <math> x_j </math> 和 <math> x_k </math> 分别代表单元<math> j </math> 和 <math> k </math>在相同程度上的总输入。交叉熵定义为 <math> C = -\sum_j d_j \log(p_j) </math> 其中 <math> d_j </math> 代表输出单元<math> j </math> 的目标概率, <math> p_j </math> 是应用激活函数后 <math> j </math> 的输出概率。
其中<math> \eta </math> 是学习速率, <math> {C} </math>是损失函数, <math>\xi(t)</math> 是一个随机项。损失函数的选择由如学习类型(监督,无监督,强化等等)和【激活函数】等因素决定。例如,当在【多类分类】问题上使用监督学习,激活函数和损失函数的通常选择分别是【柔性最大值传输函数】和【交叉熵】函数。柔性最大值传输函数定义为 <math> p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} </math> 其中 <math> p_j </math> 代表类的概率(单元<math> j </math>的输出), <math> x_j </math> 和 <math> x_k </math> 分别代表单元<math> {j} </math>和<math> k </math>在相同程度上的总输入。交叉熵定义为 <math> {C} = -\sum_j d_j \log(p_j) </math> 其中 <math> d_j </math> 代表输出单元<math> {j} </math> 的目标概率, <math> p_j </math> 是应用激活函数后 <math> j </math> 的输出概率。
这可以被用于以二元掩码的形式输出目标【包围盒】。它们也可以用于多元回归来增加局部精度。基于DNN的回归除作为一个好的分类器外还可以学习捕获几何信息特征。它们免除了显式模型部分和它们的关系。这有助于扩大可以被学习的目标种类。模型由多层组成,每层有一个【线性整流单元】作为它的非线性变换激活函数。一些层是卷积的,其他层是全连接的。每个卷积层有一个额外的最大池化。这个网络被训练【最小化】【''L''<sup>2</sup> 误差】
这可以被用于以二元掩码的形式输出目标【包围盒】。它们也可以用于多元回归来增加局部精度。基于DNN的回归除作为一个好的分类器外还可以学习捕获几何信息特征。它们免除了显式模型部分和它们的关系。这有助于扩大可以被学习的目标种类。模型由多层组成,每层有一个【线性整流单元】作为它的非线性变换激活函数。一些层是卷积的,其他层是全连接的。每个卷积层有一个额外的最大池化。这个网络被训练【最小化】【''L''<sup>2</sup> 误差】
来预测整个训练集范围的掩码包含代表掩码的包围盒。【?】
来预测整个训练集范围的掩码包含代表掩码的包围盒。【?】