更改

人工神经网络 (查看源代码)

2018年8月23日 (四) 22:46的版本

添加917字节、 2018年8月23日 (四) 22:46

第75行：第75行：

==模型==

−

一个“人工神经网络”是一个称为【人工神经元】的简单元素的网络，它们接收输入，根据输入改变内部状态（“激活”），然后依靠输入和激活产生输出，通过连接某些神经元的输出到其他神经元的输入的“网络”形式构成了一个【有向的】【有权图】。权重和【计算激活的函数】可以被称为“学习”的过程改变，这被【学习规则】控制。

+

一个“人工神经网络”是一个称为[https://en.wikipedia.org/wiki/Artificial_neurons 人工神经元]的简单元素的网络，它们接收输入，根据输入改变内部状态（“激活”），然后依靠输入和激活产生输出，通过连接某些神经元的输出到其他神经元的输入的“网络”形式构成了一个[https://en.wikipedia.org/wiki/Directed_graph 有向的][https://en.wikipedia.org/wiki/Weighted_graph 有权图]。权重和[https://en.wikipedia.org/wiki/Activation_function 计算激活的函数]可以被称为“学习”的过程改变，这被[https://en.wikipedia.org/wiki/Learning_rule 学习规则]控制。

===人工神经网络的组成部分（Components of an artificial neural network）===

====神经元（Neurons）====

−

一个有标记<math>i</math> 的神经元从前驱神经元接收输入 <math>~~p_i~~(t)</math> ，这些前驱由下面的部分组成：

+

一个有标记<math>{j}</math> 的神经元从前驱神经元接收输入 <math>p_{j}(t)</math> ，这些前驱由下面的部分组成：

* 一个''激活'' <math>a_i(t)</math>, 取决于一个离散时间参数，

第88行：第88行：

* 和一个 ''输出函数'' <math>f_{out}</math> 计算从激活的输出

: <math> o_i(t) = f_{out}(a_i(t)) </math>.

−

~~通常输出函数只是简单的【恒等函数】~~

+

通常输出函数只是简单的[https://en.wikipedia.org/wiki/Identity_function 恒等函数]

一个“输入神经元”没有前驱，但作为整个网络的输入接口。同样地，一个“输出神经元”没有后继而作为整个网络的输出接口。

第104行：第104行：

===作为函数的神经网络（Neural networks as functions）===

神经网络模型可以被看成简单的数学模型，定义为一个函数<math>\textstyle f : X \rightarrow Y </math> 或者是一个 <math>\textstyle X</math> 上或 <math>\textstyle X</math> 和<math>\textstyle Y</math>上的分布。有时模型与一个特定学习规则紧密联系。短语“ANN模型”的通常使用确实是这种函数的“类”的定义（类的成员被不同参数，连接权重或结构的细节如神经元数量或他们的连接获得）

−

数学上，一个神经元的网络函数 <math>\textstyle f(x)</math> 被定义为其他函数 <math>\textstyle g_i(x)</math>的组合，它可以之后被分解为其他函数。这可以被方便地用一个网络结构表示，它有箭头描述函数间的依赖关系。一类广泛应用的组合是“非线性加权和”， <math>\textstyle f (x) = K \left(\sum_i w_i g_i(x)\right) </math>, 其中 <math>\textstyle K</math> (~~通常称为【激活函数】~~) 是某种预定义的函数，如【双曲正切】或【双弯曲函数】或【柔性最大值传输函数】或【线性整流函数】。激活函数最重要的特点是它随输入值变化提供一个平滑的过渡，例如，在输入中一个小的变化产生输出中一个小的变化。下面指的是一组函数 <math>\textstyle g_i</math>~~作为【向量】~~ <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.

+

数学上，一个神经元的网络函数 <math>\textstyle f(x)</math> 被定义为其他函数 <math>\textstyle g_i(x)</math>的组合，它可以之后被分解为其他函数。这可以被方便地用一个网络结构表示，它有箭头描述函数间的依赖关系。一类广泛应用的组合是“非线性加权和”， <math>\textstyle f (x) = K \left(\sum_i w_i g_i(x)\right) </math>, 其中 <math>\textstyle K</math> (通常称为[https://en.wikipedia.org/wiki/Activation_function 激活函数]) 是某种预定义的函数，如[https://en.wikipedia.org/wiki/Hyperbolic_function#Standard_analytic_expressions 双曲正切]或[https://en.wikipedia.org/wiki/Sigmoid_function 双弯曲函数] 或[https://en.wikipedia.org/wiki/Softmax_function 柔性最大值传输函数]或[https://en.wikipedia.org/wiki/ReLU 线性整流函数]。激活函数最重要的特点是它随输入值变化提供一个平滑的过渡，例如，在输入中一个小的变化产生输出中一个小的变化。下面指的是一组函数 <math>\textstyle g_i</math>作为[https://en.wikipedia.org/wiki/Vector_(mathematics_and_physics) 向量] <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.

−

~~【File:Ann dependency (graph).svg|thumb|150px|ANN依赖图】~~

+

[[File:Ann_dependency_(graph).svg.png|150px|ANN依赖图]]

本图描述了 <math>\textstyle f</math>的带有箭头指示出的变量间依赖的这样一种分解，这些可以用两种方式解释。

−

第一种视角是功能上的：输入<math>\textstyle x</math> 转化成一个三维向量<math>\textstyle h</math>, 它接着转化为一个二维向量 <math>\textstyle g</math>，它最终转化成 <math>\textstyle f</math>. ~~这种视角在【优化】中经常遇到。~~

+

第一种视角是功能上的：输入<math>\textstyle x</math> 转化成一个三维向量<math>\textstyle h</math>, 它接着转化为一个二维向量 <math>\textstyle g</math>，它最终转化成 <math>\textstyle f</math>. 这种视角在[https://en.wikipedia.org/wiki/Mathematical_optimization 优化]中经常遇到。

−

~~第二种视角是概率上的：【随机变量】~~ <math>\textstyle F = f(G) </math> 取决于随机变量 <math>\textstyle G = g(H)</math>，它取决于 <math>\textstyle H=h(X)</math>, 它取决于随机变量 <math>\textstyle X</math>.~~。这种视角在【图模型】中经常遇到。~~

+

第二种视角是概率上的：[https://en.wikipedia.org/wiki/Random_variable 随机变量] <math>\textstyle F = f(G) </math> 取决于随机变量 <math>\textstyle G = g(H)</math>，它取决于 <math>\textstyle H=h(X)</math>, 它取决于随机变量 <math>\textstyle X</math>.。这种视角在[https://en.wikipedia.org/wiki/Graphical_models 图模型]中经常遇到。

这两种视角大部分等价。不论哪种情况，对于这种特定的结构，单独层的组成互相独立（例如，<math>\textstyle g</math> 的组成，给定它们的输入<math>\textstyle h</math>互相独立）这自然地使实现中的并行成为可能。

−

~~【File~~:~~Recurrent ann dependency graph~~.png~~|thumb~~|120px| ~~循环ANN依赖图的两个单独描述】~~

+

[[File:Recurrent_ann_dependency_graph.png|120px|循环ANN依赖图的两个单独描述]]

−

前述的网络通常称为【前馈神经网络】，因为它们的图是【有向无环图】。带有【环】的网络通常称为【循环神经网络】。这种网络通常被图片顶部的方式描述，其中 <math>\textstyle f</math> 依赖它自己，而一个隐含的时间依赖没有显示。

+

前述的网络通常称为[https://en.wikipedia.org/wiki/Feedforward_neural_network 前馈神经网络]，因为它们的图是[https://en.wikipedia.org/wiki/Directed_acyclic_graph 有向无环图]。带有[https://en.wikipedia.org/wiki/Cycle_(graph_theory) 环]的网络通常称为[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络]。这种网络通常被图片顶部的方式描述，其中 <math>\textstyle f</math> 依赖它自己，而一个隐含的时间依赖没有显示。

===学习===

第123行：第122行：

损失函数<math>\textstyle C</math>是学习中一个重要的概念，因为它是衡量一个特定的解距离一个解决问题的最优解有多远。学习算法搜索解空间寻找一个有最小可能损失的函数。

−

对于解依赖数据的应用，损失必须必要地作为观测值的函数，否则模型会数据无关。通常定义为一个只能近似的【统计量】。一个简单的例子是考虑找到最小化<math>\textstyle C=E\left[(f(x) - y)^2\right]</math>的模型 <math>\textstyle f</math>，对于数据对<math>\textstyle (x,y)</math> 来自分布<math>\textstyle \mathcal{D}</math>.。在实际情况下我们可能只有 <math>\textstyle N</math>从 <math>\textstyle \mathcal{D}</math>采样，这样，对于上面的例子我们只能最小化 <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. 因此，损失被在数据的一个样本上而不是在整个分布上最小化。

+

对于解依赖数据的应用，损失必须必要地作为观测值的函数，否则模型会数据无关。通常定义为一个只能近似的[https://en.wikipedia.org/wiki/Statistic 统计量]。一个简单的例子是考虑找到最小化<math>\textstyle C=E\left[(f(x) - y)^2\right]</math>的模型 <math>\textstyle f</math>，对于数据对<math>\textstyle (x,y)</math> 来自分布<math>\textstyle \mathcal{D}</math>.。在实际情况下我们可能只有 <math>\textstyle N</math>从 <math>\textstyle \mathcal{D}</math>采样，这样，对于上面的例子我们只能最小化 <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. 因此，损失被在数据的一个样本上而不是在整个分布上最小化。

当 <math>\textstyle N \rightarrow \infty</math>，必须使用【在线机器学习】的某种形式，其中损失随着每次观测到新的样本而减小。尽管通常当<math>\textstyle \mathcal{D}</math>固定时使用在线机器学习，它在分布随时间缓慢变化时最有用。在神经网络方法中，一些种类的在线机器学习通常被用于无限数据集。

第174行：第173行：

* 【Levenberg-Marquardt】和【共轭梯度】(Fletcher-Reeves 更新, Polak-Ribiére 更新, Powell-Beale 重启,标度共轭梯度)。

【进化法】，【基因表达式编程】，【模拟退火】，【期望最大化】，【非参数方法】和【粒子群算法】是训练神经网络的其他方法。

−

+

== 变体 ==

=== 数据处理的群方法（Group method of data handling） ===

匿名用户

http://c2.com/cgi/wiki?$1>Cynthia