更改
跳到导航
跳到搜索
第104行:
第104行:
− +
− +
− +
− +
− +
→作为函数的神经网络(Neural networks as functions)
===作为函数的神经网络(Neural networks as functions)===
===作为函数的神经网络(Neural networks as functions)===
神经网络模型可以被看成简单的数学模型,定义为一个函数<math>\textstyle f : X \rightarrow Y </math> 或者是一个 <math>\textstyle X</math> 上或 <math>\textstyle X</math> 和<math>\textstyle Y</math>上的分布。有时模型与一个特定学习规则紧密联系。短语“ANN模型”的通常使用确实是这种函数的“类”的定义(类的成员被不同参数,连接权重或结构的细节如神经元数量或他们的连接获得)
神经网络模型可以被看成简单的数学模型,定义为一个函数<math>\textstyle f : X \rightarrow Y </math> 或者是一个 <math>\textstyle X</math> 上或 <math>\textstyle X</math> 和<math>\textstyle Y</math>上的分布。有时模型与一个特定学习规则紧密联系。短语“ANN模型”的通常使用确实是这种函数的“类”的定义(类的成员被不同参数,连接权重或结构的细节如神经元数量或他们的连接获得)
数学上,一个神经元的网络函数 <math>\textstyle f(x)</math> 被定义为其他函数 <math>\textstyle g_i(x)</math>的组合,它可以之后被分解为其他函数。这可以被方便地用一个网络结构表示,它有箭头描述函数间的依赖关系。一类广泛应用的组合是“非线性加权和”, <math>\textstyle f (x) = K \left(\sum_i w_i g_i(x)\right) </math>, 其中 <math>\textstyle K</math> (通常称为[https://en.wikipedia.org/wiki/Activation_function 激活函数]) 是某种预定义的函数,如[https://en.wikipedia.org/wiki/Hyperbolic_function#Standard_analytic_expressions 双曲正切]或[https://en.wikipedia.org/wiki/Sigmoid_function 双弯曲函数] 或[https://en.wikipedia.org/wiki/Softmax_function 柔性最大值传输函数]或[https://en.wikipedia.org/wiki/ReLU 线性整流函数]。激活函数最重要的特点是它随输入值变化提供一个平滑的过渡,例如,在输入中一个小的变化产生输出中一个小的变化 。下面指的是一组函数 <math>\textstyle g_i</math>作为[https://en.wikipedia.org/wiki/Vector_(mathematics_and_physics) 向量] <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.
数学上,一个神经元的网络函数 <math>\textstyle f(x)</math> 被定义为其他函数 <math>\textstyle g_i(x)</math>的组合,它可以之后被分解为其他函数。这可以被方便地用一个网络结构表示,它有箭头描述函数间的依赖关系。一类广泛应用的组合是“非线性加权和”, <math>\textstyle f(x) = K \left(\sum_i w_i g_i(x)\right) </math>, 其中 <math>\textstyle K</math> (通常称为[https://en.wikipedia.org/wiki/Activation_function 激活函数]) 是某种预定义的函数,如[https://en.wikipedia.org/wiki/Hyperbolic_function#Standard_analytic_expressions 双曲正切]或[https://en.wikipedia.org/wiki/Sigmoid_function 双弯曲函数] 或[https://en.wikipedia.org/wiki/Softmax_function 柔性最大值传输函数]或[https://en.wikipedia.org/wiki/ReLU 线性整流函数]。激活函数最重要的特点是它随输入值变化提供一个平滑的过渡,例如,在输入中一个小的变化产生输出中一个小的变化 。下面指的是一组函数 <math>\textstyle g_i</math>作为[https://en.wikipedia.org/wiki/Vector_(mathematics_and_physics) 向量] <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.
[[File:Ann_dependency_(graph).svg.png|150px|ANN依赖图]]
[[File:Ann_dependency_(graph).svg.png|150px|ANN依赖图]]
本图描述了 <math>\textstyle f</math>的带有箭头指示出的变量间依赖的这样一种分解,这些可以用两种方式解释。
本图描述了 <math>{f}</math>的带有箭头指示出的变量间依赖的这样一种分解,这些可以用两种方式解释。
第一种视角是功能上的:输入<math>\textstyle x</math> 转化成一个三维向量<math>\textstyle h</math>, 它接着转化为一个二维向量 <math>\textstyle g</math>,它最终转化成 <math>\textstyle f</math>. 这种视角在[https://en.wikipedia.org/wiki/Mathematical_optimization 优化]中经常遇到。
第一种视角是功能上的:输入<math>\textstyle x</math> 转化成一个三维向量<math>\textstyle h</math>, 它接着转化为一个二维向量 <math>\textstyle g</math>,它最终转化成 <math>{f}</math>. 这种视角在[https://en.wikipedia.org/wiki/Mathematical_optimization 优化]中经常遇到。
第二种视角是概率上的:[https://en.wikipedia.org/wiki/Random_variable 随机变量] <math>\textstyle F = f(G) </math> 取决于随机变量 <math>\textstyle G = g(H)</math>,它取决于 <math>\textstyle H=h(X)</math>, 它取决于随机变量 <math>\textstyle X</math>.。这种视角在[https://en.wikipedia.org/wiki/Graphical_models 图模型]中经常遇到。
第二种视角是概率上的:[https://en.wikipedia.org/wiki/Random_variable 随机变量] <math>{F = f(G)}</math>取决于随机变量 <math>\textstyle G = g(H)</math>,它取决于 <math>\textstyle H=h(X)</math>, 它取决于随机变量 <math>\textstyle X</math>.。这种视角在[https://en.wikipedia.org/wiki/Graphical_models 图模型]中经常遇到。
这两种视角大部分等价。不论哪种情况,对于这种特定的结构,单独层的组成互相独立(例如,<math>\textstyle g</math> 的组成,给定它们的输入<math>\textstyle h</math>互相独立) 这自然地使实现中的并行成为可能。
这两种视角大部分等价。不论哪种情况,对于这种特定的结构,单独层的组成互相独立(例如,<math>\textstyle g</math> 的组成,给定它们的输入<math>\textstyle h</math>互相独立) 这自然地使实现中的并行成为可能。
[[File:Recurrent_ann_dependency_graph.png|120px|循环ANN依赖图的两个单独描述]]
[[File:Recurrent_ann_dependency_graph.png|120px|循环ANN依赖图的两个单独描述]]
前述的网络通常称为[https://en.wikipedia.org/wiki/Feedforward_neural_network 前馈神经网络],因为它们的图是[https://en.wikipedia.org/wiki/Directed_acyclic_graph 有向无环图]。带有[https://en.wikipedia.org/wiki/Cycle_(graph_theory) 环]的网络通常称为[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络]。这种网络通常被图片顶部的方式描述,其中 <math>\textstyle f</math> 依赖它自己,而一个隐含的时间依赖没有显示。
前述的网络通常称为[https://en.wikipedia.org/wiki/Feedforward_neural_network 前馈神经网络],因为它们的图是[https://en.wikipedia.org/wiki/Directed_acyclic_graph 有向无环图]。带有[https://en.wikipedia.org/wiki/Cycle_(graph_theory) 环]的网络通常称为[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络]。这种网络通常被图片顶部的方式描述,其中 <math>{f}</math> 依赖它自己,而一个隐含的时间依赖没有显示。
===学习===
===学习===