更改
跳到导航
跳到搜索
第8行:
第8行:
− +
第17行:
第17行:
− +
− +
− +
− +
+
− +
− +
− +
第36行:
第37行:
− +
+
− +
− [https://en.wikipedia.org/wiki/Support_vector_machine 支持向量机(Support vector machine)]和其他更简单的方法如[https://en.wikipedia.org/wiki/Linear_classifier 线性分类器]在机器学习中的受欢迎程度逐步超过了神经网络。然而,使用神经网络改变了一些领域,例如蛋白质结构的预测。
− 1992年[https://en.wikipedia.org/wiki/Convolutional_neural_network#Pooling_layer 最大池化]被引入帮助最小转移不变性和最大容忍性来变形,有助于3D物体识别。2010年,通过[https://en.wikipedia.org/wiki/Convolutional_neural_network#Pooling_layer 最大池化]训练的反向传播训练被GPU加速,显示出超过其他池化变体的性能。+
+
+
− [https://en.wikipedia.org/wiki/Vanishing_gradient_problem 梯度消失问题]影响使用反向传播的多层[前馈神经网络https://en.wikipedia.org/wiki/Feedforward_neural_network|前馈神经网络] 和[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络](RNN)。由于误差从一层到另一层传播,它们随着层数指数级缩小,阻碍依赖这些误差的的神经元权重的调整,尤其影响深度网络。
− 为了解决这个问题,[https://en.wikipedia.org/wiki/J%C3%BCrgen_Schmidhuber Schmidhuber]采用了一种多层网络结构,通过[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习]每次预训练一级然后使用反向传播很好地调整。Behnke在例如图像重建和人脸定位中只依赖梯度符号。+
− +
+
+
+
+
+
+
− +
− +
+
− +
− 这种方法基于GPU的实现赢得了很多模式识别竞赛,包括IJCNN2011交通信号识别比赛,ISBI2012电子显微镜栈中的神经结构分割挑战和[https://en.wikipedia.org/wiki/ImageNet_Competition ImageNet竞赛]以及其他比赛。+
− +
− 自2011起,深度学习前馈网络的艺术状态在卷积层和最大池化层之间切换,位于几层全连接或稀疏连接层和一层最终分类层之上。学习通常不需要非监督预学习。+
− +
− +
− +
− +
第93行:
第102行:
− +
− +
+
+
− +
− +
第132行:
第143行:
− 连续反向传播的基础由【Kelley】在1960和【Bryson】在1961使用【动态编程】的原则从【控制论】引出。1962,【Dreyfus】发表了只基于【链式法则】的更简单的衍生。1969,Bryson和【Ho】把它描述成一种多级动态系统优化方法。1970,【Linnainmaa】最终发表了嵌套【可微函数】的离散连接网络【自动差分机】(AD)的通用方法。这对应于反向传播的现代版本,它在网络稀疏时仍有效。1973,Dreyfus使用反向传播适配与误差梯度成比例的控制器【参数】。1974,【Werbos】提出将这个规则应用到ANN上的可能,1982他将LInnainmaa的AD方法以今天广泛使用的方式应用到神经网络上。1933,Wan第一个用反向传播赢得国际模式识别竞赛。+
+
− +
+
− 反向传播的替代包括【极端学习机】,不使用回溯法训练的“无权重”网络,和【非联结主义神经网络】+
+
第145行:
第159行:
− +
+
第159行:
第174行:
− 强化学习中,ANN通常被用作整个算法的一部分。[https://en.wikipedia.org/wiki/Dimitri_Bertsekas Bertsekas]和Tsiksiklis给[https://en.wikipedia.org/wiki/Dynamic_programming 动态编程]加上ANN(给出神经动力的编程)并应用到如[https://en.wikipedia.org/wiki/Vehicle_routing 车辆路径]和[https://en.wikipedia.org/wiki/Natural_resource_management 自然资源管理]或[https://en.wikipedia.org/wiki/Medicine 医药]领域中的多维非线性问题。因为ANN能够减小精度损失,甚至在为数值逼近原始控制问题解而降低离散化网格密度时。+
第171行:
第186行:
− +
− 【进化法】,【基因表达式编程】,【模拟退火】,【期望最大化】,【非参数方法】和【粒子群算法】是训练神经网络的其他方法。+
+
+
+
+
+
− +
− +
− CNN适合处理视觉和其他二维数据,它们在图像和语音应用中展示出了优秀的结果。它们可以被标准反向传播训练。CNN比其他普通的深度前馈神经网络更容易训练且有更少的需要估计的参数。计算机视觉中应用的例子包括【DeepDream】和【机器人导航】。+
+
− +
− +
− 2003,LSTM开始在传统语音识别器中具有竞争力。2007,与CTC的结合在语音数据上达到了第一个良好的结果。2009,一个CTC训练的LSTM成为第一个赢得模式识别比赛的RNN,当它赢得了几个连笔【手写识别】比赛。2014,【百度】使用CTC训练的RNN打破了Switchboard Hub5'00语音识别在基准测试数据集上的表现,而没有使用传统语音处理方法。LSTM也提高了大量词汇语音识别,文本到语音合成,对谷歌安卓和真实图片的传声头像。2015,谷歌的语音识别通过CTC训练的LSTM提高了49%的性能。+
− LSTM在【自然语言处理】中变得受欢迎。不像之前基于【隐式马尔科夫模型】和相似概念的模型,LSTM可以学习识别【上下文有关语言】。LSTM提高了机器翻译,【语言建模】和多语言语言处理。与CNN结合的LSTM提高了自动图像字幕标记。+
+
− +
− +
− 一个DN可以被用于生成地预训练一个DNN,通过使用学习的DBN权重和初始DNN权重。+
− +
+
− 大内存和检索神经网络(LAMSTAR)是多层快速深度学习神经网络,可以同时使用许多滤波。这些滤波可能非线性,随机,逻辑,【非固定】甚至非解析。它们是生物学动机的并且可以连续学习。+
− LAMSTAR神经网络可以作为在空间或时间或二者兼具的域内的动力神经网络。它的速度由【赫布(Hebbian)】连接权重提供,它整合多种并且通常不同的滤波(预处理函数)到它的与给定学习任务相关的很多层和函数中。这很大程度模拟了整合多种预处理器(【耳蜗】,【视网膜】等)和皮层(听觉,视觉等)和它们的多个域的生物学习。通过使用抑制,相关,它的深度学习能力大大增强,甚至当在任务中时,处理不完整数据的能力或“丢失的”神经元或层的能力也显著增强。由于它的连接权重,它是完全透明的。这些连接权重允许动态地决定更新和去除,并且帮助任务相关的层,滤波或单独神经元的排列。+
− LAMSTAR被应用于多个领域,包括医药和金融预测,在未知噪音下嘈杂语音的适应性滤波,静态图像识别,视频图像识别,软件安全和非线性系统的适应性控制。LAMSTAR比基于【ReLU】函数滤波和最大池化的CNN在20个对比研究中有明显更快的学习速度,和稍低的错误率。+
− 这些应用展示了钻入数据藏在浅学习网络和人类感觉下的面貌,如预测【睡眠呼吸中止症】,怀孕早期从放在母亲腹部皮肤表面电极记录的胎儿心电图,金融预测或者嘈杂语音的盲过滤的案例。+
− +
+
第212行:
第236行:
− 在叠加去噪编码器中,部分【corrupted】输出被清理(去噪),这个想法在2010由Vincent et al提出,使用特殊的好的表示的方法,一个好的表示是可以从【corrupted】输入[https://en.wikipedia.org/wiki/Robustness_(computer_science) 鲁棒地]得到,这对恢复相应清洁的输入有用。这个定义隐含了下面的想法:+
− +
− 为了做出一个深度结构,自动编码器栈。一旦第一个去噪自动编码器的编码函数<math>f_\theta</math>被学习并且用于改善输入(差的输入),第二级可以被训练。 +
− +
+
+
无编辑摘要
[[File:Colored_neural_network.svg.png|thumb|300px|人工神经网络是一组互相连接的节点,与[https://en.wikipedia.org/wiki/Brain 大脑]中的大量[https://en.wikipedia.org/wiki/Neuron 神经元]类似。这里,每个圆形节点代表一个[https://en.wikipedia.org/wiki/Artificial_neuron 人工神经元] ,一个箭头表示从一个人工神经元的输出连接到另一个的输入。]]
[[File:Colored_neural_network.svg.png|thumb|300px|人工神经网络是一组互相连接的节点,与[https://en.wikipedia.org/wiki/Brain 大脑]中的大量[https://en.wikipedia.org/wiki/Neuron 神经元]类似。这里,每个圆形节点代表一个[https://en.wikipedia.org/wiki/Artificial_neuron 人工神经元] ,一个箭头表示从一个人工神经元的输出连接到另一个的输入。]]
'''人工神经网络''' ('''ANNs''') 或 '''[https://en.wikipedia.org/wiki/Synapse 联结主义] 系统''' 或许是受到构成动物[https://en.wikipedia.org/wiki/Brain 大脑]的[https://en.wikipedia.org/wiki/Neural_circuit 生物神经网络]启发的计算系统。这种系统通过分析样本“学习”执行任务,通常不需要用任何具体的任务规则编程。例如,在[https://en.wikipedia.org/wiki/Computer_vision#Recognition 图像识别],他们可能通过分析被手动[https://en.wikipedia.org/wiki/Labeled_data 标记]成“有猫”和“无猫”的示例图像来学习识别包含猫的图像并利用结果识别其他图像中的猫。他们不需要任何关于猫的先验知识以完成这个任务,例如它们有毛,尾巴,胡须和猫科动物的脸。它们自动地从它们处理的学习材料中产生识别特征。
'''人工神经网络''' ('''ANNs''') 或 '''[https://en.wikipedia.org/wiki/Synapse 联结主义] 系统''' 或许是受到构成动物[https://en.wikipedia.org/wiki/Brain 大脑]的[https://en.wikipedia.org/wiki/Neural_circuit 生物神经网络]启发的计算系统<ref>{{Cite web|url=https://www.frontiersin.org/research-topics/4817/artificial-neural-networks-as-models-of-neural-information-processing|title=Artificial Neural Networks as Models of Neural Information Processing {{!}} Frontiers Research Topic|language=en|access-date=2018-02-20}}</ref>。这种系统通过分析样本“学习”执行任务,通常不需要用任何具体的任务规则编程。例如,在[https://en.wikipedia.org/wiki/Computer_vision#Recognition 图像识别],他们可能通过分析被手动[https://en.wikipedia.org/wiki/Labeled_data 标记]成“有猫”和“无猫”的示例图像来学习识别包含猫的图像并利用结果识别其他图像中的猫。他们不需要任何关于猫的先验知识以完成这个任务,例如它们有毛,尾巴,胡须和猫科动物的脸。它们自动地从它们处理的学习材料中产生识别特征。
人工神经网络是基于一些称为[https://en.wikipedia.org/wiki/Artificial_neuron 人工神经元]的相连单元或节点,它们宽泛地模拟了一个生物的[https://en.wikipedia.org/wiki/Brain 大脑]中的[https://en.wikipedia.org/wiki/Neuron 神经元]。每个连接好像一个生物的[https://en.wikipedia.org/wiki/Brain 大脑]中的[https://en.wikipedia.org/wiki/Synapse 突触],它们可以将信号从一个人工神经元传递到另一个。一个接收信号的人工神经元可以处理它然后发信号给它连接到的额外的人工神经元。
人工神经网络是基于一些称为[https://en.wikipedia.org/wiki/Artificial_neuron 人工神经元]的相连单元或节点,它们宽泛地模拟了一个生物的[https://en.wikipedia.org/wiki/Brain 大脑]中的[https://en.wikipedia.org/wiki/Neuron 神经元]。每个连接好像一个生物的[https://en.wikipedia.org/wiki/Brain 大脑]中的[https://en.wikipedia.org/wiki/Synapse 突触],它们可以将信号从一个人工神经元传递到另一个。一个接收信号的人工神经元可以处理它然后发信号给它连接到的额外的人工神经元。
== 历史 ==
== 历史 ==
[https://en.wikipedia.org/wiki/Warren_McCulloch Warren McCulloch] 和 [https://en.wikipedia.org/wiki/Walter_Pitts Walter Pitts]构造了一个关于基于[https://en.wikipedia.org/wiki/Mathematics 数学]和[https://en.wikipedia.org/wiki/Algorithm 算法]的神经网络计算模型,称为阈值逻辑。这个模型为神经网络研究铺平了分为两边的道路。一个关注大脑中的生物学过程,而另一个关注神经网络向[https://en.wikipedia.org/wiki/Artificial_intelligence 人工智能]的应用。这个工作引领了神经网络的工作以及他们与[https://en.wikipedia.org/wiki/Finite_state_machine 有限状态机(Finite state machine)]的联系。
[https://en.wikipedia.org/wiki/Warren_McCulloch Warren McCulloch] 和 [https://en.wikipedia.org/wiki/Walter_Pitts Walter Pitts]<ref>{{cite journal|last=McCulloch|first=Warren|author2=Walter Pitts|title=A Logical Calculus of Ideas Immanent in Nervous Activity|journal=Bulletin of Mathematical Biophysics|year=1943|volume=5|pages=115–133|doi=10.1007/BF02478259|issue=4}}</ref> 构造了一个关于基于[https://en.wikipedia.org/wiki/Mathematics 数学]和[https://en.wikipedia.org/wiki/Algorithm 算法]的神经网络计算模型,称为阈值逻辑。这个模型为神经网络研究铺平了分为两边的道路。一个关注大脑中的生物学过程,而另一个关注神经网络向[https://en.wikipedia.org/wiki/Artificial_intelligence 人工智能]的应用。这个工作引领了神经网络的工作以及他们与[https://en.wikipedia.org/wiki/Finite_state_machine 有限状态机(Finite state machine)]的联系<ref>{{Cite news|url=https://www.degruyter.com/view/books/9781400882618/9781400882618-002/9781400882618-002.xml|title=Representation of Events in Nerve Nets and Finite Automata|last=Kleene|first=S.C.|date=|work=Annals of Mathematics Studies|access-date=2017-06-17|archive-url=|archive-date=|dead-url=|publisher=Princeton University Press|year=1956|issue=34|pages=3–41|language=en}}</ref>。
=== 赫布学习(Hebbian learning)===
=== 赫布学习(Hebbian learning)===
在19世纪40年代晚期,[https://en.wikipedia.org/wiki/Donald_O._Hebb D.O.Hebb]基于[https://en.wikipedia.org/wiki/Neuroplasticity 神经可塑性]的机制构造了一个学习假设,被称为[https://en.wikipedia.org/wiki/Hebbian_learning 赫布学习]。赫布学习是[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习(unsupervised learning)]。这形成了[https://en.wikipedia.org/wiki/Long_term_potentiation 长程增强效应]模型。在1948年,研究者开始将这些想法和[https://en.wikipedia.org/wiki/Unorganized_machine B类图灵机]应用到计算模型上。
在19世纪40年代晚期,[https://en.wikipedia.org/wiki/Donald_O._Hebb D.O.Hebb]<ref>{{cite book|url={{google books |plainurl=y |id=ddB4AgAAQBAJ}}|title=The Organization of Behavior|last=Hebb|first=Donald|publisher=Wiley|year=1949|isbn=978-1-135-63190-1|location=New York|pages=}}</ref> 基于[https://en.wikipedia.org/wiki/Neuroplasticity 神经可塑性]的机制构造了一个学习假设,被称为[https://en.wikipedia.org/wiki/Hebbian_learning 赫布学习]。赫布学习是[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习(unsupervised learning)]。这形成了[https://en.wikipedia.org/wiki/Long_term_potentiation 长程增强效应]模型。在1948年,研究者开始将这些想法和[https://en.wikipedia.org/wiki/Unorganized_machine B类图灵机]应用到计算模型上。
Farley 和[https://en.wikipedia.org/wiki/Wesley_A._Clark Clark]首先使用计算机器,后来称作“计算器”,来模拟赫布网络。其他神经网络计算机器被[https://en.wikipedia.org/wiki/Nathaniel_Rochester_(computer_scientist) Rochester]Holland, Habit 和 Duda创造.
Farley 和[https://en.wikipedia.org/wiki/Wesley_A._Clark Clark]<ref>{{cite journal|last=Farley|first=B.G.|author2=W.A. Clark|title=Simulation of Self-Organizing Systems by Digital Computer|journal=IRE Transactions on Information Theory|year=1954|volume=4|pages=76–84|doi=10.1109/TIT.1954.1057468|issue=4}}</ref> 首先使用计算机器,后来称作“计算器”,来模拟赫布网络。其他神经网络计算机器被[https://en.wikipedia.org/wiki/Nathaniel_Rochester_(computer_scientist) Rochester]Holland, Habit 和 Duda创造<ref>{{cite journal|last=Rochester|first=N. |author2=J.H. Holland |author3=L.H. Habit |author4=W.L. Duda|title=Tests on a cell assembly theory of the action of the brain, using a large digital computer|journal=IRE Transactions on Information Theory|year=1956|volume=2|pages=80–93|doi=10.1109/TIT.1956.1056810|issue=3}}</ref>.
[https://en.wikipedia.org/wiki/Frank_Rosenblatt Rosenblatt]创造了[https://en.wikipedia.org/wiki/Perceptron 感知机],这是一种模式识别算法。Rosenblatt 使用数学符号描述了不在基本感知中的电路,如那时无法被神经网络处理的异或电路。
[https://en.wikipedia.org/wiki/Frank_Rosenblatt Rosenblatt]<ref>{{cite journal|last=Rosenblatt|first=F.|title=The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain|journal=Psychological Review|year=1958|volume=65|pages=386–408|doi=10.1037/h0042519|pmid=13602029|issue=6|citeseerx=10.1.1.588.3775}}</ref> 创造了[https://en.wikipedia.org/wiki/Perceptron 感知机],这是一种模式识别算法。Rosenblatt 使用数学符号描述了不在基本感知中的电路,如那时无法被神经网络处理的异或电路<ref name="Werbos 1975">{{cite book|url={{google books |plainurl=y |id=z81XmgEACAAJ}}|title=Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences|last=Werbos|first=P.J.|publisher=|year=1975|isbn=|location=|pages=}}</ref>
。
1959年,[https://en.wikipedia.org/wiki/Nobel_laureate Nobel laureate][https://en.wikipedia.org/wiki/David_H._Hubel Hubel]和[https://en.wikipedia.org/wiki/Torsten_Wiesel Wiesel]在初级视皮层发现了两种类型的细胞:简单细胞(simple cell)和复杂细胞(complex cell),并基于他们的发现提出了一个生物学模型,
1959年,[https://en.wikipedia.org/wiki/Nobel_laureate Nobel laureate][https://en.wikipedia.org/wiki/David_H._Hubel Hubel]和[https://en.wikipedia.org/wiki/Torsten_Wiesel Wiesel]在初级视皮层发现了两种类型的细胞:简单细胞(simple cell)和复杂细胞(complex cell)<ref>{{cite book|url=https://books.google.com/books?id=8YrxWojxUA4C&pg=PA106|title=Brain and visual perception: the story of a 25-year collaboration|publisher=Oxford University Press US|year=2005|isbn=978-0-19-517618-6|page=106|author=David H. Hubel and Torsten N. Wiesel}}</ref>,并基于他们的发现提出了一个生物学模型,
第一个有多层的功能网络由[https://en.wikipedia.org/wiki/Alexey_Grigorevich_Ivakhnenko Ivakhnenko]和Lapa在1965年发表,它成为了[https://en.wikipedia.org/wiki/Group_method_of_data_handling 数据处理的组方法]
第一个有多层的功能网络由[https://en.wikipedia.org/wiki/Alexey_Grigorevich_Ivakhnenko Ivakhnenko]和Lapa在1965年发表,它成为了[https://en.wikipedia.org/wiki/Group_method_of_data_handling 数据处理的组方法]<ref name="SCHIDHUB2">{{cite journal|last=Schmidhuber|first=J.|year=2015|title=Deep Learning in Neural Networks: An Overview|journal=Neural Networks|volume=61|pages=85–117|arxiv=1404.7828|doi=10.1016/j.neunet.2014.09.003|pmid=25462637}}</ref><ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=Cybernetic Predicting Devices|last=Ivakhnenko|first=A. G.|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=Cybernetics and forecasting techniques|last2=Grigorʹevich Lapa|first2=Valentin|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref>
在发现了两个执行神经网络的计算机器关键问题的[https://en.wikipedia.org/wiki/Marvin_Minsky Minsky]和[https://en.wikipedia.org/wiki/Seymour_Papert Papert]研究的[https://en.wikipedia.org/wiki/Machine_learning|机器学习]后,神经网络的研究停滞了。第一个是基本感知机不能处理异或电路。第二个是计算机没有足够的处理能力来有效地处理大型神经网络需要的任务。神经网络研究减慢知道计算机达到了远远更好的处理能力。
在发现了两个执行神经网络的计算机器关键问题的[https://en.wikipedia.org/wiki/Marvin_Minsky Minsky]和[https://en.wikipedia.org/wiki/Seymour_Papert Papert]<ref>{{cite book|url={{google books |plainurl=y |id=Ow1OAQAAIAAJ}}|title=Perceptrons: An Introduction to Computational Geometry|last=Minsky|first=Marvin|first2=Seymour|publisher=MIT Press|year=1969|isbn=0-262-63022-2|location=|pages=|author2=Papert}}</ref> 研究的[https://en.wikipedia.org/wiki/Machine_learning|机器学习]后,神经网络的研究停滞了。第一个是基本感知机不能处理异或电路。第二个是计算机没有足够的处理能力来有效地处理大型神经网络需要的任务。神经网络研究减慢知道计算机达到了远远更好的处理能力。
更多的[https://en.wikipedia.org/wiki/Artificial_intelligence 人工智能]专注于[https://en.wikipedia.org/wiki/Algorithm 算法]执行的高层面(符号的)模型,以知识体现在如果-那么规则中的[https://en.wikipedia.org/wiki/Expert_system 专家系统]为特征。直到19世纪80年代末期,研究扩展到低层面(次符号的)[https://en.wikipedia.org/wiki/Machine_learning|机器学习],以知识体现在一个[https://en.wikipedia.org/wiki/Cognitive_model 认知模型]的参数中为特征。
更多的[https://en.wikipedia.org/wiki/Artificial_intelligence 人工智能]专注于[https://en.wikipedia.org/wiki/Algorithm 算法]执行的高层面(符号的)模型,以知识体现在如果-那么规则中的[https://en.wikipedia.org/wiki/Expert_system 专家系统]为特征。直到19世纪80年代末期,研究扩展到低层面(次符号的)[https://en.wikipedia.org/wiki/Machine_learning|机器学习],以知识体现在一个[https://en.wikipedia.org/wiki/Cognitive_model 认知模型]的参数中为特征。
=== 反向传播(Backpropagation) ===
=== 反向传播(Backpropagation) ===
[https://en.wikipedia.org/wiki/Paul_Werbos Werbos]的[https://en.wikipedia.org/wiki/Backpropagation 反向传播]算法重新燃起了人们对于神经网络和学习的兴趣,它有效地解决了异或问题并且更普遍地加速了多层网络的训练。反向传播通过修改每个节点的权重,反向分散了贯穿层中的误差项。
[https://en.wikipedia.org/wiki/Paul_Werbos Werbos]的[https://en.wikipedia.org/wiki/Backpropagation 反向传播]算法重新燃起了人们对于神经网络和学习的兴趣,它有效地解决了异或问题并且更普遍地加速了多层网络的训练。反向传播通过修改每个节点的权重,反向分散了贯穿层中的误差项<ref name="Werbos 1975" />
。
在19世纪80年代中期,并行分布处理以[https://en.wikipedia.org/wiki/Connectionism 联结主义]的名义变得受欢迎,[https://en.wikipedia.org/wiki/David_E._Rumelhart Rumelhart]和[https://en.wikipedia.org/wiki/James_McClelland_(psychologist) McClelland]描述了联结主义模拟神经过程的作用。
在19世纪80年代中期,并行分布处理以[https://en.wikipedia.org/wiki/Connectionism 联结主义]的名义变得受欢迎,[https://en.wikipedia.org/wiki/David_E._Rumelhart Rumelhart]和[https://en.wikipedia.org/wiki/James_McClelland_(psychologist) McClelland]描述了联结主义模拟神经过程的作用。<ref>{{cite book|url={{google books |plainurl=y |id=davmLgzusB8C}}|title=Parallel Distributed Processing: Explorations in the Microstructure of Cognition|last=Rumelhart|first=D.E|first2=James|publisher=MIT Press|year=1986|isbn=978-0-262-63110-5|location=Cambridge|pages=|author2=McClelland}}</ref>
[https://en.wikipedia.org/wiki/Support_vector_machine 支持向量机(Support vector machine)]和其他更简单的方法如[https://en.wikipedia.org/wiki/Linear_classifier 线性分类器]在机器学习中的受欢迎程度逐步超过了神经网络。然而,使用神经网络改变了一些领域,例如蛋白质结构的预测。<ref>{{cite article|id=Qian1988|title=
Predicting the secondary structure of globular proteins using neural network models. |last=Qian|first=N.|last2=Sejnowski|first2=T.J.|journal=Journal of Molecular Biology|volume=202|pages=865-884|year=1988}}</ref><ref>{{cite article|id=Rost1993|title=
Prediction of protein secondary structure at better than 70% accuracy |last=Rost|first=B.|last2=Sander|first2=C.|journal=Journal of Molecular Biology|volume=232|pages=584-599|year=1993}}</ref>
1992年[https://en.wikipedia.org/wiki/Convolutional_neural_network#Pooling_layer 最大池化]被引入帮助最小转移不变性和最大容忍性来变形,有助于3D物体识别。<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol I, pp. 576–581, June, 1992.</ref><ref name="Weng19932">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121–128, May, 1993.</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105–139, Nov. 1997.</ref>
[https://en.wikipedia.org/wiki/Geoffrey_Hinton Hinton]提出了使用连续层的二进制或潜变量实数[https://en.wikipedia.org/wiki/Restricted_Boltzmann_machine 受限玻尔兹曼机]来模拟每一层学习一种高级别表征。一旦很多层被充分学习,这种深度结构可能像[https://en.wikipedia.org/wiki/Generative_model 生成模型]一样被使用,通过在下采样(一个古老的方法)模型时从顶层特征激活处复制数据。2012年[https://en.wikipedia.org/wiki/Andrew_Ng Ng]和[https://en.wikipedia.org/wiki/Jeff_Dean_(computer_scientist) Dean]创造了一个只通过看[https://en.wikipedia.org/wiki/YouTube YouTube]视频中未标记的图像学习识别例如猫这样更高层概念的网络。
2010年,通过[https://en.wikipedia.org/wiki/Convolutional_neural_network#Pooling_layer 最大池化]训练的反向传播训练被GPU加速,显示出超过其他池化变体的性能。<ref name="Scherer2010">Dominik Scherer, Andreas C. Müller, and Sven Behnke: "[https://www.ais.uni-bonn.de/papers/icann2010_maxpool.pdf Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition]," ''In 20th International Conference Artificial Neural Networks (ICANN)'', pp. 92–101, 2010. {{doi|10.1007/978-3-642-15825-4_10}}.</ref>
[https://en.wikipedia.org/wiki/Vanishing_gradient_problem 梯度消失问题]影响使用反向传播的多层[前馈神经网络https://en.wikipedia.org/wiki/Feedforward_neural_network|前馈神经网络] 和[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络](RNN)。<ref name="HOCH19912">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991.</ref><ref name="HOCH2001">{{cite book|url={{google books |plainurl=y |id=NWOcMVA64aAC}}|title=A Field Guide to Dynamical Recurrent Networks|last=Hochreiter|first=S.|last2=et al.|date=15 January 2001|publisher=John Wiley & Sons|year=|isbn=978-0-7803-5369-5|location=|pages=|chapter=Gradient flow in recurrent nets: the difficulty of learning long-term dependencies|editor-last2=Kremer|editor-first2=Stefan C.|editor-first1=John F.|editor-last1=Kolen}}</ref> 由于误差从一层到另一层传播,它们随着层数指数级缩小,阻碍依赖这些误差的的神经元权重的调整,尤其影响深度网络。
为了解决这个问题,[https://en.wikipedia.org/wiki/J%C3%BCrgen_Schmidhuber Schmidhuber]采用了一种多层网络结构,通过[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习]每次预训练一级然后使用反向传播很好地调整<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992.</ref>。Behnke在例如图像重建和人脸定位中只依赖梯度符号。<ref>{{cite book|url=http://www.ais.uni-bonn.de/books/LNCS2766.pdf|title=Hierarchical Neural Networks for Image Interpretation.|publisher=Springer|year=2003|series=Lecture Notes in Computer Science|volume=2766|author=Sven Behnke}}</ref>
[https://en.wikipedia.org/wiki/Geoffrey_Hinton Hinton]提出了使用连续层的二进制或潜变量实数[https://en.wikipedia.org/wiki/Restricted_Boltzmann_machine 受限玻尔兹曼机]<ref name="smolensky1986">{{cite book|url=http://portal.acm.org/citation.cfm?id=104290|title=Parallel Distributed Processing: Explorations in the Microstructure of Cognition|year=1986|editors=D. E. Rumelhart, J. L. McClelland, & the PDP Research Group|volume=1|pages=194–281|chapter=Information processing in dynamical systems: Foundations of harmony theory.|last1=Smolensky|first1=P.|authorlink1=Paul Smolensky}}</ref>来模拟每一层学习一种高级别表征。一旦很多层被充分学习,这种深度结构可能像[https://en.wikipedia.org/wiki/Generative_model 生成模型]一样被使用,通过在下采样(一个古老的方法)模型时从顶层特征激活处复制数据。<ref name="hinton2006">{{cite journal|last2=Osindero|first2=S.|last3=Teh|first3=Y.|year=2006|title=A fast learning algorithm for deep belief nets|url=http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf|journal=[[Neural Computation (journal)|Neural Computation]]|volume=18|issue=7|pages=1527–1554|doi=10.1162/neco.2006.18.7.1527|pmid=16764513|last1=Hinton|first1=G. E.|authorlink1=Geoffrey Hinton}}</ref><ref>{{Cite journal|year=2009|title=Deep belief networks|url=http://www.scholarpedia.org/article/Deep_belief_networks|journal=Scholarpedia|volume=4|issue=5|pages=5947|doi=10.4249/scholarpedia.5947|pmc=|pmid=|last1=Hinton|first1=G.|bibcode=2009SchpJ...4.5947H}}</ref> 2012年[https://en.wikipedia.org/wiki/Andrew_Ng Ng]和[https://en.wikipedia.org/wiki/Jeff_Dean_(computer_scientist) Dean]创造了一个只通过看[https://en.wikipedia.org/wiki/YouTube YouTube]视频中未标记的图像学习识别例如猫这样更高层概念的网络。<ref name="ng2012">{{cite arXiv|eprint=1112.6209|first2=Jeff|last2=Dean|title=Building High-level Features Using Large Scale Unsupervised Learning|last1=Ng|first1=Andrew|year=2012|class=cs.LG}}</ref>
在训练深度神经网络中早期的挑战被成功地用无监督预训练等方法处理,与此同时可见的计算性能通过GPU和分布计算的使用提升。神经网络被部署在大规模,尤其是在图像和视觉识别问题上。这被称为“[https://en.wikipedia.org/wiki/Deep_learning 深度学习]”
在训练深度神经网络中早期的挑战被成功地用无监督预训练等方法处理,与此同时可见的计算性能通过GPU和分布计算的使用提升。神经网络被部署在大规模,尤其是在图像和视觉识别问题上。这被称为“[https://en.wikipedia.org/wiki/Deep_learning 深度学习]”
===基于硬件的设计(Hardware-based designs)===
===基于硬件的设计(Hardware-based designs)===
用于生物学模拟和[https://en.wikipedia.org/wiki/Neuromorphic_computing 神经形态计算]的计算设备在[https://en.wikipedia.org/wiki/CMOS CMOS]创建。用于很大规模[https://en.wikipedia.org/wiki/Principal_component 主成分]分析和[https://en.wikipedia.org/wiki/Convolution 卷积]的纳米元件可能创造一类新的神经计算,因为它们根本上是[https://en.wikipedia.org/wiki/Analog_signal 模拟的]而不是[https://en.wikipedia.org/wiki/Digital_data 数字的](尽管第一个实现使用数字设备)。在Schmidhuber 组的.Ciresan 和 colleagues表明,尽管有梯度消失问题,GPU使[https://en.wikipedia.org/wiki/Backpropagation 反向传播]对多层前馈神经网络更可行。
用于生物学模拟和[https://en.wikipedia.org/wiki/Neuromorphic_computing 神经形态计算]的计算设备<ref>{{cite journal | last1 = Yang | first1 = J. J. | last2 = Pickett | first2 = M. D. | last3 = Li | first3 = X. M. | last4 = Ohlberg | first4 = D. A. A. | last5 = Stewart | first5 = D. R. | last6 = Williams | first6 = R. S. | year = 2008 | title = Memristive switching mechanism for metal/oxide/metal nanodevices| url = | journal = Nat. Nanotechnol. | volume = 3 | issue = 7| pages = 429–433 | doi = 10.1038/nnano.2008.160 }}</ref>在[https://en.wikipedia.org/wiki/CMOS CMOS]创建。用于很大规模[https://en.wikipedia.org/wiki/Principal_component 主成分]分析和[https://en.wikipedia.org/wiki/Convolution 卷积]的纳米元件可能创造一类新的神经计算,因为它们根本上是[https://en.wikipedia.org/wiki/Analog_signal 模拟的]而不是[https://en.wikipedia.org/wiki/Digital_data 数字的](尽管第一个实现使用数字设备)<ref>{{cite journal | last1 = Strukov | first1 = D. B. | last2 = Snider | first2 = G. S. | last3 = Stewart | first3 = D. R. | last4 = Williams | first4 = R. S. | year = 2008 | title = The missing memristor found| url = | journal = Nature | volume = 453 | issue = 7191| pages = 80–83 | doi=10.1038/nature06932 | pmid=18451858| bibcode = 2008Natur.453...80S }}</ref>。在Schmidhuber 组的.Ciresan 和 colleagues<ref name=":3">{{Cite journal|last=Cireşan|first=Dan Claudiu|last2=Meier|first2=Ueli|last3=Gambardella|first3=Luca Maria|last4=Schmidhuber|first4=Jürgen|date=2010-09-21|title=Deep, Big, Simple Neural Nets for Handwritten Digit Recognition|url=http://www.mitpressjournals.org/doi/10.1162/NECO_a_00052|journal=Neural Computation|volume=22|issue=12|pages=3207–3220|doi=10.1162/neco_a_00052|issn=0899-7667}}</ref>表明,尽管有梯度消失问题,GPU使[https://en.wikipedia.org/wiki/Backpropagation 反向传播]对多层前馈神经网络更可行。
=== 竞赛 ===
=== 竞赛 ===
在2009~2012年间,[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络]和[https://en.wikipedia.org/wiki/J%C3%BCrgen_Schmidhuber Schmidhuber]的研究组发展的深度前馈神经网络赢得了八个在[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]和[https://en.wikipedia.org/wiki/Machine_learning|机器学习]的国际竞赛。例如,[https://en.wikipedia.org/wiki/Alex_Graves_(computer_scientist) Graves]的双向和多维[https://en.wikipedia.org/wiki/Long_short-term_memory 长短期记忆](LSTM)在2009[https://en.wikipedia.org/wiki/International_Conference_on_Document_Analysis_and_Recognition 文件分析和识别国际会议]上的连笔手写识别中赢得了三个比赛,而没有任何关于要学习的那三种语言的先验知识。
在2009~2012年间,[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络]和[https://en.wikipedia.org/wiki/J%C3%BCrgen_Schmidhuber Schmidhuber]的研究组发展的深度前馈神经网络赢得了八个在[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]和[https://en.wikipedia.org/wiki/Machine_learning|机器学习]<ref>[http://www.kurzweilai.net/how-bio-inspired-deep-learning-keeps-winning-competitions 2012 Kurzweil AI Interview] with [[Jürgen Schmidhuber]] on the eight competitions won by his Deep Learning team 2009–2012</ref><ref>{{Cite web|url=http://www.kurzweilai.net/how-bio-inspired-deep-learning-keeps-winning-competitions|title=How bio-inspired deep learning keeps winning competitions {{!}} KurzweilAI|last=|first=|date=|website=www.kurzweilai.net|language=en-US|archive-url=|archive-date=|dead-url=|access-date=2017-06-16}}</ref>的国际竞赛。例如,[https://en.wikipedia.org/wiki/Alex_Graves_(computer_scientist) Graves]的双向和多维[https://en.wikipedia.org/wiki/Long_short-term_memory 长短期记忆](LSTM)<ref>Graves, Alex; and Schmidhuber, Jürgen; ''[http://www.idsia.ch/~juergen/nips2009.pdf Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks]'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), 7–10 December 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552.
</ref><ref name="graves 855" /><ref name="graves20093">{{Cite journal|last2=Schmidhuber|first2=Jürgen|date=2009|editor-last=Bengio|editor-first=Yoshua|title=Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks|url=https://papers.nips.cc/paper/3449-offline-handwriting-recognition-with-multidimensional-recurrent-neural-networks|journal=Neural Information Processing Systems (NIPS) Foundation|volume=|pages=545–552|via=|editor-last2=Schuurmans|editor-first2=Dale|editor-last3=Lafferty|editor-first3=John|editor-last4=Williams|editor-first4=Chris editor-K. I.|editor-last5=Culotta|editor-first5=Aron|last1=Graves|first1=Alex}}</ref><ref>{{Cite journal|last=Graves|first=A.|last2=Liwicki|first2=M.|last3=Fernández|first3=S.|last4=Bertolami|first4=R.|last5=Bunke|first5=H.|last6=Schmidhuber|first6=J.|date=May 2009|title=A Novel Connectionist System for Unconstrained Handwriting Recognition|url=http://ieeexplore.ieee.org/document/4531750/|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=31|issue=5|pages=855–868|doi=10.1109/tpami.2008.137|issn=0162-8828}}</ref>在2009[https://en.wikipedia.org/wiki/International_Conference_on_Document_Analysis_and_Recognition 文件分析和识别国际会议]上的连笔手写识别中赢得了三个比赛,而没有任何关于要学习的那三种语言的先验知识。<ref name="graves20093"/><ref name="graves 855">{{cite journal|last2=Liwicki|first2=M.|last3=Fernandez|first3=S.|last4=Bertolami|first4=R.|last5=Bunke|first5=H.|last6=Schmidhuber|first6=J.|year=2009|title=A Novel Connectionist System for Improved Unconstrained Handwriting Recognition|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=31|issue=5|pages=855–868|doi=10.1109/tpami.2008.137|last1=Graves|first1=A.| url = http://www.idsia.ch/~juergen/tpami_2008.pdf | format = PDF}}</ref>
Ciresan 和同事赢得了[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]比赛,包括IJCNN2011交通信号识别比赛,ISBI2012电子显微镜栈中的神经结构分割挑战和其他比赛。他们的神经网络是第一个在基准测试数据集中达到能挑战甚至超过人类表现的模式识别模型。这些基准数据集例如交通信号识别(ijcnn2012)或者[https://en.wikipedia.org/wiki/MNIST_database MNIST手写数字问题]
Ciresan 和同事赢得了[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]比赛,包括IJCNN2011交通信号识别比赛<ref name=":72">{{Cite journal|last=Cireşan|first=Dan|last2=Meier|first2=Ueli|last3=Masci|first3=Jonathan|last4=Schmidhuber|first4=Jürgen|date=August 2012|title=Multi-column deep neural network for traffic sign classification|url=http://www.sciencedirect.com/science/article/pii/S0893608012000524|journal=Neural Networks|series=Selected Papers from IJCNN 2011|volume=32|pages=333–338|doi=10.1016/j.neunet.2012.02.023}}</ref>,ISBI2012叠加电子显微镜中的神经结构分割挑战<ref name=":8"/>和其他比赛。他们的神经网络是第一个在基准测试数据集中达到能挑战甚至超过人类表现<ref name=":92">{{Cite journal|last=Ciresan|first=Dan|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|date=June 2012|title=Multi-column deep neural networks for image classification|url=http://ieeexplore.ieee.org/document/6248110/|journal=2012 IEEE Conference on Computer Vision and Pattern Recognition|volume=|pages=3642–3649|doi=10.1109/cvpr.2012.6248110|via=|isbn=978-1-4673-1228-8|arxiv=1202.2745}}</ref>的模式识别模型。这些基准数据集例如交通信号识别(ijcnn2012)或者[https://en.wikipedia.org/wiki/MNIST_database MNIST手写数字问题]
研究人员演示了深度神经网络接口下的[https://en.wikipedia.org/wiki/Hidden_Markov_model 隐式马尔科夫模型],它依赖上下文定义神经网络输出层的状态,可以降低在大量词汇语音识别——例如语音搜索——中的误差。【?】
研究人员演示了深度神经网络接口下的[https://en.wikipedia.org/wiki/Hidden_Markov_model 隐式马尔科夫模型],它依赖上下文定义神经网络输出层的状态,可以降低在大量词汇语音识别——例如语音搜索——中的误差。【?】
这种方法基于GPU的实现<ref name=":6">{{Cite journal|last=Ciresan|first=D. C.|last2=Meier|first2=U.|last3=Masci|first3=J.|last4=Gambardella|first4=L. M.|last5=Schmidhuber|first5=J.|date=2011|editor-last=|title=Flexible, High Performance Convolutional Neural Networks for Image Classification|url=http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|journal=International Joint Conference on Artificial Intelligence|volume=|pages=|doi=10.5591/978-1-57735-516-8/ijcai11-210|via=}}</ref>赢得了很多模式识别竞赛,包括IJCNN2011交通信号识别比赛<ref name=":72"/>,ISBI2012叠加电子显微镜中的神经结构分割挑战<ref name=":8">{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last=Ciresan|first=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Juergen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.}}</ref>和[https://en.wikipedia.org/wiki/ImageNet_Competition ImageNet竞赛]<ref name="krizhevsky2012">{{cite journal|last2=Sutskever|first2=Ilya|last3=Hinton|first3=Geoffry|date=2012|title=ImageNet Classification with Deep Convolutional Neural Networks|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|last1=Krizhevsky|first1=Alex}}</ref> 以及其他比赛。
被[https://en.wikipedia.org/wiki/Simple_cell 简单]和[https://en.wikipedia.org/wiki/Complex_cell 复杂细胞]启发的,与[https://en.wikipedia.org/wiki/Neocognitron 新认知机]相似的深度的高度非线性神经结构和“标准视觉结构”,被Hinton提出的无监督方法预训练。他实验室的一个团队赢得了一个2012年的竞赛,这个竞赛由[https://en.wikipedia.org/wiki/Merck_%26_Co. Merck]资助来设计可以帮助找到能识别新药物分子的软件。
被[https://en.wikipedia.org/wiki/Simple_cell 简单]和[https://en.wikipedia.org/wiki/Complex_cell 复杂细胞]启发的,与[https://en.wikipedia.org/wiki/Neocognitron 新认知机]<ref name="K. Fukushima. Neocognitron 1980">{{cite journal|year=1980|title=Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position|journal=Biological Cybernetics|volume=36|issue=4|pages=93–202|doi=10.1007/BF00344251|pmid=7370364|author=Fukushima, K.}}</ref> 相似的深度的高度非线性神经结构和“标准视觉结构”<ref>{{cite journal|last2=Poggio|first2=T|year=1999|title=Hierarchical models of object recognition in cortex|journal=Nature Neuroscience|volume=2|issue=11|pages=1019–1025|doi=10.1038/14819|last1=Riesenhuber|first1=M}}</ref>,被Hinton提出的无监督方法预训练<ref name=":1">{{Cite journal|last=Hinton|first=Geoffrey|date=2009-05-31|title=Deep belief networks|url=http://www.scholarpedia.org/article/Deep_belief_networks|journal=Scholarpedia|language=en|volume=4|issue=5|pages=5947|doi=10.4249/scholarpedia.5947|issn=1941-6016|bibcode=2009SchpJ...4.5947H}}</ref><ref name="hinton2006" />。他实验室的一个团队赢得了一个2012年的竞赛,这个竞赛由[https://en.wikipedia.org/wiki/Merck_%26_Co. Merck]资助来设计可以帮助找到能识别新药物分子的软件。<ref>{{cite news|url=https://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html|title=Scientists See Promise in Deep-Learning Programs|last=Markoff|first=John|date=November 23, 2012|author=|newspaper=New York Times}}</ref>
=== 卷积网络(Convolutional networks) ===
=== 卷积网络(Convolutional networks) ===
自2011起,深度学习前馈网络的艺术状态在卷积层和最大池化层<ref name=":6" /><ref name="martines2013">{{cite journal|last2=Bengio|first2=Y.|last3=Yannakakis|first3=G. N.|year=2013|title=Learning Deep Physiological Models of Affect|url=|journal=IEEE Computational Intelligence|volume=8|issue=2|pages=20–33|doi=10.1109/mci.2013.2247823|last1=Martines|first1=H.}}</ref>之间切换,位于几层全连接或稀疏连接层和一层最终分类层之上。学习通常不需要非监督预学习。
这种监督深度学习方法第一次达到在某些任务中能挑战人类表现的水平。
这种监督深度学习方法第一次达到在某些任务中能挑战人类表现的水平。<ref name=":92"/>
ANN能够保证平移不变形来处理在大型聚类场景中的小和大的自然物体,仅当不变性扩展超过平移,对于所有ANN学习的概念如位置,类型(物体分类标记),大小,亮度等。
ANN能够保证平移不变形来处理在大型聚类场景中的小和大的自然物体,仅当不变性扩展超过平移,对于所有ANN学习的概念如位置,类型(物体分类标记),大小,亮度等。
这被称为启发式网络 (DNs) 具体实现有哪里-什么网络(Where-What Networks), WWN-1 (2008)到 WWN-7 (2013).
这被称为启发式网络 (DNs)<ref name="Weng2011">J. Weng, "[http://www.cse.msu.edu/~weng/research/WhyPass-Weng-NI-2011.pdf Why Have We Passed 'Neural Networks Do not Abstract Well'?]," ''Natural Intelligence: the INNS Magazine'', vol. 1, no.1, pp. 13–22, 2011.</ref> 具体实现有哪里-什么网络(Where-What Networks), WWN-1 (2008)<ref name="Weng08">Z. Ji, J. Weng, and D. Prokhorov, "[http://www.cse.msu.edu/~weng/research/ICDL08_0077.pdf Where-What Network 1: Where and What Assist Each Other Through Top-down Connections]," ''Proc. 7th International Conference on Development and Learning (ICDL'08)'', Monterey, CA, Aug. 9–12, pp. 1–6, 2008.</ref>到 WWN-7 (2013).<ref name="Weng13">X. Wu, G. Guo, and J. Weng, "[http://www.cse.msu.edu/~weng/research/WWN7-Wu-ICBM-2013.pdf Skull-closed Autonomous Development: WWN-7 Dealing with Scales]," ''Proc. International Conference on Brain-Mind'', July 27–28, East Lansing, Michigan, pp. 1–9, 2013.</ref>
==模型==
==模型==
一个“人工神经网络”是一个称为[https://en.wikipedia.org/wiki/Artificial_neurons 人工神经元]的简单元素的网络,它们接收输入,根据输入改变内部状态(“激活”),然后依靠输入和激活产生输出,通过连接某些神经元的输出到其他神经元的输入的“网络”形式构成了一个[https://en.wikipedia.org/wiki/Directed_graph 有向的][https://en.wikipedia.org/wiki/Weighted_graph 有权图]。权重和[https://en.wikipedia.org/wiki/Activation_function 计算激活的函数]可以被称为“学习”的过程改变,这被[https://en.wikipedia.org/wiki/Learning_rule 学习规则]控制。
一个“人工神经网络”是一个称为[https://en.wikipedia.org/wiki/Artificial_neurons 人工神经元]的简单元素的网络,它们接收输入,根据输入改变内部状态(“激活”),然后依靠输入和激活产生输出,通过连接某些神经元的输出到其他神经元的输入的“网络”形式构成了一个[https://en.wikipedia.org/wiki/Directed_graph 有向的][https://en.wikipedia.org/wiki/Weighted_graph 有权图]。权重和[https://en.wikipedia.org/wiki/Activation_function 计算激活的函数]可以被称为“学习”的过程改变,这被[https://en.wikipedia.org/wiki/Learning_rule 学习规则]控制。<ref name=Zell1994ch5.2>{{cite book |last=Zell |first=Andreas |year=1994 |title=Simulation Neuronaler Netze |trans-title=Simulation of Neural Networks |language=German |edition=1st |publisher=Addison-Wesley |chapter=chapter 5.2 |isbn=3-89319-554-8}}</ref>
===人工神经网络的组成部分(Components of an artificial neural network)===
===人工神经网络的组成部分(Components of an artificial neural network)===
====神经元(Neurons)====
====神经元(Neurons)====
一个有标记<math>{j}</math> 的神经元从前驱神经元接收输入 <math>{p_j}(t)</math> ,这些前驱由下面的部分组成:
一个有标记<math>{j}</math> 的神经元从前驱神经元接收输入 <math>{p_j}(t)</math> ,这些前驱由下面的部分组成:<ref name=Zell1994ch5.2 />
* 一个''激活'' <math>{{a_j}(t)}</math>, 取决于一个离散时间参数,
* 一个''激活'' <math>{{a_j}(t)}</math>, 取决于一个离散时间参数,
====连接和权重(Connections and weights)====
====连接和权重(Connections and weights)====
网络由连接组成,每个连接传递一个神经元的输出 <math>{i}</math> 到一个神经元的输入 <math>{j}</math>. 从这个角度来说, <math>{i}</math> 是 <math>{j}</math> 的前驱, <math>{j}</math> 是 <math>{i}</math> 的后继.每个连接被赋予一个权重 <math>{w_{ij}}</math>.
网络由连接组成,每个连接传递一个神经元的输出 <math>{i}</math> 到一个神经元的输入 <math>{j}</math>. 从这个角度来说, <math>{i}</math> 是 <math>{j}</math> 的前驱, <math>{j}</math> 是 <math>{i}</math> 的后继.每个连接被赋予一个权重 <math>{w_{ij}}</math>.<ref name=Zell1994ch5.2 />有时一个偏置项加在输入的总权重和上,用作变化激活函数的阈值。<ref name="Abbod2007">{{cite journal|year=2007|title=Application of Artificial Intelligence to the Management of Urological Cancer|url=https://www.sciencedirect.com/science/article/pii/S0022534707013936|journal=The Journal of Urology|volume=178|issue=4|pages=1150-1156|doi=10.1016/j.juro.2007.05.122|last1=Abbod|first1=Maysam F}}</ref>.
====传播函数(Propagation function)====
====传播函数(Propagation function)====
“传播函数”计算“从前驱神经元的输出<math>o_i(t)</math>到神经元 <math>{j}</math>的输入”<math>p_j(t)</math>通常有这种形式:
“传播函数”计算“从前驱神经元的输出<math>o_i(t)</math>到神经元 <math>{j}</math>的输入”<math>p_j(t)</math>通常有这种形式:<ref name=Zell1994ch5.2 />
: <math> {p_j}(t) = {\sum_{i}} {o_i}(t) {w_{ij}} </math>
: <math> {p_j}(t) = {\sum_{i}} {o_i}(t) {w_{ij}} </math>
当偏置值加在函数上时,上面的形式变成下面的:<ref name="DAWSON1998">{{cite journal|year=1998|title=An artificial neural network approach to rainfall-runoff modelling|url=https://www.tandfonline.com/doi/abs/10.1080/02626669809492102|journal=Hydrological Sciences Journal|volume=43|issue=1|pages=47-66|doi=10.1080/02626669809492102|last1=DAWSON|first1=CHRISTIAN W}}</ref>
: <math> {p_j}(t) = {\sum_{i}} {o_i}(t) {w_{ij}}+ {w_{0j}} </math>,其中<math>{w_{0j}}</math>是偏置。
====学习规则(Learning rule)====
====学习规则(Learning rule)====
“学习规则”是一个改变神经网络参数的规则或算法,以便于对网络给定的输入产生偏好的输出。这个学习过程 改变网络中的变量权重和阈值。
“学习规则”是一个改变神经网络参数的规则或算法,以便于对网络给定的输入产生偏好的输出。这个学习过程 改变网络中的变量权重和阈值。<ref name=Zell1994ch5.2 />
===作为函数的神经网络(Neural networks as functions)===
===作为函数的神经网络(Neural networks as functions)===
神经网络模型可以被看成简单的数学模型,定义为一个函数<math>\textstyle f : X \rightarrow Y </math> 或者是一个 <math>\textstyle X</math> 上或 <math>\textstyle X</math> 和<math>\textstyle Y</math>上的分布。有时模型与一个特定学习规则紧密联系。短语“ANN模型”的通常使用确实是这种函数的“类”的定义(类的成员被不同参数,连接权重或结构的细节如神经元数量或他们的连接获得)
神经网络模型可以被看成简单的数学模型,定义为一个函数<math>\textstyle f : X \rightarrow Y </math> 或者是一个 <math>\textstyle X</math> 上或 <math>\textstyle X</math> 和<math>\textstyle Y</math>上的分布。有时模型与一个特定学习规则紧密联系。短语“ANN模型”的通常使用确实是这种函数的“类”的定义(类的成员被不同参数,连接权重或结构的细节如神经元数量或他们的连接获得)
数学上,一个神经元的网络函数 <math>\textstyle f(x)</math> 被定义为其他函数<math>{{g_i}(x)}</math>的组合,它可以之后被分解为其他函数。这可以被方便地用一个网络结构表示,它有箭头描述函数间的依赖关系。一类广泛应用的组合是“非线性加权和”, <math>\textstyle f(x) = K \left(\sum_i w_i g_i(x)\right) </math>, 其中 <math>\textstyle K</math> (通常称为[https://en.wikipedia.org/wiki/Activation_function 激活函数]) 是某种预定义的函数,如[https://en.wikipedia.org/wiki/Hyperbolic_function#Standard_analytic_expressions 双曲正切]或[https://en.wikipedia.org/wiki/Sigmoid_function 双弯曲函数] 或[https://en.wikipedia.org/wiki/Softmax_function 柔性最大值传输函数]或[https://en.wikipedia.org/wiki/ReLU 线性整流函数]。激活函数最重要的特点是它随输入值变化提供一个平滑的过渡,例如,在输入中一个小的变化产生输出中一个小的变化 。下面指的是一组函数 <math>\textstyle g_i</math>作为[https://en.wikipedia.org/wiki/Vector_(mathematics_and_physics) 向量] <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.
数学上,一个神经元的网络函数 <math>\textstyle f(x)</math> 被定义为其他函数<math>{{g_i}(x)}</math>的组合,它可以之后被分解为其他函数。这可以被方便地用一个网络结构表示,它有箭头描述函数间的依赖关系。一类广泛应用的组合是“非线性加权和”, <math>\textstyle f(x) = K \left(\sum_i w_i g_i(x)\right) </math>, 其中 <math>\textstyle K</math> (通常称为[https://en.wikipedia.org/wiki/Activation_function 激活函数]<ref>{{cite web|url=http://www.cse.unsw.edu.au/~billw/mldict.html#activnfn|title=The Machine Learning Dictionary}}</ref>) 是某种预定义的函数,如[https://en.wikipedia.org/wiki/Hyperbolic_function#Standard_analytic_expressions 双曲正切]或[https://en.wikipedia.org/wiki/Sigmoid_function 双弯曲函数] 或[https://en.wikipedia.org/wiki/Softmax_function 柔性最大值传输函数]或[https://en.wikipedia.org/wiki/ReLU 线性整流函数]。激活函数最重要的特点是它随输入值变化提供一个平滑的过渡,例如,在输入中一个小的变化产生输出中一个小的变化 。下面指的是一组函数 <math>\textstyle g_i</math>作为[https://en.wikipedia.org/wiki/Vector_(mathematics_and_physics) 向量] <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.
[[File:Ann_dependency_(graph).svg.png|150px|ANN依赖图]]
[[File:Ann_dependency_(graph).svg.png|150px|ANN依赖图]]
一个【深度神经网络】可以使用标准反向传播算法判别地训练。反向传播是一种计算关于ANN中权重的【损失函数】(产生与给定状态相联系的损失)【梯度】的方法。
一个【深度神经网络】可以使用标准反向传播算法判别地训练。反向传播是一种计算关于ANN中权重的【损失函数】(产生与给定状态相联系的损失)【梯度】的方法。
连续反向传播的基础<ref name="SCHIDHUB2"/><ref name="scholarpedia2">{{cite journal|year=2015|title=Deep Learning|url=http://www.scholarpedia.org/article/Deep_Learning|journal=Scholarpedia|volume=10|issue=11|page=32832|doi=10.4249/scholarpedia.32832|last1=Schmidhuber|first1=Jürgen|authorlink=Jürgen Schmidhuber|bibcode=2015SchpJ..1032832S}}</ref><ref name=":5">{{Cite journal|last=Dreyfus|first=Stuart E.|date=1990-09-01|title=Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure|url=http://arc.aiaa.org/doi/10.2514/3.25422|journal=Journal of Guidance, Control, and Dynamics|volume=13|issue=5|pages=926–928|doi=10.2514/3.25422|issn=0731-5090|bibcode=1990JGCD...13..926D}}</ref><ref name="mizutani2000">Eiji Mizutani, [[Stuart Dreyfus]], Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. [http://queue.ieor.berkeley.edu/People/Faculty/dreyfus-pubs/ijcnn2k.pdf Online]</ref> 由【Kelley】<ref name="kelley1960">{{cite journal|year=1960|title=Gradient theory of optimal flight paths|url=http://arc.aiaa.org/doi/abs/10.2514/8.5282?journalCode=arsj|journal=Ars Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282|last1=Kelley|first1=Henry J.|authorlink=Henry J. Kelley}}</ref> 在1960和【Bryson】在1961<ref name="bryson1961">[[Arthur E. Bryson]] (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications.</ref>使用【动态编程】的原则从【控制论】引出。1962,【Dreyfus】发表了只基于【链式法则】<ref name="dreyfus1962">{{cite journal|year=1962|title=The numerical solution of variational problems|url=https://www.researchgate.net/publication/256244271_The_numerical_solution_of_variational_problems|journal=Journal of Mathematical Analysis and Applications|volume=5|issue=1|pages=30–45|doi=10.1016/0022-247x(62)90004-5|last1=Dreyfus|first1=Stuart|authorlink=Stuart Dreyfus}}</ref>的更简单的衍生。1969,Bryson和【Ho】把它描述成一种多级动态系统优化方法。<ref>{{cite book|url={{google books |plainurl=y |id=8jZBksh-bUMC|page=578}}|title=Artificial Intelligence A Modern Approach|last2=Norvig|first2=Peter|publisher=Prentice Hall|year=2010|isbn=978-0-13-604259-4|page=578|quote=The most popular method for learning in multilayer networks is called Back-propagation.|author-link2=Peter Norvig|first1=Stuart J.|last1=Russell|author-link1=Stuart J. Russell}}</ref><ref name="Bryson1969">{{cite book|url={{google books |plainurl=y |id=1bChDAEACAAJ|page=481}}|title=Applied Optimal Control: Optimization, Estimation and Control|last=Bryson|first=Arthur Earl|publisher=Blaisdell Publishing Company or Xerox College Publishing|year=1969|page=481}}</ref>1970,【Linnainmaa】最终发表了嵌套【可微函数】<ref name="lin1970">[[Seppo Linnainmaa]] (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6–7.</ref><ref name="lin1976">{{cite journal|year=1976|title=Taylor expansion of the accumulated rounding error|url=|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|last1=Linnainmaa|first1=Seppo|authorlink=Seppo Linnainmaa}}</ref> 的离散连接网络【自动差分机】(AD)的通用方法。这对应于反向传播的现代版本,它在网络稀疏时仍有效<ref name="SCHIDHUB2"/><ref name="scholarpedia2"/><ref name="grie2012">{{Cite journal|last=Griewank|first=Andreas|date=2012|title=Who Invented the Reverse Mode of Differentiation?|url=http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|journal=Documenta Matematica, Extra Volume ISMP|volume=|pages=389–400|via=}}</ref><ref name="grie2008">{{cite book|url={{google books |plainurl=y |id=xoiiLaRxcbEC}}|title=Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition|last2=Walther|first2=Andrea|publisher=SIAM|year=2008|isbn=978-0-89871-776-1|first1=Andreas|last1=Griewank}}</ref>。1973<ref name="dreyfus1973">{{cite journal|year=1973|title=The computational solution of optimal control problems with time lag|url=|journal=IEEE Transactions on Automatic Control|volume=18|issue=4|pages=383–385|doi=10.1109/tac.1973.1100330|last1=Dreyfus|first1=Stuart|authorlink=Stuart Dreyfus}}</ref> ,Dreyfus使用反向传播适配与误差梯度成比例的控制器【参数】。1974,【Werbos】提出将这个规则应用到ANN上的可能<ref name="werbos1974">[[Paul Werbos]] (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University.</ref>,1982他将LInnainmaa的AD方法以今天广泛使用的方式应用到神经网络上<ref name="scholarpedia2"/><ref name="werbos1982">{{Cite book|url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|title=System modeling and optimization|last=Werbos|first=Paul|authorlink=Paul Werbos|publisher=Springer|year=1982|isbn=|location=|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis}}</ref>。1986, 【Rumelhart】, Hinton和【Williams】注意到这种方法可以产生有用的神经网络隐藏层到来数据的内部表征。<ref name=":4">{{Cite journal|last=Rumelhart|first=David E.|last2=Hinton|first2=Geoffrey E.|last3=Williams|first3=Ronald J.|title=Learning representations by back-propagating errors|url=http://www.nature.com/articles/Art323533a0|journal=Nature|volume=323|issue=6088|pages=533–536|doi=10.1038/323533a0|year=1986|bibcode=1986Natur.323..533R}}</ref> 1933,Wan第一个<ref name="SCHIDHUB2"/> 用反向传播赢得国际模式识别竞赛。<ref name="wan1993">Eric A. Wan (1993). "Time series prediction by using a connectionist network with internal delay lines." In ''Proceedings of the Santa Fe Institute Studies in the Sciences of Complexity'', '''15''': p. 195. Addison-Wesley Publishing Co.</ref>
反向传播的权重更新可以通过【随机梯度下降】完成,使用下面的等式:
反向传播的权重更新可以通过【随机梯度下降】完成,使用下面的等式:
: <math> w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} +\xi(t) </math>
: <math> w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} +\xi(t) </math>
其中<math> \eta </math> 是学习速率, <math> {C} </math>是损失函数, <math>\xi(t)</math> 是一个随机项。损失函数的选择由如学习类型(监督,无监督,强化等等)和【激活函数】等因素决定。例如,当在【多类分类】问题上使用监督学习,激活函数和损失函数的通常选择分别是【柔性最大值传输函数】和【交叉熵】函数。柔性最大值传输函数定义为 <math> p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} </math> 其中 <math> p_j </math> 代表类的概率(单元<math> {j} </math>的输出), <math> x_j </math> 和 <math> x_k </math> 分别代表单元<math> {j} </math>和<math> k </math>在相同程度上的总输入。交叉熵定义为 <math> {C} = -\sum_j d_j \log(p_j) </math> 其中 <math> d_j </math> 代表输出单元<math> {j} </math> 的目标概率, <math> p_j </math> 是应用激活函数后 <math> {j} </math>的输出概率。
其中<math> \eta </math> 是学习速率, <math> {C} </math>是损失函数, <math>\xi(t)</math> 是一个随机项。损失函数的选择由如学习类型(监督,无监督,强化等等)和【激活函数】等因素决定。例如,当在【多类分类】问题上使用监督学习,激活函数和损失函数的通常选择分别是【柔性最大值传输函数】和【交叉熵】函数。柔性最大值传输函数定义为 <math> p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} </math> 其中 <math> p_j </math> 代表类的概率(单元<math> {j} </math>的输出), <math> x_j </math> 和 <math> x_k </math> 分别代表单元<math> {j} </math>和<math> k </math>在相同程度上的总输入。交叉熵定义为 <math> {C} = -\sum_j d_j \log(p_j) </math> 其中 <math> d_j </math> 代表输出单元<math> {j} </math> 的目标概率, <math> p_j </math> 是应用激活函数后 <math> {j} </math>的输出概率。<ref>{{Cite journal|last=Hinton|first=G.|last2=Deng|first2=L.|last3=Yu|first3=D.|last4=Dahl|first4=G. E.|last5=Mohamed|first5=A. r|last6=Jaitly|first6=N.|last7=Senior|first7=A.|last8=Vanhoucke|first8=V.|last9=Nguyen|first9=P.|date=November 2012|title=Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups|url=http://ieeexplore.ieee.org/document/6296526/|journal=IEEE Signal Processing Magazine|volume=29|issue=6|pages=82–97|doi=10.1109/msp.2012.2205597|issn=1053-5888|bibcode=2012ISPM...29...82H}}</ref>
这可以被用于以二元掩码的形式输出目标【包围盒】。它们也可以用于多元回归来增加局部精度。基于DNN的回归除作为一个好的分类器外还可以学习捕获几何信息特征。它们免除了显式模型部分和它们的关系。这有助于扩大可以被学习的目标种类。模型由多层组成,每层有一个【线性整流单元】作为它的非线性变换激活函数。一些层是卷积的,其他层是全连接的。每个卷积层有一个额外的最大池化。这个网络被训练【最小化】【''L''<sup>2</sup> 误差】
这可以被用于以二元掩码的形式输出目标【包围盒】。它们也可以用于多元回归来增加局部精度。基于DNN的回归除作为一个好的分类器外还可以学习捕获几何信息特征。它们免除了显式模型部分和它们的关系。这有助于扩大可以被学习的目标种类。模型由多层组成,每层有一个【线性整流单元】作为它的非线性变换激活函数。一些层是卷积的,其他层是全连接的。每个卷积层有一个额外的最大池化。这个网络被训练【最小化】【''L''<sup>2</sup> 误差】
来预测整个训练集范围的掩码包含代表掩码的包围盒。【?】
来预测整个训练集范围的掩码包含代表掩码的包围盒。【?】
反向传播的替代包括【极端学习机】<ref>{{cite journal|last2=Zhu|first2=Qin-Yu|last3=Siew|first3=Chee-Kheong|year=2006|title=Extreme learning machine: theory and applications|url=|journal=Neurocomputing|volume=70|issue=1|pages=489–501|doi=10.1016/j.neucom.2005.12.126|last1=Huang|first1=Guang-Bin}}</ref>,不使用回溯法<ref>{{cite arXiv|eprint=1507.07680|first=Yann|last=Ollivier|first2=Guillaume|last2=Charpiat|title=Training recurrent networks without backtracking|year=2015|class=cs.NE}}</ref>训练的“无权重”<ref>ESANN. 2009</ref><ref name="RBMTRAIN">{{Cite journal|last=Hinton|first=G. E.|date=2010|title=A Practical Guide to Training Restricted Boltzmann Machines|url=https://www.researchgate.net/publication/221166159_A_brief_introduction_to_Weightless_Neural_Systems|journal=Tech. Rep. UTML TR 2010-003,|volume=|pages=|via=}}</ref>网络<ref>{{cite journal|year=2013|title=The no-prop algorithm: A new learning algorithm for multilayer neural networks|url=|journal=Neural Networks|volume=37|issue=|pages=182–188|doi=10.1016/j.neunet.2012.09.020|last1=Widrow|first1=Bernard|display-authors=etal}}</ref>,和【非联结主义神经网络】
===学习范式(Learning paradigms)===
===学习范式(Learning paradigms)===
==== 监督学习(Supervised learning) ====
==== 监督学习(Supervised learning) ====
[https://en.wikipedia.org/wiki/Supervised_learning 监督学习]使用一组例子对<math>{(x, y)}, {x \in X}, {y \in Y}</math>,目标是在允许的函数类中找到一个函数 <math> f : X \rightarrow Y </math> 匹配例子。 换言之,我们希望推断数据隐含的映射;损失函数与我们的映射和数据间的不匹配相关,它隐含了关于问题域的先验知识。
[https://en.wikipedia.org/wiki/Supervised_learning 监督学习]使用一组例子对<math>{(x, y)}, {x \in X}, {y \in Y}</math>,目标是在允许的函数类中找到一个函数 <math> f : X \rightarrow Y </math> 匹配例子。 换言之,我们希望推断数据隐含的映射;损失函数与我们的映射和数据间的不匹配相关,它隐含了关于问题域的先验知识。<ref>{{Cite journal|last=Ojha|first=Varun Kumar|last2=Abraham|first2=Ajith|last3=Snášel|first3=Václav|date=2017-04-01|title=Metaheuristic design of feedforward neural networks: A review of two decades of research|url=http://www.sciencedirect.com/science/article/pii/S0952197617300234|journal=Engineering Applications of Artificial Intelligence|volume=60|pages=97–116|doi=10.1016/j.engappai.2017.01.013}}</ref>
通常使用的损失函数是[https://en.wikipedia.org/wiki/Mean-squared_error 均方误差],它对所有的例子对在网络输出 <math> f(x)</math>和目标值<math> y</math>之间最小化平均平方误差。最小化损失对一类叫做[https://en.wikipedia.org/wiki/Multilayer_perceptron 多层感知机](MLP)的一类神经网络使用了[https://en.wikipedia.org/wiki/Gradient_descent 梯度下降],产生了训练神经网络的[https://en.wikipedia.org/wiki/Backpropagation 反向传播算法]。
通常使用的损失函数是[https://en.wikipedia.org/wiki/Mean-squared_error 均方误差],它对所有的例子对在网络输出 <math> f(x)</math>和目标值<math> y</math>之间最小化平均平方误差。最小化损失对一类叫做[https://en.wikipedia.org/wiki/Multilayer_perceptron 多层感知机](MLP)的一类神经网络使用了[https://en.wikipedia.org/wiki/Gradient_descent 梯度下降],产生了训练神经网络的[https://en.wikipedia.org/wiki/Backpropagation 反向传播算法]。
监督学习范式中的任务是[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别](也被称为分类)和[https://en.wikipedia.org/wiki/Regression_analysis 回归](也被称为函数逼近)。监督学习范式也可适用于序列数据(例如手写,语音和手势识别)。这可以被认为是和“老师”学习,以一个根据迄今为止得到解的质量提供连续反馈的函数形式。
监督学习范式中的任务是[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别](也被称为分类)和[https://en.wikipedia.org/wiki/Regression_analysis 回归](也被称为函数逼近)。监督学习范式也可适用于序列数据(例如手写,语音和手势识别)。这可以被认为是和“老师”学习,以一个根据迄今为止得到解的质量提供连续反馈的函数形式。
更正式地说,环境被建模成[https://en.wikipedia.org/wiki/Markov_decision_process 马尔科夫决策过程] (MDP),具有如下概率分布的状态 <math>\textstyle {s_1,...,s_n}\in S </math>和动作 <math>\textstyle {{a_1,...,a_m} \in A}</math>:瞬时损失分布 <math>\textstyle P(c_t|s_t)</math>,观测分布 <math>\textstyle {P({x_t}|{s_t})}</math>和转移<math>{P({s_{t+1}}|{s_t}, {a_t})}</math>, 方针被定义为给定观测值的动作上的条件分布。合起来,这二者定义了一个[https://en.wikipedia.org/wiki/Markov_chain 马尔科夫链](MC)。目标是找到最小化损失的方针(也就是MC)。
更正式地说,环境被建模成[https://en.wikipedia.org/wiki/Markov_decision_process 马尔科夫决策过程] (MDP),具有如下概率分布的状态 <math>\textstyle {s_1,...,s_n}\in S </math>和动作 <math>\textstyle {{a_1,...,a_m} \in A}</math>:瞬时损失分布 <math>\textstyle P(c_t|s_t)</math>,观测分布 <math>\textstyle {P({x_t}|{s_t})}</math>和转移<math>{P({s_{t+1}}|{s_t}, {a_t})}</math>, 方针被定义为给定观测值的动作上的条件分布。合起来,这二者定义了一个[https://en.wikipedia.org/wiki/Markov_chain 马尔科夫链](MC)。目标是找到最小化损失的方针(也就是MC)。
强化学习中,ANN通常被用作整个算法的一部分<ref>{{cite conference| author = Dominic, S. |author2=Das, R. |author3=Whitley, D. |author4=Anderson, C. |date=July 1991 | title = Genetic reinforcement learning for neural networks | conference = IJCNN-91-Seattle International Joint Conference on Neural Networks | booktitle = IJCNN-91-Seattle International Joint Conference on Neural Networks | publisher = IEEE | location = Seattle, Washington, USA | doi = 10.1109/IJCNN.1991.155315 | accessdate = | isbn = 0-7803-0164-1 }}</ref><ref>{{cite journal |last=Hoskins |first=J.C. |author2=Himmelblau, D.M. |title=Process control via artificial neural networks and reinforcement learning |journal=Computers & Chemical Engineering |year=1992 |volume=16 |pages=241–251 |doi=10.1016/0098-1354(92)80045-B |issue=4}}</ref>。[https://en.wikipedia.org/wiki/Dimitri_Bertsekas Bertsekas]和Tsiksiklis<ref>{{cite book|url=https://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images|title=Neuro-dynamic programming|first=D.P.|first2=J.N.|publisher=Athena Scientific|year=1996|isbn=1-886529-10-8|location=|page=512|pages=|author=Bertsekas|author2=Tsitsiklis}}</ref> 给[https://en.wikipedia.org/wiki/Dynamic_programming 动态编程]加上ANN(给出神经动力的编程)并应用到如[https://en.wikipedia.org/wiki/Vehicle_routing 车辆路径]<ref>{{cite journal |last=Secomandi |first=Nicola |title=Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands |journal=Computers & Operations Research |year=2000 |volume=27 |pages=1201–1225 |doi=10.1016/S0305-0548(99)00146-X |issue=11–12}}</ref> 和[https://en.wikipedia.org/wiki/Natural_resource_management 自然资源管理]<ref>{{cite conference| author = de Rigo, D. |author2=Rizzoli, A. E. |author3=Soncini-Sessa, R. |author4=Weber, E. |author5=Zenesi, P. | year = 2001 | title = Neuro-dynamic programming for the efficient management of reservoir networks | conference = MODSIM 2001, International Congress on Modelling and Simulation | conferenceurl = http://www.mssanz.org.au/MODSIM01/MODSIM01.htm | booktitle = Proceedings of MODSIM 2001, International Congress on Modelling and Simulation | publisher = Modelling and Simulation Society of Australia and New Zealand | location = Canberra, Australia | doi = 10.5281/zenodo.7481 | url = https://zenodo.org/record/7482/files/de_Rigo_etal_MODSIM2001_activelink_authorcopy.pdf | accessdate = 29 July 2012 | isbn = 0-867405252 }}</ref><ref>{{cite conference| author = Damas, M. |author2=Salmeron, M. |author3=Diaz, A. |author4=Ortega, J. |author5=Prieto, A. |author6=Olivares, G.| year = 2000 | title = Genetic algorithms and neuro-dynamic programming: application to water supply networks | conference = 2000 Congress on Evolutionary Computation | booktitle = Proceedings of 2000 Congress on Evolutionary Computation | publisher = IEEE | location = La Jolla, California, USA | doi = 10.1109/CEC.2000.870269 | accessdate = | isbn = 0-7803-6375-2 }}</ref>或[https://en.wikipedia.org/wiki/Medicine 医药]<ref>{{cite journal |last=Deng |first=Geng |author2=Ferris, M.C. |title=Neuro-dynamic programming for fractionated radiotherapy planning |journal=Springer Optimization and Its Applications |year=2008 |volume=12 |pages=47–70 |doi=10.1007/978-0-387-73299-2_3|citeseerx=10.1.1.137.8288 |series=Springer Optimization and Its Applications |isbn=978-0-387-73298-5 }}</ref>领域中的多维非线性问题。因为ANN能够减小精度损失,甚至在为数值逼近原始控制问题解而降低离散化网格密度时。
强化学习范式中的任务是控制问题,[https://en.wikipedia.org/wiki/Game 游戏]和其他序列决策任务。
强化学习范式中的任务是控制问题,[https://en.wikipedia.org/wiki/Game 游戏]和其他序列决策任务。
* 【最速下降】(带参数学习速率和【动量】,【弹性反向传播】;
* 【最速下降】(带参数学习速率和【动量】,【弹性反向传播】;
* 拟牛顿 (Broyden-Fletcher-Goldfarb-Shanno),【单步割线】;
* 拟牛顿 (Broyden-Fletcher-Goldfarb-Shanno),【单步割线】;
* 【Levenberg-Marquardt】和【共轭梯度】(Fletcher-Reeves 更新, Polak-Ribiére 更新, Powell-Beale 重启,标度共轭梯度)。
* 【Levenberg-Marquardt】和【共轭梯度】(Fletcher-Reeves 更新, Polak-Ribiére 更新, Powell-Beale 重启,标度共轭梯度)。<ref>{{cite conference|author1=M. Forouzanfar |author2=H. R. Dajani |author3=V. Z. Groza |author4=M. Bolic |author5=S. Rajan |last-author-amp=yes |date=July 2010 | title = Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation | conference = 4th Int. Workshop Soft Computing Applications | publisher = IEEE| location = Arad, Romania |url=https://www.researchgate.net/profile/Mohamad_Forouzanfar/publication/224173336_Comparison_of_Feed-Forward_Neural_Network_training_algorithms_for_oscillometric_blood_pressure_estimation/links/00b7d533829c3a7484000000.pdf?ev=pub_int_doc_dl&origin=publication_detail&inViewer=true&msrp=TyT96%2BjWOHJo%2BVhkMF4IzwHPAImSd442n%2BAkEuXj9qBmQSZ495CpxqlaOYon%2BSlEzWQElBGyJmbBCiiUOV8ImeEqPFXiIRivcrWsWmlPBYU%3D }}</ref>
【进化法】<ref>{{cite conference| author1 = de Rigo, D. | author2 = Castelletti, A. | author3 = Rizzoli, A. E. | author4 = Soncini-Sessa, R. | author5 = Weber, E. |date=January 2005 | title = A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management | conference = 16th IFAC World Congress | conferenceurl = http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Index.html | booktitle = Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine | editor = Pavel Zítek | volume = 16 | publisher = IFAC | location = Prague, Czech Republic | url = http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Papers/Paper4269.html
| accessdate = 30 December 2011 | doi = 10.3182/20050703-6-CZ-1902.02172 | isbn = 978-3-902661-75-3 }}</ref>,【基因表达式编程】<ref>{{cite web|last=Ferreira|first=C.|year=2006|title=Designing Neural Networks Using Gene Expression Programming|url= http://www.gene-expression-programming.com/webpapers/Ferreira-ASCT2006.pdf|publisher= In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag}}</ref>,【模拟退火】<ref>{{cite conference| author = Da, Y. |author2=Xiurun, G. |date=July 2005 | title = An improved PSO-based ANN with simulated annealing technique | conference = New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks | conferenceurl = http://www.dice.ucl.ac.be/esann/proceedings/electronicproceedings.htm | editor = T. Villmann | publisher = Elsevier | doi = 10.1016/j.neucom.2004.07.002 }}<!--| accessdate = 30 December 2011 --></ref>,【期望最大化】,【非参数方法】和【粒子群算法】<ref>{{cite conference| author = Wu, J. |author2=Chen, E. |date=May 2009 | title = A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network | conference = 6th International Symposium on Neural Networks, ISNN 2009 | conferenceurl = http://www2.mae.cuhk.edu.hk/~isnn2009/ | editors = Wang, H., Shen, Y., Huang, T., Zeng, Z. | publisher = Springer | doi = 10.1007/978-3-642-01513-7-6 | isbn = 978-3-642-01215-0 }}<!--| accessdate = 1 January 2012 --></ref>是训练神经网络的其他方法。
==== 递推收敛学习算法(Convergent recursive learning algorithm) ====
这是一种为【小脑模型关节控制器】(CMAC)神经网络特别设计的学习方法。2004,递推最小二乘法被引入在线训练【CMAC】神经网络。<ref name="Qin1">Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49–61.</ref>这种算法可以使用任何新的输入数据,一步收敛并一步内更新所有权重。最开始,这种算法有【计算复杂度】''O''(''N''<sup>3</sup>). 基于【QR分解】,这种算法简化到''O''(''N'').<ref name="Qin2">Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array." Neural Processing Letters 22.1 (2005): 1–16.</ref>
== 变体 ==
== 变体 ==
=== 数据处理的群方法(Group method of data handling) ===
=== 数据处理的群方法(Group method of data handling) ===
数据处理的群方法(GMDH) 突出了全自动结构和参数化模型优化。结点激活函数是允许加法和乘法操作的【Kolmogorov】-Gabor多项式。它使用八层的深度前馈多层感知机,是一个逐层增长的【监督学习】网络,其中每层使用【回归分析】训练。使用验证集检测无用的项,通过【正则化】消除。结果网络的尺寸和深度取决于任务。
数据处理的群方法(GMDH) 突出了全自动结构和参数化模型优化。结点激活函数是允许加法和乘法操作的【Kolmogorov】-Gabor多项式。它使用八层的深度前馈多层感知机<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|date=1971|title=Polynomial theory of complex systems|url=|journal=IEEE Transactions on Systems, Man and Cybernetics (4)|issue=4|pages=364–378|doi=10.1109/TSMC.1971.4308320|pmid=|access-date=}}</ref> ,是一个逐层增长的【监督学习】网络,其中每层使用【回归分析】训练。使用验证集检测无用的项,通过【正则化】消除。结果网络的尺寸和深度取决于任务。<ref name="kondo2008">{{cite journal|last2=Ueno|first2=J.|date=|year=2008|title=Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels|url=https://www.researchgate.net/publication/228402366_GMDH-Type_Neural_Network_Self-Selecting_Optimum_Neural_Network_Architecture_and_Its_Application_to_3-Dimensional_Medical_Image_Recognition_of_the_Lungs|journal=International Journal of Innovative Computing, Information and Control|volume=4|issue=1|pages=175–187|via=|last1=Kondo|first1=T.}}</ref>
=== 卷积神经网络(Convolutional neural networks) ===
=== 卷积神经网络(Convolutional neural networks) ===
卷积神经网络 (CNN) 是一类深度前馈网络,由一或多层【卷积】层和位于其上的全连接层(与典型ANN中的匹配)组成。它使用相等权重和池化层。特别地,最大池化通常通过Fukushima的卷积结构组织。这种结构允许CNN利用输入数据的2D结构
卷积神经网络 (CNN) 是一类深度前馈网络,由一或多层【卷积】层和位于其上的全连接层(与典型ANN中的匹配)组成。它使用相等权重和池化层。特别地,最大池化<ref name="Weng19932"/>通常通过Fukushima的卷积结构组织。<ref name="FUKU1980">{{cite journal|year=1980|title=Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position|url=|journal=Biol. Cybern.|volume=36|issue=4|pages=193–202|doi=10.1007/bf00344251|pmid=7370364|last1=Fukushima|first1=K.}}</ref>这种结构允许CNN利用输入数据的2D结构
CNN适合处理视觉和其他二维数据<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989.</ref><ref name="lecun2016slides">[[Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online]</ref>,它们在图像和语音应用中展示出了优秀的结果。它们可以被标准反向传播训练。CNN比其他普通的深度前馈神经网络更容易训练且有更少的需要估计的参数。<ref name="STANCNN">{{cite web|url=http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/|title=Unsupervised Feature Learning and Deep Learning Tutorial|publisher=}}</ref> 计算机视觉中应用的例子包括【DeepDream】<ref name="deepdream">{{cite journal|last2=Liu|first2=Wei|last3=Jia|first3=Yangqing|last4=Sermanet|first4=Pierre|last5=Reed|first5=Scott|last6=Anguelov|first6=Dragomir|last7=Erhan|first7=Dumitru|last8=Vanhoucke|first8=Vincent|last9=Rabinovich|first9=Andrew|date=|year=2014|title=Going Deeper with Convolutions|url=|journal=Computing Research Repository|volume=|pages=1|arxiv=1409.4842|doi=10.1109/CVPR.2015.7298594|via=|first1=Christian|last1=Szegedy|isbn=978-1-4673-6964-0}}</ref>和【机器人导航】<ref>{{cite journal | last=Ran | first=Lingyan | last2=Zhang | first2=Yanning | last3=Zhang | first3=Qilin | last4=Yang | first4=Tao | title=Convolutional Neural Network-Based Robot Navigation Using Uncalibrated Spherical Images | journal=Sensors | publisher=MDPI AG | volume=17 | issue=6 | date=2017-06-12 | issn=1424-8220 | doi=10.3390/s17061341 | page=1341 | url=https://qilin-zhang.github.io/_pages/pdfs/sensors-17-01341.pdf}}</ref>
。
===长短期记忆( Long short-term memory) ===
===长短期记忆( Long short-term memory) ===
长短期记忆 (LSTM) 网络是避免了【梯度消失问题】。LSTM通常被称为遗忘门的循环门扩展。 LSTM网络避免了反向传播误差的消失或爆炸。误差可以通过在空间展开的LSTM中的无限制的虚层反向回流 。也就是说,LSTM可以学习“非常深的学习”任务,这些任务需要记住上千甚至上百万离散时间步前的事件。问题特殊的LSTM形态的拓扑结构可以成为进化的LSTM,能处理长延迟和混合高低频成分的信号。
长短期记忆 (LSTM) 网络是避免了【梯度消失问题】。<ref name=":03">{{Cite journal|last=Hochreiter|first=Sepp|author-link=Sepp Hochreiter|last2=Schmidhuber|first2=Jürgen|author-link2=Jürgen Schmidhuber|date=1997-11-01|title=Long Short-Term Memory|url=http://www.mitpressjournals.org/doi/10.1162/neco.1997.9.8.1735|journal=Neural Computation|volume=9|issue=8|pages=1735–1780|doi=10.1162/neco.1997.9.8.1735|issn=0899-7667|via=}}</ref> LSTM通常被称为遗忘门的循环门扩展<ref name=":10">{{Cite web|url=https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks|title=Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)|website=ResearchGate|language=en|access-date=2017-06-13|pp=115–143}}</ref>。 LSTM网络避免了反向传播误差的消失或爆炸。<ref name="HOCH19912"/> 误差可以通过在空间展开的LSTM中的无限制的虚层反向回流 。也就是说,LSTM可以学习“非常深的学习”任务,<ref name="SCHIDHUB2" />这些任务需要记住上千甚至上百万离散时间步前的事件。问题特殊的LSTM形态的拓扑结构可以成为进化的LSTM,<ref>{{Cite journal|last=Bayer|first=Justin|last2=Wierstra|first2=Daan|last3=Togelius|first3=Julian|last4=Schmidhuber|first4=Jürgen|date=2009-09-14|title=Evolving Memory Cell Structures for Sequence Learning|url=https://link.springer.com/chapter/10.1007/978-3-642-04277-5_76|journal=Artificial Neural Networks – ICANN 2009|volume=5769|language=en|publisher=Springer, Berlin, Heidelberg|pages=755–764|doi=10.1007/978-3-642-04277-5_76|series=Lecture Notes in Computer Science|isbn=978-3-642-04276-8}}</ref> 能处理长延迟和混合高低频成分的信号。
大量LSTM RNN使用联结主义时间分类(CTC)训练,给定相应输入序列,可以找到一个最大化训练集中标记序列概率的RNN权重矩阵。CTC达到了校准和识别。
大量LSTM RNN<ref>{{Cite journal|last=Fernández|first=Santiago|last2=Graves|first2=Alex|last3=Schmidhuber|first3=Jürgen|date=2007|title=Sequence labelling in structured domains with hierarchical recurrent neural networks|url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.79.1887|journal=In Proc. 20th Int. Joint Conf. on Artificial In℡ligence, Ijcai 2007|pages=774–779}}</ref> 使用联结主义时间分类(CTC)训练,<ref name=":12">{{Cite journal|last=Graves|first=Alex|last2=Fernández|first2=Santiago|last3=Gomez|first3=Faustino|date=2006|title=Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks|url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.75.6306|journal=In Proceedings of the International Conference on Machine Learning, ICML 2006|pages=369–376}}</ref> 给定相应输入序列,可以找到一个最大化训练集中标记序列概率的RNN权重矩阵。CTC达到了校准和识别。
2003,LSTM开始在传统语音识别器中具有竞争力。<ref name="graves2003">{{Cite web|url=Ftp://ftp.idsia.ch/pub/juergen/bioadit2004.pdf|title=Biologically Plausible Speech Recognition with LSTM Neural Nets|last=Graves|first=Alex|last2=Eck|first2=Douglas|date=2003|website=1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland|pages=175–184|archive-url=|archive-date=|dead-url=|access-date=|last3=Beringer|first3=Nicole|last4=Schmidhuber|first4=Jürgen|authorlink4=Jürgen Schmidhuber}}</ref>2007,与CTC的结合在语音数据上达到了第一个良好的结果。<ref name="fernandez2007keyword">{{Cite journal|last=Fernández|first=Santiago|last2=Graves|first2=Alex|last3=Schmidhuber|first3=Jürgen|date=2007|title=An Application of Recurrent Neural Networks to Discriminative Keyword Spotting|url=http://dl.acm.org/citation.cfm?id=1778066.1778092|journal=Proceedings of the 17th International Conference on Artificial Neural Networks|series=ICANN'07|location=Berlin, Heidelberg|publisher=Springer-Verlag|pages=220–229|isbn=3540746935}}</ref>2009,一个CTC训练的LSTM成为第一个赢得模式识别比赛的RNN,当它赢得了几个连笔【手写识别】比赛。<ref name="SCHIDHUB2" /><ref name="graves20093"/>2014,【百度】使用CTC训练的RNN打破了Switchboard Hub5'00语音识别在基准测试数据集上的表现,而没有使用传统语音处理方法。<ref name="hannun2014">{{cite arxiv|last=Hannun|first=Awni|last2=Case|first2=Carl|last3=Casper|first3=Jared|last4=Catanzaro|first4=Bryan|last5=Diamos|first5=Greg|last6=Elsen|first6=Erich|last7=Prenger|first7=Ryan|last8=Satheesh|first8=Sanjeev|last9=Sengupta|first9=Shubho|date=2014-12-17|title=Deep Speech: Scaling up end-to-end speech recognition|eprint=1412.5567|class=cs.CL}}</ref> LSTM也提高了大量词汇语音识别,<ref name="sak2014">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|title=Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling|last=Sak|first=Hasim|last2=Senior|first2=Andrew|date=2014|website=|archive-url=|archive-date=|dead-url=|access-date=|last3=Beaufays|first3=Francoise}}</ref><ref name="liwu2015">{{cite arxiv|last=Li|first=Xiangang|last2=Wu|first2=Xihong|date=2014-10-15|title=Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition|eprint=1410.4281|class=cs.CL}}</ref>文本到语音合成,<ref>{{Cite web|url=https://www.researchgate.net/publication/287741874_TTS_synthesis_with_bidirectional_LSTM_based_Recurrent_Neural_Networks|title=TTS synthesis with bidirectional LSTM based Recurrent Neural Networks|last=Fan|first=Y.|last2=Qian|first2=Y.|date=2014|website=ResearchGate|language=en|archive-url=|archive-date=|dead-url=|access-date=2017-06-13|last3=Xie|first3=F.|last4=Soong|first4=F. K.}}</ref> 对谷歌安卓<ref name="scholarpedia2"/><ref name="zen2015">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis|last=Zen|first=Heiga|last2=Sak|first2=Hasim|date=2015|website=Google.com|publisher=ICASSP|pages=4470–4474|archive-url=|archive-date=|dead-url=|access-date=}}</ref>和真实图片的传声头像。<ref name="fan2015">{{Cite journal|last=Fan|first=Bo|last2=Wang|first2=Lijuan|last3=Soong|first3=Frank K.|last4=Xie|first4=Lei|date=2015|title=Photo-Real Talking Head with Deep Bidirectional LSTM|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2015/04/icassp2015_fanbo_1009.pdf|journal=Proceedings of ICASSP|volume=|pages=|via=}}</ref>2015,谷歌的语音识别通过CTC训练的LSTM提高了49%的性能。<ref name="sak2015">{{Cite web|url=http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html|title=Google voice search: faster and more accurate|last=Sak|first=Haşim|last2=Senior|first2=Andrew|date=September 2015|website=|archive-url=|archive-date=|dead-url=|access-date=|last3=Rao|first3=Kanishka|last4=Beaufays|first4=Françoise|last5=Schalkwyk|first5=Johan}}</ref>
LSTM在【自然语言处理】中变得受欢迎。不像之前基于【隐式马尔科夫模型】和相似概念的模型,LSTM可以学习识别【上下文有关语言】。<ref name="gers2001">{{cite journal|last2=Schmidhuber|first2=Jürgen|year=2001|title=LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages|url=|journal=IEEE Transactions on Neural Networks|volume=12|issue=6|pages=1333–1340|doi=10.1109/72.963769|last1=Gers|first1=Felix A.|authorlink2=Jürgen Schmidhuber}}</ref>LSTM提高了机器翻译,<ref>{{cite web | last=Huang | first=Jie | last2=Zhou | first2=Wengang | last3=Zhang | first3=Qilin | last4=Li | first4=Houqiang | last5=Li | first5=Weiping | title=Video-based Sign Language Recognition without Temporal Segmentation | eprint=1801.10111 | date=2018-01-30 | url=https://arxiv.org/pdf/1801.10111.pdf}}</ref><ref name="NIPS2014">{{Cite journal|last=Sutskever|first=L.|last2=Vinyals|first2=O.|last3=Le|first3=Q.|date=2014|title=Sequence to Sequence Learning with Neural Networks|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|journal=NIPS'14 Proceedings of the 27th International Conference on Neural Information Processing Systems |volume=2 |pages=3104–3112 |bibcode=2014arXiv1409.3215S |arxiv=1409.3215 |class=cs.CL}}</ref>【语言建模】<ref name="vinyals2016">{{cite arxiv|last=Jozefowicz|first=Rafal|last2=Vinyals|first2=Oriol|last3=Schuster|first3=Mike|last4=Shazeer|first4=Noam|last5=Wu|first5=Yonghui|date=2016-02-07|title=Exploring the Limits of Language Modeling|eprint=1602.02410|class=cs.CL}}</ref>和多语言语言处理。<ref name="gillick2015">{{cite arxiv|last=Gillick|first=Dan|last2=Brunk|first2=Cliff|last3=Vinyals|first3=Oriol|last4=Subramanya|first4=Amarnag|date=2015-11-30|title=Multilingual Language Processing From Bytes|eprint=1512.00103|class=cs.CL}}</ref>与CNN结合的LSTM提高了自动图像字幕标记。<ref name="vinyals2015">{{cite arxiv|last=Vinyals|first=Oriol|last2=Toshev|first2=Alexander|last3=Bengio|first3=Samy|last4=Erhan|first4=Dumitru|date=2014-11-17|title=Show and Tell: A Neural Image Caption Generator|eprint=1411.4555|class=cs.CV}}</ref>
=== 深度储蓄池计算(Deep reservoir computing) ===
=== 深度储蓄池计算(Deep reservoir computing) ===
深度储蓄池计算和深度回声状态网络 (deepESNs)为高效训练的分层处理时序数据的模型提供了一个框架,同时使RNN的层次化构成的内在作用能够探查。
深度储蓄池计算和深度回声状态网络 (deepESNs)<ref>{{Cite journal|last=Gallicchio|first=Claudio|last2=Micheli|first2=Alessio|last3=Pedrelli|first3=Luca|title=Deep reservoir computing: A critical experimental analysis|url=http://www.sciencedirect.com/science/article/pii/S0925231217307567|journal=Neurocomputing|volume=268|pages=87|doi=10.1016/j.neucom.2016.12.089|year=2017}}</ref><ref>{{Cite journal|last=Gallicchio|first=Claudio|last2=Micheli|first2=Alessio|date=|title=Echo State Property of Deep Reservoir Computing Networks|url=https://link.springer.com/article/10.1007/s12559-017-9461-9|journal=Cognitive Computation|language=en|volume=9|issue=3|pages=337–350|doi=10.1007/s12559-017-9461-9|issn=1866-9956|via=|year=2017}}</ref> 为高效训练的分层处理时序数据的模型提供了一个框架,同时使RNN的层次化构成的内在作用能够探查。
=== 深度置信网络(Deep belief networks) ===
=== 深度置信网络(Deep belief networks) ===
[[File:Restricted_Boltzmann_machine.svg.png|thumb|一个带有全连接可见和隐藏单元的[https://en.wikipedia.org/wiki/Restricted_Boltzmann_machine 受限玻尔兹曼机] (RBM) 。注意没有隐藏-隐藏和可见-可见连接。]]
[[File:Restricted_Boltzmann_machine.svg.png|thumb|一个带有全连接可见和隐藏单元的[https://en.wikipedia.org/wiki/Restricted_Boltzmann_machine 受限玻尔兹曼机] (RBM) 。注意没有隐藏-隐藏和可见-可见连接。]]
一个深度置信网络(DBN)是一个概率的[https://en.wikipedia.org/wiki/Generative_model 生成模型],它由多层隐藏层组成。可以被认为是一个组成每一层的简单学习模块的[https://en.wikipedia.org/wiki/Function_composition 组合]。
一个深度置信网络(DBN)是一个概率的[https://en.wikipedia.org/wiki/Generative_model 生成模型],它由多层隐藏层组成。可以被认为是一个组成每一层的简单学习模块的[https://en.wikipedia.org/wiki/Function_composition 组合]。<ref name="SCHOLARDBNS">{{cite journal|year=2009|title=Deep belief networks|url=|journal=Scholarpedia|volume=4|issue=5|page=5947|doi=10.4249/scholarpedia.5947|last1=Hinton|first1=G.E.|bibcode=2009SchpJ...4.5947H}}</ref>
反向传播或其他差别算法就可以调整这些权重。当训练数据有限时特别有用,因为很差的初始化的权重可以显著阻碍模型表现。这些预训练的权重在权重空间的范围内,这个权重空间距离最优权重比随机选择的权重更近。这允许既提高模型表现又加快好的调整相位收敛。
一个DBN可以被用于生成地预训练一个DNN,通过使用学习的DBN权重和初始DNN权重。
反向传播或其他差别算法就可以调整这些权重。当训练数据有限时特别有用,因为很差的初始化的权重可以显著阻碍模型表现。这些预训练的权重在权重空间的范围内,这个权重空间距离最优权重比随机选择的权重更近。这允许既提高模型表现又加快好的调整相位收敛。<ref>{{Cite journal|last=Larochelle|first=Hugo|last2=Erhan|first2=Dumitru|last3=Courville|first3=Aaron|last4=Bergstra|first4=James|last5=Bengio|first5=Yoshua|date=2007|title=An Empirical Evaluation of Deep Architectures on Problems with Many Factors of Variation|url=http://doi.acm.org/10.1145/1273496.1273556|journal=Proceedings of the 24th International Conference on Machine Learning|series=ICML '07|location=New York, NY, USA|publisher=ACM|pages=473–480|doi=10.1145/1273496.1273556|isbn=9781595937933}}</ref>
===大内存和检索神经网络===
===大内存和检索神经网络===
大内存和检索神经网络(LAMSTAR)<ref name="book2013">{{cite book|url={{google books |plainurl=y |id=W6W6CgAAQBAJ&pg=PP1}}|title=Principles of Artificial Neural Networks|last=Graupe|first=Daniel|publisher=World Scientific|year=2013|isbn=978-981-4522-74-8|location=|pages=1–|ref=harv}}</ref><ref name="GrPatent">{{Patent|US|5920852 A|D. Graupe," Large memory storage and retrieval (LAMSTAR) network, April 1996}}</ref>是多层快速深度学习神经网络,可以同时使用许多滤波。这些滤波可能非线性,随机,逻辑,【非固定】甚至非解析。它们是生物学动机的并且可以连续学习。
LAMSTAR神经网络可以作为在空间或时间或二者兼具的域内的动力神经网络。它的速度由【赫布(Hebbian)】连接权重提供,<ref name=book2013a>D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp. 203–274.</ref>它整合多种并且通常不同的滤波(预处理函数)到它的与给定学习任务相关的很多层和函数中。这很大程度模拟了整合多种预处理器(【耳蜗】,【视网膜】等)和皮层(听觉,视觉等)和它们的多个域的生物学习。通过使用抑制,相关,它的深度学习能力大大增强,甚至当在任务中时,处理不完整数据的能力或“丢失的”神经元或层的能力也显著增强。由于它的连接权重,它是完全透明的。这些连接权重允许动态地决定更新和去除,并且帮助任务相关的层,滤波或单独神经元的排列。
LAMSTAR被应用于多个领域,包括医药<ref>{{Cite journal|last=Nigam|first=Vivek Prakash|last2=Graupe|first2=Daniel|date=2004-01-01|title=A neural-network-based detection of epilepsy|journal=Neurological Research|volume=26|issue=1|pages=55–60|doi=10.1179/016164104773026534|issn=0161-6412|pmid=14977058}}</ref><ref name=":11">{{Cite journal|last=Waxman|first=Jonathan A.|last2=Graupe|first2=Daniel|last3=Carley|first3=David W.|date=2010-04-01|title=Automated Prediction of Apnea and Hypopnea, Using a LAMSTAR Artificial Neural Network|url=http://www.atsjournals.org/doi/abs/10.1164/rccm.200907-1146OC|journal=American Journal of Respiratory and Critical Care Medicine|volume=181|issue=7|pages=727–733|doi=10.1164/rccm.200907-1146oc|issn=1073-449X}}</ref><ref name="GrGrZh">{{cite journal|last2=Graupe|first2=M. H.|last3=Zhong|first3=Y.|last4=Jackson|first4=R. K.|year=2008|title=Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities|url=|journal=Proc. Inst. Mech. Eng. H|volume=222|issue=8|pages=1221–1234|doi=10.1243/09544119jeim417|last1=Graupe|first1=D.}}</ref>和金融预测,<ref name="book2013b">{{harvnb|Graupe|2013|pp=240–253}}</ref>在未知噪音下嘈杂语音的适应性滤波,<ref name="GrAbon">{{cite journal|last2=Abon|first2=J.|year=2002|title=A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech|url=https://www.tib.eu/en/search/id/BLCP:CN019373941/Blind-Adaptive-Filtering-of-Speech-from-Noise-of/|journal=Intelligent Engineering Systems Through Artificial Neural Networks|language=en|publisher=Technische Informationsbibliothek (TIB)|volume=12|issue=|pages=683–688|last1=Graupe|first1=D.|accessdate=2017-06-14}}</ref> 静态图像识别,<ref name="book2013c">D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers", 2013, pp. 253–274.</ref>视频图像识别,<ref name="Girado">{{cite journal|last2=Sandin|first2=D. J.|last3=DeFanti|first3=T. A.|year=2003|title=Real-time camera-based face detection using a modified LAMSTAR neural network system|url=|journal=Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII|volume=5015|issue=|pages=36|page=|doi=10.1117/12.477405|last1=Girado|first1=J. I.|series=Applications of Artificial Neural Networks in Image Processing VIII|bibcode=2003SPIE.5015...36G}}</ref>软件安全<ref name="VenkSel">{{cite journal|last2=Selvan|first2=S.|year=2007|title=Intrusion Detection using an Improved Competitive Learning Lamstar Network|url=|journal=International Journal of Computer Science and Network Security|volume=7|issue=2|pages=255–263|last1=Venkatachalam|first1=V}}</ref> 和非线性系统的适应性控制。<ref>{{Cite web|url=https://www.researchgate.net/publication/262316982_Control_of_unstable_nonlinear_and_nonstationary_systems_using_LAMSTAR_neural_networks|title=Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks|last=Graupe|first=D.|last2=Smollack|first2=M.|date=2007|website=ResearchGate|publisher=Proceedings of 10th IASTED on Intelligent Control, Sect.592,|pages=141–144|language=en|archive-url=|archive-date=|dead-url=|access-date=2017-06-14}}</ref> LAMSTAR比基于【ReLU】函数滤波和最大池化的CNN在20个对比研究中有明显更快的学习速度,和稍低的错误率。<ref name="book1016">{{cite book|url={{google books |plainurl=y |id=e5hIDQAAQBAJ|page=57}}|title=Deep Learning Neural Networks: Design and Case Studies|last=Graupe|first=Daniel|date=7 July 2016|publisher=World Scientific Publishing Co Inc|year=|isbn=978-981-314-647-1|location=|pages=57–110}}</ref>
这些应用展示了钻入数据藏在浅学习网络和人类感觉下的面貌,如预测【睡眠呼吸中止症】,<ref name=":11" />怀孕早期从放在母亲腹部皮肤表面电极记录的胎儿心电图,<ref name="GrGrZh" /> 金融预测<ref name="book2013" />或者嘈杂语音的盲过滤<ref name="GrAbon" />
LAMSTAR在1996被提议(【US Patent|5920852 A】),然后从1997到2002被Graupe和Kordylewski深入开发。一个更改的版本称为LAMSTAR2,被Schneider 和 Graupe在2008开发。
的案例。
LAMSTAR在1996被提议(【US Patent|5920852 A】),然后从1997到2002被Graupe和Kordylewski深入开发。<ref>{{Cite journal|last=Graupe|first=D.|last2=Kordylewski|first2=H.|date=August 1996|title=Network based on SOM (Self-Organizing-Map) modules combined with statistical decision tools|url=http://ieeexplore.ieee.org/document/594203/|journal=Proceedings of the 39th Midwest Symposium on Circuits and Systems|volume=1|pages=471–474 vol.1|doi=10.1109/mwscas.1996.594203|isbn=0-7803-3636-4}}</ref><ref>{{Cite journal|last=Graupe|first=D.|last2=Kordylewski|first2=H.|date=1998-03-01|title=A Large Memory Storage and Retrieval Neural Network for Adaptive Retrieval and Diagnosis|url=http://www.worldscientific.com/doi/abs/10.1142/S0218194098000091|journal=International Journal of Software Engineering and Knowledge Engineering|volume=08|issue=1|pages=115–138|doi=10.1142/s0218194098000091|issn=0218-1940}}</ref><ref name="Kordylew">{{cite journal|last2=Graupe|first2=D|last3=Liu|first3=K.|year=2001|title=A novel large-memory neural network as an aid in medical diagnosis applications|url=|journal=IEEE Transactions on Information Technology in Biomedicine|volume=5|issue=3|pages=202–209|doi=10.1109/4233.945291|last1=Kordylewski|first1=H.}}</ref>一个更改的版本称为LAMSTAR2,被Schneider 和 Graupe在2008开发。<ref name="Schn">{{cite journal|last2=Graupe|year=2008|title=A modified LAMSTAR neural network and its applications|url=|journal=International journal of neural systems|volume=18|issue=4|pages=331–337|doi=10.1142/s0129065708001634|last1=Schneider|first1=N.C.}}</ref><ref name="book2013d">{{harvnb|Graupe|2013|p=217}}</ref>
=== 叠加(去噪)自动编码器(Stacked (de-noising) auto-encoders) ===
=== 叠加(去噪)自动编码器(Stacked (de-noising) auto-encoders) ===
编码器是一个确定映射 <math>f_\theta</math> ,它将输入向量''''' x'''''转化为隐藏表示 '''''y''''', 其中 <math>\theta = \{\boldsymbol{W}, b\}</math>, <math>{W}</math>是权重矩阵, '''b''' 是一个补偿向量(偏置)。 解码器反映射隐藏表示 '''y'''到重建的输入 '''''z''''' 通过 <math>g_\theta</math>。整个自动编码的过程是把这个重建输入与原始的作比较,尽量最小化误差使得重建值和原始尽可能的靠近 。
编码器是一个确定映射 <math>f_\theta</math> ,它将输入向量''''' x'''''转化为隐藏表示 '''''y''''', 其中 <math>\theta = \{\boldsymbol{W}, b\}</math>, <math>{W}</math>是权重矩阵, '''b''' 是一个补偿向量(偏置)。 解码器反映射隐藏表示 '''y'''到重建的输入 '''''z''''' 通过 <math>g_\theta</math>。整个自动编码的过程是把这个重建输入与原始的作比较,尽量最小化误差使得重建值和原始尽可能的靠近 。
在叠加去噪编码器中,部分【corrupted】输出被清理(去噪),这个想法在2010由Vincent等人提出,<ref name="ref9">{{cite journal|last2=Larochelle|first2=Hugo|last3=Lajoie|first3=Isabelle|last4=Bengio|first4=Yoshua|last5=Manzagol|first5=Pierre-Antoine|date=2010|title=Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion|url=http://dl.acm.org/citation.cfm?id=1953039|journal=The Journal of Machine Learning Research|volume=11|pages=3371–3408|last1=Vincent|first1=Pascal}}</ref>使用特殊的好的表示的方法,一个好的表示是可以从【corrupted】输入[https://en.wikipedia.org/wiki/Robustness_(computer_science) 鲁棒地]得到,这对恢复相应清洁的输入有用。这个定义隐含了下面的想法:
* 更高层的表征相对而言对输入【corruption】稳定和鲁棒;
* 更高层的表征相对而言对输入【corruption】稳定和鲁棒;
* 选出对输入分布表征有用的特征是必要的。
* 选出对输入分布表征有用的特征是必要的。
这个算法通过<math>{q_D({\tilde{\boldsymbol{x}}}|{\boldsymbol{x}})}</math>从 <math>\boldsymbol{x}</math> 到<math>\tilde{\boldsymbol{x}}</math> 的随机映射开始,这是【corrupting】步。然后【corrupted】输入 <math>\tilde{\boldsymbol{x}}</math> 传过基本自动编码过程,并被映射到隐含表示<math>\boldsymbol{y} = f_\theta(\tilde{\boldsymbol{x}}) = s(\boldsymbol{W}\tilde{\boldsymbol{x}}+b)</math>。从这个隐含表示中,我们可以重建<math>\boldsymbol{z} = g_\theta(\boldsymbol{y})</math>。在最后一步,一个最小化算法运行以使 '''''z'''''尽可能和【uncorrupted】输入<math>\boldsymbol{x}</math>近。重建误差<math>L_H(\boldsymbol{x},\boldsymbol{z})</math>可以是带有双弯曲仿射解码器的[https://en.wikipedia.org/wiki/Cross-entropy 交叉熵]损失,或者[https://en.wikipedia.org/wiki/Affine_transformation 仿射]解码器的平方误差。
这个算法通过<math>{q_D({\tilde{\boldsymbol{x}}}|{\boldsymbol{x}})}</math>从 <math>\boldsymbol{x}</math> 到<math>\tilde{\boldsymbol{x}}</math> 的随机映射开始,这是【corrupting】步。然后【corrupted】输入 <math>\tilde{\boldsymbol{x}}</math> 传过基本自动编码过程,并被映射到隐含表示<math>\boldsymbol{y} = f_\theta(\tilde{\boldsymbol{x}}) = s(\boldsymbol{W}\tilde{\boldsymbol{x}}+b)</math>。从这个隐含表示中,我们可以重建<math>\boldsymbol{z} = g_\theta(\boldsymbol{y})</math>。在最后一步,一个最小化算法运行以使 '''''z'''''尽可能和【uncorrupted】输入<math>\boldsymbol{x}</math>近。重建误差<math>L_H(\boldsymbol{x},\boldsymbol{z})</math>可以是带有双弯曲仿射解码器的[https://en.wikipedia.org/wiki/Cross-entropy 交叉熵]损失,或者[https://en.wikipedia.org/wiki/Affine_transformation 仿射]解码器的平方误差。<ref name="ref9" />
一旦叠加自动编码器被训练,它的输出可以被用作[https://en.wikipedia.org/wiki/Supervised_learning 监督学习]算法,如[https://en.wikipedia.org/wiki/Support_vector_machine 支持向量机]分类器或一个多分类[https://en.wikipedia.org/wiki/Logistic_regression 逻辑回归]的输入。
为了做出一个深度结构,叠加自动编码器。<ref name="ballard1987">{{Cite web|url=http://www.aaai.org/Papers/AAAI/1987/AAAI87-050.pdf|title=Modular learning in neural networks|last=Ballard|first=Dana H.|date=1987|website=Proceedings of AAAI|pages=279–284|archive-url=|archive-date=|dead-url=|access-date=}}</ref> 一旦第一个去噪自动编码器的编码函数<math>f_\theta</math>被学习并且用于改善输入(差的输入),第二级可以被训练。<ref name="ref9" />
一旦叠加自动编码器被训练,它的输出可以被用作[https://en.wikipedia.org/wiki/Supervised_learning 监督学习]算法,如[https://en.wikipedia.org/wiki/Support_vector_machine 支持向量机]分类器或一个多分类[https://en.wikipedia.org/wiki/Logistic_regression 逻辑回归]的输入。<ref name="ref9" />
===深度叠加网络( Deep stacking networks )===
===深度叠加网络( Deep stacking networks )===