更改

添加3,458字节 、 2018年8月23日 (四) 22:35
第17行: 第17行:     
== 历史 ==
 
== 历史 ==
【Warren McCulloch】 【Walter Pitts】构造了一个关于基于【数学】和【算法】的神经网络计算模型,称为阈值逻辑。这个模型为神经网络研究铺平了分为两边的道路。一个关注大脑中的生物学过程,而另一个关注神经网络向【人工智能】的应用。这个工作引领了神经网络的工作以及他们与【有限状态机(Finite state machine)】的联系
+
[https://en.wikipedia.org/wiki/Warren_McCulloch Warren McCulloch] [https://en.wikipedia.org/wiki/Walter_Pitts Walter Pitts]构造了一个关于基于[https://en.wikipedia.org/wiki/Mathematics 数学]和[https://en.wikipedia.org/wiki/Algorithm 算法]的神经网络计算模型,称为阈值逻辑。这个模型为神经网络研究铺平了分为两边的道路。一个关注大脑中的生物学过程,而另一个关注神经网络向[https://en.wikipedia.org/wiki/Artificial_intelligence 人工智能]的应用。这个工作引领了神经网络的工作以及他们与[https://en.wikipedia.org/wiki/Finite_state_machine 有限状态机(Finite state machine)]的联系。
    
=== 赫布学习(Hebbian learning)===
 
=== 赫布学习(Hebbian learning)===
在19世纪40年代晚期,【】基于【神经可塑性】的机制构造了一个学习假设,被称为【赫布学习】。赫布学习是【无监督学习(unsupervised learning)】。这形成了【长程增强效应】模型。在1948年,研究者开始将这些想法和【B类图灵机】应用到计算模型上。
+
在19世纪40年代晚期,[https://en.wikipedia.org/wiki/Donald_O._Hebb D.O.Hebb]基于[https://en.wikipedia.org/wiki/Neuroplasticity 神经可塑性]的机制构造了一个学习假设,被称为[https://en.wikipedia.org/wiki/Hebbian_learning 赫布学习]。赫布学习是[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习(unsupervised learning)]。这形成了[https://en.wikipedia.org/wiki/Long_term_potentiation 长程增强效应]模型。在1948年,研究者开始将这些想法和[https://en.wikipedia.org/wiki/Unorganized_machine B类图灵机]应用到计算模型上。
   −
Farley 和 【】首先使用计算机器,后来称作“计算器”,来模拟赫布网络。其他神经网络计算机器被【】创造.
+
Farley 和[https://en.wikipedia.org/wiki/Wesley_A._Clark Clark]首先使用计算机器,后来称作“计算器”,来模拟赫布网络。其他神经网络计算机器被[https://en.wikipedia.org/wiki/Nathaniel_Rochester_(computer_scientist) Rochester]Holland, Habit 和 Duda创造.
   −
【】创造了【感知机】,这是一种模式识别算法。Rosenblatt 使用数学符号描述了不在基本感知中的电路,如那时无法被神经网络处理的异或电路。
+
[https://en.wikipedia.org/wiki/Frank_Rosenblatt Rosenblatt]创造了[https://en.wikipedia.org/wiki/Perceptron 感知机],这是一种模式识别算法。Rosenblatt 使用数学符号描述了不在基本感知中的电路,如那时无法被神经网络处理的异或电路。
   −
1959年,【】【】和【】在初级视皮层发现了两种类型的细胞:简单细胞(simple cell)和复杂细胞(complex cell),并基于他们的发现提出了一个生物学模型,
+
1959年,[https://en.wikipedia.org/wiki/Nobel_laureate Nobel laureate][https://en.wikipedia.org/wiki/David_H._Hubel Hubel]和[https://en.wikipedia.org/wiki/Torsten_Wiesel Wiesel]在初级视皮层发现了两种类型的细胞:简单细胞(simple cell)和复杂细胞(complex cell),并基于他们的发现提出了一个生物学模型,
   −
第一个有多层的功能网络由【】和【】在1965年发表,它成为了【数据处理的组方法】
+
第一个有多层的功能网络由[https://en.wikipedia.org/wiki/Alexey_Grigorevich_Ivakhnenko Ivakhnenko]和Lapa在1965年发表,它成为了[https://en.wikipedia.org/wiki/Group_method_of_data_handling 数据处理的组方法]
   −
在发现了两个执行神经网络的计算机器关键问题的【】和【】研究的【机器学习】后,神经网络的研究停滞了。第一个是基本感知机不能处理异或电路。第二个是计算机没有足够的处理能力来有效地处理大型神经网络需要的任务。神经网络研究减慢知道计算机达到了远远更好的处理能力。
+
在发现了两个执行神经网络的计算机器关键问题的[https://en.wikipedia.org/wiki/Marvin_Minsky Minsky]和[https://en.wikipedia.org/wiki/Seymour_Papert Papert]研究的[https://en.wikipedia.org/wiki/Machine_learning|机器学习]后,神经网络的研究停滞了。第一个是基本感知机不能处理异或电路。第二个是计算机没有足够的处理能力来有效地处理大型神经网络需要的任务。神经网络研究减慢知道计算机达到了远远更好的处理能力。
   −
更多的【人工智能】专注于【算法】执行的高层面(符号的)模型,以知识体现在如果-那么规则中的【专家系统】为特征。直到19世纪80年代末期,研究扩展到低层面(次符号的)sub-symbolic【机器学习】,以知识体现在一个【认知模型】的参数中为特征。
+
更多的[https://en.wikipedia.org/wiki/Artificial_intelligence 人工智能]专注于[https://en.wikipedia.org/wiki/Algorithm 算法]执行的高层面(符号的)模型,以知识体现在如果-那么规则中的[https://en.wikipedia.org/wiki/Expert_system 专家系统]为特征。直到19世纪80年代末期,研究扩展到低层面(次符号的)[https://en.wikipedia.org/wiki/Machine_learning|机器学习],以知识体现在一个[https://en.wikipedia.org/wiki/Cognitive_model 认知模型]的参数中为特征。
    
=== 反向传播(Backpropagation) ===
 
=== 反向传播(Backpropagation) ===
   −
【werbos】的反向传播算法重新燃起了人们对于神经网络和学习的兴趣,它有效地解决了异或问题并且更普遍地加速了多层网络的训练。反向传播通过修改每个节点的权重,反向分散了贯穿层中的误差项。
+
[https://en.wikipedia.org/wiki/Paul_Werbos Werbos]的[https://en.wikipedia.org/wiki/Backpropagation 反向传播]算法重新燃起了人们对于神经网络和学习的兴趣,它有效地解决了异或问题并且更普遍地加速了多层网络的训练。反向传播通过修改每个节点的权重,反向分散了贯穿层中的误差项。
   −
在19世纪80年代中期,并行分布处理以【联结主义】的名义变得受欢迎,【】和【】描述了联结主义模拟神经过程的作用。
+
在19世纪80年代中期,并行分布处理以[https://en.wikipedia.org/wiki/Connectionism 联结主义]的名义变得受欢迎,[https://en.wikipedia.org/wiki/David_E._Rumelhart Rumelhart]和[https://en.wikipedia.org/wiki/James_McClelland_(psychologist) McClelland]描述了联结主义模拟神经过程的作用。
   −
【支持向量机(Support vector machine)】和其他更简单的方法如【线性分类器】在机器学习中的受欢迎程度逐步超过了神经网络。然而,使用神经网络改变了一些领域,例如蛋白质结构的预测。
+
[https://en.wikipedia.org/wiki/Support_vector_machine 支持向量机(Support vector machine)]和其他更简单的方法如[https://en.wikipedia.org/wiki/Linear_classifier 线性分类器]在机器学习中的受欢迎程度逐步超过了神经网络。然而,使用神经网络改变了一些领域,例如蛋白质结构的预测。
   −
1992年【最大池化】被引入帮助最小转移不变性和最大容忍性来变形,有助于3D物体识别。2010年,通过【最大池化】训练的反向传播训练被GPU加速,显示出超过其他池化变体的性能。
+
1992年[https://en.wikipedia.org/wiki/Convolutional_neural_network#Pooling_layer 最大池化]被引入帮助最小转移不变性和最大容忍性来变形,有助于3D物体识别。2010年,通过[https://en.wikipedia.org/wiki/Convolutional_neural_network#Pooling_layer 最大池化]训练的反向传播训练被GPU加速,显示出超过其他池化变体的性能。
   −
【梯度消失问题】影响使用反向传播的多层【前馈神经网络】 和【循环神经网络】(RNN)。由于误差从一层到另一层传播,它们随着层数指数级缩小,阻碍依赖这些误差的的神经元权重的调整,尤其影响深度网络。
+
[https://en.wikipedia.org/wiki/Vanishing_gradient_problem 梯度消失问题]影响使用反向传播的多层[前馈神经网络https://en.wikipedia.org/wiki/Feedforward_neural_network|前馈神经网络] 和[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络](RNN)。由于误差从一层到另一层传播,它们随着层数指数级缩小,阻碍依赖这些误差的的神经元权重的调整,尤其影响深度网络。
   −
为了解决这个问题,【】采用了一种多层网络结构,通过【无监督学习】每次预训练一级然后使用反向传播很好地调整。Behnke在例如图像重建和人脸定位中只依赖梯度符号。
+
为了解决这个问题,[https://en.wikipedia.org/wiki/J%C3%BCrgen_Schmidhuber Schmidhuber]采用了一种多层网络结构,通过[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习]每次预训练一级然后使用反向传播很好地调整。Behnke在例如图像重建和人脸定位中只依赖梯度符号。
   −
【Hinton】 提出了使用连续层的二进制或潜变量实数【受限玻尔兹曼机】来模拟每一层学习一种高级别表征。一旦很多层被充分学习,这种深度结构可能像【生成模型】一样被使用,通过在下采样(一个古老的方法)模型时从顶层特征激活处复制数据。2012年【Ng】和【Dean】创造了一个只通过看【YouTube】视频中未标记的图像学习识别例如猫这样更高层概念的网络。
+
[https://en.wikipedia.org/wiki/Geoffrey_Hinton Hinton]提出了使用连续层的二进制或潜变量实数[https://en.wikipedia.org/wiki/Restricted_Boltzmann_machine 受限玻尔兹曼机]来模拟每一层学习一种高级别表征。一旦很多层被充分学习,这种深度结构可能像[https://en.wikipedia.org/wiki/Generative_model 生成模型]一样被使用,通过在下采样(一个古老的方法)模型时从顶层特征激活处复制数据。2012年[https://en.wikipedia.org/wiki/Andrew_Ng Ng]和[https://en.wikipedia.org/wiki/Jeff_Dean_(computer_scientist) Dean]创造了一个只通过看[https://en.wikipedia.org/wiki/YouTube YouTube]视频中未标记的图像学习识别例如猫这样更高层概念的网络。
   −
在训练深度神经网络中早期的挑战被成功地用【无监督预训练】等方法处理,与此同时可见的计算性能通过GPU和分布计算的使用提升。神经网络被部署在大规模,尤其是在图像和视觉识别问题上。这被称为“【深度学习】”
+
在训练深度神经网络中早期的挑战被成功地用无监督预训练等方法处理,与此同时可见的计算性能通过GPU和分布计算的使用提升。神经网络被部署在大规模,尤其是在图像和视觉识别问题上。这被称为“[https://en.wikipedia.org/wiki/Deep_learning 深度学习]”
    
===基于硬件的设计(Hardware-based designs)===
 
===基于硬件的设计(Hardware-based designs)===
用于生物学模拟和神经形态计算的计算设备在【CMOS】创建。用于很大规模【主成分】分析和【卷积】的纳米元件可能创造一类新的神经计算,因为它们根本上是【模拟的】而不是【数字的】(尽管第一个实现使用数字设备)。在Schmidhuber 组的.Ciresan 和 colleagues表明,尽管有梯度消失问题,GPU使【反向传播】对多层前馈神经网络更可行。
+
用于生物学模拟和[https://en.wikipedia.org/wiki/Neuromorphic_computing 神经形态计算]的计算设备在[https://en.wikipedia.org/wiki/CMOS CMOS]创建。用于很大规模[https://en.wikipedia.org/wiki/Principal_component 主成分]分析和[https://en.wikipedia.org/wiki/Convolution 卷积]的纳米元件可能创造一类新的神经计算,因为它们根本上是[https://en.wikipedia.org/wiki/Analog_signal 模拟的]而不是[https://en.wikipedia.org/wiki/Digital_data 数字的](尽管第一个实现使用数字设备)。在Schmidhuber 组的.Ciresan 和 colleagues表明,尽管有梯度消失问题,GPU使[https://en.wikipedia.org/wiki/Backpropagation 反向传播]对多层前馈神经网络更可行。
    
=== 竞赛 ===
 
=== 竞赛 ===
在2009~2012年间,【循环神经网络】和【】的研究组发展的深度前馈神经网络赢得了八个在【模式识别】和【机器学习】的国际竞赛。例如,【Graves】的双向和多维【长短期记忆】(LSTM)在2009【文件分析和识别国际会议】上的连笔手写识别中赢得了三个比赛,而没有任何关于要学习的那三种语言的先验知识。
+
在2009~2012年间,[https://en.wikipedia.org/wiki/Recurrent_neural_network 循环神经网络]和[https://en.wikipedia.org/wiki/J%C3%BCrgen_Schmidhuber Schmidhuber]的研究组发展的深度前馈神经网络赢得了八个在[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]和[https://en.wikipedia.org/wiki/Machine_learning|机器学习]的国际竞赛。例如,[https://en.wikipedia.org/wiki/Alex_Graves_(computer_scientist) Graves]的双向和多维[https://en.wikipedia.org/wiki/Long_short-term_memory 长短期记忆](LSTM)在2009[https://en.wikipedia.org/wiki/International_Conference_on_Document_Analysis_and_Recognition 文件分析和识别国际会议]上的连笔手写识别中赢得了三个比赛,而没有任何关于要学习的那三种语言的先验知识。
   −
Ciresan 和同事赢得了【模式识别】比赛,包括IJCNN2011交通信号识别比赛,ISBI2012电子显微镜栈中的神经结构分割挑战和其他比赛。他们的神经网络是第一个在基准测试数据集中达到能挑战甚至超过人类表现的模式识别模型。这些基准数据集例如交通信号识别(ijcnn2012)或者【MNIST手写数字问题】
+
Ciresan 和同事赢得了[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]比赛,包括IJCNN2011交通信号识别比赛,ISBI2012电子显微镜栈中的神经结构分割挑战和其他比赛。他们的神经网络是第一个在基准测试数据集中达到能挑战甚至超过人类表现的模式识别模型。这些基准数据集例如交通信号识别(ijcnn2012)或者[https://en.wikipedia.org/wiki/MNIST_database MNIST手写数字问题]
 
   
 
   
研究人员演示了深度神经网络接口下的【隐式马尔科夫模型】,它依赖上下文定义神经网络输出层的状态,可以降低在大量词汇语音识别——例如语音搜索——中的误差。【?】
+
研究人员演示了深度神经网络接口下的[https://en.wikipedia.org/wiki/Hidden_Markov_model 隐式马尔科夫模型],它依赖上下文定义神经网络输出层的状态,可以降低在大量词汇语音识别——例如语音搜索——中的误差。【?】
   −
这种方法基于GPU的实现赢得了很多模式识别竞赛,包括IJCNN2011交通信号识别比赛,ISBI2012电子显微镜栈中的神经结构分割挑战和【ImageNet竞赛】以及其他比赛。
+
这种方法基于GPU的实现赢得了很多模式识别竞赛,包括IJCNN2011交通信号识别比赛,ISBI2012电子显微镜栈中的神经结构分割挑战和[https://en.wikipedia.org/wiki/ImageNet_Competition ImageNet竞赛]以及其他比赛。
   −
被【简单】和【复杂细胞】启发的,与【新认知机】相似的深度的高度非线性神经结构和“标准视觉结构”,被Hinton提出的无监督方法预训练。他实验室的一个团队赢得了一个2012年的竞赛,这个竞赛由【Merck】资助来设计可以帮助找到能识别新药物分子的软件。
+
被[https://en.wikipedia.org/wiki/Simple_cell 简单]和[https://en.wikipedia.org/wiki/Complex_cell 复杂细胞]启发的,与[https://en.wikipedia.org/wiki/Neocognitron 新认知机]相似的深度的高度非线性神经结构和“标准视觉结构”,被Hinton提出的无监督方法预训练。他实验室的一个团队赢得了一个2012年的竞赛,这个竞赛由[https://en.wikipedia.org/wiki/Merck_%26_Co. Merck]资助来设计可以帮助找到能识别新药物分子的软件。
    
=== 卷积网络(Convolutional networks) ===
 
=== 卷积网络(Convolutional networks) ===