更改

添加24,876字节 、 2018年8月24日 (五) 16:00
无编辑摘要
第247行: 第247行:     
===深度叠加网络( Deep stacking networks )===
 
===深度叠加网络( Deep stacking networks )===
深度叠加网络 (DSN)(深度凸网络)是基于多块的简化神经网络模块的层级。在2011被Deng和Dong引入。它用带【闭型解】的【凸优化】表达学习,强调机制与【层叠泛化】的相似。 每个DSN块是一个容易被【监督】式自我训练的简单模块,不需要整个块的反向传播。
+
深度叠加网络 (DSN)<ref name="ref17">{{cite journal|last2=Yu|first2=Dong|last3=Platt|first3=John|date=2012|title=Scalable stacking and learning for building deep architectures|url=http://research-srv.microsoft.com/pubs/157586/DSN-ICASSP2012.pdf|journal=2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)|pages=2133–2136|last1=Deng|first1=Li}}</ref> (深度凸网络)是基于多块的简化神经网络模块的层级。在2011被Deng和Dong引入。<ref name="ref16">{{cite journal|last2=Yu|first2=Dong|date=2011|title=Deep Convex Net: A Scalable Architecture for Speech Pattern Classification|url=http://www.truebluenegotiations.com/files/deepconvexnetwork-interspeech2011-pub.pdf|journal=Proceedings of the Interspeech|pages=2285–2288|last1=Deng|first1=Li}}</ref> 它用带【闭型解】的【凸优化】表达学习,强调机制与【层叠泛化】的相似。<ref name="ref18">{{cite journal|date=1992|title=Stacked generalization|journal=Neural Networks|volume=5|issue=2|pages=241–259|doi=10.1016/S0893-6080(05)80023-1|last1=David|first1=Wolpert}}</ref>每个DSN块是一个容易被【监督】式自我训练的简单模块,不需要整个块的反向传播。<ref>{{Cite journal|last=Bengio|first=Y.|date=2009-11-15|title=Learning Deep Architectures for AI|url=http://www.nowpublishers.com/article/Details/MAL-006|journal=Foundations and Trends® in Machine Learning|language=English|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|issn=1935-8237}}</ref>
 +
 
 
每块由一个简化的带单隐层的【多层感知机】(MLP)组成。隐藏层 '''''h''''' 有逻辑【双弯曲的】【单元】,输出层有线性单元。这些层之间的连接用权重矩阵'''''U;'''''表示,输入到隐藏层连接有权重矩阵 '''''W'''''。目标向量'''''t''''' 形成矩阵 '''''T'''''的列, 输入数据向量 '''''x'''''形成矩阵 '''''X.''''' 的列。隐藏单元的矩阵是<math>\boldsymbol{H} = \sigma(\boldsymbol{W}^T\boldsymbol{X})</math>. 。模块按顺序训练,因此底层的权重 '''''W''''' 在每一阶段已知。函数执行对应元素的【逻辑双弯曲】操作。每块估计同一个最终标记类 ''y'',这个估计被原始输入'''''X''''' 串级起来,形成下一个块的扩展输入。因此第一块的输入只包含原始输入,而下游的块输入加上了前驱块的输出。然后学习上层权重矩阵 '''''U''''' ,给定网络中其他权重可以被表达为一个凸优化问题:
 
每块由一个简化的带单隐层的【多层感知机】(MLP)组成。隐藏层 '''''h''''' 有逻辑【双弯曲的】【单元】,输出层有线性单元。这些层之间的连接用权重矩阵'''''U;'''''表示,输入到隐藏层连接有权重矩阵 '''''W'''''。目标向量'''''t''''' 形成矩阵 '''''T'''''的列, 输入数据向量 '''''x'''''形成矩阵 '''''X.''''' 的列。隐藏单元的矩阵是<math>\boldsymbol{H} = \sigma(\boldsymbol{W}^T\boldsymbol{X})</math>. 。模块按顺序训练,因此底层的权重 '''''W''''' 在每一阶段已知。函数执行对应元素的【逻辑双弯曲】操作。每块估计同一个最终标记类 ''y'',这个估计被原始输入'''''X''''' 串级起来,形成下一个块的扩展输入。因此第一块的输入只包含原始输入,而下游的块输入加上了前驱块的输出。然后学习上层权重矩阵 '''''U''''' ,给定网络中其他权重可以被表达为一个凸优化问题:
 
: <math>\min_{U^T} f = ||\boldsymbol{U}^T \boldsymbol{H} - \boldsymbol{T}||^2_F,</math>
 
: <math>\min_{U^T} f = ||\boldsymbol{U}^T \boldsymbol{H} - \boldsymbol{T}||^2_F,</math>
 
,它有闭型解。
 
,它有闭型解。
不像其他如DBN的深度结构,它的目标不是找到转化的【特征】表示。这种层级的结构使并行学习更简单了,正如批处理模式优化问题。在完全【判别任务】中,DSN比传统的【深度置信网络】(DBN)表现更好。
+
不像其他如DBN的深度结构,它的目标不是找到转化的【特征】表示。这种层级的结构使并行学习更简单了,正如批处理模式优化问题。在完全【判别任务】中,DSN比传统的【深度置信网络】(DBN)表现更好。<ref name="ref17" />
    
=== 张量深度叠加网络(Tensor deep stacking networks) ===
 
=== 张量深度叠加网络(Tensor deep stacking networks) ===
这个结构是 DSN 的延伸.。它提供了两个重要的改善:使用来自【协方差】统计的更高序的信息,并且将低层【非凸问题】转化为一个更高层的凸子问题。TDSN在【双线性映射】中,通过一个第三序的【张量】,从预测同一层的两个不同隐藏单元集合使用协方差统计。
+
这个结构是 DSN 的延伸.。它提供了两个重要的改善:使用来自【协方差】统计的更高序的信息,并且将低层【非凸问题】转化为一个更高层的凸子问题。<ref name="ref19">{{cite journal|last2=Deng|first2=Li|last3=Yu|first3=Dong|date=2012|title=Tensor deep stacking networks|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=1–15|issue=8|pages=1944–1957|doi=10.1109/tpami.2012.268|last1=Hutchinson|first1=Brian}}</ref>TDSN在【双线性映射】中,通过一个第三序的【张量】,从预测同一层的两个不同隐藏单元集合使用协方差统计。
在传统DNN中,并行性和可扩展性不被认为是严重的。DSN和TDSN中所有的学习使用批处理模式, 允许并行化。并行化允许放大这种设计到更大(更深)的结构和数据集。
+
在传统DNN中,并行性和可扩展性不被认为是严重的。<ref name="ref26">{{cite journal|last2=Salakhutdinov|first2=Ruslan|date=2006|title=Reducing the Dimensionality of Data with Neural Networks|journal=Science|volume=313|issue=5786|pages=504–507|doi=10.1126/science.1127647|pmid=16873662|last1=Hinton|first1=Geoffrey|bibcode=2006Sci...313..504H}}</ref><ref name="ref27">{{cite journal|last2=Yu|first2=D.|last3=Deng|first3=L.|last4=Acero|first4=A.|date=2012|title=Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition|journal=IEEE Transactions on Audio, Speech, and Language Processing|volume=20|issue=1|pages=30–42|doi=10.1109/tasl.2011.2134090|last1=Dahl|first1=G.}}</ref><ref name="ref28">{{cite journal|last2=Dahl|first2=George|last3=Hinton|first3=Geoffrey|date=2012|title=Acoustic Modeling Using Deep Belief Networks|journal=IEEE Transactions on Audio, Speech, and Language Processing|volume=20|issue=1|pages=14–22|doi=10.1109/tasl.2011.2109382|last1=Mohamed|first1=Abdel-rahman}}</ref>DSN和TDSN中所有的学习使用批处理模式, 允许并行化。<ref name="ref16" /><ref name="ref17" />并行化允许放大这种设计到更大(更深)的结构和数据集。
 
基本结构适用于多种任务如【分类】和【回归】。
 
基本结构适用于多种任务如【分类】和【回归】。
    
=== 钉板受限玻尔兹曼机(Spike-and-slab RBMs) ===
 
=== 钉板受限玻尔兹曼机(Spike-and-slab RBMs) ===
深度学习有带【实值】输入的需要,如在高斯受限玻尔兹曼机中一样,引出了“钉板”【受限玻尔兹曼机】,它模拟带严格【二进制】【潜变量】的连续值输入。与基本【RBM】和它的变体一样,钉板【RBM】是【二分图】,好像GRBM一样,可见单元(输入)是实值的。
+
深度学习有带【实值】输入的需要,如在高斯受限玻尔兹曼机中一样,引出了“钉板”【受限玻尔兹曼机】,它模拟带严格【二进制】【潜变量】的连续值输入。<ref name="ref30">{{cite journal|last2=Bergstra|first2=James|last3=Bengio|first3=Yoshua|date=2011|title=A Spike and Slab Restricted Boltzmann Machine|url=http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CourvilleBB11.pdf|journal=JMLR: Workshop and Conference Proceeding|volume=15|pages=233–241|last1=Courville|first1=Aaron}}</ref>与基本【RBM】和它的变体一样,钉板【RBM】是【二分图】,好像GRBM一样,可见单元(输入)是实值的。
区别在隐藏层,每个隐藏单元有二进制的发放值【?】和实值的平滑值【?】。spike是一个离散的在零处的【概率质量】,slab是一个连续域上的【概率密度】,它们的混合形成了【先验】。
+
区别在隐藏层,每个隐藏单元有二进制的发放值【?】和实值的平滑值【?】。spike是一个离散的在零处的【概率质量】,slab是一个连续域上的【概率密度】<ref name="ref32">{{cite conference|last1=Courville|first1=Aaron|last2=Bergstra|first2=James|last3=Bengio|first3=Yoshua|chapter=Unsupervised Models of Images by Spike-and-Slab RBMs|title=Proceedings of the 28th International Conference on Machine Learning|volume=10|pages=1–8|date=2011|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Courville_591.pdf}}</ref>,它们的混合形成了【先验】。<ref name="ref31">{{cite journal|last2=Beauchamp|first2=J|date=1988|title=Bayesian Variable Selection in Linear Regression|journal=Journal of the American Statistical Association|volume=83|issue=404|pages=1023–1032|doi=10.1080/01621459.1988.10478694|last1=Mitchell|first1=T}}</ref>
    
ss【RBM】的一个扩展是µ-ss[【RBM】,使用【能量函数】中的附加项提供了额外的建模能力。这些项之一使模型形成了spike值的【条件分布】,通过给定一个观测值【边际化出】slab值。
 
ss【RBM】的一个扩展是µ-ss[【RBM】,使用【能量函数】中的附加项提供了额外的建模能力。这些项之一使模型形成了spike值的【条件分布】,通过给定一个观测值【边际化出】slab值。
    
=== 混合层级深度模型(Compound hierarchical-deep models) ===
 
=== 混合层级深度模型(Compound hierarchical-deep models) ===
混合层级深度模型构成了带非参数【贝叶斯模型】的深度网络。【特征】可以使用像DBN,深度自动编码器,卷积变体,ssRAM,深度编码网络,带稀疏特征学习的DBN,RNN,条件DBN,去噪自动编码器的深度结构学习 。这提供了更好的表示,允许更快的学习和高维数据下更精确的分类。然而,这些结果在学习带少示例的异常类时表现很差,因为所有的网络单元都参与表示输入(分布式表征)并且必须一起被调整(高【自由度】)。限制自由度减少了要学习的参数数量,使从新的例子中的新的类学习更容易。【层次贝叶斯模型】允许从少量示例中学习,例如计算机视觉,【统计学】 和认知科学。
+
混合层级深度模型构成了带非参数【贝叶斯模型】的深度网络。【特征】可以使用像DBN<ref name="hinton2006" />,DBM<ref name="ref3">{{cite journal|last1=Hinton|first1=Geoffrey|last2=Salakhutdinov|first2=Ruslan|date=2009|title=Efficient Learning of Deep Boltzmann Machines|url=http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS09_SalakhutdinovH.pdf|volume=3|pages=448–455}}</ref>,深度自动编码器<ref name="ref15">{{cite journal|last2=Bengio|first2=Yoshua|last3=Louradour|first3=Jerdme|last4=Lamblin|first4=Pascal|date=2009|title=Exploring Strategies for Training Deep Neural Networks|url=http://dl.acm.org/citation.cfm?id=1577070|journal=The Journal of Machine Learning Research|volume=10|pages=1–40|last1=Larochelle|first1=Hugo}}</ref>,卷积变体<ref name="ref39">{{cite journal|last2=Carpenter|first2=Blake|date=2011|title=Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning|url=http://www.iapr-tc11.org/archive/icdar2011/fileup/PDF/4520a440.pdf|journal=|volume=|pages=440–445|via=|last1=Coates|first1=Adam}}</ref><ref name="ref40">{{cite journal|last2=Grosse|first2=Roger|date=2009|title=Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations|url=http://portal.acm.org/citation.cfm?doid=1553374.1553453|journal=Proceedings of the 26th Annual International Conference on Machine Learning|pages=1–8|last1=Lee|first1=Honglak}}</ref>,ssRAM,<ref name="ref32" />深度编码网络,<ref name="ref41">{{cite journal|last2=Zhang|first2=Tong|date=2010|title=Deep Coding Network|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_1077.pdf|journal=Advances in Neural . . .|pages=1–9|last1=Lin|first1=Yuanqing}}</ref>带稀疏特征学习的DBN,<ref name="ref42">{{cite journal|last2=Boureau|first2=Y-Lan|date=2007|title=Sparse Feature Learning for Deep Belief Networks|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_1118.pdf|journal=Advances in Neural Information Processing Systems|volume=23|pages=1–8|last1=Ranzato|first1=Marc Aurelio}}</ref>RNN,<ref name="ref43">{{cite journal|last2=Lin|first2=Clif|date=2011|title=Parsing Natural Scenes and Natural Language with Recursive Neural Networks|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Socher_125.pdf|journal=Proceedings of the 26th International Conference on Machine Learning|last1=Socher|first1=Richard}}</ref>条件DBN,<ref name="ref44">{{cite journal|last2=Hinton|first2=Geoffrey|date=2006|title=Modeling Human Motion Using Binary Latent Variables|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_693.pdf|journal=Advances in Neural Information Processing Systems|last1=Taylor|first1=Graham}}</ref>去噪自动编码器的深度结构学习<ref name="ref45">{{cite journal|last2=Larochelle|first2=Hugo|date=2008|title=Extracting and composing robust features with denoising autoencoders|url=http://portal.acm.org/citation.cfm?doid=1390156.1390294|journal=Proceedings of the 25th international conference on Machine learning – ICML '08|pages=1096–1103|last1=Vincent|first1=Pascal}}</ref>。这提供了更好的表示,允许更快的学习和高维数据下更精确的分类。然而,这些结果在学习带少示例的异常类时表现很差,因为所有的网络单元都参与表示输入(分布式表征)并且必须一起被调整(高【自由度】)。限制自由度减少了要学习的参数数量,使从新的例子中的新的类学习更容易。【层次贝叶斯模型】允许从少量示例中学习,例如<ref name="ref34">{{cite journal|last2=Perfors|first2=Amy|last3=Tenenbaum|first3=Joshua|date=2007|title=Learning overhypotheses with hierarchical Bayesian models|journal=Developmental Science|volume=10|issue=3|pages=307–21|doi=10.1111/j.1467-7687.2007.00585.x|pmid=17444972|last1=Kemp|first1=Charles}}</ref><ref name="ref37">{{cite journal|last2=Tenenbaum|first2=Joshua|date=2007|title=Word learning as Bayesian inference|journal=Psychol. Rev.|volume=114|issue=2|pages=245–72|doi=10.1037/0033-295X.114.2.245|pmid=17500627|last1=Xu|first1=Fei}}</ref><ref name="ref46">{{cite journal|last2=Polatkan|first2=Gungor|date=2011|title=The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Chen_251.pdf|journal=Machine Learning . . .|last1=Chen|first1=Bo}}</ref><ref name="ref47">{{cite journal|last2=Fergus|first2=Rob|date=2006|title=One-shot learning of object categories|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=28|issue=4|pages=594–611|doi=10.1109/TPAMI.2006.79|pmid=16566508|last1=Fei-Fei|first1=Li}}</ref><ref name="ref48">{{cite journal|last2=Dunson|first2=David|date=2008|title=The Nested Dirichlet Process|url=http://amstat.tandfonline.com/doi/full/10.1198/016214508000000553|journal=Journal of the American Statistical Association|volume=103|issue=483|pages=1131–1154|doi=10.1198/016214508000000553|last1=Rodriguez|first1=Abel}}</ref>计算机视觉,【统计学】 和认知科学。
混合HD结构目的是整合HB和深度网络的特征。混合HDP-DBM结构是一种作为层级模型的【层级狄利克雷过程】与DBM结构合并。这是全【生成模型】,从流经模型层的抽象概念中生成,它可以分析在异常类中看起来“合理的”自然的新例子。所以的层级通过最大化一个共同【对数概率分数】被共同学习。
+
混合HD结构目的是整合HB和深度网络的特征。混合HDP-DBM结构是一种作为层级模型的【层级狄利克雷过程】与DBM结构合并。这是全【生成模型】,从流经模型层的抽象概念中生成,它可以分析在异常类中看起来“合理的”自然的新例子。所以的层级通过最大化一个共同【对数概率分数】被共同学习。<ref name="ref38">{{cite journal|last2=Joshua|first2=Tenenbaum|date=2012|title=Learning with Hierarchical-Deep Models|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=35|issue=8|pages=1958–71|doi=10.1109/TPAMI.2012.269|pmid=23787346|last1=Ruslan|first1=Salakhutdinov}}</ref>
    
在有三层隐藏层的DBM中,可见输入'''<math>{\boldsymbol{\nu}}</math>'''的概率是 :
 
在有三层隐藏层的DBM中,可见输入'''<math>{\boldsymbol{\nu}}</math>'''的概率是 :
第279行: 第280行:  
深度预测编码网络 (DPCN)是一个【预测】编码体系,它使用自顶向下信息,经验为主地调整自底向上【推理】过程需要的先验,通过一个深度局部连接的【生成模型】 。这通过使用线性动态模型,从不同时间的观测值提取稀疏【特征】工作。然后一个池化策略被用于学习不变的特征表示。这些单元组成一种【贪心】按层间【无监督学习】训练的深度结构 。这些层构成一种【马尔科夫链】因而任何层的状态只依赖前面和后面的层。
 
深度预测编码网络 (DPCN)是一个【预测】编码体系,它使用自顶向下信息,经验为主地调整自底向上【推理】过程需要的先验,通过一个深度局部连接的【生成模型】 。这通过使用线性动态模型,从不同时间的观测值提取稀疏【特征】工作。然后一个池化策略被用于学习不变的特征表示。这些单元组成一种【贪心】按层间【无监督学习】训练的深度结构 。这些层构成一种【马尔科夫链】因而任何层的状态只依赖前面和后面的层。
   −
DPCN通过使用自顶向下方法用顶层的信息和过去状态的空间依赖预测层的表征。
+
DPCN通过使用自顶向下方法用顶层的信息和过去状态的空间依赖预测层的表征。<ref name="ref56">{{cite arXiv|eprint=1301.3541|first2=Jose|last2=Principe|title=Deep Predictive Coding Networks|date=2013|last1=Chalasani|first1=Rakesh|class=cs.LG}}</ref>
DPCN可以被扩展形成一个【卷积网络】。
+
DPCN可以被扩展形成一个【卷积网络】。<ref name="ref56" />
    
【记忆 or 内存?多处。】
 
【记忆 or 内存?多处。】
 
=== 带单独记忆结构的网络(Networks with separate memory structures) ===
 
=== 带单独记忆结构的网络(Networks with separate memory structures) ===
使用ANN整合外部记忆可以追溯到关于分布表征和【Kohonen】的【自组织映射】的早期研究。例如, 在【稀疏分布式记忆】或【层级空间记忆】中,神经网络编码的模式被用于【可寻址内容的记忆】的地址,使用“神经元”本质上作为地址 【编码器】和【解码器】。 然而早期这种记忆的控制器不可微。
+
使用ANN整合外部记忆可以追溯到关于分布表征<ref name="Hinton, Geoffrey E 19842">{{Cite web|url=http://repository.cmu.edu/cgi/viewcontent.cgi?article=2841&context=compsci|title=Distributed representations|last=Hinton|first=Geoffrey E.|date=1984|website=|archive-url=|archive-date=|dead-url=|access-date=}}</ref>和【Kohonen】的【自组织映射】的早期研究。例如, 在【稀疏分布式记忆】或【层级空间记忆】中,神经网络编码的模式被用于【可寻址内容的记忆】的地址,使用“神经元”本质上作为地址 【编码器】和【解码器】。 然而早期这种记忆的控制器不可微。
    
====LSTM相关的可微记忆结构(LSTM-related differentiable memory structures) ====
 
====LSTM相关的可微记忆结构(LSTM-related differentiable memory structures) ====
 
除了【长短期记忆】(LSTM), 其他方法也在循环函数中加入可微记忆,例如:
 
除了【长短期记忆】(LSTM), 其他方法也在循环函数中加入可微记忆,例如:
* 交替记忆网络的可微的推和弹动作,称为神经栈机器
+
* 交替记忆网络的可微的推和弹动作,称为神经叠加机器<ref name="S. Das, C.L. Giles p. 79">S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog. Sci. Soc., p. 79, 1992.</ref><ref name="Mozer, M. C. 1993 pp. 863-870">{{Cite web|url=https://papers.nips.cc/paper/626-a-connectionist-symbol-manipulator-that-discovers-the-structure-of-context-free-languages|title=A connectionist symbol manipulator that discovers the structure of context-free languages|last=Mozer|first=M. C.|last2=Das|first2=S.|date=1993|website=|publisher=NIPS 5|pages=863–870|archive-url=|archive-date=|dead-url=|access-date=}}</ref>
* 控制网络的外部可微存储在其他网络的快速幂中的记忆网络。
+
* 控制网络的外部可微存储在其他网络的快速幂中的记忆网络。<ref name="ReferenceC">{{cite journal|year=1992|title=Learning to control fast-weight memories: An alternative to recurrent nets|url=|journal=Neural Computation|volume=4|issue=1|pages=131–139|doi=10.1162/neco.1992.4.1.131|last1=Schmidhuber|first1=J.}}</ref>
* LSTM遗忘门
+
* LSTM遗忘门<ref name="F. Gers, N. Schraudolph 2002">{{cite journal|last2=Schraudolph|first2=N.|last3=Schmidhuber|first3=J.|date=|year=2002|title=Learning precise timing with LSTM recurrent networks|url=http://jmlr.org/papers/volume3/gers02a/gers02a.pdf|journal=JMLR|volume=3|issue=|pages=115–143|via=|last1=Gers|first1=F.}}</ref>
* 带用于寻址和在可微样式(内部存储)快速操作RNN自身权重的特殊输出单元的自我参照的RNN。
+
* 带用于寻址和在可微样式(内部存储)快速操作RNN自身权重的特殊输出单元的自我参照的RNN。<ref name="J. Schmidhuber pages 191-195">{{Cite conference|author=[[Jürgen Schmidhuber]]|title=An introspective network that can learn to run its own weight change algorithm|booktitle=In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton|pages=191–195|publisher=IEE|year=1993|url=ftp://ftp.idsia.ch/pub/juergen/iee93self.ps.gz}}</ref><ref name="Hochreiter, Sepp 2001">{{cite journal|last2=Younger|first2=A. Steven|last3=Conwell|first3=Peter R.|date=|year=2001|title=Learning to Learn Using Gradient Descent|url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.323|journal=ICANN|volume=2130|issue=|pages=87–94|doi=|via=|last1=Hochreiter|first1=Sepp}}</ref>
* 学习带无界记忆的转换。
+
* 学习带无界记忆的转换。<ref name="Grefenstette, Edward 1506">Grefenstette, Edward, et al. [https://arxiv.org/pdf/1506.02516.pdf "Learning to Transduce with Unbounded Memory."]{{arxiv|1506.02516}} (2015).</ref>
 +
 
    
===== 神经图灵机(Neural Turing machines) =====
 
===== 神经图灵机(Neural Turing machines) =====
神经图灵机将LSTM网络与外部记忆资源结合,这样他们可以通过注意过程相互影响。这种组合系统和【图灵机】相似但是端到端可微,允许使用【梯度下降】有效训练 。初步结果表明神经图灵机可以推断简单算法,如复制,排序和从输入输出例子的联想回忆。
+
神经图灵机<ref name="Graves, Alex 14102">Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural Turing Machines." {{arxiv|1410.5401}} (2014).</ref>将LSTM网络与外部记忆资源结合,这样他们可以通过注意过程相互影响。这种组合系统和【图灵机】相似但是端到端可微,允许使用【梯度下降】有效训练 。初步结果表明神经图灵机可以推断简单算法,如复制,排序和从输入输出例子的联想回忆。
【可微神经计算机】(DNC)是一个NTM的延伸。他们在序列处理任务中表现超过神经图灵机,【长短期记忆】系统和记忆网络。
+
【可微神经计算机】(DNC)是一个NTM的延伸。他们在序列处理任务中表现超过神经图灵机,【长短期记忆】系统和记忆网络。<ref name=":02">{{Cite news|url=https://www.wired.co.uk/article/deepmind-ai-tube-london-underground|title=DeepMind's AI learned to ride the London Underground using human-like reason and memory|last=Burgess|first=Matt|newspaper=WIRED UK|language=en-GB|access-date=2016-10-19}}</ref><ref>{{Cite news|url=https://www.pcmag.com/news/348701/deepmind-ai-learns-to-navigate-london-tube|title=DeepMind AI 'Learns' to Navigate London Tube|newspaper=PCMAG|access-date=2016-10-19}}</ref><ref>{{Cite web|url=https://techcrunch.com/2016/10/13/__trashed-2/|title=DeepMind's differentiable neural computer helps you navigate the subway with its memory|last=Mannes|first=John|website=TechCrunch|access-date=2016-10-19}}</ref><ref>{{Cite journal|last=Graves|first=Alex|last2=Wayne|first2=Greg|last3=Reynolds|first3=Malcolm|last4=Harley|first4=Tim|last5=Danihelka|first5=Ivo|last6=Grabska-Barwińska|first6=Agnieszka|last7=Colmenarejo|first7=Sergio Gómez|last8=Grefenstette|first8=Edward|last9=Ramalho|first9=Tiago|date=2016-10-12|title=Hybrid computing using a neural network with dynamic external memory|url=http://www.nature.com/nature/journal/vaop/ncurrent/full/nature20101.html|journal=Nature|language=en|volume=538|issue=7626|doi=10.1038/nature20101|issn=1476-4687|pages=471–476|pmid=27732574|bibcode=2016Natur.538..471G}}</ref><ref>{{Cite web|url=https://deepmind.com/blog/differentiable-neural-computers/|title=Differentiable neural computers {{!}} DeepMind|website=DeepMind|access-date=2016-10-19}}</ref>
    
==== 语义哈希(Semantic hashing )====
 
==== 语义哈希(Semantic hashing )====
直接代表过去经验,【使用相同经验形成局部模型】的方法通常称为【最近邻】或【k最近邻】方法。深度学习在语义哈希中十分有用,其中一个深度【图模型】建模由一个大的文档集中获取的字数向量。文档映射到内存地址,这样语义相似的文档位于临近的地址。与查询文档相似的文档可以通过访问所有仅来自查询文档地址的几位不同的地址找到。不像在1000位地址上操作的【稀疏分布记忆】,语义哈希在常见计算机结构的32或64位地址上工作。
+
直接代表过去经验,【使用相同经验形成局部模型】的方法通常称为【最近邻】或【k最近邻】方法。<ref>{{cite journal|last2=Schaal|first2=Stefan|year=1995|title=Memory-based neural networks for robot learning|url=|journal=Neurocomputing|volume=9|issue=3|pages=243–269|doi=10.1016/0925-2312(95)00033-6|last1=Atkeson|first1=Christopher G.}}</ref>深度学习在语义哈希<ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. [http://www.utstat.toronto.edu/~rsalakhu/papers/sdarticle.pdf "Semantic hashing."] International Journal of Approximate Reasoning 50.7 (2009): 969–978.</ref>中十分有用,其中一个深度【图模型】建模由一个大的文档集中获取的字数向量。<ref name="Le 2014">{{Cite arXiv|eprint=1405.4053|first=Quoc V.|last=Le|first2=Tomas|last2=Mikolov|title=Distributed representations of sentences and documents|year=2014|class=cs.CL}}</ref> 文档映射到内存地址,这样语义相似的文档位于临近的地址。与查询文档相似的文档可以通过访问所有仅来自查询文档地址的几位不同的地址找到。不像在1000位地址上操作的【稀疏分布记忆】,语义哈希在常见计算机结构的32或64位地址上工作。
    
==== 记忆网络(Memory networks) ====
 
==== 记忆网络(Memory networks) ====
记忆网络是神经网络结合【长期记忆】的另一个扩展。长期记忆可以可以被读写,目的是用来预测。这些模型用于【问题回答】,其中长期记忆有效地作为(动态)知识基础,输出是文本回应。一个来自UCLA萨穆埃利工程学院的电子和计算机工程师团队做出了一种物理人工神经网络。它可以在实际光速下分析大量数据并识别物体。
+
记忆网络<ref name="Weston, Jason 14102">Weston, Jason, Sumit Chopra, and Antoine Bordes. "Memory networks." {{arxiv|1410.3916}} (2014).</ref><ref>Sukhbaatar, Sainbayar, et al. "End-To-End Memory Networks." {{arxiv|1503.08895}} (2015).</ref>是神经网络结合【长期记忆】的另一个扩展。长期记忆可以可以被读写,目的是用来预测。这些模型用于【问题回答】,其中长期记忆有效地作为(动态)知识基础,输出是文本回应。<ref>Bordes, Antoine, et al. "Large-scale Simple Question Answering with Memory Networks." {{arxiv|1506.02075}} (2015).</ref>一个来自UCLA萨穆埃利工程学院的电子和计算机工程师团队做出了一种物理人工神经网络。它可以在实际光速下分析大量数据并识别物体。<ref>{{Cite news|url=https://www.sciencedaily.com/releases/2018/08/180802130750.htm|title=AI device identifies objects at the speed of light: The 3D-printed artificial neural network can be used in medicine, robotics and security|work=ScienceDaily|access-date=2018-08-08|language=en}}</ref>
    
==== 指针网络(Pointer networks) ====
 
==== 指针网络(Pointer networks) ====
深度神经网络可能通过在维持可训练性的同时,加深和减少参数改进。当训练十分深(例如一百万层)神经网络可能不可行,类【CPU】结构如指针网络和神经随机访问机器通过使用外部【随机访问内存】和其他属于【计算机组成】的组件,如【寄存器】,【ALU】和【指针】解决了这个限制。这种系统在储存在记忆单元和寄存器中的【概率分布】向量上操作。这样,模型是全可微并且端到端训练的。这些模型的关键特点是它们的深度,它们短期记忆的大小和参数的数量可以独立切换——不像类似LSTM的模型,它们的参数数量随内存大小二次增长。
+
深度神经网络可能通过在维持可训练性的同时,加深和减少参数改进。当训练十分深(例如一百万层)神经网络可能不可行,类【CPU】结构如指针网络<ref>Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." {{arxiv|1506.03134}} (2015).</ref>和神经随机访问机器<ref>Kurach, Karol, Andrychowicz, Marcin and Sutskever, Ilya. "Neural Random-Access Machines." {{arxiv|1511.06392}} (2015).</ref>通过使用外部【随机访问内存】和其他属于【计算机组成】的组件,如【寄存器】,【ALU】和【指针】解决了这个限制。这种系统在储存在记忆单元和寄存器中的【概率分布】向量上操作。这样,模型是全可微并且端到端训练的。这些模型的关键特点是它们的深度,它们短期记忆的大小和参数的数量可以独立切换——不像类似LSTM的模型,它们的参数数量随内存大小二次增长。
    
==== 编码解码网络(Encoder–decoder networks )====
 
==== 编码解码网络(Encoder–decoder networks )====
编码解码框架是基于从高度【结构化】输入到高度结构化输出的映射的神经网络。这种方法在【机器翻译】的背景下被提出,它的输入和输出是使用两种自然语言写成的句子。在这个工作中,LSTM RNN或CNN被用作编码机,来总结源语句,这个总结被条件RNN【语言模型】解码来产生翻译。这些系统共享建立的模块:门限RNN,CNN,和训练的注意机制。
+
编码解码框架是基于从高度【结构化】输入到高度结构化输出的映射的神经网络。这种方法在【机器翻译】<ref>{{Cite web|url=http://www.aclweb.org/anthology/D13-1176|title=Recurrent continuous translation models|last=Kalchbrenner|first=N.|last2=Blunsom|first2=P.|date=2013|website=|publisher=EMNLP'2013|archive-url=|archive-date=|dead-url=|access-date=}}</ref><ref>{{Cite web|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|title=Sequence to sequence learning with neural networks|last=Sutskever|first=I.|last2=Vinyals|first2=O.|date=2014|website=|publisher=NIPS'2014|archive-url=|archive-date=|dead-url=|access-date=|last3=Le|first3=Q. V.}}</ref><ref>{{Cite journal|last=Cho|first=K.|last2=van Merrienboer|first2=B.|last3=Gulcehre|first3=C.|last4=Bougares|first4=F.|last5=Schwenk|first5=H.|last6=Bengio|first6=Y.|date=October 2014|title=Learning phrase representations using RNN encoder-decoder for statistical machine translation|journal=Proceedings of the Empiricial Methods in Natural Language Processing|volume=1406|pages=arXiv:1406.1078|via=|arxiv=1406.1078|bibcode=2014arXiv1406.1078C}}</ref>的背景下被提出,它的输入和输出是使用两种自然语言写成的句子。在这个工作中,LSTM RNN或CNN被用作编码机,来总结源语句,这个总结被条件RNN【语言模型】解码来产生翻译。<ref>Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio. "Describing Multimedia Content using Attention-based Encoder–Decoder Networks." {{arxiv|1507.01053}} (2015).</ref> 这些系统共享建立的模块:门限RNN,CNN,和训练的注意机制。
    
=== 多层核机器(Multilayer kernel machine) ===
 
=== 多层核机器(Multilayer kernel machine) ===
多层核机器 (MKM) 是通过迭代应用弱非线性核学习高度非线性函数的方法。它们使用【核主成分分析】 (KPCA),作为一种【无监督】贪心的逐层预训练步深度学习方法。
+
多层核机器 (MKM) 是通过迭代应用弱非线性核学习高度非线性函数的方法。它们使用【核主成分分析】 (KPCA),<ref name="ref60">{{cite journal|last2=Smola|first2=Alexander|date=1998|title=Nonlinear component analysis as a kernel eigenvalue problem|journal=Neural computation|volume=(44)|issue=5|pages=1299–1319|doi=10.1162/089976698300017467|last1=Scholkopf|first1=B|citeseerx=10.1.1.53.8911}}</ref>作为一种【无监督】贪心的逐层预训练步深度学习方法。<ref name="ref59">{{cite journal|date=2012|title=Kernel Methods for Deep Learning|url=http://cseweb.ucsd.edu/~yoc002/paper/thesis_youngmincho.pdf|pages=1–9|last1=Cho|first1=Youngmin}}</ref>
 +
 
 
学到前面层 <math>{l}</math>的特征, 提取在核产生特征域的投影层 <math>{l}</math>的<math>n_l</math>【主成分】(PC) 。为了寻找每层更新表征的【降维】,【监督策略】从KPCA提取的特征中选择最佳有益特征。过程是:
 
学到前面层 <math>{l}</math>的特征, 提取在核产生特征域的投影层 <math>{l}</math>的<math>n_l</math>【主成分】(PC) 。为了寻找每层更新表征的【降维】,【监督策略】从KPCA提取的特征中选择最佳有益特征。过程是:
 
*排序 <math>n_l</math> 特征,根据它们带类标签的【交互信息】;
 
*排序 <math>n_l</math> 特征,根据它们带类标签的【交互信息】;
第318行: 第321行:     
KPCA方法的一些缺点是MKM的建立单元。
 
KPCA方法的一些缺点是MKM的建立单元。
使用用于深度学习的核机器一个更直接的方法被发展,用于口语理解。主旨是使用核机器近似有无限隐藏单元的浅神经网络,然后使用【叠加】结合核机器的输出和核机器的建立下一个更高级的原始输入。深度凸网络的级数是整个系统的超参数,使用交叉验证确定。
+
使用用于深度学习的核机器一个更直接的方法被发展,用于口语理解。<ref>{{Cite journal|last=Deng|first=Li|last2=Tur|first2=Gokhan|last3=He|first3=Xiaodong|last4=Hakkani-Tür|first4=Dilek|date=2012-12-01|title=Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding|url=https://www.microsoft.com/en-us/research/publication/use-of-kernel-deep-convex-networks-and-end-to-end-learning-for-spoken-language-understanding/|journal=Microsoft Research|language=en-US}}</ref> 主旨是使用核机器近似有无限隐藏单元的浅神经网络,然后使用【叠加】结合核机器的输出和核机器的建立下一个更高级的原始输入。深度凸网络的级数是整个系统的超参数,使用交叉验证确定。
    
== 神经结构搜索(Neural architecture search) ==
 
== 神经结构搜索(Neural architecture search) ==
神经结构搜索 (NAS)使用机器学习自动化ANN的设计。多种NAS的方法设计出了与手工设计系统很好媲美的网络。基本搜索算法是提议候选模型,使用数据集评价它并使用结果作为反馈教给NAS网络。
+
神经结构搜索 (NAS)使用机器学习自动化ANN的设计。多种NAS的方法设计出了与手工设计系统很好媲美的网络。基本搜索算法是提议候选模型,使用数据集评价它并使用结果作为反馈教给NAS网络。<ref>{{cite arxiv|last=Zoph|first=Barret|last2=Le|first2=Quoc V.|date=2016-11-04|title=Neural Architecture Search with Reinforcement Learning|eprint=1611.01578|class=cs.LG}}</ref>
    
==使用 ==
 
==使用 ==
第339行: 第342行:  
由于他们重现和模拟非线性过程的能力,人工神经网络在广泛的领域建立了很多应用。
 
由于他们重现和模拟非线性过程的能力,人工神经网络在广泛的领域建立了很多应用。
   −
应用领域包括【系统识别】和控制(车辆控制,弹道预测,【过程控制】,【自然资源管理】),量子化学,玩游戏和【决策】(西洋双陆棋,国际象棋,扑克),【模式识别】(雷达系统,【人脸识别】,信号分类,物体识别和其他),序列识别(姿态,语音,手写和印刷文本),【医疗诊断】,金融(例如【自动交易系统】),【数据挖掘】,可视化,【机器翻译】,社交网络滤波和【垃圾邮件】滤波。
+
应用领域包括【系统识别】和控制(车辆控制,弹道预测,<ref>{{cite journal|last1=Zissis|first1=Dimitrios|title=A cloud based architecture capable of perceiving and predicting multiple vessel behaviour|journal=Applied Soft Computing|date=October 2015|volume=35|url=http://www.sciencedirect.com/science/article/pii/S1568494615004329|doi=10.1016/j.asoc.2015.07.002|pages=652–661}}</ref>【过程控制】,【自然资源管理】),量子化学,<ref name="Balabin_2009">{{Cite journal|journal=[[J. Chem. Phys.]] |volume = 131 |issue = 7 |page = 074104 |doi=10.1063/1.3206326 |title=Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies |year=2009 |author1=Roman M. Balabin |author2=Ekaterina I. Lomakina |pmid=19708729|bibcode = 2009JChPh.131g4104B }}</ref>玩游戏和【决策】(西洋双陆棋,国际象棋,扑克),【模式识别】(雷达系统,【人脸识别】,信号分类,<ref>{{cite journal|last=Sengupta|first=Nandini|author2=Sahidullah, Md|author3=Saha, Goutam|title=Lung sound classification using cepstral-based statistical features|journal=Computers in Biology and Medicine|date=August 2016|volume=75|issue=1|pages=118–129|doi=10.1016/j.compbiomed.2016.05.013|url=http://www.sciencedirect.com/science/article/pii/S0010482516301263}}</ref>物体识别和其他),序列识别(姿态,语音,手写和印刷文本),【医疗诊断】,金融<ref>{{cite journal|last1=French|first1=Jordan|title=The time traveller's CAPM|journal=Investment Analysts Journal|volume=46|issue=2|pages=81–96|doi=10.1080/10293523.2016.1255469|url=http://www.tandfonline.com/doi/abs/10.1080/10293523.2016.1255469|year=2016}}</ref>(例如【自动交易系统】),【数据挖掘】,可视化,【机器翻译】,社交网络滤波和【垃圾邮件】滤波。<ref>{{Cite news|url=https://www.wsj.com/articles/facebook-boosts-a-i-to-block-terrorist-propaganda-1497546000|title=Facebook Boosts A.I. to Block Terrorist Propaganda|last=Schechner|first=Sam|date=2017-06-15|work=Wall Street Journal|access-date=2017-06-16|language=en-US|issn=0099-9660}}</ref>
   −
ANN被用于诊断癌症,包括【肺癌】,【前列腺癌】,【结肠直肠癌】和只使用细胞形状信息区分高度浸润性癌细胞系和较少浸润性系。
+
ANN被用于诊断癌症,包括【肺癌】,<ref>{{cite web|last=Ganesan|first=N|title=Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data|url=http://www.ijcaonline.org/journal/number26/pxc387783.pdf|publisher=International Journal of Computer Applications}}</ref>【前列腺癌】,【结肠直肠癌】<ref>{{cite web|url=http://www.lcc.uma.es/~jja/recidiva/042.pdf|title=Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions|last=Bottaci|first=Leonardo|publisher=The Lancet}}</ref> 和只使用细胞形状信息区分高度浸润性癌细胞系和较少浸润性系。<ref>{{cite journal|last2=Lyons|first2=Samanthe M|last3=Castle|first3=Jordan M|last4=Prasad|first4=Ashok|date=2016|title=Measuring systematic changes in invasive cancer cell shape using Zernike moments|url=http://pubs.rsc.org/en/Content/ArticleLanding/2016/IB/C6IB00100A#!divAbstract|journal=Integrative Biology|volume=8|issue=11|pages=1183–1193|doi=10.1039/C6IB00100A|pmid=27735002|last1=Alizadeh|first1=Elaheh}}</ref><ref>{{cite journal|date=2016|title=Changes in cell shape are correlated with metastatic potential in murine|url=http://bio.biologists.org/content/5/3/289|journal=Biology Open|volume=5|issue=3|pages=289–299|doi=10.1242/bio.013409|last1=Lyons|first1=Samanthe}}</ref>
ANN被用于加速基础设施遭受自然灾害的可靠性分析。
+
ANN被用于加速基础设施遭受自然灾害的可靠性分析。<ref>{{cite arxiv|last=Nabian|first=Mohammad Amin|last2=Meidani|first2=Hadi|date=2017-08-28|title=Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks|eprint=1708.08551|class=cs.CE}}</ref><ref>{{Cite journal|last=Nabian|first=Mohammad Amin|last2=Meidani|first2=Hadi|date=2018|title=Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates|url=https://trid.trb.org/view/1496617|journal=Transportation Research Board 97th Annual Meeting|volume=|pages=|via=}}</ref>
ANN也被用于在【地球科学】中建立黑箱模型,【水文学】,海洋建模和【海岸工程】只是其中很少的几个例子。
+
ANN也被用于在【地球科学】中建立黑箱模型,【水文学】,<ref>{{Cite journal|last=null null|date=2000-04-01|title=Artificial Neural Networks in Hydrology. I: Preliminary Concepts|url=http://ascelibrary.org/doi/abs/10.1061/(ASCE)1084-0699(2000)5:2(115)|journal=Journal of Hydrologic Engineering|volume=5|issue=2|pages=115–123|doi=10.1061/(ASCE)1084-0699(2000)5:2(115)}}</ref><ref>{{Cite journal|last=null null|date=2000-04-01|title=Artificial Neural Networks in Hydrology. II: Hydrologic Applications|url=http://ascelibrary.org/doi/abs/10.1061/(ASCE)1084-0699(2000)5:2(124)|journal=Journal of Hydrologic Engineering|volume=5|issue=2|pages=124–137|doi=10.1061/(ASCE)1084-0699(2000)5:2(124)}}</ref>海洋建模,【海岸工程】<ref>{{Cite journal|last=Peres|first=D. J.|last2=Iuppa|first2=C.|last3=Cavallaro|first3=L.|last4=Cancelliere|first4=A.|last5=Foti|first5=E.|date=2015-10-01|title=Significant wave height record extension by neural networks and reanalysis wind data|url=http://www.sciencedirect.com/science/article/pii/S1463500315001432|journal=Ocean Modelling|volume=94|pages=128–140|doi=10.1016/j.ocemod.2015.08.002|bibcode=2015OcMod..94..128P}}</ref><ref>{{Cite journal|last=Dwarakish|first=G. S.|last2=Rakshith|first2=Shetty|last3=Natesan|first3=Usha|date=2013|title=Review on Applications of Neural Network in Coastal Engineering|url=http://www.ciitresearch.org/dl/index.php/aiml/article/view/AIML072013007|journal=Artificial Intelligent Systems and Machine Learning|language=English|volume=5|issue=7|pages=324–331}}</ref> 和【地貌学】<ref>{{Cite journal|last=Ermini|first=Leonardo|last2=Catani|first2=Filippo|last3=Casagli|first3=Nicola|date=2005-03-01|title=Artificial Neural Networks applied to landslide susceptibility assessment|url=http://www.sciencedirect.com/science/article/pii/S0169555X04002272|journal=Geomorphology|series=Geomorphological hazard and human impact in mountain environments|volume=66|issue=1|pages=327–343|doi=10.1016/j.geomorph.2004.09.025|bibcode=2005Geomo..66..327E}}</ref>只是其中很少的几个例子。
    
===模型的类型===
 
===模型的类型===
许多类型的模型被使用,在不同级定义的抽象概念并建模神经系统的不同方面。他们包括从【个体神经元】短期行为的模型,神经环路动力学如何从个体神经元交互中产生的模型,到行为如何从代表完整子系统的抽象神经模块中产生的模型。这些包括神经系统和它们与从个体神经元到系统层面学习、记忆的关系的长期,短期可塑性模型。
+
许多类型的模型被使用,在不同级定义的抽象概念并建模神经系统的不同方面。他们包括从【个体神经元】<ref>{{cite journal | author=Forrest MD |title=Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster |journal= BMC Neuroscience | volume=16 |issue=27 | date=April 2015 |doi=10.1186/s12868-015-0162-6 |url=http://www.biomedcentral.com/1471-2202/16/27 }}</ref>短期行为的模型,神经环路动力学如何从个体神经元交互中产生的模型,到行为如何从代表完整子系统的抽象神经模块中产生的模型。这些包括神经系统和它们与从个体神经元到系统层面学习、记忆的关系的长期,短期可塑性模型。
      第354行: 第357行:  
【多层感知机】是一个通用函数逼近器, 被【通用逼近理论】证明。然而,考虑到所需神经元的数量,网络拓扑,权重和学习参数,证明是没有建设性的。
 
【多层感知机】是一个通用函数逼近器, 被【通用逼近理论】证明。然而,考虑到所需神经元的数量,网络拓扑,权重和学习参数,证明是没有建设性的。
   −
一种特殊的带有理值权(与全精度【实数】值权相对)的循环结构具有一个【通用图灵机】的完整能力,通过使用有限数量的神经元和标准线性连接。另外,无理值权导致机器带有【超图灵】能力。
+
一种特殊的带有理值权(与全精度【实数】值权相对)的循环结构具有一个【通用图灵机】<ref>{{Cite journal| title =  Turing computability with neural nets | url = http://www.math.rutgers.edu/~sontag/FTPDIR/aml-turing.pdf | year = 1991 | journal = Appl. Math. Lett. | pages = 77–80 | volume = 4 | issue = 6 | last1 = Siegelmann | first1 =  H.T. | last2 =  Sontag | first2 =  E.D. | doi =  10.1016/0893-9659(91)90080-F }}</ref> 的完整能力,通过使用有限数量的神经元和标准线性连接。另外,无理值权导致机器带有【超图灵】能力。<ref>{{cite journal |last1=Balcázar |first1=José |title=Computational Power of Neural Networks: A Kolmogorov Complexity Characterization |journal=Information Theory, IEEE Transactions on |date=Jul 1997 |volume=43 |issue=4 |pages=1175–1183 |doi=10.1109/18.605580 |url=http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=605580&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D605580 |accessdate=3 November 2014|citeseerx=10.1.1.411.7782 }}</ref>
    
===能力(Capacity)===
 
===能力(Capacity)===
第360行: 第363行:     
===收敛(Convergence)===
 
===收敛(Convergence)===
模型可能不一致收敛于一个单独解,首先由于可能存在许多局部最小值,取决于损失函数和模型。其次,当从距离任何局部最小值较远处开始时,使用的优化方法可能不保证收敛。再次,对于足够大的数据或参数,一些方法变得不可行。然而,对于【CMAC】神经网络,引入递推最小二乘算法训练它,这个算法可以保证一步收敛。
+
模型可能不一致收敛于一个单独解,首先由于可能存在许多局部最小值,取决于损失函数和模型。其次,当从距离任何局部最小值较远处开始时,使用的优化方法可能不保证收敛。再次,对于足够大的数据或参数,一些方法变得不可行。然而,对于【CMAC】神经网络,引入递推最小二乘算法训练它,这个算法可以保证一步收敛。<ref name="Qin1"/>
    
===泛化和统计(Generalization and statistics)===
 
===泛化和统计(Generalization and statistics)===
第376行: 第379行:     
===训练问题(Training issues)===
 
===训练问题(Training issues)===
一个对神经网络通常的批评,特别是在机器人领域,是它们需要太多训练才能在真实世界中操作。潜在的解决方法包括随机混排训练例子,在根据一个例子改变网络连接时,通过使用不走过大步的数值优化算法和分组例子成微型批次。提高训练效率和收敛能力一直是神经网络前进的研究领域。例如通过在【CMAC】神经网络中引入递推最小二乘算法, 训练过程只需要一步收敛。
+
一个对神经网络通常的批评,特别是在机器人领域,是它们需要太多训练才能在真实世界中操作。潜在的解决方法包括随机混排训练例子,在根据一个例子改变网络连接时,通过使用不走过大步的数值优化算法和分组例子成微型批次。提高训练效率和收敛能力一直是神经网络前进的研究领域。例如通过在【CMAC】神经网络中引入递推最小二乘算法, 训练过程只需要一步收敛。<ref name="Qin1"/>
    
===理论问题(Theoretical issues)===
 
===理论问题(Theoretical issues)===
 
没有神经网络解决了计算困难的问题例如【八皇后】问题,【旅行商问题】或【整数因子分解】对于大整数的问题。
 
没有神经网络解决了计算困难的问题例如【八皇后】问题,【旅行商问题】或【整数因子分解】对于大整数的问题。
一个根本的缺点是它们不反映真实神经元如何运行。反向传播是多数人工神经网络的一个批评部分,尽管生物神经网络中没有这种机制存在。真实神经元是如何编码信息是未知的。带有感觉激活的【感觉神经元】发放【动作电位】更频繁,【肌细胞】相关联的【运动神经元】接收动作电位更频繁时,它们也牵拉更强烈。不同于从感觉神经元到运动神经元的信息传播,对于信息如何被生物神经网络处理的原则几乎毫无了解。
+
一个根本的缺点是它们不反映真实神经元如何运行。反向传播是多数人工神经网络的一个批评部分,尽管生物神经网络中没有这种机制存在。<ref>{{cite journal | last1 = Crick | first1 = Francis | year = 1989 | title = The recent excitement about neural networks | journal = Nature | volume = 337 | issue = 6203 | pages = 129–132 | doi = 10.1038/337129a0 | url = http://europepmc.org/abstract/med/2911347 | pmid=2911347| bibcode = 1989Natur.337..129C }}</ref>真实神经元是如何编码信息是未知的。带有感觉激活的【感觉神经元】发放【动作电位】更频繁,【肌细胞】相关联的【运动神经元】接收动作电位更频繁时,它们也牵拉更强烈。<ref>{{cite journal | last1 = Adrian | first1 = Edward D. | year = 1926 | title = The impulses produced by sensory nerve endings | journal = The Journal of Physiology | volume = 61 | issue = 1 | pages = 49–72 | doi = 10.1113/jphysiol.1926.sp002273 | pmid = 16993776 | pmc = 1514809 | url = http://onlinelibrary.wiley.com/doi/10.1113/jphysiol.1926.sp002273/full }}</ref>不同于从感觉神经元到运动神经元的信息传播,对于信息如何被生物神经网络处理的原则几乎毫无了解。
ANN背后的动机不必要严格复制神经功能,但是使用生物神经网络是一种启发。ANN的一个主要要求是体现一些新的、强大的处理信息的通用原则。不幸的是,这些通用原则是被不好定义的。通常声称它们是从网络自身【突现】的。这允许简单统计关联(人工神经网络的基本函数被描述为学习或识别)。结果【Alexander Dewdney】评论道,人工神经网络有一种“不劳而获的利益特性,它给予特殊的懒惰气氛,区别缺少关于这些计算系统多么好的好奇。没有人类的手(或思维)干涉;解好像通过魔法一样得到;看起来没有人学到了任何东西”
+
ANN背后的动机不必要严格复制神经功能,但是使用生物神经网络是一种启发。ANN的一个主要要求是体现一些新的、强大的处理信息的通用原则。不幸的是,这些通用原则是被不好定义的。通常声称它们是从网络自身【突现】的。这允许简单统计关联(人工神经网络的基本函数被描述为学习或识别)。结果【Alexander Dewdney】评论道,人工神经网络有一种“不劳而获的利益特性,它给予特殊的懒惰气氛,区别缺少关于这些计算系统多么好的好奇。没有人类的手(或思维)干涉;解好像通过魔法一样得到;看起来没有人学到了任何东西”<ref>{{cite book|url={{google books |plainurl=y |id=KcHaAAAAMAAJ|page=82}}|title=Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science|last=Dewdney|first=A. K.|date=1 April 1997|publisher=Wiley|year=|isbn=978-0-471-10806-1|location=|pages=82}}</ref>
 +
 
   −
正如大脑解剖记录的那样,生物的大脑使用浅的和深的环路,显示出广泛的不变性。Weng 反驳说大脑自己的线路主要根据信号统计,因此连续串联不能捕获所有主要统计依赖。
+
正如大脑解剖记录的那样,<ref name="VanEssen1991">D. J. Felleman and D. C. Van Essen, "[http://cercor.oxfordjournals.org/content/1/1/1.1.full.pdf+html Distributed hierarchical processing in the primate cerebral cortex]," ''Cerebral Cortex'', 1, pp. 1–47, 1991.</ref>生物的大脑使用浅的和深的环路,显示出广泛的不变性。Weng<ref name="Weng2012">J. Weng, "[https://www.amazon.com/Natural-Artificial-Intelligence-Introduction-Computational/dp/0985875720 Natural and Artificial Intelligence: Introduction to Computational Brain-Mind]," BMI Press, {{ISBN|978-0985875725}}, 2012.</ref>反驳说大脑自己的线路主要根据信号统计,因此连续串联不能捕获所有主要统计依赖。
    
===硬件问题(Hardware issues)===
 
===硬件问题(Hardware issues)===
大而有效的神经网络需要相当大的计算资源。大脑有为信号处理任务定制的硬件,通过神经元的【图】,在【冯诺依曼结构】中模拟简化的神经元可能迫使神经网络设计者填充数百万的【数据库】行为了它的连接——它可以消耗大量【内存】和存储。另外,设计者通常需要在许多这种连接和它们相关的神经元间传输信号——这必须总是与巨大的【CPU】处理能力和时间相匹配。
+
大而有效的神经网络需要相当大的计算资源。<ref name=":0">{{cite journal|last1=Edwards|first1=Chris|title=Growing pains for deep learning|journal=Communications of the ACM|date=25 June 2015|volume=58|issue=7|pages=14–16|doi=10.1145/2771283}}</ref>大脑有为信号处理任务定制的硬件,通过神经元的【图】,在【冯诺依曼结构】中模拟简化的神经元可能迫使神经网络设计者填充数百万的【数据库】行为了它的连接——它可以消耗大量【内存】和存储。另外,设计者通常需要在许多这种连接和它们相关的神经元间传输信号——这必须总是与巨大的【CPU】处理能力和时间相匹配。
   −
【Schmidhuber】表示二十一世纪神经网络的再起主要由于硬件的进步:从1991到2015,计算能力,特别是由【GPGPU】(在GPU上)递送,增长了大约一百万倍,使得标准反向传播算法对于训练比从前深几层的网络可行。并行GPU的使用可以将训练时间从几个月到几天。
+
【Schmidhuber】表示二十一世纪神经网络的再起主要由于硬件的进步:从1991到2015,计算能力,特别是由【GPGPU】(在GPU上)递送,增长了大约一百万倍,使得标准反向传播算法对于训练比从前深几层的网络可行。<ref>{{cite journal |last=Schmidhuber |first=Jürgen |title=Deep learning in neural networks: An overview |journal=Neural Networks |volume=61 |year=2015 |pages=85–117 |arxiv=1404.7828 |doi=10.1016/j.neunet.2014.09.003|pmid=25462637 }}</ref>并行GPU的使用可以将训练时间从几个月到几天。
   −
【神经形态工程】通过构造非冯诺依曼芯片直接用电路实现神经网络,来直接强调硬件的困难。另一个处理神经网络的优化芯片称为【张量处理单元】或TPU。
+
【神经形态工程】通过构造非冯诺依曼芯片直接用电路实现神经网络,来直接强调硬件的困难。另一个处理神经网络的优化芯片称为【张量处理单元】或TPU。<ref>{{cite news |url=https://www.wired.com/2016/05/google-tpu-custom-chips/ |author=Cade Metz |newspaper=Wired |date=May 18, 2016 |title=Google Built Its Very Own Chips to Power Its AI Bots}}</ref>
    
===对批评的实际反例===
 
===对批评的实际反例===