更改

删除4,164字节 、 2021年8月4日 (三) 18:57
无编辑摘要
第3行: 第3行:  
* |description=人工智能,数据挖掘,模型评估
 
* |description=人工智能,数据挖掘,模型评估
 
* }}
 
* }}
'''机器学习 Machine Learning,ML'''是[https://en.wikipedia.org/wiki/Computer_science 计算机科学]的分支——[[人工智能]]的一个子集,它通常使用统计学方法,借助[https://en.wikipedia.org/wiki/Data 数据],赋予[https://en.wikipedia.org/wiki/Computer 计算机]“学习”的能力(例如,逐渐提高在特定任务上的表现)而不需要明确编写学习过程<ref name =" 2w">The "without being explicitly programmed" definition is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959. But the phrase is not found literally in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" in Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). [https://link.springer.com/chapter/10.1007/978-94-009-0279-4_9 Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming]. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170. [https://doi.org/10.1007/978-94-009-0279-4_9 doi:10.1007/978-94-009-0279-4_9] </ref>。
+
'''机器学习 Machine Learning,ML'''是计算机科学的分支——[[人工智能]]的一个子集,它通常使用统计学方法,借助数据,赋予计算机“学习”的能力(例如,逐渐提高在特定任务上的表现)而不需要明确编写学习过程<ref name =" 2w">The "without being explicitly programmed" definition is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959. But the phrase is not found literally in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" in Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). [https://link.springer.com/chapter/10.1007/978-94-009-0279-4_9 Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming]. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170. [https://doi.org/10.1007/978-94-009-0279-4_9 doi:10.1007/978-94-009-0279-4_9] </ref>。
   −
<br>''机器学习''的名字是[https://en.wikipedia.org/wiki/Arthur_Samuel Arthur Samuel]
+
<br>''机器学习''的名字是Arthur Samuel<ref name="Samuel">{{Cite journal|last=Samuel|first=Arthur|date=1959|title=[http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.368.2254 Some Studies in Machine Learning Using the Game of Checkers] |journal=IBM Journal of Research and Development|volume=3|issue=3|pages=210–229}}</ref>  
<ref name="Samuel">
+
在1959年创建的。它由[[人工智能]]<ref name="Britannica">http://www.britannica.com/EBchecked/topic/1116194/machine-learning </ref>
{{Cite journal|last=Samuel|first=Arthur|date=1959|title=[http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.368.2254 Some Studies in Machine Learning Using the Game of Checkers] |journal=IBM Journal of Research and Development|volume=3|issue=3|pages=210–229}}</ref>  
+
中的[[模式识别]]与计算学习理论研究发展而来,探究从数据
在1959年创建的。它由[[人工智能]]
  −
<ref name="Britannica">http://www.britannica.com/EBchecked/topic/1116194/machine-learning </ref>
  −
中的[https://en.wikipedia.org/wiki/Pattern_recognition 模式识别]与[https://en.wikipedia.org/wiki/Computational_learning_theory 计算学习理论]研究发展而来,探究从数据
   
<ref>{{cite journal |title=Glossary of terms |author1=Ron Kohavi |author2=Foster Provost |journal=Machine Learning |volume=30 |pages=271–274 |year=1998 |url=http://ai.stanford.edu/~ronnyk/glossary.html}}</ref>
 
<ref>{{cite journal |title=Glossary of terms |author1=Ron Kohavi |author2=Foster Provost |journal=Machine Learning |volume=30 |pages=271–274 |year=1998 |url=http://ai.stanford.edu/~ronnyk/glossary.html}}</ref>
中学习、做出预测的[https://en.wikipedia.org/wiki/Algorithm 算法]的研究与结构——这些算法通过从样本输入中建立[https://en.wikipedia.org/wiki/Mathematical_model 模型],做出数据驱动的预测或决定
+
中学习、做出预测的算法的研究与结构——这些算法通过从样本输入中建立模型,做出数据驱动的预测或决定
 
<ref name="bishop2006" />,
 
<ref name="bishop2006" />,
避免了一系列严格的静态[https://en.wikipedia.org/wiki/Computer_program 程序指令]。机器学习被应用于那些设计运转良好、 清晰明确的算法十分困难或根本不可行的计算任务中 ;其应用范围包括[https://en.wikipedia.org/wiki/Email_filtering 电子邮件过滤]、网络入侵者与针对[https://en.wikipedia.org/wiki/Data_breach 数据泄露]的恶意内部人员的探查、[https://en.wikipedia.org/wiki/Optical_character_recognition 光学字符识别]、[https://en.wikipedia.org/wiki/Learning_to_rank 学习排序]、[https://en.wikipedia.org/wiki/Computer_vision 计算机视觉]。
+
避免了一系列严格的静态程序指令。机器学习被应用于那些设计运转良好、 清晰明确的算法十分困难或根本不可行的计算任务中 ;其应用范围包括电子邮件过滤、网络入侵者与针对数据泄露的恶意内部人员的探查、光学字符识别、学习排序、计算机视觉。
   −
<br>机器学习与[https://en.wikipedia.org/wiki/Computational_statistics 计算统计学]密切相关(而且常常与之重叠),计算统计学也专注于通过使用计算机进行预测。它与[https://en.wikipedia.org/wiki/Mathematical_optimization 数学优化]有着很强的联系,后者为之提供了方法、理论和应用领域。机器学习有时与[https://en.wikipedia.org/wiki/Data_mining 数据挖掘]
+
<br>机器学习与计算统计学密切相关(而且常常与之重叠),计算统计学也专注于通过使用计算机进行预测。它与数学优化]有着很强的联系,后者为之提供了方法、理论和应用领域。机器学习有时与[[数据挖掘]]<ref>Mannila Heikki(1996). ''Data mining: machine learning, statistics, and databases.''Int'l Conf. Scientific and Statistical Database Management.IEEE Computer Society.</ref> 混为一谈,后者更侧重于探索性数据分析,被称为[[无监督学习]]<ref name="bishop2006" /><ref>{{cite journal |last=Friedman |first=Jerome H.  
<ref>
  −
Mannila Heikki(1996).  
  −
''Data mining: machine learning, statistics, and databases.''
  −
Int'l Conf. Scientific and Statistical Database Management.IEEE Computer Society.
  −
</ref>  
  −
混为一谈,后者更侧重于[https://en.wikipedia.org/wiki/Exploratory_data_analysis 探索性数据分析],被称为[https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习]
  −
<ref name="bishop2006" />
  −
<ref>
  −
{{cite journal |last=Friedman |first=Jerome H.  
   
|title=Data Mining and Statistics: What's the connection? |journal=Computing Science and Statistics |volume=29 |issue=1 |year=1998 |pages=3–9}}</ref>。机器学习也可以是无监督的,并可用于为各种实体,学习和建立基线行为轮廓,然后用于寻找有意义的异常。
 
|title=Data Mining and Statistics: What's the connection? |journal=Computing Science and Statistics |volume=29 |issue=1 |year=1998 |pages=3–9}}</ref>。机器学习也可以是无监督的,并可用于为各种实体,学习和建立基线行为轮廓,然后用于寻找有意义的异常。
   −
<br>在[https://en.wikipedia.org/wiki/Analytics 数据分析]领域,机器学习是设计复杂模型和算法的一种方法。这有助于预测;在商业用途中,这被称为[https://en.wikipedia.org/wiki/Predictive_analytics 预测分析]。这些分析模型使研究人员、[https://en.wikipedia.org/wiki/Data_science 数据科学家]、工程师和分析人员能够“产生可靠的、可重复的决策和结果”,并通过从数据中的历史关系和趋势中学习,来发现“隐藏的洞见”。
+
<br>在数据分析领域,机器学习是设计复杂模型和算法的一种方法。这有助于预测;在商业用途中,这被称为'''预测分析'''。这些分析模型使研究人员、数据科学家、工程师和分析人员能够“产生可靠的、可重复的决策和结果”,并通过从数据中的历史关系和趋势中学习,来发现“隐藏的洞见”。
<ref>
+
<ref>[http://www.sas.com/it_it/insights/analytics/machine-learning.html "Machine Learning: What it is and why it matters"].''www.sas.com.'' Retrieved 2016-03-29.</ref>
[http://www.sas.com/it_it/insights/analytics/machine-learning.html "Machine Learning: What it is and why it matters"].
+
 
''www.sas.com.'' Retrieved 2016-03-29.
  −
</ref>
      
==概述==
 
==概述==
[https://en.wikipedia.org/wiki/Tom_M._Mitchell Tom M.Mitchell]对机器学习领域中研究的算法提供了一个被广泛引用的、更正式的定义:“计算机程序被描述为从经验E中学习某些类型的任务T和性能度量P,如果它在T中的性能(用P来衡量)随着经验E而提高。”
+
Tom M.Mitchell对机器学习领域中研究的算法提供了一个被广泛引用的、更正式的定义:“计算机程序被描述为从经验E中学习某些类型的任务T和性能度量P,如果它在T中的性能(用P来衡量)随着经验E而提高。”
<ref>{{cite book
+
<ref>{{cite book|author=Mitchell, T.|title=Machine Learning|publisher=McGraw Hill|isbn:978-0-07-042807-2|pages=2|year=1997}}</ref> 这一将机器学习与任务进行关联的定义提供了一个基本的[https://en.wikipedia.org/wiki/Operational_definition 可执行定义],而不是认知术语形式的定义。这与[[艾伦·图灵]]在他的论文“计算机器和智能”中的提议一脉相承,其中“机器能思考吗?”被替换为“机器能做我们(作为思维实体)能做的事情吗?”
|author=Mitchell, T.  
+
<ref>Harnad, Stevan(2008), [http://eprints.ecs.soton.ac.uk/12954/ "The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence"], in Epstein, Robert; Peters, Grace, ''The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer '',Kluwer </ref> 。图灵的建议揭露了''思维机器''可能具有的各种特性以及构建机器时的诸多暗含之意 。
|title=Machine Learning
+
 
|publisher=McGraw Hill
  −
|isbn:978-0-07-042807-2
  −
|pages=2
  −
|year=1997}}</ref>  
  −
这一将机器学习与任务进行关联的定义提供了一个基本的[https://en.wikipedia.org/wiki/Operational_definition 可执行定义],而不是认知术语形式的定义。这与[https://en.wikipedia.org/wiki/Alan_Turing 艾伦·图灵]在他的论文“[https://en.wikipedia.org/wiki/Computing_Machinery_and_Intelligence 计算机器和智能]”中的提议一脉相承,其中“机器能思考吗?”被替换为“机器能做我们(作为思维实体)能做的事情吗?”
  −
<ref>
  −
Harnad, Stevan(2008),  
  −
[http://eprints.ecs.soton.ac.uk/12954/ "The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence"],  
  −
in Epstein, Robert; Peters, Grace,  
  −
''The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer '',
  −
Kluwer  
  −
</ref> 。图灵的建议揭露了''思维机器''可能具有的各种特性以及构建机器时的诸多暗含之意 。
      
===机器学习的任务===
 
===机器学习的任务===
 
机器学习任务通常分为两大类,取决于学习系统是否存在学习“信号”或“反馈”:
 
机器学习任务通常分为两大类,取决于学习系统是否存在学习“信号”或“反馈”:
* [https://en.wikipedia.org/wiki/Supervised_learning 监督学习]:向计算机展示由“教师”提供的示例输入及其期望的输出,目标是学习将输入[https://en.wikipedia.org/wiki/Map_(mathematics) 映射]到输出的一般规则。作为特例,输入信号只能被部分提供,或仅限于特定反馈:
+
* '''监督学习''':向计算机展示由“教师”提供的示例输入及其期望的输出,目标是学习将输入[https://en.wikipedia.org/wiki/Map_(mathematics) 映射]到输出的一般规则。作为特例,输入信号只能被部分提供,或仅限于特定反馈:
** [https://en.wikipedia.org/wiki/Semi-supervised_learning 半监督学习]:只提供给计算机一个不完整的训练信号:一个训练集,其中有一些(通常很多)的目标输出丢失。
+
** '''半监督学习''':只提供给计算机一个不完整的训练信号:一个训练集,其中有一些(通常很多)的目标输出丢失。
** [https://en.wikipedia.org/wiki/Active_learning_(machine_learning) 主动学习]:计算机只能获得有限的实例集(基于预算)的训练标签,还必须优化对象的选择以获取标签。当交互使用时,可以向用户展示这些对象以供标签。
+
** '''主动学习''':计算机只能获得有限的实例集(基于预算)的训练标签,还必须优化对象的选择以获取标签。当交互使用时,可以向用户展示这些对象以供标签。
** [https://en.wikipedia.org/wiki/Reinforcement_learning 强化学习]:训练数据(以奖励和惩罚的形式)只作为对程序在动态环境中的行为的反馈,例如[https://en.wikipedia.org/wiki/Autonomous_car 自动驾驶]或与对手玩游戏<ref name="bishop2006" />。  
+
** '''强化学习''':训练数据(以奖励和惩罚的形式)只作为对程序在动态环境中的行为的反馈,例如[https://en.wikipedia.org/wiki/Autonomous_car 自动驾驶]或与对手玩游戏<ref name="bishop2006" />。  
* [https://en.wikipedia.org/wiki/Unsupervised_learning 无监督学习]:没有标签给学习算法,留下它自己在其输入中找到结构。无监督学习本身可以是一个目标(发现数据中隐藏的模式),或者是一种达到目的的手段([https://en.wikipedia.org/wiki/Feature_learning 特征学习])。
+
* '''无监督学习''':没有标签给学习算法,留下它自己在其输入中找到结构。无监督学习本身可以是一个目标(发现数据中隐藏的模式),或者是一种达到目的的手段(特征学习)。
 +
 
    
===机器学习的应用===
 
===机器学习的应用===
当考虑机器学习系统的期望输出时,机器学习任务的另一种分类出现了。
+
当考虑机器学习系统的期望输出时,机器学习任务的另一种分类出现了。<ref name="bishop2006" />* 在分类中,输入被分成两个或多个类,学习者必须生成一个模型,将未被分类的输入分配给这些类的一个或多个(多标签分类)。这通常是以监督的方式处理的。垃圾邮件过滤是分类的一个例子,其中输入是电子邮件(或其他)消息,类是“垃圾邮件”和“非垃圾邮件”。
<ref name="bishop2006" />
+
* 在回归中,也是一个有监督学习问题,输出是连续的而不是离散的。
* 在[https://en.wikipedia.org/wiki/Statistical_classification 分类]中,输入被分成两个或多个类,学习者必须生成一个模型,将未被分类的输入分配给这些类的一个或多个([https://en.wikipedia.org/wiki/Multi-label_classification 多标签分类])。这通常是以监督的方式处理的。垃圾邮件过滤是分类的一个例子,其中输入是电子邮件(或其他)消息,类是“垃圾邮件”和“非垃圾邮件”。
+
* 在聚类中,一组输入被分为不同组。与分类不同的是,这些组事先是未知的,因此这通常是无监督学习的任务。
* 在[https://en.wikipedia.org/wiki/Regression_analysis 回归]中,也是一个有监督学习问题,输出是连续的而不是离散的。
+
* 密度估计挖掘输入在某一空间的分布。
* 在[https://en.wikipedia.org/wiki/Cluster_analysis 聚类]中,一组输入被分为不同组。与分类不同的是,这些组事先是未知的,因此这通常是无监督学习的任务。
+
* 维数约简通过将输入映射到低维空间来简化输入。主题建模是一个相关的问题,在这个问题中,程序会得到一个人类语言文档的列表,并负责找出哪些文档涵盖了类似的主题。
* [https://en.wikipedia.org/wiki/Density_estimation 密度估计]挖掘输入在某一空间的[https://en.wikipedia.org/wiki/Probability_distribution 分布]。
+
在其他类型的机器学习问题中, 元学习在以往经验的基础上学会了自己的归纳偏好。发育学习是为机器学习而发展起来的,它通过自主的自我探索和与人类教师的社会互动,利用主动学习、成熟、运动协同和模仿等引导机制,产生自己的学习情境序列(也称为课程),累积获得一系列新技能。
* [https://en.wikipedia.org/wiki/Dimensionality_reduction 维数约简]通过将输入映射到低维空间来简化输入。[https://en.wikipedia.org/wiki/Topic_model 主题建模]是一个相关的问题,在这个问题中,程序会得到一个人类语言文档的列表,并负责找出哪些文档涵盖了类似的主题。
+
 
在其他类型的机器学习问题中, [https://en.wikipedia.org/wiki/Meta_learning_(computer_science) 元学习]在以往经验的基础上学会了自己的[https://en.wikipedia.org/wiki/Inductive_bias 归纳偏好]。 [https://en.wikipedia.org/wiki/Developmental_robotics 发育学习]是为[https://en.wikipedia.org/wiki/Robot_learning 机器人学习]而发展起来的,它通过自主的自我探索和与人类教师的社会互动,利用主动学习、成熟、运动协同和模仿等引导机制,产生自己的学习情境序列(也称为课程),累积获得一系列新技能。
      
==历史、和其它领域的关系==
 
==历史、和其它领域的关系==
美国计算机游戏和[[人工智能]]领域的先驱[https://en.wikipedia.org/wiki/Arthur_Samuel Arthur Samuel]于1959年在IBM时发明了“机器学习”一词。作为一项科学探索,机器学习源于对人工智能的探索
+
美国计算机游戏和[[人工智能]]领域的先驱 Arthur Samuel于1959年在IBM时发明了“机器学习”一词。作为一项科学探索,机器学习源于对人工智能的探索<ref>R. Kohavi and F. Provost, "Glossary of terms," Machine Learning, vol. 30, no. 2–3, pp. 271–274, 1998.</ref> 。早在人工智能作为一门学术学科的时期,一些研究人员就对让机器从数据中学习产生了兴趣。他们试图用各种符号方法以及后来被称为“[[神经网络]]”的方法来解决这个问题;这些模型大多是感知器和其他模型,后来被发现是广义线性统计模型的再发明
<ref>R. Kohavi and F. Provost, "Glossary of terms," Machine Learning, vol. 30, no. 2–3, pp. 271–274, 1998.</ref>. 。
+
<ref>Sarle Warren."Neural Networks and statistical models".[https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.699 10.1.1.27.699]</ref>。统计学推理也被使用,特别是在自动医疗诊断中<ref name="aima"/>。
早在人工智能作为一门学术学科的时期,一些研究人员就对让机器从数据中学习产生了兴趣。他们试图用各种符号方法以及后来被称为“[https://en.wikipedia.org/wiki/Neural_network 神经网络]”的方法来解决这个问题;这些模型大多是[https://en.wikipedia.org/wiki/Perceptron 感知器]和其他模型,后来被发现是[https://en.wikipedia.org/wiki/Generalized_linear_model 广义线性统计模型]的再发明
  −
<ref>
  −
Sarle Warren."Neural Networks and statistical models".
  −
[https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.699 10.1.1.27.699]
  −
</ref>。[https://en.wikipedia.org/wiki/Probability_theory 统计学]推理也被使用,特别是在自动医疗诊断中
  −
<ref name="aima"/>。
        −
然而,对[https://en.wikipedia.org/wiki/Symbolic_artificial_intelligence 逻辑的、基于知识的方法]的日益重视,导致人工智能和机器学习之间产生了裂痕,概率系统受到数据采集和数据表示的理论和实践问题的困扰
+
然而,对逻辑的、基于知识的方法的日益重视,导致人工智能和机器学习之间产生了裂痕,概率系统受到数据采集和数据表示的理论和实践问题的困扰<ref name="aima" />。到1980年,[https://en.wikipedia.org/wiki/Expert_system 专家系统]已经主导了人工智能,而统计方法不再受欢迎<ref name="changing">{{Cite journal | last1 = Langley | first1 = Pat| title = The changing science of machine learning | doi : 10.1007/s10994-011-5242-y | journal = Machine Learning| volume = 82 | issue = 3 | pages = 275–279 | year = 2011 }}</ref>。
<ref name="aima" />
+
基于符号与知识的学习的工作仍然属于AI领域,这促成了归纳逻辑编程,但更多的在模式识别和信息检索
到1980年,[https://en.wikipedia.org/wiki/Expert_system 专家系统]已经主导了人工智能,而统计方法不再受欢迎
+
<ref name="aima">Russell, Stuart; Norvig, Peter (2003) [1995]. [https://en.wikipedia.org/wiki/Artificial_Intelligence:_A_Modern_Approach ''Artificial Intelligence: A Modern Approach''] (2nd ed.). Prentice Hall. ISBN 978-0137903955.</ref>方面的统计方法的研究已经超出了人工智能本身的范围。神经网络的研究几乎同时被人工智能和计算机科学所抛弃。而在AI/CS领域之外,这条路线也被其他学科的研究人员奉为“连接主义”而继续存在,包括Hopfield、Rumelhart和Hinton。他们的主要成功是在上世纪80年代中期重新发明了[[反向传播算法]]
<ref name="changing">
  −
{{Cite journal | last1 = Langley | first1 = Pat| title = The changing science of machine learning | doi : 10.1007/s10994-011-5242-y | journal = Machine Learning| volume = 82 | issue = 3 | pages = 275–279 | year = 2011 }}</ref>。
  −
基于符号与知识的学习的工作仍然属于AI领域,这促成了[https://en.wikipedia.org/wiki/Inductive_logic_programming 归纳逻辑编程],但更多的在模式识别和信息检索
  −
<ref name="aima">
  −
Russell, Stuart; Norvig, Peter (2003) [1995].  
  −
[https://en.wikipedia.org/wiki/Artificial_Intelligence:_A_Modern_Approach ''Artificial Intelligence: A Modern Approach''] (2nd ed.). Prentice Hall. ISBN 978-0137903955.
  −
</ref>
  −
方面的统计方法的研究已经超出了人工智能本身的范围。神经网络的研究几乎同时被人工智能和计算机科学所抛弃。而在AI/CS领域之外,这条路线也被其他学科的研究人员奉为“[https://en.wikipedia.org/wiki/Connectionism 连接主义]”而继续存在,包括[https://en.wikipedia.org/wiki/John_Hopfield Hopfield]、[https://en.wikipedia.org/wiki/David_Rumelhart Rumelhart]和[https://en.wikipedia.org/wiki/Geoffrey_Hinton Hinton]。他们的主要成功是在上世纪80年代中期重新发明了[https://en.wikipedia.org/wiki/Backpropagation 反向传播算法]
   
<ref name="aima" />。
 
<ref name="aima" />。
 +
    
机器学习,作为一个独立的领域,在20世纪90年代开始蓬勃发展。机器学习的目标从实现人工智能转变为解决可解决的实践性问题。它将重点从AI中继承的符号方法转向了来自于统计学和概率论的方法和模型<ref name="changing" /> ,同时也受益于数字化信息日益增长的普及性,以及互联网传播信息的能力。
 
机器学习,作为一个独立的领域,在20世纪90年代开始蓬勃发展。机器学习的目标从实现人工智能转变为解决可解决的实践性问题。它将重点从AI中继承的符号方法转向了来自于统计学和概率论的方法和模型<ref name="changing" /> ,同时也受益于数字化信息日益增长的普及性,以及互联网传播信息的能力。
      −
机器学习和[https://en.wikipedia.org/wiki/Data_mining 数据挖掘]通常采用相同的方法,重叠程度很大。但是机器学习侧重于预测——基于从训练数据中学习到的''已知''属性,而数据挖掘则侧重于在数据中[https://en.wikipedia.org/wiki/Discovery_(observation) 发现](以前的)''未知''属性(这是数据库中[https://en.wikipedia.org/wiki/Knowledge_discovery 知识发现]的分析步骤)。数据挖掘采用多种机器学习方法而目标不同;另一方面,机器学习也采用数据挖掘的方法作为“无监督学习”或作为预处理步骤来提高学习精度。这两个研究对象之间的许多混淆(它们通常有单独的会议和单独的期刊,[https://en.wikipedia.org/wiki/ECML_PKDD ECML PKDD]是一个主要的例外)来自于它们所使用的基本假设:在机器学习中,性能通常是根据''重复生产已知知识''的能力来评估的,而在知识发现和数据挖掘(KDD)中,关键任务是发现以前''未知''的知识。在对学习已知知识进行评估时,其他监督学习方法很容易优于无监督学习方法,而在典型的KDD任务中,由于训练数据的不可得性,则无法使用监督学习的方法。
+
机器学习和[[数据挖掘]]通常采用相同的方法,重叠程度很大。但是机器学习侧重于预测——基于从训练数据中学习到的''已知''属性,而数据挖掘则侧重于在数据中发现(以前的)''未知''属性(这是数据库中[https://en.wikipedia.org/wiki/Knowledge_discovery 知识发现]的分析步骤)。数据挖掘采用多种机器学习方法而目标不同;另一方面,机器学习也采用数据挖掘的方法作为“无监督学习”或作为预处理步骤来提高学习精度。这两个研究对象之间的许多混淆(它们通常有单独的会议和单独的期刊,ECML PKDD是一个主要的例外)来自于它们所使用的基本假设:在机器学习中,性能通常是根据''重复生产已知知识''的能力来评估的,而在知识发现和数据挖掘(KDD)中,关键任务是发现以前''未知''的知识。在对学习已知知识进行评估时,其他监督学习方法很容易优于无监督学习方法,而在典型的KDD任务中,由于训练数据的不可得性,则无法使用监督学习的方法。
      −
机器学习与优化也有着密切的联系:许多学习问题被描述为训练集上的一些损失函数的最小化。损失函数表示被训练模型的预测与实际问题之间的差异(例如,在分类中,要为实例分配一个标签,且模型要被训练以正确预测一组预先分配过标签的示例)。这两个领域的区别来自于一般化的目的:优化算法可以最小化训练集上的损失,而机器学习则涉及到最小化未知样本的损失
+
机器学习与优化也有着密切的联系:许多学习问题被描述为训练集上的一些损失函数的最小化。损失函数表示被训练模型的预测与实际问题之间的差异(例如,在分类中,要为实例分配一个标签,且模型要被训练以正确预测一组预先分配过标签的示例)。这两个领域的区别来自于一般化的目的:优化算法可以最小化训练集上的损失,而机器学习则涉及到最小化未知样本的损失<ref>Le Roux, Nicolas; Bengio, Yoshua;Fitzgibbon, Andrew(2012). "Improving First and Second-Order Methods by Modeling Uncertainty Optimization for Machine Learning"In Sra, Suvrit;Nowozin, Sebastian; Wright, Stephen J. ''Optimization for Machine Learning''. MIT Press. p. 404.</ref>。
<ref>
  −
Le Roux, Nicolas; Bengio, Yoshua;Fitzgibbon, Andrew(2012).  
  −
"Improving First and Second-Order Methods by Modeling Uncertainty Optimization for Machine Learning"
  −
In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. ''Optimization for Machine Learning''. MIT Press. p. 404.
  −
</ref>。
         
===与统计学的关系===
 
===与统计学的关系===
机器学习和统计是密切相关的领域。据[https://en.wikipedia.org/wiki/Michael_I._Jordan Michael I. Jordan]说,机器学习的思想,从方法论原理到理论工具,都在统计学上有着悠久的历史
+
机器学习和统计是密切相关的领域。据Michael I. Jordan说,机器学习的思想,从方法论原理到理论工具,都在统计学上有着悠久的历史<ref name="mi jordan ama">Michael I. Jordan (2014-09-10).[https://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckelmtt?context=3 "statistics and machine learning."]reddit. Retrieved 2014-10-01.
<ref name="mi jordan ama">
+
</ref>。他还建议用[[数据科学]]这个术语来称呼整个领域<ref name="mi jordan ama" />。
Michael I. Jordan (2014-09-10).
+
 
[https://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckelmtt?context=3 "statistics and machine learning."]
+
 
reddit. Retrieved 2014-10-01.
+
Leo Breiman区分了两种统计建模范式:数据模型和算法模型<ref>Cornell University Library. [http://projecteuclid.org/download/pdf_1/euclid.ss/1009213726 "Breiman: Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)"]. Retrieved 8 August 2015.</ref> ,其中“算法模型”或多或少是指像[[随机森林]]那样的机器学习算法。
</ref>
  −
他还建议用[[数据科学]]这个术语来称呼整个领域
  −
<ref name="mi jordan ama" />。
     −
[https://en.wikipedia.org/wiki/Leo_Breiman Leo Breiman]区分了两种统计建模范式:数据模型和算法模型
  −
<ref>Cornell University Library. [http://projecteuclid.org/download/pdf_1/euclid.ss/1009213726 "Breiman: Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)"]. Retrieved 8 August 2015.
  −
</ref> ,其中“算法模型”或多或少是指像[[随机森林]]那样的机器学习算法。
      
一些统计学家采用机器学习的方法,形成了一个他们称之为''统计学习''的交叉领域<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=An Introduction to Statistical Learning |publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |page=vii}}</ref>。
 
一些统计学家采用机器学习的方法,形成了一个他们称之为''统计学习''的交叉领域<ref name="islr">{{cite book |author1=Gareth James |author2=Daniela Witten |author3=Trevor Hastie |author4=Robert Tibshirani |title=An Introduction to Statistical Learning |publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |page=vii}}</ref>。
第128行: 第78行:     
作为一项科研成果,机器学习源于对人工智能的探索。在人工智能这一学科研究的早期,一些研究人员对于让机器从数据中进行学习这一问题很感兴趣。他们试图用各种符号方法甚至是当时被称为'''”神经网络 Neural Networks”'''的方法来处理这个问题;但这些方法大部分是感知器或其他模型。后来这些模型随着统计学中广义线性模型的发展而重新出现在大众视野中,与此同时概率推理的方法也被广泛使用,特别是在自动医疗诊断问题上。<ref>{{cite citeseerx |last1=Sarle |first1=Warren |title=Neural Networks and statistical models |citeseerx=10.1.1.27.699 |year=1994}}</ref>
 
作为一项科研成果,机器学习源于对人工智能的探索。在人工智能这一学科研究的早期,一些研究人员对于让机器从数据中进行学习这一问题很感兴趣。他们试图用各种符号方法甚至是当时被称为'''”神经网络 Neural Networks”'''的方法来处理这个问题;但这些方法大部分是感知器或其他模型。后来这些模型随着统计学中广义线性模型的发展而重新出现在大众视野中,与此同时概率推理的方法也被广泛使用,特别是在自动医疗诊断问题上。<ref>{{cite citeseerx |last1=Sarle |first1=Warren |title=Neural Networks and statistical models |citeseerx=10.1.1.27.699 |year=1994}}</ref>
        第141行: 第90行:  
=== 与数据挖掘的关系 ===
 
=== 与数据挖掘的关系 ===
   −
机器学习和数据挖掘虽然在使用方法上有些相似并且有很大的重叠,但是机器学习的重点是预测,基于从训练数据中学到的已知属性,而数据挖掘的重点则是发现数据中(以前)未知的属性(这是'''数据库中知识发现 Knowledge Discovery in Database, KDD'''的基本分析步骤),也就是说数据挖掘虽然使用了许多机器学习方法,但二者的目标不同; 另一方面,机器学习也使用数据挖掘方法作为“无监督学习”或作为提高学习者准确性的预处理步骤。这两个研究领域之间的混淆(这两个领域通常有各自单独的会议和单独的期刊,ECML PKDD是一个例外)来自他们工作的基本假设: 在机器学习中,算法性能通常是根据再现已知知识的能力来评估,而在知识发现和数据挖掘中,其关键任务是发现以前未知的知识,因此在对已知知识进行评价时,其他监督方法很容易超过未知(无监督)方法,而在典型的知识发现任务中,由于缺乏训练数据,无法使用有监督的学习算法。
+
机器学习和数据挖掘虽然在使用方法上有些相似并且有很大的重叠,但是机器学习的重点是预测,基于从训练数据中学到的已知属性,而数据挖掘的重点则是发现数据中(以前)未知的属性(这是'''数据库中知识发现 Knowledge Discovery in Database(KDD)'''的基本分析步骤),也就是说数据挖掘虽然使用了许多机器学习方法,但二者的目标不同; 另一方面,机器学习也使用数据挖掘方法作为“无监督学习”或作为提高学习者准确性的预处理步骤。这两个研究领域之间的混淆(这两个领域通常有各自单独的会议和单独的期刊,ECML PKDD是一个例外)来自他们工作的基本假设: 在机器学习中,算法性能通常是根据再现已知知识的能力来评估,而在知识发现和数据挖掘中,其关键任务是发现以前未知的知识,因此在对已知知识进行评价时,其他监督方法很容易超过未知(无监督)方法,而在典型的知识发现任务中,由于缺乏训练数据,无法使用有监督的学习算法。
      第150行: 第99行:     
==理论==
 
==理论==
:''主文章:[https://en.wikipedia.org/wiki/Computational_learning_theory 计算学习理论]''
+
学习者的一个核心目标是从经验中举一反三<ref name="bishop2006">Bishop, C. M. (2006), ''Pattern Recognition and Machine Learning'', Springer, ISBN 978-0-387-31073-2
学习者的一个核心目标是从经验中举一反三
+
</ref><ref>Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.</ref>。
<ref name="bishop2006">
  −
Bishop, C. M. (2006), ''Pattern Recognition and Machine Learning'', Springer, ISBN 978-0-387-31073-2
  −
</ref>
  −
<ref>
  −
Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.
  −
</ref>。
   
这里的举一反三是指学习机器在经历了学习数据集之后,能够准确地对新的、未见过的示例/任务进行精确的操作。训练实例通常来自一些未知的概率分布(常被认为是样本空间的代表),并且学习者必须建立一个关于这个空间的通用模型,使得它能够在新的情况下产生足够精确的预测。
 
这里的举一反三是指学习机器在经历了学习数据集之后,能够准确地对新的、未见过的示例/任务进行精确的操作。训练实例通常来自一些未知的概率分布(常被认为是样本空间的代表),并且学习者必须建立一个关于这个空间的通用模型,使得它能够在新的情况下产生足够精确的预测。
   −
机器学习算法及其性能的计算分析是[https://en.wikipedia.org/wiki/Theoretical_computer_science 理论计算机科学]的一个分支,称为[https://en.wikipedia.org/wiki/Computational_learning_theory 计算学习理论]。由于训练集是有限的但是未来是不确定的,所以学习理论通常不能保证算法的性能。然而,算法性能的概率的界限是相当普适的。[https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff 偏差-方差分解]是量化泛化[https://en.wikipedia.org/wiki/Errors_and_residuals 误差]的一种方法。
     −
为了在泛化的情境中获得最佳性能,假设的复杂性应该与数据基础上的函数的复杂性相匹配。如果假设没有函数复杂,那么模型就不适合数据。如果模型的复杂度因此增加,则训练误差减小。但如果假设过于复杂,则模型会被[https://en.wikipedia.org/wiki/Overfitting 过度拟合],泛化也将变得更差<ref name="alpaydin">{{Cite book|author=Alpaydin, Ethem|title=Introduction to Machine Learning|url=https://mitpress.mit.edu/books/introduction-machine-learning |year=2010 |publisher=The MIT Press |place=London|isbn: 978-0-262-01243-0 |access-date=4 February 2017 }}</ref>。
+
机器学习算法及其性能的计算分析是理论计算机科学的一个分支,称为'''计算学习理论'''。由于训练集是有限的但是未来是不确定的,所以学习理论通常不能保证算法的性能。然而,算法性能的概率的界限是相当普适的。[https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff 偏差-方差分解]是量化泛化误差的一种方法。
 +
 
 +
 
 +
为了在泛化的情境中获得最佳性能,假设的复杂性应该与数据基础上的函数的复杂性相匹配。如果假设没有函数复杂,那么模型就不适合数据。如果模型的复杂度因此增加,则训练误差减小。但如果假设过于复杂,则模型会被过度拟合,泛化也将变得更差<ref name="alpaydin">{{Cite book|author=Alpaydin, Ethem|title=Introduction to Machine Learning|url=https://mitpress.mit.edu/books/introduction-machine-learning |year=2010 |publisher=The MIT Press |place=London|isbn: 978-0-262-01243-0 |access-date=4 February 2017 }}</ref>。
 +
 
 +
 
 +
除了性能界限外,计算学习理论家还研究了学习的时间复杂性和可行性。在计算学习理论中,如果可以在多项式时间内进行计算,则认为计算是可行的。有两种时间复杂度的结果。正结果表明,一类函数可以在多项式时间内学习。负结果表明,某些类函数不能在多项式时间内学习。
   −
除了性能界限外,计算学习理论家还研究了学习的时间复杂性和可行性。在计算学习理论中,如果可以在[https://en.wikipedia.org/wiki/Time_complexity#Polynomial_time 多项式时间]内进行计算,则认为计算是可行的。有两种[https://en.wikipedia.org/wiki/Time_complexity 时间复杂度]的结果。正结果表明,一类函数可以在多项式时间内学习。负结果表明,某些类函数不能在多项式时间内学习。
      
==方法==
 
==方法==
 
=== 学习算法的分类 ===
 
=== 学习算法的分类 ===
 
不同类型的机器学习算法的方法、输入和输出的数据类型以及它们要解决的任务或问题的类型都有所不同。
 
不同类型的机器学习算法的方法、输入和输出的数据类型以及它们要解决的任务或问题的类型都有所不同。
      
==== 监督学习====
 
==== 监督学习====
第231行: 第177行:  
一些学习算法,大多是[[无监督学习]]算法,旨在发现更好的输入的训练数据的表示。经典的例子包括[[主成分分析]]和[[聚类分析]]。表示学习算法通常试图在输入中保留信息,并将其转换成有用的方式,通常是在执行分类或预测之前的预处理步骤,允许重构来自未知数据生成分布的输入,而不一定对不太可能服从该分布的结构可靠。
 
一些学习算法,大多是[[无监督学习]]算法,旨在发现更好的输入的训练数据的表示。经典的例子包括[[主成分分析]]和[[聚类分析]]。表示学习算法通常试图在输入中保留信息,并将其转换成有用的方式,通常是在执行分类或预测之前的预处理步骤,允许重构来自未知数据生成分布的输入,而不一定对不太可能服从该分布的结构可靠。
   −
[https://en.wikipedia.org/wiki/Nonlinear_dimensionality_reduction#Manifold_learning_algorithms 流形学习]算法尝试处理被学习的数据表示是低维的情况。[https://en.wikipedia.org/wiki/Neural_coding#Sparse_coding 稀疏编码]算法尝试处理被学习的数据表示是稀疏(有多个零)的情况。[https://en.wikipedia.org/wiki/Multilinear_subspace_learning 多线性子空间学习]算法的目的是直接从多维数据的[https://en.wikipedia.org/wiki/Tensor 张量]表示中学习低维表示,而不将它们重构成(高维)向量<ref>{{cite journal |first1=Haiping |last1=Lu |first2=K.N. |last2=Plataniotis |first3=A.N. |last3=Venetsanopoulos |url=http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf |title=A Survey of Multilinear Subspace Learning for Tensor Data |journal=Pattern Recognition |volume=44 |number=7 |pages=1540–1551 |year=2011 }}</ref>。深度学习算法能发现数据表示的多个层次,或者由低级特征定义(或生成)的更高、更抽象的特征层次。有人认为,智能机器是一种学习表示法的机器,它能找出那些解释观测数据的潜在变异因素<ref>{{cite book
+
[https://en.wikipedia.org/wiki/Nonlinear_dimensionality_reduction#Manifold_learning_algorithms 流形学习]算法尝试处理被学习的数据表示是低维的情况。[https://en.wikipedia.org/wiki/Neural_coding#Sparse_coding 稀疏编码]算法尝试处理被学习的数据表示是稀疏(有多个零)的情况。[https://en.wikipedia.org/wiki/Multilinear_subspace_learning 多线性子空间学习]算法的目的是直接从多维数据的[https://en.wikipedia.org/wiki/Tensor 张量]表示中学习低维表示,而不将它们重构成(高维)向量<ref>{{cite journal |first1=Haiping |last1=Lu |first2=K.N. |last2=Plataniotis |first3=A.N. |last3=Venetsanopoulos |url=http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf |title=A Survey of Multilinear Subspace Learning for Tensor Data |journal=Pattern Recognition |volume=44 |number=7 |pages=1540–1551 |year=2011 }}</ref>。深度学习算法能发现数据表示的多个层次,或者由低级特征定义(或生成)的更高、更抽象的特征层次。有人认为,智能机器是一种学习表示法的机器,它能找出那些解释观测数据的潜在变异因素<ref>{{cite book | title = Learning Deep Architectures for AI | author = Yoshua Bengio | publisher = Now Publishers Inc. | year = 2009 | isbn : 978-1-60198-294-0 | pages = 1–3 | url = https://books.google.com/books?id=cq5ewg7FniMC&pg=PA3 }}</ref>。
| title = Learning Deep Architectures for AI
  −
| author = Yoshua Bengio
  −
| publisher = Now Publishers Inc.
  −
| year = 2009
  −
| isbn : 978-1-60198-294-0
  −
| pages = 1–3
  −
| url = https://books.google.com/books?id=cq5ewg7FniMC&pg=PA3
  −
}}</ref>。
        −
Feature learning can be either supervised or unsupervised. In supervised feature learning, features are learned using labeled input data. Examples include [[artificial neural network]]s, [[multilayer perceptron]]s, and supervised [[dictionary learning]]. In unsupervised feature learning, features are learned with unlabeled input data.  Examples include dictionary learning, [[independent component analysis]], [[autoencoder]]s, [[matrix decomposition|matrix factorization]]<ref>{{cite conference |author1=Nathan Srebro |author2=Jason D. M. Rennie |author3=Tommi S. Jaakkola |title=Maximum-Margin Matrix Factorization |conference=[[Conference on Neural Information Processing Systems|NIPS]] |year=2004}}</ref> and various forms of [[Cluster analysis|clustering]].<ref name="coates2011">{{cite conference|last1 = Coates|first1 = Adam
+
特征学习可以是有监督的,也可以是无监督的。在有监督的特征学习中,可以利用标记输入数据学习特征。例如'''人工神经网络 Artificial Neural Networks,ANN'''、'''多层感知机 Multilayer Perceptrons,MLP'''和受控字典式学习模型 Supervised Dictionary Learning Model,SDLM。在无监督的特征学习中,特征是通过未标记的输入数据进行学习的。例如,'''字典学习 Dictionary learning'''、'''独立元素分析 Independent Component Analysis'''、'''自动编码器 Autoencoders'''、'''矩阵分解 Matrix Factorization'''<ref>{{cite conference |author1=Nathan Srebro |author2=Jason D. M. Rennie |author3=Tommi S. Jaakkola |title=Maximum-Margin Matrix Factorization |conference=[[Conference on Neural Information Processing Systems|NIPS]] |year=2004}}</ref>和各种形式的聚类。<ref name="coates2011">{{cite conference|last1 = Coates|first1 = Adam
 
|last2 = Lee|first2 = Honglak|last3 = Ng|first3 = Andrew Y.|title = An analysis of single-layer networks in unsupervised feature learning|conference = Int'l Conf. on AI and Statistics (AISTATS)|year = 2011|url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CoatesNL11.pdf|access-date = 2018-11-25|archive-url = https://web.archive.org/web/20170813153615/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CoatesNL11.pdf|archive-date = 2017-08-13
 
|last2 = Lee|first2 = Honglak|last3 = Ng|first3 = Andrew Y.|title = An analysis of single-layer networks in unsupervised feature learning|conference = Int'l Conf. on AI and Statistics (AISTATS)|year = 2011|url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CoatesNL11.pdf|access-date = 2018-11-25|archive-url = https://web.archive.org/web/20170813153615/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CoatesNL11.pdf|archive-date = 2017-08-13
 
|url-status = dead}}</ref><ref>{{cite conference |last1 = Csurka |first1 = Gabriella|last2 = Dance |first2 = Christopher C.|last3 = Fan |first3 = Lixin|last4 = Willamowski |first4 = Jutta|last5 = Bray |first5 = Cédric|title = Visual categorization with bags of keypoints|conference = ECCV Workshop on Statistical Learning in Computer Vision|year = 2004|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf}}</ref><ref name="jurafsky">{{cite book |title=Speech and Language Processing |author1=Daniel Jurafsky |author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref>
 
|url-status = dead}}</ref><ref>{{cite conference |last1 = Csurka |first1 = Gabriella|last2 = Dance |first2 = Christopher C.|last3 = Fan |first3 = Lixin|last4 = Willamowski |first4 = Jutta|last5 = Bray |first5 = Cédric|title = Visual categorization with bags of keypoints|conference = ECCV Workshop on Statistical Learning in Computer Vision|year = 2004|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf}}</ref><ref name="jurafsky">{{cite book |title=Speech and Language Processing |author1=Daniel Jurafsky |author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref>
  −
  −
特征学习可以是有监督的,也可以是无监督的。在有监督的特征学习中,可以利用标记输入数据学习特征。例如'''人工神经网络 Artificial Neural Networks,ANN'''、'''多层感知机 Multilayer Perceptrons,MLP'''和受控字典式学习模型 Supervised Dictionary Learning Model,SDLM。在无监督的特征学习中,特征是通过未标记的输入数据进行学习的。例如,'''字典学习 Dictionary learning'''、'''独立元素分析 Independent Component Analysis'''、'''自动编码器 Autoencoders'''、'''矩阵分解 Matrix Factorization'''和各种形式的聚类。
        第332行: 第267行:     
=====深度学习=====
 
=====深度学习=====
近几年来,硬件价格的下降和个人用GPU的发展促进了'''深度学习 Deep Learning'''概念的发展,该概念由人工神经网络中的多个隐层组成。这种方法试图模拟人脑将光和声音处理成视觉和听觉的方式。深入学习的一些成功应用是计算机视觉和语音识别。
+
近几年来,硬件价格的下降和个人用GPU的发展促进了'''深度学习 Deep Learning'''概念的发展,该概念由人工神经网络中的多个隐层组成。这种方法试图模拟人脑将光和声音处理成视觉和听觉的方式。深入学习的一些成功应用是计算机视觉和语音识别。<ref>Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng. "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.149.802&rep=rep1&type=pdf Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations]" Proceedings of the 26th Annual International Conference on Machine Learning, 2009.</ref>。
<ref>Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng. "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.149.802&rep=rep1&type=pdf Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations]" Proceedings of the 26th Annual International Conference on Machine Learning, 2009.</ref>。
      
<br>
 
<br>
第343行: 第277行:     
==== 支持向量机 ====
 
==== 支持向量机 ====
'''支持向量机 SupportVectorMachine(SVMs)'''是一种用于分类和回归的[[监督学习]]算法。给出一组训练实例,每个样本会被标记为属于两类中的一个,SVM算法建立了一个模型来预测一个新的例子是否属于一个类别或另一个类别。<ref name="CorinnaCortes">{{Cite journal |last1=Cortes |first1=Corinna |authorlink1=Corinna Cortes |last2=Vapnik |first2=Vladimir N. |year=1995 |title=Support-vector networks |journal=[[Machine Learning (journal)|Machine Learning]] |volume=20 |issue=3 |pages=273–297 |doi=10.1007/BF00994018 |doi-access=free }}</ref>
+
'''支持向量机 SupportVectorMachine(SVMs)'''是一种用于分类和回归的[[监督学习]]算法。给出一组训练实例,每个样本会被标记为属于两类中的一个,SVM算法建立了一个模型来预测一个新的例子是否属于一个类别或另一个类别。<ref name="CorinnaCortes">{{Cite journal |last1=Cortes |first1=Corinna |authorlink1=Corinna Cortes |last2=Vapnik |first2=Vladimir N. |year=1995 |title=Support-vector networks |journal=[[Machine Learning (journal)|Machine Learning]] |volume=20 |issue=3 |pages=273–297 |doi=10.1007/BF00994018 |doi-access=free }}</ref>支持向量机的训练算法用到的是一种非概率的二进制线性分类器,尽管在概率分类环境中也存在使用支持向量机的方法,如 Platt 缩放法。除了执行线性分类,支持向量机可以有效地执行非线性分类使用所谓的'''核技巧 Kernel trick''',隐式地将模型输入映射到高维特征空间。
支持向量机的训练算法用到的是一种非概率的二进制线性分类器,尽管在概率分类环境中也存在使用支持向量机的方法,如 Platt 缩放法。除了执行线性分类,支持向量机可以有效地执行非线性分类使用所谓的'''核技巧 Kernel trick''',隐式地将模型输入映射到高维特征空间。
      
[[Image:Linear regression.svg|thumb|upright=1.3|Illustration of linear regression on a data set.数据集上的线性回归]]
 
[[Image:Linear regression.svg|thumb|upright=1.3|Illustration of linear regression on a data set.数据集上的线性回归]]
第366行: 第299行:  
==== 遗传算法====
 
==== 遗传算法====
   −
'''遗传算法 Genetic Algorithm,GA'''是一种模拟[https://en.wikipedia.org/wiki/Natural_selection 自然选择]过程的[https://en.wikipedia.org/wiki/Search_algorithm 搜索][https://en.wikipedia.org/wiki/Heuristic_(computer_science) 启发]式算法,它利用[https://en.wikipedia.org/wiki/Mutation_(genetic_algorithm) 变异]和[https://en.wikipedia.org/wiki/Crossover_(genetic_algorithm) 重组]等方法生成新的[https://en.wikipedia.org/wiki/Chromosome_(genetic_algorithm) 基因型],以期为给定问题找到好的解决方案。在机器学习中,遗传算法在20世纪80年代和90年代得到了一些应用
+
'''遗传算法 Genetic Algorithm(GA)'''是一种模拟[https://en.wikipedia.org/wiki/Natural_selection 自然选择]过程的[https://en.wikipedia.org/wiki/Search_algorithm 搜索][https://en.wikipedia.org/wiki/Heuristic_(computer_science) 启发]式算法,它利用[https://en.wikipedia.org/wiki/Mutation_(genetic_algorithm) 变异]和[https://en.wikipedia.org/wiki/Crossover_(genetic_algorithm) 重组]等方法生成新的[https://en.wikipedia.org/wiki/Chromosome_(genetic_algorithm) 基因型],以期为给定问题找到好的解决方案。在机器学习中,遗传算法在20世纪80年代和90年代得到了一些应用
 
<ref>{{cite journal |last1=Goldberg |first1=David E. |first2=John H. |last2=Holland |title=Genetic algorithms and machine learning |journal=Machine Learning  |volume=3 |issue=2 |year=1988 |pages=95–99 }}</ref><ref>{{cite book |title=Machine Learning, Neural and Statistical Classification |first1=D. |last1=Michie |first2=D. J. |last2=Spiegelhalter |first3=C. C. |last3=Taylor |year=1994 |publisher=Ellis Horwood}}</ref>。
 
<ref>{{cite journal |last1=Goldberg |first1=David E. |first2=John H. |last2=Holland |title=Genetic algorithms and machine learning |journal=Machine Learning  |volume=3 |issue=2 |year=1988 |pages=95–99 }}</ref><ref>{{cite book |title=Machine Learning, Neural and Statistical Classification |first1=D. |last1=Michie |first2=D. J. |last2=Spiegelhalter |first3=C. C. |last3=Taylor |year=1994 |publisher=Ellis Horwood}}</ref>。
 
相反,机器学习技术被用来改进遗传算法和[https://en.wikipedia.org/wiki/Evolutionary_algorithm 进化算法]的性能
 
相反,机器学习技术被用来改进遗传算法和[https://en.wikipedia.org/wiki/Evolutionary_algorithm 进化算法]的性能
第426行: 第359行:  
[https://en.wikipedia.org/wiki/User_behavior_analytics 用户行为分析]<br>
 
[https://en.wikipedia.org/wiki/User_behavior_analytics 用户行为分析]<br>
 
[https://en.wikipedia.org/wiki/Translation 翻译]
 
[https://en.wikipedia.org/wiki/Translation 翻译]
<ref>
+
<ref>[http://english.yonhapnews.co.kr/news/2017/01/10/0200000000AEN20170110009700320.html?did=2106m "AI-based translation to soon reach human levels: industry officials"]. Yonhap news agency. Retrieved 4 Mar 2017.</ref><br>
[http://english.yonhapnews.co.kr/news/2017/01/10/0200000000AEN20170110009700320.html?did=2106m "AI-based translation to soon reach human levels: industry officials"]. Yonhap news agency. Retrieved 4 Mar 2017.
  −
</ref><br>
     −
2006年,在线电影公司[https://en.wikipedia.org/wiki/Netflix Netflix]举办了第一届“[https://en.wikipedia.org/wiki/Netflix_Prize Netflix奖]”竞赛,目的是寻找一个更好地预测用户喜好的程序,并将现有Cinematch电影推荐算法的准确性提高至少10%。由[https://en.wikipedia.org/wiki/AT%26T_Labs AT&T实验室]的研究人员组成的一个联合团队与“大混乱与务实理论”合作,以100万美元的价格建立了一个[https://en.wikipedia.org/wiki/Ensemble_Averaging 集成模型]<ref>[http://www2.research.att.com/~volinsky/netflix/ "BelKor Home Page"] research.att.com</ref> ,赢得了2009年的大奖。在颁奖后不久,Netflix意识到,观众的收视率并不是他们观看模式的最佳指标(“一切都是推荐的”),于是他们相应地改变了推荐引擎
+
 
<ref>
+
2006年,在线电影公司Netflix举办了第一届“[https://en.wikipedia.org/wiki/Netflix_Prize Netflix奖]”竞赛,目的是寻找一个更好地预测用户喜好的程序,并将现有Cinematch电影推荐算法的准确性提高至少10%。由AT&T实验室的研究人员组成的一个联合团队与“大混乱与务实理论”合作,以100万美元的价格建立了一个集成模型<ref>[http://www2.research.att.com/~volinsky/netflix/ "BelKor Home Page"] research.att.com</ref> ,赢得了2009年的大奖。在颁奖后不久,Netflix意识到,观众的收视率并不是他们观看模式的最佳指标(“一切都是推荐的”),于是他们相应地改变了推荐引擎
[http://techblog.netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html "The Netflix Tech Blog: Netflix Recommendations: Beyond the 5 stars (Part 1)"]. Retrieved 8 August 2015.
+
<ref>[http://techblog.netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html "The Netflix Tech Blog: Netflix Recommendations: Beyond the 5 stars (Part 1)"]. Retrieved 8 August 2015.</ref>。
 +
 
 +
 
 +
2010年,《华尔街日报》发表了Rebellion研究公司及它们利用机器学习预测金融危机的相关报道。<ref>Scott Patterson (13 July 2010). [https://www.wsj.com/articles/SB10001424052748703834604575365310813948080 "Letting the Machines Decide"]. The Wall Street Journal. Retrieved 24 June 2018.
 
</ref>。
 
</ref>。
   −
2010年,《华尔街日报》发表了Rebellion研究公司及它们利用机器学习预测金融危机的相关报道。<ref>
  −
Scott Patterson (13 July 2010).
  −
[https://www.wsj.com/articles/SB10001424052748703834604575365310813948080 "Letting the Machines Decide"]. The Wall Street Journal. Retrieved 24 June 2018.
  −
</ref>。
     −
2012年,[https://en.wikipedia.org/wiki/Sun_Microsystems Sun Microsystems]的联合创始人[https://en.wikipedia.org/wiki/Vinod_Khosla VinodKhosla]预测,在接下来的20年里,80%的医生将因自动机器学习医疗诊断软件而失业
+
2012年,[https://en.wikipedia.org/wiki/Sun_Microsystems Sun Microsystems]的联合创始人[https://en.wikipedia.org/wiki/Vinod_Khosla VinodKhosla]预测,在接下来的20年里,80%的医生将因自动机器学习医疗诊断软件而失业<ref> Vonod Khosla (January 10, 2012). [https://techcrunch.com/2012/01/10/doctors-or-algorithms/ "Do We Need Doctors or Algorithms?"]. Tech Crunch.</ref>。
<ref>  
+
 
Vonod Khosla (January 10, 2012).  
  −
[https://techcrunch.com/2012/01/10/doctors-or-algorithms/ "Do We Need Doctors or Algorithms?"]. Tech Crunch.
  −
</ref>。
      
2014年,有报道称机器学习算法在艺术史领域被用于研究美术绘画,并可能揭示了艺术家之间先前未被认识到的影响<ref>[https://medium.com/the-physics-arxiv-blog/when-a-machine-learning-algorithm-studied-fine-art-paintings-it-saw-things-art-historians-had-never-b8e4e7bf7d3e When A Machine Learning Algorithm Studied Fine Art Paintings, It Saw Things Art Historians Had Never Noticed], ''The Physics at ArXiv blog''</ref>。
 
2014年,有报道称机器学习算法在艺术史领域被用于研究美术绘画,并可能揭示了艺术家之间先前未被认识到的影响<ref>[https://medium.com/the-physics-arxiv-blog/when-a-machine-learning-algorithm-studied-fine-art-paintings-it-saw-things-art-historians-had-never-b8e4e7bf7d3e When A Machine Learning Algorithm Studied Fine Art Paintings, It Saw Things Art Historians Had Never Noticed], ''The Physics at ArXiv blog''</ref>。
 +
    
==局限==
 
==局限==
7,129

个编辑