“自动机器学习”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
第1行: 第1行:
此词条暂由Yuling翻译,已由和光同尘审校。
 
  
{{multiple issues|{{incomprehensible|date=November 2018}}
+
'''自动机器学习 Automated machine learning,AutoML'''是指让机器学习得以自动应用于实际问题的过程。自动机器学习涵盖了从原始数据集到可部署机器学习模型的整个流程。作为一种基于人工智能的解决方案,自动机器学习被用来解决在机器学习应用方面日益增长的挑战<ref name="autoweka1">{{cite conference|year=2013|title=Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms|url=https://dl.acm.org/citation.cfm?id=2487629|conference=KDD '13 Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining|pages=847–855|vauthors=Thornton C, Hutter F, Hoos HH, Leyton-Brown K}}</ref><ref name="AutoML2014ICML"/>。自动机器学习中高度的自动化允许非专业人员在无需成为该领域专家的前提下使用机器学习的模型和技术。
  
{{technical|date=November 2018}}
 
 
{{prose|date=March 2018}}}}
 
 
 
 
{{Machine learning bar}}
 
 
 
 
'''Automated machine learning''' ('''AutoML''') is the process of [[automation|automating]] the process of applying [[machine learning]] to real-world problems. AutoML covers the complete pipeline from the raw dataset to the deployable machine learning model. AutoML was proposed as an [[artificial intelligence]]-based solution to the ever-growing challenge of applying machine learning.<ref name="autoweka1">{{cite conference|year=2013|title=Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms|url=https://dl.acm.org/citation.cfm?id=2487629|conference=KDD '13 Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining|pages=847–855|vauthors=Thornton C, Hutter F, Hoos HH, Leyton-Brown K}}</ref><ref name="AutoML2014ICML"/> The high degree of automation in AutoML allows non-experts to make use of machine learning models and techniques without requiring to become an expert in this field first.
 
 
Automated machine learning (AutoML) is the process of automating the process of applying machine learning to real-world problems. AutoML covers the complete pipeline from the raw dataset to the deployable machine learning model. AutoML was proposed as an artificial intelligence-based solution to the ever-growing challenge of applying machine learning. The high degree of automation in AutoML allows non-experts to make use of machine learning models and techniques without requiring to become an expert in this field first.
 
 
'''<font color="#ff8000">自动机器学习 Automated machine learning,AutoML</font>'''是指让机器学习得以自动应用于实际问题的过程。自动机器学习涵盖了从原始数据集到可部署机器学习模型的整个流程。作为一种基于人工智能的解决方案,自动机器学习被用来解决在机器学习应用方面日益增长的挑战<ref name="autoweka1">{{cite conference|year=2013|title=Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms|url=https://dl.acm.org/citation.cfm?id=2487629|conference=KDD '13 Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining|pages=847–855|vauthors=Thornton C, Hutter F, Hoos HH, Leyton-Brown K}}</ref><ref name="AutoML2014ICML"/>。自动机器学习中高度的自动化允许非专业人员在无需成为该领域专家的前提下使用机器学习的模型和技术。
 
 
 
 
Automating the process of applying machine learning end-to-end additionally offers the advantages of producing simpler solutions, faster creation of those solutions, and models that often outperform hand-designed models.
 
 
Automating the process of applying machine learning end-to-end additionally offers the advantages of producing simpler solutions, faster creation of those solutions, and models that often outperform hand-designed models.
 
  
 
在机器学习的应用中,将端到端的过程自动化可以产生更多优势:生成更简单的解决方案、更快地创建这些解决方案,并且经常能设计出优于人工设计的模型。
 
在机器学习的应用中,将端到端的过程自动化可以产生更多优势:生成更简单的解决方案、更快地创建这些解决方案,并且经常能设计出优于人工设计的模型。
  
  
 +
== 与常规机器学习方法的比较 ==
  
== Comparison to the standard machine learning approach ==
+
在一个典型的机器学习应用程序中,程序的使用者会使用一个由输入数据点组成的数据集去进行训练。原始数据本身的形式可能并不适用于所有算法。专家可能需要使用相应的'''数据预处理 data pre-processing '''、'''特征工程 feature engineering'''、'''特征提取 feature extraction'''和'''特征选择方法 feature selectin methods'''等,使数据集适合机器学习。按照这些预处理步骤,程序的使用者必须执行'''算法选择 algorithm '''和'''超参数优化 hyperparameter optimization''',以最大限度地提升他们的机器学习模型的预测性能。显然,这些步骤都为它们自身带来了挑战。这些挑战一旦累积到一定程度,就会成为机器学习的重大障碍。
与常规机器学习方法的比较<br>
 
  
In a typical machine learning application, practitioners have a dataset consisting of input data points to train on. The raw data itself may not be in a form such that all algorithms may be applicable to it out of the box. An expert may have to apply appropriate [[data pre-processing]], [[feature engineering]], [[feature extraction]], and [[feature selection]] methods that make the dataset amenable for machine learning. Following those preprocessing steps, practitioners must then perform [[algorithm selection]] and [[hyperparameter optimization]] to maximize the predictive performance of their machine learning model. Clearly all of those steps induce their own challenges, accumulating to a significant hurdle to get started with machine learning.
 
  
In a typical machine learning application, practitioners have a dataset consisting of input data points to train on. The raw data itself may not be in a form such that all algorithms may be applicable to it out of the box. An expert may have to apply appropriate data pre-processing, feature engineering, feature extraction, and feature selection methods that make the dataset amenable for machine learning. Following those preprocessing steps, practitioners must then perform algorithm selection and hyperparameter optimization to maximize the predictive performance of their machine learning model. Clearly all of those steps induce their own challenges, accumulating to a significant hurdle to get started with machine learning.
+
自动机器学习这一工具的不足之处就是对附加参数的依赖。这些参数可能需要一些专业知识才能得出。尽管有这些超参数存在,自动机器学习依旧极大地简化了非专业性机器学习的应用。
  
在一个典型的机器学习应用程序中,程序的使用者会使用一个由输入数据点组成的数据集去进行训练。原始数据本身的形式可能并不适用于所有算法。专家可能需要使用相应的'''<font color="#ff8000">数据预处理 data pre-processing </font>'''、'''<font color="#ff8000">特征工程 feature engineering</font>'''、'''<font color="#ff8000">特征提取 feature extraction</font>'''和'''<font color="#ff8000">特征选择方法 feature selectin methods</font>'''等,使数据集适合机器学习。按照这些预处理步骤,程序的使用者必须执行'''<font color="#ff8000">算法选择 algorithm </font>'''和'''<font color="#ff8000">超参数优化 hyperparameter optimization</font>''',以最大限度地提升他们的机器学习模型的预测性能。显然,这些步骤都为它们自身带来了挑战。这些挑战一旦累积到一定程度,就会成为机器学习的重大障碍。
 
  
  
 +
==自动机器学习的目标==
 +
自动机器学习可以针对机器学习过程的不同阶段<ref name="AutoML2014ICML">{{Cite web|title=AutoML 2014 @ ICML|vauthors=Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B, and Larochelle H|work=AutoML 2014 Workshop @ ICML|date =|access-date=2018-03-28|url=http://icml2014.automl.org}}</ref>。从本质上看,这包括数据准备、特征工程、模型选择、评价指标的选择和超参数优化。
  
A downside are the additional parameters of AutoML tools, which may need some expertise to be set themselves. Although those hyperparameters exist, AutoML simplifies the application of machine learning for non-experts dramatically.
 
  
A downside are the additional parameters of AutoML tools, which may need some expertise to be set themselves. Although those hyperparameters exist, AutoML simplifies the application of machine learning for non-experts dramatically.
+
* '''自动化数据准备 automated data preparation '''和'''数据摄入 ingestion '''(源于原始数据和混杂模式)
 +
** 自动化数据类型检测,例如:布尔数据,离散数值,连续数值或者文本
 +
**自动化数据意图检测,例如:目标/标签,'''分层抽样 stratified sampling ''','''数值特征 numerical feature ''','''既定文本特征 categorical text feature'''以及'''自由文本特征 free tect feature '''等
 +
**自动化任务检测,例如:'''二分类 binary classification ''',[[回归分析]],[[聚类]],'''排序学习 learing to rank'''
 +
* 自动特征工程
 +
** [[特征选择]]
 +
** [[特征提取]]
 +
** 元学习和体征转化
 +
** 偏斜数据和缺失值的检测和处理
 +
* 自动模型选择
 +
* 特征工程和学习算法'中的超参数优化
 +
* 在时间,内存和复杂性约束下的自动化流水线式选择
 +
* 自动选择评估指标/验证程序
 +
* 自动问题检测
 +
** 数据泄露检测
 +
** 配置错误检测
 +
* 自动分析获得的结果
 +
* 用于自动机器学习的用户界面及可视性
  
自动机器学习这一工具的不足之处就是对附加参数的依赖。这些参数可能需要一些专业知识才能得出。尽管有这些超参数存在,自动机器学习依旧极大地简化了非专业性机器学习的应用。
 
  
 +
==另见==
  
 +
* [[神经架构搜索]]
 +
* [[超参数优化]]
 +
* [[模型选择]]
 +
* [[神经进化]]
  
==Targets of automation==
+
==参考文献==
自动机器学习的目标<br>
 
  
Automated machine learning can target various stages of the machine learning process.<ref name="AutoML2014ICML">{{Cite web|title=AutoML 2014 @ ICML|vauthors=Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B, and Larochelle H|work=AutoML 2014 Workshop @ ICML|date =|access-date=2018-03-28|url=http://icml2014.automl.org}}</ref> Essentially the targets can be grouped into the fields data preparation, feature engineering, model selection, selection of evaluation metrics, and hyperparameter optimization.
+
{{Reflist}}
  
Automated machine learning can target various stages of the machine learning process. Essentially the targets can be grouped into the fields data preparation, feature engineering, model selection, selection of evaluation metrics, and hyperparameter optimization.
 
  
自动机器学习可以针对机器学习过程的不同阶段<ref name="AutoML2014ICML">{{Cite web|title=AutoML 2014 @ ICML|vauthors=Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B, and Larochelle H|work=AutoML 2014 Workshop @ ICML|date =|access-date=2018-03-28|url=http://icml2014.automl.org}}</ref>。从本质上看,这包括数据准备、特征工程、模型选择、评价指标的选择和超参数优化。
+
==编者推荐==
 +
===相关文章===
 +
====[https://swarma.org/?p=2451 下一秒火焰如何燃烧?机器学习成功预测混沌]====
 +
该文章是对[https://www.quantamagazine.org/machine-learnings-amazing-ability-to-predict-chaos-20180418/ Machine Learning’s ‘Amazing’ Ability to Predict Chaos]的概述,介绍了机器学习预测混沌的理论基础及步骤。
  
* Automated [[data preparation]] and ingestion (from raw data and miscellaneous formats)
 
'''<font color="#ff8000">自动化数据准备 automated data preparation </font>'''和'''<font color="#ff8000">数据摄入 ingestion </font>'''(源于原始数据和混杂模式)
 
** Automated column type detection; e.g., boolean, discrete numerical, continuous numerical, or text
 
自动化数据类型检测,例如:布尔数据,离散数值,连续数值或者文本
 
** Automated column intent detection; e.g., target/label, [[Stratified sampling|stratification]] field, numerical feature, categorical text feature, or free text feature
 
自动化数据意图检测,例如:目标/标签,'''<font color="#ff8000">分层抽样 stratified sampling </font>''','''<font color="#ff8000">数值特征 numerical feature </font>''','''<font color="#ff8000">既定文本特征 categorical text feature</font>'''以及'''<font color="#ff8000">自由文本特征 free tect feature </font>'''等
 
==[[用户:Yuling|Yuling]]([[用户讨论:Yuling|讨论]]) categorical text feature, or free text feature 这两个应该是专业词汇,没有查到具体的翻译
 
==[[用户:和光同尘|和光同尘]]([[用户讨论:和光同尘|讨论]])此处应该可以理解为检测意图包括对已明确类型结构的文本和自由文本两种不同类的文本模式各自特征的检测,因此可翻译为“既定文本特征以及自由文本特征”。
 
** Automated task detection; e.g., [[binary classification]], [[regression analysis|regression]], clustering, or [[learning to rank|ranking]]
 
自动化任务检测,例如:'''<font color="#ff8000">二分类 binary classification </font>''','''<font color="#ff8000">回归分析 regression analysis</font>''','''<font color="#ff8000">聚类 clustering </font>''','''<font color="#ff8000">排序学习 learing to rank</font>'''
 
* Automated [[feature engineering]]
 
自动特征工程
 
** [[Feature selection]]
 
'''<font color="#ff8000">特征选择 feature selection </font>'''
 
** [[Feature extraction]]
 
'''<font color="#ff8000">特征提取 feature extraction </font>'''
 
** [[Meta learning (computer science)|Meta learning]] and [[transfer learning]]
 
'''<font color="#ff8000">元学习 meta learing </font>'''和'''<font color="#ff8000">体征转化 transfer learning </font>'''
 
** Detection and handling of skewed data and/or missing values
 
'''<font color="#ff8000">偏斜数据 skewed data</font>'''和缺失值的检测和处理
 
* Automated [[model selection]]
 
自动模型选择
 
* [[Hyperparameter (machine learning)#Optimization|Hyperparameter optimization]] of the learning algorithm and featurization
 
'''<font color="#ff8000">特征工程 featurization</font>'''和'''<font color="#ff8000">学习算法 learning algorithm </font>'''中的超参数优化
 
* Automated pipeline selection under time, memory, and complexity constraints
 
在时间,内存和复杂性约束下的自动化流水线式选择
 
* Automated selection of evaluation metrics / validation procedures
 
自动选择评估指标/验证程序
 
* Automated problem checking
 
自动问题检测
 
** Leakage detection
 
数据泄露检测
 
** Misconfiguration detection
 
配置错误检测
 
* Automated analysis of results obtained
 
自动分析获得的结果
 
* User interfaces and visualizations for automated machine learning
 
用于自动机器学习的用户界面及可视性
 
  
 +
====论文速递集合====
 +
* [https://swarma.org/?p=18154 机器学习个性化的程度如何? | 网络科学论文速递25篇]
 +
* [https://swarma.org/?p=19593 图上的机器学习:模型和综合分类法 | 网络科学论文速递14篇]
  
==See also==
 
  
* [[Neural architecture search]]
+
===集智相关课程===
'''<font color="#ff8000">神经架构 neural architecture </font>'''搜索
+
[[File:机器学习.png|thumb|课程:[https://campus.swarma.org/course/584 当复杂网络遇上机器学习]]]
* [[Hyperparameter optimization]]
+
====[https://campus.swarma.org/course/806 机器学习入门]====
超参数优化
+
该课程由莫烦、张江和尹相志三位老师共同教授,主要介绍了机器学习的相关理论及常用分析方法等。
* [[Model selection]]
 
'''<font color="#ff8000"> 模型选择 model seletion</font>'''
 
* [[Neuroevolution]]
 
'''<font color="#ff8000">神经进化 neuroevolution </font>'''
 
* [[Self-tuning]]
 
'''<font color="#ff8000">自优化 self-tuning </font>'''
 
  
  
==References==
+
====[https://campus.swarma.org/course/187 从Python到机器学习]====
 +
本系列课程将全面介绍深度学习入门的应用知识。包括从Python基础开始,到深度学习框架Tensorflow的使用方法。是一套简练风趣,易懂易学的入门课程。
  
{{Reflist}}
 
  
 +
====[https://campus.swarma.org/course/2 机器学习思维]====
 +
本课程围绕机器学习思维,讨论机器学习的运用方法,能力范围,技术种类,以及机器学习与人类学习的不同点。
  
  
[[Category:Machine learning]]
+
====[https://campus.swarma.org/course/584 当复杂网络遇上机器学习]====
 +
本课程将对网络嵌入、图卷积神经网络、图注意力模型等新技术的算法及应用,以及多种网络嵌入算法,链路预测问题等问题座以一个简单介绍,并对网络上的深度学习问题进行了展望。
  
Category:Machine learning
 
  
分类: 机器学习
 
  
[[Category:Artificial intelligence]]
+
----
 +
本中文词条由Yuling翻译和和光同尘审校,[[用户:薄荷|薄荷]]编辑,如有问题,欢迎在讨论页面留言。
  
Category:Artificial intelligence
 
  
类别: 人工智能
 
  
<noinclude>
+
'''本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。'''
  
<small>This page was moved from [[wikipedia:en:Automated machine learning]]. Its edit history can be viewed at [[自动机器学习/edithistory]]</small></noinclude>
 
  
[[Category:待整理页面]]
+
[[Category:机器学习]]
 +
[[Category:人工智能]]

2021年11月6日 (六) 10:23的版本

自动机器学习 Automated machine learning,AutoML是指让机器学习得以自动应用于实际问题的过程。自动机器学习涵盖了从原始数据集到可部署机器学习模型的整个流程。作为一种基于人工智能的解决方案,自动机器学习被用来解决在机器学习应用方面日益增长的挑战[1][2]。自动机器学习中高度的自动化允许非专业人员在无需成为该领域专家的前提下使用机器学习的模型和技术。


在机器学习的应用中,将端到端的过程自动化可以产生更多优势:生成更简单的解决方案、更快地创建这些解决方案,并且经常能设计出优于人工设计的模型。


与常规机器学习方法的比较

在一个典型的机器学习应用程序中,程序的使用者会使用一个由输入数据点组成的数据集去进行训练。原始数据本身的形式可能并不适用于所有算法。专家可能需要使用相应的数据预处理 data pre-processing 特征工程 feature engineering特征提取 feature extraction特征选择方法 feature selectin methods等,使数据集适合机器学习。按照这些预处理步骤,程序的使用者必须执行算法选择 algorithm 超参数优化 hyperparameter optimization,以最大限度地提升他们的机器学习模型的预测性能。显然,这些步骤都为它们自身带来了挑战。这些挑战一旦累积到一定程度,就会成为机器学习的重大障碍。


自动机器学习这一工具的不足之处就是对附加参数的依赖。这些参数可能需要一些专业知识才能得出。尽管有这些超参数存在,自动机器学习依旧极大地简化了非专业性机器学习的应用。


自动机器学习的目标

自动机器学习可以针对机器学习过程的不同阶段[2]。从本质上看,这包括数据准备、特征工程、模型选择、评价指标的选择和超参数优化。


  • 自动化数据准备 automated data preparation 数据摄入 ingestion (源于原始数据和混杂模式)
    • 自动化数据类型检测,例如:布尔数据,离散数值,连续数值或者文本
    • 自动化数据意图检测,例如:目标/标签,分层抽样 stratified sampling 数值特征 numerical feature 既定文本特征 categorical text feature以及自由文本特征 free tect feature
    • 自动化任务检测,例如:二分类 binary classification 回归分析聚类排序学习 learing to rank
  • 自动特征工程
  • 自动模型选择
  • 特征工程和学习算法'中的超参数优化
  • 在时间,内存和复杂性约束下的自动化流水线式选择
  • 自动选择评估指标/验证程序
  • 自动问题检测
    • 数据泄露检测
    • 配置错误检测
  • 自动分析获得的结果
  • 用于自动机器学习的用户界面及可视性


另见

参考文献

  1. Thornton C, Hutter F, Hoos HH, Leyton-Brown K (2013). Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms. KDD '13 Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. pp. 847–855.
  2. 2.0 2.1 Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B, and Larochelle H. "AutoML 2014 @ ICML". AutoML 2014 Workshop @ ICML. Retrieved 2018-03-28.


编者推荐

相关文章

下一秒火焰如何燃烧?机器学习成功预测混沌

该文章是对Machine Learning’s ‘Amazing’ Ability to Predict Chaos的概述,介绍了机器学习预测混沌的理论基础及步骤。


论文速递集合


集智相关课程

机器学习入门

该课程由莫烦、张江和尹相志三位老师共同教授,主要介绍了机器学习的相关理论及常用分析方法等。


从Python到机器学习

本系列课程将全面介绍深度学习入门的应用知识。包括从Python基础开始,到深度学习框架Tensorflow的使用方法。是一套简练风趣,易懂易学的入门课程。


机器学习思维

本课程围绕机器学习思维,讨论机器学习的运用方法,能力范围,技术种类,以及机器学习与人类学习的不同点。


当复杂网络遇上机器学习

本课程将对网络嵌入、图卷积神经网络、图注意力模型等新技术的算法及应用,以及多种网络嵌入算法,链路预测问题等问题座以一个简单介绍,并对网络上的深度学习问题进行了展望。



本中文词条由Yuling翻译和和光同尘审校,薄荷编辑,如有问题,欢迎在讨论页面留言。


本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。