从数据中手动提取模式的方法已经持续了好几个世纪了。早期识别数据模式的方法包括17世纪的'''<font color="#ff8000">贝叶斯定理 Bayes' Theorem</font>'''和19世纪的'''<font color="#ff8000">回归分析 Regression Analysis</font>'''。计算机技术的广泛使用和其能力的日益提高极大地提高了数据的收集、存储和操作能力。随着数据集的规模和复杂性的增长,直接、手动的分析数据的方法越来越多地被更有力的间接、自动化的数据处理所取代,这都得益于计算机科学其他领域取得的新的进步,特别是机器学习领域的'''<font color="#ff8000">神经网络 Neural Networks</font>'''、'''<font color="#ff8000">聚类分析 Cluster Analysis</font>'''、'''<font color="#ff8000">遗传算法 Genetic Algorithms</font>'''(1950年代),'''<font color="#ff8000">决策树 Decision Tree</font>'''和'''<font color="#ff8000">决策规则 Decision Rules</font>'''(1960年代)以及'''<font color="#ff8000">支持向量机 Support Vector Machines</font>'''(1990年代)等。数据挖掘就是应用这些方法来发现大型数据集中的隐藏模式<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=Data Mining: Concepts, Models, Methods, and Algorithms |year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref>的过程。它利用数据在数据库中存储和索引的方式,更有效地执行实际的学习和发现算法,从而弥补了从应用统计学和人工智能(通常提供数学背景)到数据库管理之间的差距,使这些方法能够应用于更大的数据集。 | 从数据中手动提取模式的方法已经持续了好几个世纪了。早期识别数据模式的方法包括17世纪的'''<font color="#ff8000">贝叶斯定理 Bayes' Theorem</font>'''和19世纪的'''<font color="#ff8000">回归分析 Regression Analysis</font>'''。计算机技术的广泛使用和其能力的日益提高极大地提高了数据的收集、存储和操作能力。随着数据集的规模和复杂性的增长,直接、手动的分析数据的方法越来越多地被更有力的间接、自动化的数据处理所取代,这都得益于计算机科学其他领域取得的新的进步,特别是机器学习领域的'''<font color="#ff8000">神经网络 Neural Networks</font>'''、'''<font color="#ff8000">聚类分析 Cluster Analysis</font>'''、'''<font color="#ff8000">遗传算法 Genetic Algorithms</font>'''(1950年代),'''<font color="#ff8000">决策树 Decision Tree</font>'''和'''<font color="#ff8000">决策规则 Decision Rules</font>'''(1960年代)以及'''<font color="#ff8000">支持向量机 Support Vector Machines</font>'''(1990年代)等。数据挖掘就是应用这些方法来发现大型数据集中的隐藏模式<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=Data Mining: Concepts, Models, Methods, and Algorithms |year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref>的过程。它利用数据在数据库中存储和索引的方式,更有效地执行实际的学习和发现算法,从而弥补了从应用统计学和人工智能(通常提供数学背景)到数据库管理之间的差距,使这些方法能够应用于更大的数据集。 |