“数据挖掘”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
第5行: 第5行:
 
数据挖掘是一种在大型数据集中发现模式的过程,用到了机器学习、统计学和数据库系统的交叉方法。<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=Data Mining Curriculum |publisher=Association for Computing Machinery| SIGKDD |date=2006-04-30 |accessdate=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=Encyclopædia Britannica: Definition of Data Mining |year=2010 |url=http://www.britannica.com/EBchecked/topic/1056150/data-mining |accessdate=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome|title=The Elements of Statistical Learning: Data Mining, Inference, and Prediction|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|accessdate=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han, Kamber, Pei|first1=Jaiwei, Micheline, Jian|title=Data Mining: Concepts and Techniques|date=June 9, 2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd}}</ref>数据挖掘是指“'''知识发现 knowledge discovery in databases(KDD)'''”过程中的分析步骤。除了传统的分析步骤,它还涉及数据库和数据管理方面,包括“数据预处理、建模和推理考量、兴趣度量、复杂性考虑、发现结构的后处理、可视化和在线更新等内容。”
 
数据挖掘是一种在大型数据集中发现模式的过程,用到了机器学习、统计学和数据库系统的交叉方法。<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=Data Mining Curriculum |publisher=Association for Computing Machinery| SIGKDD |date=2006-04-30 |accessdate=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=Encyclopædia Britannica: Definition of Data Mining |year=2010 |url=http://www.britannica.com/EBchecked/topic/1056150/data-mining |accessdate=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome|title=The Elements of Statistical Learning: Data Mining, Inference, and Prediction|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|accessdate=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han, Kamber, Pei|first1=Jaiwei, Micheline, Jian|title=Data Mining: Concepts and Techniques|date=June 9, 2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd}}</ref>数据挖掘是指“'''知识发现 knowledge discovery in databases(KDD)'''”过程中的分析步骤。除了传统的分析步骤,它还涉及数据库和数据管理方面,包括“数据预处理、建模和推理考量、兴趣度量、复杂性考虑、发现结构的后处理、可视化和在线更新等内容。”
  
“数据挖掘”这种形容其实并不太恰当,因为我们的目标是从大量数据中提取模式和知识,而不是数据本身的提取(挖掘)。<ref name="han-kamber">{{cite book|title=Data mining: concepts and techniques|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=Morgan Kaufmann|isbn=978-1-55860-489-6|page=5|quote=Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long|authorlink1=Jiawei Han}}</ref>“它是一个经常被用于各种大规模数据或信息处理(收集、提取、存储、分析和统计),以及包括人工智能(例如机器学习)和商业智能的'''<font color="#ff8000"> 计算机决策系统 Decision Support System,DSS</font>'''等场合的流行语”<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref>。 《数据挖掘:使用Java的实用机器学习工具和技术》<ref name="witten">{{cite book|title=Data Mining: Practical Machine Learning Tools and Techniques|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=30 January 2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|authorlink1=Ian H. Witten}}</ref> (主要提供了一些机器学习的资料)一书最初被命名为《实用机器学习》,而数据挖掘一词只是为了销量更好而增加的。<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|authorlink7=Ian H. Witten|year=2010|title=WEKA Experiences with a Java open-source project|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=the original title, "Practical machine learning", was changed&nbsp;... The term "data mining" was [added] primarily for marketing reasons.|postscript={{inconsistent citations}}}}</ref>经常来说,更一般的术语如(大规模)数据分析,或实际的方法如人工智能和机器学习,是更合适的表达方式。
+
“数据挖掘”这种形容其实并不太恰当,因为我们的目标是从大量数据中提取模式和知识,而不是数据本身的提取(挖掘)。<ref name="han-kamber">{{cite book|title=Data mining: concepts and techniques|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=Morgan Kaufmann|isbn=978-1-55860-489-6|page=5|quote=Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long}}</ref>“它是一个经常被用于各种大规模数据或信息处理(收集、提取、存储、分析和统计),以及包括人工智能(例如机器学习)和商业智能的'''<font color="#ff8000"> 计算机决策系统 Decision Support System,DSS</font>'''等场合的流行语”<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref>。 《数据挖掘:使用Java的实用机器学习工具和技术》<ref name="witten">{{cite book|title=Data Mining: Practical Machine Learning Tools and Techniques|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=30 January 2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|authorlink1=Ian H. Witten}}</ref> (主要提供了一些机器学习的资料)一书最初被命名为《实用机器学习》,而数据挖掘一词只是为了销量更好而增加的。<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|authorlink7=Ian H. Witten|year=2010|title=WEKA Experiences with a Java open-source project|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=the original title, "Practical machine learning", was changed&nbsp;... The term "data mining" was [added] primarily for marketing reasons.|postscript={{inconsistent citations}}}}</ref>经常来说,更一般的术语如(大规模)数据分析,或实际的方法如人工智能和机器学习,是更合适的表达方式。
  
 
实际的数据挖掘任务是对大量数据进行半自动或全自动分析,以发掘从前未知的且新奇的模式,如数据记录组(数据聚类)、异常记录组(异常检测)和依赖关系(关联规则挖掘,序列挖掘)。这通常涉及使用数据库技术,如空间索引。这些模式可以被看作是输入数据的一种汇总,并且可以用于进一步的分析,例如机器学习和预测分析。例如,数据挖掘的过程中可以把数据分成多个组,然后可以使用该步骤通过决策支持系统获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分,而是作为附加步骤属于整个 KDD 过程。
 
实际的数据挖掘任务是对大量数据进行半自动或全自动分析,以发掘从前未知的且新奇的模式,如数据记录组(数据聚类)、异常记录组(异常检测)和依赖关系(关联规则挖掘,序列挖掘)。这通常涉及使用数据库技术,如空间索引。这些模式可以被看作是输入数据的一种汇总,并且可以用于进一步的分析,例如机器学习和预测分析。例如,数据挖掘的过程中可以把数据分成多个组,然后可以使用该步骤通过决策支持系统获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分,而是作为附加步骤属于整个 KDD 过程。

2020年10月8日 (四) 13:03的版本

数据挖掘是一种在大型数据集中发现模式的过程,用到了机器学习、统计学和数据库系统的交叉方法。[1][2][3][4]数据挖掘是指“知识发现 knowledge discovery in databases(KDD)”过程中的分析步骤。除了传统的分析步骤,它还涉及数据库和数据管理方面,包括“数据预处理、建模和推理考量、兴趣度量、复杂性考虑、发现结构的后处理、可视化和在线更新等内容。”

“数据挖掘”这种形容其实并不太恰当,因为我们的目标是从大量数据中提取模式和知识,而不是数据本身的提取(挖掘)。[5]“它是一个经常被用于各种大规模数据或信息处理(收集、提取、存储、分析和统计),以及包括人工智能(例如机器学习)和商业智能的 计算机决策系统 Decision Support System,DSS等场合的流行语”[6]。 《数据挖掘:使用Java的实用机器学习工具和技术》[7] (主要提供了一些机器学习的资料)一书最初被命名为《实用机器学习》,而数据挖掘一词只是为了销量更好而增加的。[8]经常来说,更一般的术语如(大规模)数据分析,或实际的方法如人工智能和机器学习,是更合适的表达方式。

实际的数据挖掘任务是对大量数据进行半自动或全自动分析,以发掘从前未知的且新奇的模式,如数据记录组(数据聚类)、异常记录组(异常检测)和依赖关系(关联规则挖掘,序列挖掘)。这通常涉及使用数据库技术,如空间索引。这些模式可以被看作是输入数据的一种汇总,并且可以用于进一步的分析,例如机器学习和预测分析。例如,数据挖掘的过程中可以把数据分成多个组,然后可以使用该步骤通过决策支持系统获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分,而是作为附加步骤属于整个 KDD 过程。

如数据记录组(聚类分析 Cluster Analysis)、异常记录(异常检测 Anomaly Detection)和依赖关系(关联规则挖掘 Association Rule Mining序列模式挖掘 Sequential Pattern Mining)。这通常涉及到使用数据库技术,如空间索引。这些模式可以被看作是输入数据的一种规律总结,可以用于进一步的分析,或者,例如,在机器学习和预测分析中。例如,通过数据挖掘可以出识别数据中的多个组,然后这些组可以通过使用决策支持系统来获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分,而是整个KDD过程附加的步骤。

数据分析 Data Analysis和数据挖掘的区别在于,数据分析用于测试数据集上的模型和假设,例如,分析营销活动的有效性,而不是考虑数据量的多少;相反,数据挖掘使用机器学习和统计模型来发现“大量”数据中的秘密和隐藏的模式。

相关术语“数据疏浚” Data Dredging、“数据钓鱼”和“数据窥探”是指使用数据挖掘的方法对较大规模的数据集中的一部分进行抽样,这些数据集可能太小,无法可靠统计推断发现模式的有效性。但是,这些方法可以用于提出新的假设,以针对更大的数据群体进行测试。

起源

在20世纪60年代,统计学家和经济学家们曾经使用“数据钓鱼”或”数据疏浚“等术语来指代他们认为在没有先验假设的情况下进行数据分析的糟糕做法。经济学家迈克尔•洛弗尔 Michael Lovell 在1983年[9][10]《经济研究评论》(Review of Economic Studies)上发表的一篇文章中,也以类似的批判方式使用了“数据挖掘”这个术语。Lovell 指出,这种做法有很多别名,比如正面说法"实验",负面说法“钓鱼”、“窥探”等。

数据挖掘这个术语在1990年左右在数据库领域出现,通常有着积极的含义。在20世纪80年代的一段短暂的时间里,人们曾使用过“数据库挖掘”这种表达,但由于这个词被圣地亚哥的HNC公司注册为商标,因此研究人员改用了数据挖掘这个词。[11]曾用过的其他术语包括数据考古学、信息收集、信息发现、知识提取等。格雷戈里·皮亚特斯基·夏皮罗 Gregory Piatetsky-Shapiro 在关于这个主题的第一个研讨会上首次提出了“数据库中的知识发现 Knowledge Discovery in Databases,KDD”这个术语。此后,这个术语在人工智能和机器学习群体中变得更加流行。然而,数据挖掘这个术语在商业和出版界变得越来越流行。[12] 目前,数据挖掘和知识发现 knowledge discovery这两个术语可以互换使用。

学术界主要的研究论坛始于1995年,当时,在AAAI的赞助下,第一届数据挖掘和知识发现国际会议(KDD-95)在蒙特利尔召开。会议由乌萨马·法耶兹 Usama Fayyad和拉玛萨米·乌图鲁萨米 Ramasamy Uthurusamy共同主持。一年后,1996年Usama Fayyad创办了杂志《数据挖掘与知识发现》(datamining and Knowledge Discovery),担任创始主编。后来他创办了SIGKDD时事通讯探索。[13] KDD国际会议也成为了数据挖掘领域质量最高的主要会议,其研究论文提交的接受率低于18%,而《数据挖掘与知识发现》也成为了该领域的主要研究期刊。

背景

从数据中手动提取模式的方法已经持续了好几个世纪了。早期识别数据模式的方法包括17世纪的贝叶斯定理 Bayes' Theorem和19世纪的回归分析 Regression Analysis。计算机技术的广泛使用和其能力的日益提高极大地提高了数据的收集、存储和操作能力。随着数据集的规模和复杂性的增长,直接、手动的分析数据的方法越来越多地被更有力的间接、自动化的数据处理所取代,这都得益于计算机科学其他领域取得的新的进步,特别是机器学习领域的神经网络 Neural Networks聚类分析 Cluster Analysis遗传算法 Genetic Algorithms(1950年代),决策树 Decision Tree决策规则 Decision Rules(1960年代)以及支持向量机 Support Vector Machines(1990年代)等。数据挖掘就是应用这些方法来发现大型数据集中的隐藏模式[14]的过程。它利用数据在数据库中存储和索引的方式,更有效地执行实际的学习和发现算法,从而弥补了从应用统计学和人工智能(通常提供数学背景)到数据库管理之间的差距,使这些方法能够应用于更大的数据集。

知识发现过程通常定义为以下几个阶段:

  1. 选择
  2. 预处理
  3. 转换
  4. 数据挖掘
  5. 解释 / 评估。

知识发现还存在于与这个主题相关的其他主题中,例如在数据挖掘的跨行业标准流程 Cross-industry standard process for data mining,CRISP-DM中它定义了以下六个阶段:

  1. 商业理解
  2. 数据理解
  3. 数据准备
  4. 建模
  5. 评估
  6. 部署

或一个简化的过程,包括:

  1. 预处理
  2. 数据挖掘
  3. 结果验证。

2002、2004、2007、2014年的调查显示,CRISP-DM标准是数据挖掘者最常用的标准,在这些调查中,唯一使用的其他数据挖掘标准是SEMMA[15]。然而,使用CRISP-DM的人数是其3-4倍。一些研究小组已经发表了关于数据挖掘过程模型的研究,例如阿泽维多 Azevedo和 桑托斯Santos曾在2008年对CRISP-DM和SEMMA这两套数据挖掘流程标准进行了比较。[16]

预处理

在使用数据挖掘算法之前,必须先对目标数据集进行整合。由于数据挖掘只能发现数据中实际存在的模式,目标数据集必须足够大以包含这些模式,同时保持足够简洁以便在可接受的时间限制内进行挖掘。数据的公共源是数据集市或数据仓库。在数据挖掘之前,对多变量数据集进行预处理是必不可少的。然后清理目标集。数据清理去除了包含噪声的观测值和缺失数据的观测值。

在使用数据挖掘算法之前,必须组装目标数据集。由于数据挖掘只能发现数据中实际存在的模式,因此目标数据集必须足够大以包含这些模式,同时保持足够简洁,以便在可接受的时间限制内进行挖掘。数据的常见来源是数据集市 Data Mart数据仓库 Data Warehouse。在数据挖掘之前,对多元 Multivariate数据集进行预处理是必不可少的,然后对目标集进行清洗。数据清洗将删除包含噪声 Noise的观测值和缺失数据 Missing Data的观测值。

数据挖掘

数据挖掘涉及六类常见的任务:[17]

  • 异常检测 Anomaly detection(异常值/变化/偏差检测):识别异常数据记录,这可能是有趣的信息或需要进一步调查的数据错误。

结果验证

一个由统计学家泰勒·维根 Tyler Vigen操作的机器人进行数据挖掘所产生的数据,显然表明在拼字比赛中获胜的最佳单词与美国被毒蜘蛛杀死的人数之间有着密切的联系。但是显然这种趋势上的相似仅仅是一个巧合。

数据挖掘可能会在无意中被误用,然后产生看似重要的结果; 但这些结果实际上并不能用来预测未来的行为,也不能在新的数据样本上进行复现,而且用处不大。这通常是由于做出太多的假设,而没有进行适当的统计假设检验 Statistical Hypothesis Testing。在机器学习中,这种问题可以被简称为过拟合 Overfitting,但相同的问题可能会在过程的不同阶段出现,因此哪怕在完全适用的情况下,合理进行训练/测试分割这一种方法也可能不足以防止这种情况的发生。[18]

从数据中发现知识的最后一步是验证数据挖掘算法产生的模式是否存在于更广泛的数据集中。数据挖掘算法发现的并非所有模式都是有效的,因为对于数据挖掘算法来说,在训练集中发现一般数据集中没有的模式是很常见的,这叫做过拟合 Overfitting。为了解决这个问题,评估时会使用一组没有用在训练数据挖掘算法中用到的测试数据。然后将学习到的模式应用到这个测试集 Test Set中,并将结果输出与期望的输出进行比较。例如,试图区分“垃圾邮件”和“合法”邮件的数据挖掘算法将根据一组电子邮件训练集 Training Sett样本进行训练。训练完毕后,学到的模式将应用于未经训练的那部分电子邮件测试集数据上。然后,可以从这些模式正确分类的电子邮件数量来衡量这些模式的准确性。可以使用几种统计方法可以用来评估算法,如ROC 曲线 ROC curves

如果学习的模式不能达到预期的标准,那么就需要重新评估和修改预处理和数据挖掘的步骤。如果所学的模式确实符合所需的标准,那么最后一步就是对习得的模式进行解释并将其转化为知识。

研究

该领域的首要专业机构是计算机协会 ACM的知识发现和数据挖掘特别兴趣小组 SIGKDD。[19][20]自1989年以来,ACM SIG每年举办一次国际会议并出版会议记录[21],自1999年起,它还出版了一份名为“SIGKDD探索”的两年期学术期刊[22]


关于数据挖掘的计算机科学会议包括:

  • CIKM会议 :ACM信息和知识管理会议 Conference on Information and Knowledge Management
  • 欧洲机器学习与数据库知识发现原理与实践会议 European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
  • KDD会议:ACM SIGKDD的知识发现与数据挖掘会议 Conference on Knowledge Discovery and Data Mining

数据挖掘专题也出现在许多数据管理/数据库会议上,如 ICDE会议、 SIGMOD会议 SIGMOD Conference关于超大数据库国际会议International Conference on Very Large Data Bases

标准

人们曾努力为数据挖掘过程定义标准,例如1999年欧洲跨行业数据挖掘标准流程(CRISP-DM 1.0)和2004年Java数据挖掘标准(JDM 1.0)。这些程序的后续程序(CRISP-DM 2.0和 JDM 2.0)的开发活跃于2006年,但此后一直停滞不前。Jdm 2.0没有达成最终草案就被撤销了。

为了交换所提取的模型,特别是在预测分析中使用,关键的标准是预测模型标记语言 PMML,这是一种基于 XML 的语言,由数据挖掘集团 DMG 开发,并支持作为许多数据挖掘的交换格式的应用程序。顾名思义,它只涵盖预测模型,这是一项特殊的在商业应用中非常重要的数据挖掘任务。然而,覆盖子空间聚类的扩展已经独立于 DMG 被提出。[23]

主要用途

数据挖掘在任何有数字数据可用的地方都可以被使用。数据挖掘的著名例子可以在商业、医学、科学和监管领域都有数据挖掘的主要应用。

隐私问题和道德规范

虽然“数据挖掘”这个术语本身可能没有伦理含义,但它通常与人们伦理和其他行为相关的信息挖掘有关。[24]


在某些情况下,数据挖掘的使用方式可能会引发隐私、合法性和伦理问题。[25] 特别是,处于国家安全或执法目的而进行的政府或商业数据集的数据挖掘,如在全面信息意识项目或在 ADVISE 中引起了隐私问题。[26][27]


数据挖掘需要进行数据准备,以发现损害机密性和隐私义务的信息或模式。实现这一点的一种常见方式是通过数据聚合 Data Aggregation[28] 数据聚合包括以一种便于分析的方式将数据(可能来自不同的来源)组合在一起(但这也可能使私人、个人级别的数据识别变得可推断或以其他方式显而易见)。但这并不是数据挖掘导致的,而是在分析之前以及为分析目的准备数据的结果。当数据被编译后,数据挖掘者或任何有权访问新编译的数据集的人能够识别特定的个人,特别是当数据最初是匿名的时,就会对个人隐私产生威胁。[29][30][31]

在收集数据之前,建议注意以下事项:

  • &数据收集和任何(已知的)数据挖掘项目的目的;
  • 数据使用的方法;
  • 谁将能够挖掘数据并使用这些数据及其衍生工具;
  • 数据访问的安全状态;
  • 如何更新收集的数据。

数据也可以被修改成匿名的,这样个人就不会轻易地被识别。但是,甚至“匿名化”的数据集也可能包含足够的信息用来识别个人,就像记者能够依据‘美国在线’无意中发布的用户历史记录找到一些个人。[32]


无意中泄露个人身份信息导致提供者违反了公平信息惯例。这种轻率的行为会对指定的个人造成经济、情感或身体伤害。在一起侵犯隐私的案例中,沃尔格林 Walgreens的赞助人在2011年对该公司提起诉讼,指控该公司向数据挖掘公司出售处方信息,而数据挖掘公司又将这些数据提供给制药公司。[33]


欧洲的情况

欧洲有相当严密的隐私法,正在努力进一步加强消费者的权利。然而,1998年至2000年期间制定的《美国-欧盟安全港原则》(U.S.-E.U.Safe Harbor Principles)目前有效地使欧洲用户受到美国公司的隐私剥削。由于爱德华·斯诺登 Edward Snowden披露了全球监控信息后,关于撤销这一协议的讨论越来越多,讨论的话题主要关于把数据完全暴露给国家安全局,与美国达成协议的尝试失败这些事上。[34]

在美国,美国国会通过了《健康保险便携性和责任法案》(HIPAA)等监管措施解决了隐私问题。HIPAA要求个人就其提供的信息及其当前和未来的预期用途给予“知情同意”。根据《生物技术商业周刊》的一篇文章,“实际上在研究领域HIPAA可能不会比长期存在的法规提供更好的保护。”。更重要的是,该规则通过知情同意进行保护的目标是接近普通个人的不可理解程度。”这突出了数据聚合和挖掘实践中数据匿名的必要性。

美国信息隐私立法,如 HIPAA 和《家庭教育权利和隐私法》(FERPA)仅适用于每一个此类法律所涉及的特定领域。美国大多数企业对数据挖掘的使用并不受任何法律的控制。

数据挖掘与著作权法

欧洲

根据欧洲版权法和数据库法,未经版权所有人许可而对版权作品进行挖掘(如通过网络挖掘)是不合法的。在欧洲,如果数据库是纯数据,可能没有版权,但数据库权利可能存在,因此数据挖掘受数据库指令保护的知识产权所有者的权利约束。《哈格里夫斯评论》(Hargreaves review)指出,这使得英国政府在2014年修订了版权法,允许将内容挖掘作为一种限制和例外。[35]英国是继日本之后世界上第二个这样做的国家,日本在2009年把数据挖掘作为一个特例。然而,由于信息社会指令(2001年)的限制,英国是例外情况只允许非商业目的的内容挖掘。英国版权法也不允许合同条款和条件推翻这一规定。

2013年,欧盟委员会以“欧洲许可证”为题,.[36]推动了利益相关者对文本和数据挖掘的讨论。但他们将重点放在解决这一法律问题上,比如如何许可它而不是如何限制它或者把它作为一个例外,这使得大学、研究人员、图书馆、民间社会团体和开放获取出版商的代表等利益相关者于2013年5月结束了讨论。[37]

美国

美国版权法,特别是其中关于合理使用的条款,支持在美国和其他合理使用国家,如以色列,台湾和韩国内容挖掘的合法性。由于内容挖掘是变革性的,也就是说,它不会取代原来的工作,它被视为合法的合理使用。例如,作为谷歌图书和解协议的一部分,此案的主审法官裁定,谷歌版权图书数字化项目是合法的,部分原因在于数字化项目所展示的变革性用途——其中之一就是文本和数据挖掘。[38]

软件

开源的数据挖掘软件

下面的应用程序可以使用免费 / 开源许可证。应用程序源代码也是对公众开放访问的。


  • 和搜索结果聚类框架。
  • 化学结构挖掘与网络搜索引擎。
  • 一个大学研究项目,用Java语言编写高级聚类分析和离群点检测方法。
  • 一个自然语言处理和语言工程工具。
  • 一个用户友好的综合数据分析框架。
  • 利用Java语言中的概念漂移工具进行实时大数据流挖掘。
  • 基于遗传编程变量的回归和分类问题的跨平台工具。
  • 一种软件包,使用户能够与用任何编程语言编写的第三方机器学习包集成,跨多个计算节点并行执行分类分析,并生成分类结果的HTML报告。
  • 一个用C++语言编写的机器学习算法的集合。
  • 一套用于Python语言的符号和统计自然语言处理(NLP)的库和程序。
  • 开源的神经网络库。
  • 一个用Python语言编写的基于组件的数据挖掘和机器学习软件套件。
  • 一种用于统计计算、数据挖掘和图形的编程语言和软件环境。它是GNU项目的一部分。
  • 是Python编程语言的一个开源机器学习库
  • 一个开源的深度学习lib库语言和科学计算框架,广泛支持机器学习算法。
  • UIMA(非结构化信息管理体系结构)是一个用于分析非结构化内容(如文本、音频和视频)的组件框架,最初由IBM开发。
  • 用Java编程语言编写的一套机器学习软件应用程序。


需要专有许可的数据挖掘软件和应用程序

下面的应用程序可以根据专有许可证提供。


  • 数据挖掘工具。
  • 用于数据挖掘、商业智能和建模的集成软件应用程序,实现学习和智能优化(LION)方法。
  • 数据和文本挖掘软件PolyAnalyst。
  • 微软提供的数据挖掘软件
  • 支持数据挖掘的多语言文本和实体分析产品套件。
  • Oracle公司的数据挖掘软件
  • DATADVANCE为工程仿真分析、多学科优化和数据挖掘提供自动化平台。
  • 数据挖掘软件。
  • 一个用于机器学习和数据挖掘实验的环境。
  • SAS机构提供的数据挖掘软件。
  • IBM提供的数据挖掘软件。
  • StatSoft提供的数据挖掘软件。
  • 面向可视化的数据挖掘软件,也用于教学。
  • 惠普提供的数据挖掘软件。

扩展链接

方法
  • 主体挖掘
  • 异常/异常/变化检测
  • 关联规则学习
  • 贝叶斯网络
  • 分类
  • 聚类分析
  • 决策树
  • 集成学习
  • 因子分析
  • 遗传算法
  • 意向玩具
  • 学习分类器系统
  • 多线性子空间学习
  • 神经网络
  • 回归分析
  • 序列挖掘
  • 结构数据学习
  • 支持向量机
  • 文本挖掘
  • 时间序列分析
应用领域
  • 分析
  • 行为信息学
  • 大数据
  • 生物信息学
  • 商务智能
  • 数据分析
  • 数据仓库
  • 决策支持系统
  • 域驱动的数据挖掘
  • 药物发现
  • 探索性数据分析
  • 预测分析
  • 网页挖掘
应用示例
  • 英国的自动车牌识别
  • 客户分析
  • 教育数据挖掘
  • 国家安全局
  • 数量结构-活动关系
  • 监控/大规模监测(例如,恒星风)
相关话题

有关从数据中提取信息(与分析数据相反)的详细信息,请参阅:

  • 数据集成
  • 数据转换
  • 电子发现
  • 信息提取
  • 信息集成
  • 命名实体识别
  • 分析(信息科学)
  • 心理测量学
  • 社交媒体挖掘
  • 资本监视
  • 网页抓取
其他资源
  • 国际数据仓库与挖掘杂志

参考文献

  1. "Data Mining Curriculum". Association for Computing Machinery. 2006-04-30. Retrieved 2014-01-27. {{cite web}}: Text "SIGKDD" ignored (help)
  2. Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Retrieved 2010-12-09.
  3. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Archived from the original on 2009-11-10. Retrieved 2012-08-07.
  4. Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1. 
  5. Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6. "Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long" 
  6. OKAIRP 2005 Fall Conference, Arizona State University -{zh-cn:互联网档案馆; zh-tw:網際網路檔案館; zh-hk:互聯網檔案館;}-存檔,存档日期2014-02-01.
  7. Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0. 
  8. Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA Experiences with a Java open-source project". Journal of Machine Learning Research. 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.
  9. Lovell, Michael C. (1983). "Data Mining". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
  10. Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". New Directions in Econometric Practice. Aldershot: Edward Elgar. pp. 14–31. ISBN 1-85278-461-X. 
  11. Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4. 
  12. Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012.
  13. Fayyad, Usama (15 June 1999). "First Editorial by Editor-in-Chief". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. Retrieved 27 December 2010.
  14. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336. https://archive.org/details/dataminingconcep0000kant. 
  15. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro(2014) KDnuggets Methodology Poll
  16. Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview -{zh-cn:互联网档案馆; zh-tw:網際網路檔案館; zh-hk:互聯網檔案館;}-存檔,存档日期2013-01-09.. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  17. Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Retrieved 17 December 2008.
  18. Hawkins, Douglas M (2004). "The problem of overfitting". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
  19. "Microsoft Academic Search: Top conferences in data mining". Microsoft Academic Search.
  20. "Google Scholar: Top publications - Data Mining & Analysis". Google Scholar.
  21. Proceedings -{zh-cn:互联网档案馆; zh-tw:網際網路檔案館; zh-hk:互聯網檔案館;}-存檔,存档日期2010-04-30., International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
  22. SIGKDD Explorations, ACM, New York.
  23. Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "An extension of the PMML standard to subspace clustering models". Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. pp. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. 
  24. Seltzer, William (2005). "The Promise and Pitfalls of Data Mining: Ethical Issues" (PDF). ASA Section on Government Statistics. American Statistical Association.
  25. Pitts, Chip (15 March 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. Archived from the original on 2007-11-28.
  26. Taipale, Kim A. (15 December 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.
  27. Resig, John. "A Framework for Mining Instant Messaging Services" (PDF). Retrieved 16 March 2018.
  28. Think Before You Dig: Privacy Implications of Data Mining & Aggregation -{zh-cn:互联网档案馆; zh-tw:網際網路檔案館; zh-hk:互聯網檔案館;}-存檔,存档日期2008-12-17., NASCIO Research Brief, September 2004
  29. Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review.
  30. Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
  31. Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
  32. AOL search data identified individuals, SecurityFocus, August 2006
  33. Kshetri, Nir (2014). "Big data׳s impact on privacy, security and consumer welfare" (PDF). Telecommunications Policy. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002.
  34. Weiss, Martin A.; Archick, Kristin (19 May 2016). "U.S.-E.U. Data Privacy: From Safe Harbor to Privacy Shield" (PDF). Washington, D.C. Congressional Research Service. p. 6. R44257. Retrieved 9 April 2020. On October 6, 2015, the CJEU ... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented.
  35. UK Researchers Given Data Mining Right Under New UK Copyright Laws. -{zh-cn:互联网档案馆; zh-tw:網際網路檔案館; zh-hk:互聯網檔案館;}-存檔,存档日期June 9, 2014,. Out-Law.com. Retrieved 14 November 2014
  36. "Licences for Europe - Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014.
  37. "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. Retrieved 14 November 2014.
  38. "Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology.com. Antonelli Law Ltd. Retrieved 14 November 2014.

进一步阅读

  • Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall.
  • Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
  • Jiawei Han, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
  • Bing Liu (computer scientist) (2007, 2011); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer.
  • Murphy, Chris (16 May 2011). "Is Data Mining Free Speech?". InformationWeek: 12.
  • Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier.
  • Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference.
  • Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining.
  • Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press.
  • Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
  • Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.  (See also Free Weka software)
  • Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

编者推荐

集智文章推荐

利用数据科学了解电影业的性别差距 | 网络科学论文速递8篇 | 集智俱乐部



Nature评论:什么样的数据科学才能解决全球复杂问题

在人们急于寻找技术方案来解决全球复杂问题的同时,研究人员与其他工作人员也面临着因为依赖技术而丧失发现关键因素和因地制宜解决问题的能力的危险。未来,我们需要将更多的精力放在数据背后的人的身上,以设计开发可以应用于现实世界中的数据驱动应用。

比预测未来更重要的,是改变未来 | 数据科学公开课



本中文词条由Yillia Jing 参与编译, ZengsihangThingamabob审校,不是海绵宝宝编辑,欢迎在讨论页面留言。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。