更改

数据挖掘 (查看源代码)

2020年9月25日 (五) 19:42的版本

删除8,551字节、 2020年9月25日 (五) 19:42

无编辑摘要

第1行：第1行： −

~~此词条由许菁翻译整理。~~

+

{{#seo:

−

~~此词条由Zengsihang审校。~~

+

|keywords=数据科学，数据挖掘，形式科学

−

~~{{Machine learning bar~~}}

+

|description=数据科学，数据挖掘，形式科学

−

+

}}

数据挖掘是一种在大型数据集中发现模式的过程，用到了机器学习、统计学和数据库系统的交叉方法。<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=Data Mining Curriculum |publisher=[[Association for Computing Machinery|ACM]] [[SIGKDD]] |date=2006-04-30 |accessdate=2014-01-27 }}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=Encyclopædia Britannica: Definition of Data Mining |year=2010 |url=http://www.britannica.com/EBchecked/topic/1056150/data-mining |accessdate=2010-12-09 }}</ref><ref name="elements">{{cite web|last1=Hastie|first1=Trevor|authorlink1=Trevor Hastie|last2=Tibshirani|first2=Robert|authorlink2=Robert Tibshirani|last3=Friedman|first3=Jerome|authorlink3=Jerome H. Friedman|title=The Elements of Statistical Learning: Data Mining, Inference, and Prediction|year=2009|url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/|accessdate=2012-08-07|archive-url=https://web.archive.org/web/20091110212529/http://www-stat.stanford.edu/~tibs/ElemStatLearn/|archive-date=2009-11-10|url-status=dead}}</ref><ref>{{cite book|last1=Han, Kamber, Pei|first1=Jaiwei, Micheline, Jian|title=Data Mining: Concepts and Techniques|date=June 9, 2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=3rd}}</ref>数据挖掘是指“知识发现(knowledge discovery in databases,KDD)”过程中的分析步骤。除了传统的分析步骤，它还涉及数据库和数据管理方面，包括“数据预处理、'''建模'''和推理'''考量'''、兴趣度量、'''复杂性考虑、发现结构的后处理'''、可视化和在线更新等内容。”

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“数据挖掘是指“数据库中的知识发现KDD”的过程的分析步骤”一句中的“在数据库中知识发现KDD”处改为“知识发现(knowledge discovery in databases,KDD)”

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】 "是在大型数据集中发现模式的过程，是一种涉及到机器学习、统计学和数据库系统综合使用的方法。"一句改为“是一种在大型数据集中发现模式的过程，用到了机器学习、统计学和数据库系统的交叉方法。”

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】 “数据预处理、模型和推理考虑、兴趣度量、复杂性考虑、发现结构的后处理、可视化和在线更新等内容。”一句改为“数据预处理、'''建模'''和推理'''考量'''、兴趣度量、'''复杂性考虑、发现结构的后处理'''、可视化和在线更新等内容。”

“数据挖掘”这种形容其实并不'''太'''恰当，因为我们的目标是从大量数据中提取模式和知识，而不是数据本身的提取(挖掘)。<ref name="han-kamber">{{cite book|title=Data mining: concepts and techniques|last1=Han|first1=Jiawei|last2=Kamber|first2=Micheline|date=2001|publisher=[[Morgan Kaufmann]]|isbn=978-1-55860-489-6|page=5|quote=Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long|authorlink1=Jiawei Han}}</ref>“它是一个经常被用于各种大规模数据或信息处理（收集、提取、存储、分析和统计），以及包括人工智能（例如机器学习）和商业智能的''' 计算机决策系统 Decision Support System，DSS'''等场合的流行语”<ref>[http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf OKAIRP 2005 Fall Conference, Arizona State University] {{Webarchive|url=https://web.archive.org/web/20140201170452/http://www.okairp.org/documents/2005%20Fall/F05_ROMEDataQualityETC.pdf|date=2014-02-01}}</ref>。《数据挖掘：使用Java的实用机器学习工具和技术》<ref name="witten">{{cite book|title=Data Mining: Practical Machine Learning Tools and Techniques|last1=Witten|first1=Ian H.|last2=Frank|first2=Eibe|last3=Hall|first3=Mark A.|date=30 January 2011|publisher=Elsevier|isbn=978-0-12-374856-0|edition=3|authorlink1=Ian H. Witten}}</ref> （主要提供了一些机器学习的资料）一书最初被命名为《实用机器学习》，而数据挖掘一词只是为了销量更好而增加的。<ref>{{Cite journal|author1=Bouckaert, Remco R.|author2=Frank, Eibe|author3=Hall, Mark A.|author4=Holmes, Geoffrey|author5=Pfahringer, Bernhard|author6=Reutemann, Peter|author7=Witten, Ian H.|authorlink7=Ian H. Witten|year=2010|title=WEKA Experiences with a Java open-source project|journal=Journal of Machine Learning Research|volume=11|pages=2533–2541|quote=the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.|postscript={{inconsistent citations}}}}</ref>经常来说，更一般的术语如（大规模）数据分析，或实际的方法如人工智能和机器学习，是更合适的表达方式。

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“经常更一般的术语例如（大规模）数据分析和分析——或当提到实际的方法时使用人工智能和机器学习这样的词语更加合适”一句改为“经常来说，更一般的术语如（大规模）数据分析，或实际的方法如人工智能和机器学习，是更合适的表达方式”

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“'数据挖掘'这种形容其实并不十分恰当”一句改为““数据挖掘”这种形容其实并不'''太'''恰当”

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“它是一个流行语，经常用于任何形式的大规模数据或信息处理（收集、提取、仓储、分析和统计）的场景下,以及''' 计算机决策系统 Decision Support System，DSS'''的任何应用当中，包括人工智能（例如机器学习）和商业智能。”一句改为“它是一个经常被用于各种大规模数据或信息处理（收集、提取、存储、分析和统计），以及包括人工智能（例如机器学习）和商业智能的''' 计算机决策系统 Decision Support System，DSS'''等场合的流行语”

−

~~--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“（主要涵盖机器学习材料）”一句改为“主要提供了一些机器学习的资料”~~

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“而数据挖掘一词只是为了营销的原因而增加”改为“而数据挖掘一词只是为了销量更好而增加的”

实际的数据挖掘任务是对大量数据进行半自动或全自动分析，以发掘从前未知的且新奇的模式，如数据记录组(数据聚类)、异常记录组(异常检测)和依赖关系(关联规则挖掘，序列挖掘)。这通常涉及使用数据库技术，如空间索引。这些模式可以被看作是输入数据的一种汇总，并且可以用于进一步的分析，例如机器学习和预测分析。例如，数据挖掘的过程中可以把数据分成多个组，然后可以使用该步骤通过决策支持系统获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分，而是作为附加步骤属于整个 KDD 过程。

如数据记录组（'''聚类分析 Cluster Analysis'''）、异常记录（'''异常检测 Anomaly Detection'''）和依赖关系（'''关联规则挖掘 Association Rule Mining'''、'''序列模式挖掘 Sequential Pattern Mining'''）。这通常涉及到使用数据库技术，如空间索引。这些模式可以被看作是输入数据的一种规律总结，可以用于进一步的分析，或者，例如，在机器学习和预测分析中。例如，通过数据挖掘可以出识别数据中的多个组，然后这些组可以通过使用决策支持系统来获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分，而是整个KDD过程附加的步骤。

−

~~--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】 “以提取出从前未知的且有趣的模式”改为“以发掘从前未知的且新奇的模式”~~

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“ 例如，数据挖掘步骤可以识别数据中的多个组”改为“例如数据挖掘的过程中可以把数据分成多个组”

'''数据分析 Data Analysis'''和数据挖掘的区别在于，数据分析用于测试数据集上的模型和假设，例如，分析营销活动的有效性，而不是考虑数据量的多少；相反，数据挖掘使用机器学习和统计模型来发现“大量”数据中的秘密和隐藏的模式。

相关术语'''“数据疏浚” Data Dredging'''、“数据钓鱼”和“数据窥探”是指使用数据挖掘的方法对较大规模的数据集中的一部分进行抽样，这些数据集可能太小，无法可靠统计推断发现模式的有效性。但是，这些方法可以用于提出新的假设，以针对更大的数据群体进行测试。

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“使用数据挖掘方法对较大的人口数据集中的一部分进行抽样”中的“较大的人口数据集”改为“较大规模的数据集”

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“无法对所发现的任何模式的有效性作出可靠的统计推断”改为“无法可靠统计推断发现模式的有效性”

−

==起源==

第47行：第22行：

数据挖掘这个术语在1990年左右在数据库领域出现，通常有着积极的含义。在20世纪80年代的一段短暂的时间里，人们曾使用过“数据库挖掘”这种表达，但由于这个词被圣地亚哥的HNC公司注册为商标，因此研究人员改用了数据挖掘这个词。<ref name="Mena">{{cite book |last=Mena |first=Jesús |year=2011 |title=Machine Learning Forensics for Law Enforcement, Security, and Intelligence |location=Boca Raton, FL |publisher=CRC Press (Taylor & Francis Group) |isbn=978-1-4398-6069-4 }}</ref>曾用过的其他术语包括数据考古学、信息收集、信息发现、知识提取等。格雷戈里·皮亚特斯基·夏皮罗 Gregory Piatetsky-Shapiro 在关于这个主题的第一个研讨会[ http://www.kdnuggets.com/meetings/kdd89/ (KDD-1989)] 上首次提出了“数据库中的知识发现 Knowledge Discovery in Databases，KDD”这个术语。此后，这个术语在人工智能和机器学习群体中变得更加流行。然而，数据挖掘这个术语在商业和出版界变得越来越流行。<ref>{{cite web |last1=Piatetsky-Shapiro |first1=Gregory |authorlink1=Gregory Piatetsky-Shapiro |last2=Parker |first2=Gary |url=http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-mining-notes.html |title=Lesson: Data Mining, and Knowledge Discovery: An Introduction |publisher=KD Nuggets |year=2011 |work=Introduction to Data Mining |accessdate=30 August 2012 }}</ref> 目前，数据挖掘和知识发现 knowledge discovery这两个术语可以互换使用。

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“但由于这个词被总部位于圣地亚哥的 HNC 公司注册为商标”中的“总部位于圣地亚哥的HNC公司”改为“圣地亚哥的HNC公司”

−

~~--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“这个术语在人工智能和机器学习社区中变得更加流行”中的“社区”改为“群体”~~

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“数据挖掘这个术语在1990年左右出现在数据库领域，通常有着积极的内涵。”一句改为“数据挖掘这个术语在1990年左右在数据库领域出现，通常有着积极的含义"

−

~~--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“因此研究人员转向了数据挖掘”改为“因此研究人员改用了数据挖掘这个词”~~

学术界主要的研究论坛始于1995年，当时，在AAAI的赞助下，第一届数据挖掘和知识发现国际会议（KDD-95）在蒙特利尔召开。会议由乌萨马·法耶兹 Usama Fayyad和拉玛萨米·乌图鲁萨米 Ramasamy Uthurusamy共同主持。一年后，1996年Usama Fayyad创办了杂志《数据挖掘与知识发现》（datamining and Knowledge Discovery），担任创始主编。后来他创办了SIGKDD时事通讯探索。<ref name=SIGKDD-explorations>{{cite journal|last1=Fayyad|first1=Usama|title=First Editorial by Editor-in-Chief|journal=SIGKDD Explorations|date=15 June 1999|volume=13|issue=1|pages=102|doi=10.1145/2207243.2207269|url=http://www.kdd.org/explorations/view/june-1999-volume-1-issue-1|accessdate=27 December 2010|ref=SIGKDD-explorations}}</ref> KDD国际会议也成为了数据挖掘领域质量最高的主要会议，其研究论文提交的接受率低于18%，而《数据挖掘与知识发现》也成为了该领域的主要研究期刊。

第64行：第31行：

从数据中手动提取模式的方法已经持续了好几个世纪了。早期识别数据模式的方法包括17世纪的'''贝叶斯定理 Bayes' Theorem'''和19世纪的'''回归分析 Regression Analysis'''。计算机技术的广泛使用和其能力的日益提高极大地提高了数据的收集、存储和操作能力。随着数据集的规模和复杂性的增长，直接、手动的分析数据的方法越来越多地被更有力的间接、自动化的数据处理所取代，这都得益于计算机科学其他领域取得的新的进步，特别是机器学习领域的'''神经网络 Neural Networks'''、'''聚类分析 Cluster Analysis'''、'''遗传算法 Genetic Algorithms'''（1950年代），'''决策树 Decision Tree'''和'''决策规则 Decision Rules'''（1960年代）以及'''支持向量机 Support Vector Machines'''（1990年代）等。数据挖掘就是应用这些方法来发现大型数据集中的隐藏模式<ref name="Kantardzic">{{cite book |last=Kantardzic |first=Mehmed |title=Data Mining: Concepts, Models, Methods, and Algorithms |year=2003 |publisher=John Wiley & Sons |isbn=978-0-471-22852-3 |oclc=50055336 |url-access=registration |url=https://archive.org/details/dataminingconcep0000kant }}</ref>的过程。它利用数据在数据库中存储和索引的方式，更有效地执行实际的学习和发现算法，从而弥补了从应用统计学和人工智能(通常提供数学背景)到数据库管理之间的差距，使这些方法能够应用于更大的数据集。

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“手动分析数据的方法越来越多地被更强的间接、自动化的数据处理所取代”中的“手动分析数据”改为“直接、手动的分析数据”

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】“计算机技术的扩散、其普遍性和日益强大的能力”改为“计算机技术的广泛使用和其能力的日益提高

−

~~==发展过程 Process==~~

−

知识发现 Knowledge Discovery in Databases ，KDD过程通常定义为以下几个阶段:

第101行：第62行：

2002、2004、2007、2014年的调查显示，CRISP-DM标准是数据挖掘者最常用的标准，在这些调查中，唯一使用的其他数据挖掘标准是SEMMA<ref>[[Gregory Piatetsky-Shapiro]] (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll''], [[Gregory Piatetsky-Shapiro]] (2014) [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref>。然而，使用CRISP-DM的人数是其3-4倍。一些研究小组已经发表了关于数据挖掘过程模型的研究，例如阿泽维多 Azevedo<ref name="kurgan">Lukasz Kurgan and Petr Musilek (2006); [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 ''A survey of Knowledge Discovery and Data Mining process models'']. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA {{DOI|10.1017/S0269888906000737}}</ref>和桑托斯Santos曾在2008年对CRISP-DM和SEMMA这两套数据挖掘流程标准进行了比较。<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. [http://www.iadis.net/dl/final_uploads/200812P033.pdf KDD, SEMMA and CRISP-DM: a parallel overview] {{webarchive|url=https://web.archive.org/web/20130109114939/http://www.iadis.net/dl/final_uploads/200812P033.pdf |date=2013-01-09 }}. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref>

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】开头添加“2002、2004、2007、2014年的调查显示，CRISP-DM标准是数据挖掘者最常用的标准”

===预处理===

第115行：第74行：

* '''异常检测 Anomaly detection'''（异常值/变化/偏差检测）：识别异常数据记录，这可能是有趣的信息或需要进一步调查的数据错误。

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“发现可能是有趣的或需要进一步调查的数据错误”改为“这可能是有趣的信息或需要进一步调查的数据错误”

−

* '''关联规则学习 Association rule learning'''（依赖关系建模）：探寻变量之间的关系。例如，超市可能会收集顾客购买习惯的数据。通过使用关联规则学习，超市可以确定哪些产品经常被一起购买，并将这些信息用于营销策略改进。这种研究有时被称为“市场篮子分析”。

−

*'''聚类 Clustering'''：是指在数据中发现以某种方式或其他方式“相似”的组和结构，而不使用数据中已知的结构。

−

*'''分类 Classification'''：是归纳已知结构并应用于新数据的任务。例如，电子邮件程序可能会尝试将电子邮件分类为“合法”或“垃圾邮件”。

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“是将已知结构归纳为新数据的任务”改为“是归纳已知结构并应用于新数据的任务”

−

*'''回归'''：试图找到一个对数据建模误差最小的函数，也就是说，用于估计数据或数据集之间的关系。

−

*'''总结 Summarization'''：提供数据集更紧凑、简洁的表示，包括可视化和报告生成。

−

~~--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】“自动文摘 Automatic summarizatio”改为“总结 Summarization”~~

===结果验证===

第163行：第107行：

人们曾努力为数据挖掘过程定义标准，例如1999年欧洲跨行业数据挖掘标准流程（CRISP-DM 1.0）和2004年Java数据挖掘标准（JDM 1.0）。这些程序的后续程序（CRISP-DM 2.0和 JDM 2.0）的开发活跃于2006年，但此后一直停滞不前。Jdm 2.0没有达成最终草案就被撤销了。

−

~~--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】将“为数据挖掘过程定义了一些标准”改为“人们曾努力为数据挖掘过程定义标准”~~

为了交换所提取的模型，特别是在预测分析中使用，关键的标准是预测模型标记语言 PMML，这是一种基于 XML 的语言，由数据挖掘集团 DMG 开发，并支持作为许多数据挖掘的交换格式的应用程序。顾名思义，它只涵盖预测模型，这是一项特殊的在商业应用中非常重要的数据挖掘任务。然而，覆盖子空间聚类的扩展已经独立于 DMG 被提出。<ref>{{Cite book | last1 = Günnemann | first1 = Stephan | last2 = Kremer | first2 = Hardy | last3 = Seidl | first3 = Thomas | doi = 10.1145/2023598.2023605 | chapter = An extension of the PMML standard to subspace clustering models | title = Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11 | pages = 48 | year = 2011 | isbn = 978-1-4503-0837-3 | pmid = | pmc = }}</ref>

第175行：第117行：

数据挖掘在任何有数字数据可用的地方都可以被使用。数据挖掘的著名例子可以在商业、医学、科学和监管领域都有数据挖掘的主要应用。

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】 “数据挖掘的著名例子可以在商业、医学、科学和监控领域找到。”改为“在商业、医学、科学和监管领域都有数据挖掘的主要应用”

==隐私问题和道德规范==

第202行：第142行：

数据也可以被修改成匿名的，这样个人就不会轻易地被识别。但是，甚至“匿名化”的数据集也可能包含足够的信息用来识别个人，就像记者能够依据‘美国在线’无意中发布的用户历史记录找到一些个人。<ref>[http://www.securityfocus.com/brief/277 ''AOL search data identified individuals''], SecurityFocus, August 2006</ref>

−

~~--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】将“这样个人就不容易被修改了确定”改为“这样个人就不会轻易地被识别”~~

−

--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】将“就像记者能够根据一组无意中搜索历史找到几个个人一样美国在线发布”改为“就像记者能够依据‘美国在线’无意中发布的用户历史记录找到一些个人”

第216行：第151行：

欧洲有相当严密的隐私法，正在努力进一步加强消费者的权利。然而，1998年至2000年期间制定的《美国-欧盟安全港原则》（U.S.-E.U.Safe Harbor Principles）目前有效地使欧洲用户受到美国公司的隐私剥削。由于爱德华·斯诺登 Edward Snowden披露了全球监控信息后，关于撤销这一协议的讨论越来越多，讨论的话题主要关于把数据完全暴露给国家安全局，与美国达成协议的尝试失败这些事上。<ref>{{cite web |url=https://crsreports.congress.gov/product/pdf/R/R44257/7 |title=U.S.-E.U. Data Privacy: From Safe Harbor to Privacy Shield |last1=Weiss |first1=Martin A. |last2=Archick |first2=Kristin |date=19 May 2016 |department= |website= |series= |agency=Congressional Research Service |location=Washington, D.C. |page=6 |pages= |format=PDF |id=R44257 |access-date=9 April 2020 |quote=On October 6, 2015, the [[Court of Justice of the European Union|CJEU]] ... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented. }}</ref>

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】"目前有效地使欧洲用户受到美国公司的隐私剥削"一句改为"在当下让欧洲用户的隐私泄露给美国公司以利用”

−

~~===美国的情况===~~

在美国，美国国会通过了《健康保险便携性和责任法案》（HIPAA）等监管措施解决了隐私问题。HIPAA要求个人就其提供的信息及其当前和未来的预期用途给予“知情同意”。根据《生物技术商业周刊》的一篇文章，“实际上在研究领域HIPAA可能不会比长期存在的法规提供更好的保护。”。更重要的是，该规则通过知情同意进行保护的目标是接近普通个人的不可理解程度。”这突出了数据聚合和挖掘实践中数据匿名的必要性。

第231行：第163行：

根据欧洲版权法和数据库法，未经版权所有人许可而对版权作品进行挖掘（如通过网络挖掘）是不合法的。在欧洲，如果数据库是纯数据，可能没有版权，但数据库权利可能存在，因此数据挖掘受数据库指令保护的知识产权所有者的权利约束。《哈格里夫斯评论》（Hargreaves review）指出，这使得英国政府在2014年修订了版权法，允许将内容挖掘作为一种限制和例外。<ref>[http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ UK Researchers Given Data Mining Right Under New UK Copyright Laws.] {{webarchive |url=https://web.archive.org/web/20140609020315/http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ |date=June 9, 2014 }} ''Out-Law.com.'' Retrieved 14 November 2014</ref>英国是继日本之后世界上第二个这样做的国家，日本在2009年把数据挖掘作为一个特例。然而，由于信息社会指令（2001年）的限制，英国是例外情况只允许非商业目的的内容挖掘。英国版权法也不允许合同条款和条件推翻这一规定。

−

~~--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】将“英国是例外情况但是只允许给商业目的的内容挖掘”改为“ ”~~

2013年，欧盟委员会以“欧洲许可证”为题，.<ref>{{cite web|title=Licences for Europe - Structured Stakeholder Dialogue 2013|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site|website=European Commission|accessdate=14 November 2014}}</ref>推动了利益相关者对文本和数据挖掘的讨论。但他们将重点放在解决这一法律问题上，比如如何许可它而不是如何限制它或者把它作为一个例外，这使得大学、研究人员、图书馆、民间社会团体和开放获取出版商的代表等利益相关者于2013年5月结束了讨论。<ref>{{cite web|title=Text and Data Mining:Its importance and the need for change in Europe|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|website=Association of European Research Libraries|accessdate=14 November 2014}}</ref>

−

--[[用户:Thingamabob|Thingamabob]]（[[用户讨论:Thingamabob|讨论]]）【审校】"如许可证而不是限制和例外，导致大学、研究人员、图书馆、民间社会团体和开放获取出版商的代表于2013年5月离开了利益相关者对话。

−

"改为“比如如何许可它而不是如何限制它或者把它作为一个例外，这使得大学、研究人员、图书馆、民间社会团体和开放获取出版商的代表等利益相关者于2013年5月结束了讨论。”

===美国===

美国版权法，特别是其中关于合理使用的条款，支持在美国和其他合理使用国家，如以色列，台湾和韩国内容挖掘的合法性。由于内容挖掘是变革性的，也就是说，它不会取代原来的工作，它被视为合法的合理使用。例如，作为谷歌图书和解协议的一部分，此案的主审法官裁定，谷歌版权图书数字化项目是合法的，部分原因在于数字化项目所展示的变革性用途——其中之一就是文本和数据挖掘。<ref>{{cite web|title=Judge grants summary judgment in favor of Google Books — a fair use victory|url=http://www.lexology.com/library/detail.aspx?g=a18c5b92-5a20-4d1d-a098-a3095046a88e|website=Lexology.com|publisher=Antonelli Law Ltd|accessdate=14 November 2014}}</ref>

−

~~--[[用户:Zengsihang|Zengsihang]]（[[用户讨论:Zengsihang|讨论]]）【审校】将“台湾和韩国采矿内容的合法性”改为“台湾和韩国内容挖掘的合法性”~~

==软件==

第511行：第436行： +

==编者推荐==

+

===集智文章推荐===

+

====[https://swarma.org/?p=15066 利用数据科学了解电影业的性别差距 | 网络科学论文速递8篇 | 集智俱乐部]====

−

~~{{data}}~~

+

−

~~{{Data warehouse}}~~

−

~~{{Computer science}}~~

−

~~{{Authority control}}~~

−

~~{{DEFAULTSORT:Data Mining}}~~

−

~~[[Category:Data mining| ]]~~

−

~~[[Category:Formal sciences]]~~

−

~~Category:Formal sciences~~

−

类别: ~~正规科学~~

+

====[https://swarma.org/?p=11116 Nature评论：什么样的数据科学才能解决全球复杂问题]====

+

在人们急于寻找技术方案来解决全球复杂问题的同时，研究人员与其他工作人员也面临着因为依赖技术而丧失发现关键因素和因地制宜解决问题的能力的危险。未来，我们需要将更多的精力放在数据背后的人的身上，以设计开发可以应用于现实世界中的数据驱动应用。

−

<~~noinclude~~>

+

====[https://swarma.org/?p=2340 比预测未来更重要的，是改变未来 | 数据科学公开课]====

+

+

----

−

~~This page was moved from~~ [[~~wikipedia~~:en:~~Data mining~~]]~~. Its edit history can be viewed at~~ [[~~数据挖掘/edithistory~~]]~~</noinclude>~~

+

本中文词条由[[用户:许菁|许菁]] 参与编译， [[用户:Zengsihang|Zengsihang]]、[[用户:Thingamabob|Thingamabob]]审校，[[用户:不是海绵宝宝|不是海绵宝宝]]编辑，欢迎在讨论页面留言。

−

[[~~Category~~:~~待整理页面~~]]

+

'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''

+

[[分类: 数据科学]] [[分类: 数据挖掘]]

不是海绵宝宝

863

个编辑

更改

数据挖掘 (查看源代码)

2020年9月25日 (五) 19:42的版本

导航菜单

搜索