更改

数据分析 (查看源代码)

2020年11月1日 (日) 10:21的版本

删除275字节、 2020年11月1日 (日) 10:21

无编辑摘要

第8行：第8行： −

'''数据挖掘 Data mining'''是一种特殊的数据分析技术，侧重于统计建模和探索未来知识前景（而不仅仅是的描述行为目的）。同时，现代智能商业严重依赖于聚合的数据分析，尤其是在商业信息方面。<ref>[https://web.archive.org/web/20171018181046/https://spotlessdata.com/blog/exploring-data-analysis Exploring Data Analysis]</ref> 在统计应用中，数据分析可以分为'''描述性统计学descriptive statistics'''、'''~~探索性数据分析exploratory~~ data analysis (EDA)'''和'''实证性数据分析 confirmatory data analysis (CDA)'''。EDA 侧重于发现数据中的新特征，而 CDA 侧重于确认或证伪现有的假设。'''预测分析Predictive analytics'''的重点是应用统计模型进行预测或分类，而'''~~文本分析text~~ analytics'''则应用统计学、语言学和结构化技术从文本源中提取和分类信息（文本是一种'''非结构化数据'''）。以上就是各种各样的数据分析。

+

'''数据挖掘 Data mining'''是一种特殊的数据分析技术，侧重于统计建模和探索未来知识前景（而不仅仅是的描述行为目的）。同时，现代智能商业严重依赖于聚合的数据分析，尤其是在商业信息方面。<ref>[https://web.archive.org/web/20171018181046/https://spotlessdata.com/blog/exploring-data-analysis Exploring Data Analysis]</ref> 在统计应用中，数据分析可以分为'''描述性统计学descriptive statistics'''、'''探索性数据分析 exploratory data analysis (EDA)'''和'''实证性数据分析 confirmatory data analysis (CDA)'''。EDA 侧重于发现数据中的新特征，而 CDA 侧重于确认或证伪现有的假设。'''预测分析Predictive analytics'''的重点是应用统计模型进行预测或分类，而'''文本分析 text analytics'''则应用统计学、语言学和结构化技术从文本源中提取和分类信息（文本是一种'''非结构化数据'''）。以上就是各种各样的数据分析。

第19行：第19行：

[[File:Data visualization process v1.png|right|350px|thumb|数据科学处理流程图，来自《'''数据科学实战 Doing Data Science'''》，Schutt & o’ neil (2013)]]

−

+

'''数据分析'''是指将一个整体分解成独立的部分来进行个别检查。数据分析是获取原始数据并将其转化为用户决策有用信息的过程。通过收集和分析数据来回答问题、检验假设或推翻理论。<ref name="Judd and McClelland 1989">{{cite book

−

分析是指将一个整体分解成独立的部分来进行个别检查。数据分析是获取原始数据并将其转化为用户决策有用信息的过程。通过收集和分析数据来回答问题、检验假设或推翻理论。<ref name="Judd and McClelland 1989">{{cite book

| last = Judd, Charles and

| first = McCleland, Gary

第34行：第31行： −

数据分析可以分为以下几个步骤，如下所述。这些阶段是'''~~迭代的iterative~~'''，因为后期阶段的反馈可能会导致重复额外的与前期阶段相同的工作。用于数据挖掘的 CRISP 框架有类似的步骤。<ref name="Schutt & O'Neil">{{cite book

+

数据分析可以分为以下几个步骤，如下所述。这些阶段是'''迭代的 iterative'''，因为后期阶段的反馈可能会导致重复额外的与前期阶段相同的工作。用于数据挖掘的 CRISP 框架有类似的步骤。<ref name="Schutt & O'Neil">{{cite book| author2-last = O'Neil | author2-first= Cathy | author2-link= Cathy O'Neil| author1-last = Schutt | author1-first= Rachel| year = 2013| title = Doing Data Science | publisher = O'Reilly Media}}</ref>

−

| author2-last = O'Neil | author2-first= Cathy | author2-link= Cathy O'Neil

−

| author1-last = Schutt | author1-first= Rachel

−

| year = 2013

−

| title = Doing Data Science | publisher = [[O'Reilly Media]]

−

~~| isbn = 978-1-449-35865-5~~}}</ref>

−

+

===数据要求===

−

有用以分析的输入数据是必须的，因为分析是基于数据来指导分析的人或客户的需求（这些人将使用分析的最终产品）而规定的。收集数据的一般实体类型称为'''实验单元experimental unit''' (例如，一个人或一群人)。关于'''总体 population'''的具体变量（例如，年龄和收入）可以被指定和获得。数据可以是数值变量的或分类变量的(也就是数字的文本标签)。<ref name="Schutt & O'Neil"/>

−

+

−

===数据收集===

数据可以通过各种来源收集。需求可以由分析人员传达给数据保管人，例如组织内的信息技术人员。这些数据可以从环境中的传感器，如交通摄像机、卫星、记录设备等接收，也可以通过访谈、从网上资源下载或阅读文档而获得。<ref name="Schutt & O'Neil"/>

+

===数据处理===

[[File:Relationship of data, information and intelligence.png|thumb|350px|通过'''知识循环intelligence cycle'''将原始信息转化为可操作智慧或知识，这在概念上类似于数据分析中的阶段]]

−

一开始获得的数据必须经过处理整合以便进行分析。以电子表格或统计软件为例，这可能涉及到将数据以表格格式放置到行和列中（即'''结构化数据 structured data'''）以便后续分析。<ref name="Schutt & O'Neil"/>

+

===数据筛选===

+

一旦经过处理和组织，就会发现数据可能不完整、重复或含有错误。由于输入和存储数据的方式的问题，因此我们需要进行数据清理。'''数据筛选'''是预防和纠正这些错误的过程。常见的任务包括匹配记录、识别不准确的数据、监控现有数据的整体质量、处理数据重复和分割列等。<ref>{{cite web|title=Data Cleaning|url=http://research.microsoft.com/en-us/projects/datacleaning/|publisher=Microsoft Research|accessdate=26 October 2013}}</ref>这样的数据问题也可以通过很多种分析技术来识别。例如，利用财务信息，可以将特定变量的与被所有数据认为可靠的单独公布的数字进行比较。<ref name="Koomey1">[http://www.perceptualedge.com/articles/b-eye/quantitative_data.pdf Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006]</ref> 高于或低于预先确定的阈值的异常数额可能会被核查。有几种类型的数据清理依赖于数据的类型，如电话号码，电子邮件地址，雇主等。异常值检查 outlier detection的定量方法可以用来去除可能的输入错误的数据。文本数据拼写检查器 Textual data spell checkers可以用来减少拼写错误单词的数量，但是很难判断这些单词本身是否正确。<ref>{{cite journal|last=Hellerstein|first=Joseph|title=Quantitative Data Cleaning for Large Databases|journal=EECS Computer Science Division|date=27 February 2008|page=3|url=http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf|accessdate=26 October 2013}}</ref>

−

一旦经过处理和组织，就会发现数据可能不完整、重复或含有错误。由于输入和存储数据的方式的问题，因此我们需要进行数据清理。数据筛选是预防和纠正这些错误的过程。常见的任务包括匹配记录、识别不准确的数据、监控现有数据的整体质量、处理数据重复和分割列等。<~~ref~~>{{cite web|title=Data Cleaning|url=http://research.microsoft.com/en-us/projects/datacleaning/|publisher=Microsoft Research|accessdate=26 October 2013}}</ref>这样的数据问题也可以通过很多种分析技术来识别。例如，利用财务信息，可以将特定变量的与被所有数据认为可靠的单独公布的数字进行比较。<ref name="Koomey1">[http://www.perceptualedge.com/articles/b-eye/quantitative_data.pdf Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006]</ref> 高于或低于预先确定的阈值的异常数额可能会被核查。有几种类型的数据清理依赖于数据的类型，如电话号码，电子邮件地址，雇主等。异常值检查outlier detection的定量方法可以用来去除可能的输入错误的数据。文本数据拼写检查器Textual data spell checkers可以用来减少拼写错误单词的数量，但是很难判断这些单词本身是否正确。<ref>{{cite journal|last=Hellerstein|first=Joseph|title=Quantitative Data Cleaning for Large Databases|journal=EECS Computer Science Division|date=27 February 2008|page=3|url=http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf|accessdate=26 October 2013}}</ref>

+

−

===探索性数据分析===

−

数据被筛选之后就可以进行分析。分析者可能会运用各种被称为探索性数据分析的技术着手理解数据中包含的信息。<ref>[http://www.perceptualedge.com/articles/ie/the_right_graph.pdf Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004]</ref><ref>[http://cll.stanford.edu/~willb/course/behrens97pm.pdf Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997]</ref> 发现的过程可能导致额外的数据清洗或数据请求，因此这些活动可能具有迭代性质。在描述统计学量，例如平均值或中位数时，就可以用来帮助理解数据。数据可视化还可以被用于检查图形格式的数据，以获得关于数据中的信息的额外的洞察力。<ref name="Schutt & O'Neil"/>

−

+

===建模和算法===

−

数学公式或被称为算法的模型可用于在数据中识别变量之间的关系，如相关性或因果关系。一般来说，模型可以根据以下规则建立：根据数据中的其他变量来评估数据中的某一特定变量，并用基于模型的准确性设置残差（即数据 = 模型 + 误差）。<ref name="Judd and McClelland 1989"/>

−

'''统计推断 Inferential statistics'''包括测量特定变量之间关系的技术。例如，回归分析可以用来建立广告的变化的模型，可以知道广告的变化（独立变量 <math>x </math>）是否可以解释销售的变化（因变量 <math>y</math>）。用数学术语来说，<math>y</math>（销售）是 <math>x</math> （广告）的函数。它可以被描述为<math> Y = aX + b + error</math>，其中模型的设计使得 <math>a</math> 和 <math>b</math> 在模型某预测给定范围 <math>x</math> 的 <math>y</math> 时具有最小的误差。分析人员可能会尝试建立描述数据的模型，以简化分析和表示结果。<ref name="Judd and McClelland 1989"/>

+

'''统计推断 Inferential statistics'''包括测量特定变量之间关系的技术。例如，回归分析可以用来建立广告的变化的模型，可以知道广告的变化（独立变量 <math>x</math>）是否可以解释销售的变化（因变量 <math>y</math>）。用数学术语来说，<math>y</math>（销售）是 <math>x</math> （广告）的函数。它可以被描述为<math> Y = aX + b + error</math>，其中模型的设计使得 <math>a</math> 和 <math>b</math> 在模型某预测给定范围 <math>x</math> 的 <math>y</math> 时具有最小的误差。分析人员可能会尝试建立描述数据的模型，以简化分析和表示结果。<ref name="Judd and McClelland 1989"/>

+

=== 数据产品===

−

数据产品是一种计算机应用程序，它接收数据输入并产生输出，将它们反馈回到环境中。它可能基于一个模型或算法。一个例子是一种可以分析客户购买历史并推荐客户可能喜欢的其他物品的应用程序。<ref name="Schutt & O'Neil"/>

+

'''数据产品'''是一种计算机应用程序，它接收数据输入并产生输出，将它们反馈回到环境中。它可能基于一个模型或算法。一个例子是一种可以分析客户购买历史并推荐客户可能喜欢的其他物品的应用程序。<ref name="Schutt & O'Neil"/>

+

===交流===

第96行：第82行：

在决定如何传达结果的时候，分析师可能会考虑'''数据可视化 data visualization'''技术来帮助清晰有效地向听众传达信息。数据可视化使用信息显示（如表格和图表）来帮助传递数据中的关键信息。表格对查找特定数字的用户很有帮助，而图表（例如柱状图或折线图）可以帮助解释数据中的定量信息。

+

==定量数据==

−

[[File:Total Revenues and Outlays as Percent GDP 2013.png|thumb|right|250px|随时间变化的美国联邦政府收支变化趋势时间序列折线图]]

−

[[File:U.S. Phillips Curve 2000 to 2013.png|thumb|right|250px|两个变量（通货膨胀和失业）在时间点上的相关性散点图]]

−

Stephen Few 描述了用户可能试图从一组数据以及用于帮助传达信息的相关图表中理解或传达的八种定量信息。指定需求的客户和执行数据分析的分析人员可以在分析过程中考虑这些消息。

第127行：第108行：

*

+

==分析定量数据的技术==

−

作者Jonathan Koomey推荐了一系列理解定量数据的最佳方法。其中包括:

第155行：第135行： −

当分析师试图确定自变量<math> X </math>对因变量<math> Y </math>的影响程度时，可以使用'''~~回归分析Regression~~ analysis'''的方法（例如，“失业率(<math>X</math>)的变化对通货膨胀率(<math>Y</math>)的影响程度如何？”）。这是一种建模或拟合一个方程直线（或曲线）数据的尝试，使得 <math>Y</math> 是 <math>X</math> 的一个函数。

+

当分析师试图确定自变量<math> X </math>对因变量<math> Y </math>的影响程度时，可以使用'''回归分析 Regression analysis'''的方法（例如，“失业率(<math>X</math>)的变化对通货膨胀率(<math>Y</math>)的影响程度如何？”）。这是一种建模或拟合一个方程直线（或曲线）数据的尝试，使得 <math>Y</math> 是 <math>X</math> 的一个函数。

−

+

当分析师试图确定自变量<math>X</math>在多大程度上允许变量<math>Y</math>的出现时，可以使用[https://www.erim.eur.nl/centres/Necessary-condition-analysis/ 必要条件分析 Necessary condition analysis(NCA)]，（例如，“某个失业率<math>X</math>在多大程度上对某个通货膨胀率<math>Y</math>是必要的? ”）。（多重）回归分析分析使用'''加法逻辑additive logic'''，其中每个 <math>X</math> 变量可以产生结果，<math>X</math> 之间可以相互补偿（这些<math>X</math>都是充分的，但不是必要的），然而必要条件分析使用'''必要逻辑necessity logic'''，其中一个或多个<math> X</math> 变量允许结果的存在，但也可能不产生这个结果（它们是必要不充分的关系）。每个单一的必要条件都必须存在，变量之间不允许补偿。

−

当分析师试图确定自变量<math>X</math>在多大程度上允许变量<math>Y</math>的出现时，可以使用[https://www.erim.eur.nl/centres/Necessary-condition-analysis/ ~~必要条件分析Necessary~~ condition analysis(NCA)]，（例如，“某个失业率<math>X</math>在多大程度上对某个通货膨胀率<math>Y</math>是必要的? ”）。（多重）回归分析分析使用'''加法逻辑additive logic'''，其中每个 <math>X</math> 变量可以产生结果，<math>X</math> 之间可以相互补偿（这些<math>X</math>都是充分的，但不是必要的），然而必要条件分析使用'''必要逻辑necessity logic'''，其中一个或多个<math> X</math> 变量允许结果的存在，但也可能不产生这个结果（它们是必要不充分的关系）。每个单一的必要条件都必须存在，变量之间不允许补偿。

==数据用户的分析活动==

−

+

与上面概述的一般的消息传递不同，用户可能对数据集当中的特定数据点感兴趣。下表介绍了这种低层次的用户分析活动。分类可以由活动的三个极来组织: '''检索值 retrieving values'''、'''查找数据点 finding data points'''和'''排列数据点 arranging data points'''。<ref>Robert Amar, James Eagan, and John Stasko (2005) [http://www.cc.gatech.edu/~stasko/papers/infovis05.pdf "Low-Level Components of Analytic Activity in Information Visualization"]</ref><ref>William Newman (1994) [http://www.mdnpress.com/wmn/pdfs/chi94-pro-formas-2.pdf "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts"]</ref><ref>Mary Shaw (2002) [https://www.cs.cmu.edu/~Compose/ftp/shaw-fin-etaps.pdf "What Makes Good Research in Software Engineering?"]</ref><ref name="ConTaaS">{{cite web|title=ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications|url=https://scholarspace.manoa.hawaii.edu/handle/10125/41879|website=ScholarSpace|publisher=HICSS50|accessdate=May 24, 2017}}</ref>

−

与上面概述的一般的消息传递不同，用户可能对数据集当中的特定数据点感兴趣。下表介绍了这种低层次的用户分析活动。分类可以由活动的三个极来组织: '''~~检索值retrieving~~ values'''、'''~~查找数据点finding~~ data points'''和'''~~排列数据点arranging~~ data points'''。<ref>Robert Amar, James Eagan, and John Stasko (2005) [http://www.cc.gatech.edu/~stasko/papers/infovis05.pdf "Low-Level Components of Analytic Activity in Information Visualization"]</ref><ref>William Newman (1994) [http://www.mdnpress.com/wmn/pdfs/chi94-pro-formas-2.pdf "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts"]</ref><ref>Mary Shaw (2002) [https://www.cs.cmu.edu/~Compose/ftp/shaw-fin-etaps.pdf "What Makes Good Research in Software Engineering?"]</ref><ref name="ConTaaS">{{cite web|title=ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications|url=https://scholarspace.manoa.hawaii.edu/handle/10125/41879|website=ScholarSpace|publisher=HICSS50|accessdate=May 24, 2017}}</ref>

第265行：第241行：

==有效分析中存在的问题==

+

数据的分析人员之间或分析结果的受众之间可能存在有效分析的障碍。区分'''事实 fact''与'''观点 opinion''' 、'''认知偏差 cognitive biases''' 和'''数学盲 innumeracy'''都是对一个好的数据分析的挑战。

−

+

−

数据的分析人员之间或分析结果的受众之间可能存在有效分析的障碍。区分'''事实fact''与'''观点opinion''' 、'''认知偏差cognitive biases''' 和'''数学盲innumeracy'''都是对一个好的数据分析的挑战。

−

=== 混淆事实和观点===

−

'''有效分析 Effective analysis'''需要获得相关的事实来回答问题、支持结论、支持正式的观点，或者检验假设。事实的定义是不可辩驳的，这意味着任何参与分析的人都应该能够同意它们。例如，2010年8月，'''美国国会预算办公室Congressional Budget Office(CBO)'''估计，延长布什2001年和2003年的2011-2020年减税政策将使国家债务增加约3.3万亿美元。<ref>{{cite web|url=http://www.cbo.gov/publication/21670|title=Congressional Budget Office-The Budget and Economic Outlook-August 2010-Table 1.7 on Page 24 |format=PDF |accessdate=2011-03-31}}</ref>每个人都应该能够同意这确实是国会预算办公室报告的；他们都可以检查报告。这使该报告的内容成为一个事实。人们可以选择自己观点：是否同意国会预算办公室的报告。

第280行：第251行：

另一个例子是，上市公司的审计师必须就上市公司的财务报表是否“在所有重大方面得到公允陈述”达成正式意见，这需要对事实数据和证据进行广泛的分析，以支持他们的观点。在从事实到观点的飞跃中，总是存在着观点错误的可能性。

+

===认知偏差===

−

各种各样的'''~~认知偏差cognitive~~ biases'''会对分析产生不利影响。例如，'''~~证实偏见confirmation~~ bias'''是指人们倾向于以确认自己先入之见的方式来寻找或解释信息。此外，人们都可能会质疑那些与他们观点不相符的信息。

+

各种各样的'''认知偏差 cognitive biases'''会对分析产生不利影响。例如，'''证实偏见 confirmation bias'''是指人们倾向于以确认自己先入之见的方式来寻找或解释信息。此外，人们都可能会质疑那些与他们观点不相符的信息。

−

第294行：第265行： −

例如，一个数是上升还是下降可能不是关键因素。更重要的可能是相对于另一个数的数，例如相对于经济规模（国内生产总值）的政府收入或支出，或者公司财务报表中相对于收入的成本金额。这种数的技术称为'''归一化normalization'''<ref name="Koomey1"/> 或'''~~共同比common~~-sizing'''。分析师们通常都会使用这样的数据分析技术来进行调整，无论是对通货膨胀进行调整（如，比较实际数据与名义上的数据），还是考虑人口增长、人口统计学信息等。

+

例如，一个数是上升还是下降可能不是关键因素。更重要的可能是相对于另一个数的数，例如相对于经济规模（国内生产总值）的政府收入或支出，或者公司财务报表中相对于收入的成本金额。这种数的技术称为'''归一化normalization'''<ref name="Koomey1"/> 或'''共同比 common-sizing'''。分析师们通常都会使用这样的数据分析技术来进行调整，无论是对通货膨胀进行调整（如，比较实际数据与名义上的数据），还是考虑人口增长、人口统计学信息等。

+

数据分析人员应该要能应用各种技术来处理上面一节中提到的描述的各种定量信息的问题。

第301行：第273行：

分析师也可能在不同的假设或情景下分析数据。例如，当分析师进行财务报表分析时，他们通常会根据不同的假设重新编制财务报表，以得出对未来现金流的估计，然后根据一定的利率贴现到现在的价值，以确定公司或其股票的估价。同样，国会预算办公室分析了各种政策选择对政府收入、支出和赤字的影响，为关键措施创造了可供选择的方案。

+

==其他主题==

−

===智能建筑===

+

数据分析方法可以用来预测建筑物的能源消耗。<ref name="Towards energy efficiency smart buildings models based on intelligent data analytics">{{cite journal| last = González-Vidal| first= Aurora| last2 = Moreno-Cano| first2= Victoria| date= 2016| title = Towards energy efficiency smart buildings models based on intelligent data analytics| url = | journal = Procedia Computer Science| volume = 83

+

| issue = Elsevier| pages = 994–999| doi = 10.1016/j.procs.2016.04.213| doi-access= free}}</ref>

+

数据分析过程的不同步骤是为了实现智能建筑，建筑的管理和控制操作，包括供暖、通风、空调、照明和安保，都是通过模拟大厦使用者的需要和优化能源和时间等资源来自动实现的。

−

~~数据分析方法可以用来预测建筑物的能源消耗。~~<~~ref name="Towards energy efficiency smart buildings models based on intelligent data analytics"~~>~~{{cite journal~~

+

−

~~| last = González-Vidal~~

−

~~| first = Aurora~~

−

~~| last2 = Moreno-Cano~~

−

~~| first2 = Victoria~~

−

~~| date = 2016~~

−

~~| title = Towards energy efficiency smart buildings models based on intelligent data analytics~~

−

~~| url =~~

−

~~| journal = Procedia Computer Science~~

−

~~| volume = 83~~

−

~~| issue = Elsevier~~

−

~~| pages = 994–999~~

−

~~| doi = 10.1016/j.procs.2016.04.213| doi-access= free~~

−

}}

−

~~</ref>~~

−

数据分析过程的不同步骤是为了实现智能建筑，建筑的管理和控制操作，包括'''供暖heating'''、'''通风ventilation'''、'''空调air conditioning'''、'''照明lighting'''和'''安保security'''，都是通过模拟大厦使用者的需要和优化能源和时间等资源来自动实现的。

−

===分析和商业智能===

−

分析是“广泛使用数据、统计和定量分析、解释和预测模型，以及基于事实的管理来驱动决策和行动。”它是商业智能的一个子集，而商业智能是一组使用数据来理解和分析商业表现的技术和流程。<ref name="Competing on Analytics 2007">{{cite book

+

分析是“广泛使用数据、统计和定量分析、解释和预测模型，以及基于事实的管理来驱动决策和行动。”它是商业智能的一个子集，而商业智能是一组使用数据来理解和分析商业表现的技术和流程。<ref name="Competing on Analytics 2007">{{cite book| last = Davenport, Thomas and| first = Harris, Jeanne| year = 2007| title = Competing on Analytics | publisher = O'Reilly}}</ref>

−

| last = Davenport, Thomas and

−

| first = Harris, Jeanne

−

| year = 2007

−

| title = Competing on Analytics | publisher = O'Reilly

−

~~| isbn = 978-1-4221-0332-6| title-link = Competing on Analytics~~

−

}}</ref>

===教育===

[[File:User-activities.png|Analytic activities of data visualization users|thumb|right|350px]]

−

在教育方面，大多数教育工作者都可以使用数据系统来分析学生的数据。<ref>Aarons, D. (2009). [https://search.proquest.com/docview/202710770 Report finds states on course to build pupil-data systems.] ''Education Week, 29''(13), 6.</ref> 这些数据系统以'''场外交易数据格式over-the-counter data format'''（嵌入标签、补充文件和帮助系统，并作出关键的包装 / 展示和内容决策）向教育工作者提供数据以提高其数据分析的准确性。<ref>Rankin, J. (2013, March 28). [https://sas.elluminate.com/site/external/recording/playback/link/table/dropin?sid=2008350&suid=D.4DF60C7117D5A77FE3AED546909ED2 How data Systems & reports can either fight or propagate the data analysis error epidemic, and how educator leaders can help.] ''Presentation conducted from Technology Information Center for Administrative Leadership (TICAL) School Leadership Summit.''</ref>

+

==从业者注意事项==

−

这个部分包含了一些技术性的解释，它们可能对从业者有所帮助，但是超出了维基百科文章的典型范围。

−

+

−

===初始数据分析===

−

在初始数据分析阶段和主要分析阶段之间最重要的区别是，在初始数据分析阶段，人们不进行任何旨在回答原始研究问题的分析。初始数据分析阶段由下列四个问题指导:

−

====数据质量====

−

应尽早检查数据的质量。数据质量可以通过几种方式，使用不同类型的分析进行评估: 频数、描述统计学量（平均值、标准差、中位数）、正态性（偏态、峰度、频率直方图）、 n: 变量与数据集外部变量的编码方案进行比较，如果和编码方案不具有可比性，则可能对数据进行修正。

−

* 检验'''~~共同方法变异common~~-method variance'''

+

* 检验'''共同方法变异 common-method variance'''

−

在初始数据分析阶段，评估数据质量的分析方法的选择取决于将在主要分析阶段进行的分析。

−

+

−

====测量的质量====

第383行：第319行：

* 同质性检验（'''内部一致性internal consistency'''）用来表示测量仪器的'''可靠性Reliability'''。在这个分析过程中，我们会检查各个项目的变异和量尺刻度，量尺的'''克隆巴赫α系数 Cronbach’s alpha ''' ，以及当一个项目从量尺上被删除时克隆巴赫α系数的变化。

+

====初始的转换====

+

在对数据和测量的质量进行评估之后，从业者可能会决定填补缺失的数据，或者对一个或多个变量进行'''初始的转换 initial transformations'''，尽管这也可以在主要分析阶段进行。

−

在对数据和测量的质量进行评估之后，从业者可能会决定填补缺失的数据，或者对一个或多个变量进行'''初始的转换initial transformations'''，尽管这也可以在主要分析阶段进行。

−

+

变量可能的转换如下：<ref>Tabachnick & Fidell, 2007, p. 87-88.</ref>

−

~~变量可能的转换如下:~~<ref>Tabachnick & Fidell, 2007, p. 87-88.</ref>

* 平方根转换（如果数据分布与正态分布略有不同）

第399行：第335行：

* 分类变量处理（顺序或二元变量）（如果分布与正态分布严重不同，且没有转换方法可以补救）

+

====研究的实施是否完成了研究设计的目的？====

−

从业者应该检查随机化程序是否成功，例如通过检查'''~~背景变量background~~ variables'''和'''~~实质变量substantive~~ variables'''是否在组内和组间均匀分布。

+

从业者应该检查随机化程序是否成功，例如通过检查'''背景变量 background variables'''和'''实质变量 substantive variables'''是否在组内和组间均匀分布。

如果研究不需要或不使用随机化程序，则应检查非随机抽样是否成功，例如检查样本是否代表了相关总体的所有分组。

−

~~其他应该检查的可能的数据扭曲有:~~

+

其他应该检查的可能的数据扭曲有：

第414行：第351行：

* '''操纵质量Treatment quality''' （使用'''操纵检验manipulation check'''）

+

====数据样本的特征====

−

+

在任何报告或文章中，样本的结构必须被准确描述。在主要分析阶段进行'''子群 subgroups'''分析时，准确确定样本的结构（特别是子群的大小）尤为重要。

−

+

−

在任何报告或文章中，样本的结构必须被准确描述。在主要分析阶段进行'''~~子群subgroups~~'''分析时，准确确定样本的结构（特别是子群的大小）尤为重要。

−

数据样本的特征可以通过以下几个方面进行评估:

第429行：第364行：

* 相关性和联系

−

* ~~交叉表Cross~~-tabulations

+

* 交叉表 Cross-tabulations

+

====初始数据分析的最后阶段====

−

在最后阶段，从业者需要记录初始数据分析的结果，并采取必要的、可取的和可能的纠正措施。

+

此外，主要数据分析的原始计划可以而且应该更详细地说明或重写。

−

~~此外，主要数据分析的原始计划可以而且应该更详细地说明或重写。 ~~

−

~~为了做到这一点，应该对主要数据分析作出以下几个决定:~~

+

为了做到这一点，应该对主要数据分析作出以下几个决定：

* 在非正态分布的情况下，是否应该：有数据转换变量；使变量分类化（序列化/二分类）；改进分析方法？

第449行：第383行：

* 在有异常值的情况下：是否应该使用稳健的分析技术？

−

*在项目和测量量尺不匹配的情况下：是否应省略项目以对测量仪器进行调整，还是应确保与其他（用途的）测量仪器具有可比性？

+

* 在项目和测量量尺不匹配的情况下：是否应省略项目以对测量仪器进行调整，还是应确保与其他（用途的）测量仪器具有可比性？

* 在具有（太）小的子群的情况下：是否应该放弃群体间差异的假设，或者使用小样本技术，比如'''精确检验exact tests'''或者bootstrapping？

第455行：第389行：

* 在随机化程序似乎有缺陷的情况下：能够而且应该计算'''倾向分数propensity scores'''并将其作为协变量包括在主要分析中吗？

+

====分析====

第490行：第425行：

::* '''箱图 Box plots'''

+

====非线性分析====

+

'''非线性分析Nonlinear analysis'''通常是必要的，当数据是从非线性系统中获取的时候。非线性系统可以表现出复杂的动力学效应，包括'''分岔 bifurcations'''、'''[[混沌]] chaos'''、'''谐波harmonics'''和'''次谐波 subharmonics'''，这些效应不能用简单的线性方法进行分析。非线性数据分析与非线性系统辨识密切相关。<ref name="SAB1">Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013</ref>

−

+

−

'''非线性分析Nonlinear analysis'''通常是必要的，当数据是从非线性系统中获取的时候。非线性系统可以表现出复杂的动力学效应，包括'''分岔bifurcations'''、'''[[混沌]] chaos'''、'''谐波harmonics'''和'''<~~font color='#ff8000'~~>次谐波subharmonics'''，这些效应不能用简单的线性方法进行分析。非线性数据分析与非线性系统辨识密切相关。<ref name="SAB1">Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013</ref>

−

===主要数据分析阶段===

−

主要分析阶段进行旨在回答研究问题的分析，以及撰写研究报告初稿所需的其他相关分析。

−

====探索性和验证性方法====

第508行：第439行： +

对探索性数据分析的解释应该非常谨慎。当同时测试多个模型时，发现其中至少一个模型具有统计学意义显著的几率很高，但这可能是由于第'''Ⅰ''' 类错误。在测试多个模型时，总是调整显著性水平很重要，例如，使用Bonferroni校正。

−

对探索性数据分析的解释应该非常谨慎。当同时测试多个模型时，发现其中至少一个模型具有统计学意义显著的几率很高，但这可能是由于第'''Ⅰ''' 类错误。在测试多个模型时，总是调整显著性水平很重要，例如，使用Bonferroni校正。

另外，数据的探索性分析和验证性分析不应该在同一数据集中进行。

+

探索性分析是用来为一个理论寻找想法，但不是用来检验这个理论的。当一个数据集中使用探索性分析发现了一个模型，然后在同一个数据集中进行验证性分析，这可能仅仅意味着验证性分析的结果首先是由于和探索性分析中同样的第'''Ⅰ'''类错误而导致的。因此，验证性分析不会比最初的探索性分析更有用。

+

====结果的稳定性====

−

分析之后，得到一些能说明结果普适性的指标是非常重要的。虽然普遍性通常很难检验，但有检验结果的可靠性的一些方式。下面介绍两种主要的方法来保证结果的可靠和可重复性：

−

* '''~~交叉验证Cross~~-validation'''。通过将数据分成多个部分，我们可以检查基于一部分数据的分析（如拟合模型）是否也可以推广到另一部分数据。不过如果数据内部（例如与'''面板数据panel data'''）存在相关性，那么交叉验证通常是不适当的。因此，有时需要使用其他验证方法。有关此主题的更多信息，请参阅'''统计模型验证 statistical model validation'''。

+

* '''交叉验证 Cross-validation'''。通过将数据分成多个部分，我们可以检查基于一部分数据的分析（如拟合模型）是否也可以推广到另一部分数据。不过如果数据内部（例如与'''面板数据panel data'''）存在相关性，那么交叉验证通常是不适当的。因此，有时需要使用其他验证方法。有关此主题的更多信息，请参阅'''统计模型验证 statistical model validation'''。

* '''灵敏度分析 Sensitivity analysis'''。一种在全局变量（系统地）变化时研究系统或模型的行为的程序。一种方式就是通过 Bootstrapping 方法。

+

==用于数据分析的免费软件==

−

著名的数据分析免费软件包括:

−

* [https://en.wikipedia.org/wiki/DevInfo DevInfo] -'''~~联合国发展集团United~~ Nations Development Group'''认可的用于监测和分析人类发展的数据库系统。

+

* [https://en.wikipedia.org/wiki/DevInfo DevInfo] -'''联合国发展集团 United Nations Development Group'''认可的用于监测和分析人类发展的数据库系统。

* [https://en.wikipedia.org/wiki/ELKI ELKI] -面向数据挖掘的可视化功能的 Java 数据挖掘框架。

第550行：第480行：

* SciPy -用于数据分析的 Python 库

−

*[https://en.wikipedia.org/wiki/Julia_(programming_language) Julia] - 一种非常适合数值分析和计算科学的编程语言。

+

* [https://en.wikipedia.org/wiki/Julia_(programming_language) Julia] - 一种非常适合数值分析和计算科学的编程语言。

==国际性的数据分析比赛==

−

很多的公司或组织纷纷举办数据分析竞赛，以鼓励研究人员利用他们的数据，或利用其数据分析技能解决特定的问题。以下是一些著名的国际数据分析比赛的例子。

−

* 由 Kaggle 举办的[https://www.kaggle.com/ Kaggle]竞赛。<ref>{{cite news|title=The machine learning community takes on the Higgs|url=http://www.symmetrymagazine.org/article/july-2014/the-machine-learning-community-takes-on-the-higgs/|accessdate=14 January 2015|newspaper=Symmetry Magazine|date=July 15, 2014}}</ref>

−

* 由 FHWA 和 ASCE 举办的 [https://en.wikipedia.org/wiki/LTPP_International_Data_Analysis_Contest LTPP国际数据分析竞赛]。<ref name="Nehme 2016-09-29">{{cite web |first = Jean |last = Nehme |date = September 29, 2016 |url = https://www.fhwa.dot.gov/research/tfhrc/programs/infrastructure/pavements/ltpp/2016_2017_asce_ltpp_contest_guidelines.cfm |title = LTPP International Data Analysis Contest |publisher = Federal Highway Administration |access-date = October 22, 2017 }}</ref><ref>{{cite web |date = May 26, 2016 |url = https://www.fhwa.dot.gov/research/tfhrc/programs/infrastructure/pavements/ltpp/

+

* 由 FHWA 和 ASCE 举办的 [https://en.wikipedia.org/wiki/LTPP_International_Data_Analysis_Contest LTPP国际数据分析竞赛]。<ref name="Nehme 2016-09-29">{{cite web |first = Jean |last = Nehme |date = September 29, 2016 |url = https://www.fhwa.dot.gov/research/tfhrc/programs/infrastructure/pavements/ltpp/2016_2017_asce_ltpp_contest_guidelines.cfm |title = LTPP International Data Analysis Contest |publisher = Federal Highway Administration |access-date = October 22, 2017 }}</ref><ref>{{cite web |date = May 26, 2016 |url = https://www.fhwa.dot.gov/research/tfhrc/programs/infrastructure/pavements/ltpp/ |title = Data.Gov:Long-Term Pavement Performance (LTPP)|access-date = November 10, 2017 }}</ref>

−

|title = Data.Gov:Long-Term Pavement Performance (LTPP)|access-date = November 10, 2017 }}</ref>

+

==参见==

−

* Actuarial science 精算学

+

* Actuarial science 精算学

−

* Analytics 分析

+

* Analytics 分析

−

* Big data 大数据

+

* Big data 大数据

−

* Business intelligence 商业智能

+

* Business intelligence 商业智能

−

* Censoring (statistics) 截尾（统计学）

+

* Censoring (statistics) 截尾（统计学）

−

* Computational physics 计算物理学

+

* Computational physics 计算物理学

−

* Data acquisition 数据采集

+

* Data acquisition 数据采集

−

* Data blending 数据融合

+

* Data blending 数据融合

*'''Data governance 数据治理'''

−

* Data mining 数据挖掘

+

* Data mining 数据挖掘

−

*'''Data Presentation Architecture 数据展示架构'''

+

*'''Data Presentation Architecture 数据展示架构'''

−

* Data science 数据科学

+

* Data science 数据科学

−

* Digital signal processing 数字信号处理

+

* Digital signal processing 数字信号处理

−

* Dimension reduction 降维

+

* Dimension reduction 降维

−

*'''Early case assessment 早期案件评估'''

+

*'''Early case assessment 早期案件评估'''

−

* Exploratory data analysis 探索性数据分析

+

* Exploratory data analysis 探索性数据分析

−

* Fourier analysis 傅里叶分析

+

* Fourier analysis 傅里叶分析

−

* Machine learning 机器学习

+

* Machine learning 机器学习

−

* Multilinear principal component analysis|Multilinear PCA 多线性主成分分析

+

* Multilinear principal component analysis|Multilinear PCA 多线性主成分分析

−

*''' Multilinear subspace learning 多线性子空间学习'''

+

*''' Multilinear subspace learning 多线性子空间学习'''

−

* Multiway data analysis 多路数据分析

+

* Multiway data analysis 多路数据分析

−

* Nearest neighbor search 最近邻搜索

+

* Nearest neighbor search 最近邻搜索

−

* Nonlinear system identification 非线性系统识别

+

* Nonlinear system identification 非线性系统识别

−

* Predictive analytics 预测分析

+

* Predictive analytics 预测分析

−

* Principal component analysis 主成分分析

+

* Principal component analysis 主成分分析

−

* Qualitative research 量化研究

+

* Qualitative research 量化研究

−

* Scientific computing 科学计算

+

* Scientific computing 科学计算

−

* Structured data analysis (statistics) 结构化数据分析（统计学）

+

* Structured data analysis (statistics) 结构化数据分析（统计学）

−

* System identification 系统识别

+

* System identification 系统识别

−

* Test method 文本方法

+

* Test method 文本方法

−

* Text analytics 文本分析

+

* Text analytics 文本分析

−

* Unstructured data 非结构化数据

+

* Unstructured data 非结构化数据

−

* Wavelet 小波

+

* Wavelet 小波

−

* List of big data companies 大数据公司列表

+

* List of big data companies 大数据公司列表

第648行：第574行：

===自传===

−

*{{cite book |first1=Herman J. |last1=Adèr |editor-first1=Herman J. |editor-last1=Adèr |editor-first2=Gideon J. |editor-last2=Mellenbergh ~~|editor-link3=David Hand (statistician)~~ |editor-first3=David J |editor-last3=Hand |title=Advising on research methods : a consultant's companion |publisher=Johannes van Kessel Pub |location=Huizen, Netherlands |year=2008a |chapter=Chapter 14: Phases and initial steps in data analysis |pages=333–356 |ref=harv}}

+

*{{cite book |first1=Herman J. |last1=Adèr |editor-first1=Herman J. |editor-last1=Adèr |editor-first2=Gideon J. |editor-last2=Mellenbergh |editor-first3=David J |editor-last3=Hand |title=Advising on research methods : a consultant's companion |publisher=Johannes van Kessel Pub |location=Huizen, Netherlands |year=2008a |chapter=Chapter 14: Phases and initial steps in data analysis |pages=333–356 |ref=harv}}

−

*{{cite book |first1=Herman J. |last1=Adèr |editor-first1=Herman J. |editor-last1=Adèr |editor-first2=Gideon J. |editor-last2=Mellenbergh ~~|editor-link3=David Hand (statistician)~~ |editor-first3=David J |editor-last3=Hand |title=Advising on research methods : a consultant's companion |publisher=Johannes van Kessel Pub |location=Huizen, Netherlands |year=2008b |chapter=Chapter 15: The main analysis phase |pages=357–386 |ref=harv}}

+

*{{cite book |first1=Herman J. |last1=Adèr |editor-first1=Herman J. |editor-last1=Adèr |editor-first2=Gideon J. |editor-last2=Mellenbergh |editor-first3=David J |editor-last3=Hand |title=Advising on research methods : a consultant's companion |publisher=Johannes van Kessel Pub |location=Huizen, Netherlands |year=2008b |chapter=Chapter 15: The main analysis phase |pages=357–386 |ref=harv}}

*Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

第679行：第605行：

----

−

本中文词条由[[用户:嘉树 |嘉树]]编译，[[用户: ~~思无涯咿呀咿呀~~|~~思无涯咿呀咿呀~~]]~~编辑，~~[[用户:~~CecileLi~~|~~CecileLi~~]]~~审校。欢迎在讨论页面留言。~~

+

本中文词条由[[用户:嘉树 |嘉树]]编译，[[用户:CecileLi|CecileLi]]审校，[[用户: 思无涯咿呀咿呀|思无涯咿呀咿呀]]编辑。欢迎在讨论页面留言。

'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''

薄荷

7,129

个编辑

更改

数据分析 (查看源代码)

2020年11月1日 (日) 10:21的版本

导航菜单

搜索