更改

删除6字节 、 2020年11月1日 (日) 10:23
无编辑摘要
第6行: 第6行:       −
'''数据挖掘 Data mining'''是一种特殊的数据分析技术,侧重于统计建模和探索未来知识前景(而不仅仅是的描述行为目的)。同时,现代智能商业严重依赖于聚合的数据分析,尤其是在商业信息方面。<ref>[https://web.archive.org/web/20171018181046/https://spotlessdata.com/blog/exploring-data-analysis Exploring Data Analysis]</ref> 在统计应用中,数据分析可以分为'''描述性统计学descriptive statistics'''、'''探索性数据分析 exploratory data analysis (EDA)'''和'''实证性数据分析 confirmatory data analysis (CDA)'''。EDA 侧重于发现数据中的新特征,而 CDA 侧重于确认或证伪现有的假设。'''预测分析Predictive analytics'''的重点是应用统计模型进行预测或分类,而'''文本分析 text analytics'''则应用统计学、语言学和结构化技术从文本源中提取和分类信息(文本是一种'''非结构化数据''')。以上就是各种各样的数据分析。
+
[[数据挖掘 Data mining]]是一种特殊的数据分析技术,侧重于统计建模和探索未来知识前景(而不仅仅是的描述行为目的)。同时,现代智能商业严重依赖于聚合的数据分析,尤其是在商业信息方面。<ref>[https://web.archive.org/web/20171018181046/https://spotlessdata.com/blog/exploring-data-analysis Exploring Data Analysis]</ref> 在统计应用中,数据分析可以分为'''描述性统计学 descriptive statistics'''、'''探索性数据分析 exploratory data analysis (EDA)'''和'''实证性数据分析 confirmatory data analysis (CDA)'''。EDA 侧重于发现数据中的新特征,而 CDA 侧重于确认或证伪现有的假设。'''预测分析 Predictive analytics'''的重点是应用统计模型进行预测或分类,而'''文本分析 text analytics'''则应用统计学、语言学和结构化技术从文本源中提取和分类信息(文本是一种'''非结构化数据''')。以上就是各种各样的数据分析。
      −
'''数据整合 Data integration'''是数据分析的先驱,数据分析与'''数据可视化'''同'''数据传播data dissemination'''密切相关。<ref>{{Cite book|last=Sherman, Rick,|url=https://www.worldcat.org/oclc/894555128|title=Business intelligence guidebook : from data integration to analytics|isbn=978-0-12-411528-6|location=Amsterdam|oclc=894555128}}</ref>
+
'''数据整合 Data integration'''是数据分析的先驱,数据分析与[[数据可视化]]同'''数据传播 data dissemination'''密切相关。<ref>{{Cite book|last=Sherman, Rick,|url=https://www.worldcat.org/oclc/894555128|title=Business intelligence guidebook : from data integration to analytics|isbn=978-0-12-411528-6|location=Amsterdam|oclc=894555128}}</ref>
      第17行: 第17行:  
[[File:Data visualization process v1.png|right|350px|thumb|数据科学处理流程图,来自《'''数据科学实战 Doing Data Science'''》 ,Schutt & o’ neil (2013)]]
 
[[File:Data visualization process v1.png|right|350px|thumb|数据科学处理流程图,来自《'''数据科学实战 Doing Data Science'''》 ,Schutt & o’ neil (2013)]]
   −
'''数据分析'''是指将一个整体分解成独立的部分来进行个别检查。数据分析是获取原始数据并将其转化为用户决策有用信息的过程。通过收集和分析数据来回答问题、检验假设或推翻理论。<ref name="Judd and McClelland 1989">{{cite book
+
数据分析是指将一个整体分解成独立的部分来进行个别检查。数据分析是获取原始数据并将其转化为用户决策有用信息的过程。通过收集和分析数据来回答问题、检验假设或推翻理论。<ref name="Judd and McClelland 1989">{{cite book
 
| last = Judd, Charles and
 
| last = Judd, Charles and
 
| first = McCleland, Gary
 
| first = McCleland, Gary
第34行: 第34行:  
===数据要求===
 
===数据要求===
   −
有用以分析的输入数据是必须的,因为分析是基于数据来指导分析的人或客户的需求(这些人将使用分析的最终产品)而规定的。收集数据的一般实体类型称为'''实验单元experimental unit''' (例如,一个人或一群人)。关于'''总体 population'''的具体变量(例如,年龄和收入)可以被指定和获得。数据可以是数值变量的或分类变量的(也就是数字的文本标签)。<ref name="Schutt & O'Neil"/>
+
有用以分析的输入数据是必须的,因为分析是基于数据来指导分析的人或客户的需求(这些人将使用分析的最终产品)而规定的。收集数据的一般实体类型称为'''实验单元 experimental unit''' (例如,一个人或一群人)。关于'''总体 population'''的具体变量(例如,年龄和收入)可以被指定和获得。数据可以是数值变量的或分类变量的(也就是数字的文本标签)。<ref name="Schutt & O'Neil"/>
    
<br>
 
<br>
第44行: 第44行:  
===数据处理===
 
===数据处理===
   −
[[File:Relationship of data, information and intelligence.png|thumb|350px|通过'''知识循环intelligence cycle'''将原始信息转化为可操作智慧或知识,这在概念上类似于数据分析中的阶段]]
+
[[File:Relationship of data, information and intelligence.png|thumb|350px|通过'''知识循环 intelligence cycle'''将原始信息转化为可操作智慧或知识,这在概念上类似于数据分析中的阶段]]
    
一开始获得的数据必须经过处理整合以便进行分析。以电子表格或统计软件为例,这可能涉及到将数据以表格格式放置到行和列中(即'''结构化数据 structured data''')以便后续分析。<ref name="Schutt & O'Neil"/>
 
一开始获得的数据必须经过处理整合以便进行分析。以电子表格或统计软件为例,这可能涉及到将数据以表格格式放置到行和列中(即'''结构化数据 structured data''')以便后续分析。<ref name="Schutt & O'Neil"/>
第73行: 第73行:     
[[File:Social Network Analysis Visualization.png|thumb|250px|用于了解数据分析结果的数据可视化<ref>{{Cite journal | volume = 10| issue = 3| last = Grandjean| first = Martin| title = La connaissance est un réseau| journal =Les Cahiers du Numérique| date = 2014| pages = 37–54| url = http://www.martingrandjean.ch/wp-content/uploads/2015/02/Grandjean-2014-Connaissance-reseau.pdf| doi=10.3166/lcn.10.3.37-54}}</ref>]]
 
[[File:Social Network Analysis Visualization.png|thumb|250px|用于了解数据分析结果的数据可视化<ref>{{Cite journal | volume = 10| issue = 3| last = Grandjean| first = Martin| title = La connaissance est un réseau| journal =Les Cahiers du Numérique| date = 2014| pages = 37–54| url = http://www.martingrandjean.ch/wp-content/uploads/2015/02/Grandjean-2014-Connaissance-reseau.pdf| doi=10.3166/lcn.10.3.37-54}}</ref>]]
      
数据被分析后可以用多种格式报告给分析的用户,以支持他们的需求。这些用户可能会有一些反馈,从而需要进行额外的分析。因此,大部分的分析周期是迭代的。<ref name="Schutt & O'Neil"/>
 
数据被分析后可以用多种格式报告给分析的用户,以支持他们的需求。这些用户可能会有一些反馈,从而需要进行额外的分析。因此,大部分的分析周期是迭代的。<ref name="Schutt & O'Neil"/>
7,129

个编辑