更改

添加13字节 、 2020年11月1日 (日) 10:24
第51行: 第51行:  
===数据筛选===
 
===数据筛选===
   −
一旦经过处理和组织,就会发现数据可能不完整、重复或含有错误。由于输入和存储数据的方式的问题,因此我们需要进行数据清理。'''数据筛选'''是预防和纠正这些错误的过程。常见的任务包括匹配记录、识别不准确的数据、监控现有数据的整体质量、处理数据重复和分割列等。<ref>{{cite web|title=Data Cleaning|url=http://research.microsoft.com/en-us/projects/datacleaning/|publisher=Microsoft Research|accessdate=26 October 2013}}</ref>这样的数据问题也可以通过很多种分析技术来识别。例如,利用财务信息,可以将特定变量的与被所有数据认为可靠的单独公布的数字进行比较。<ref name="Koomey1">[http://www.perceptualedge.com/articles/b-eye/quantitative_data.pdf Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006]</ref> 高于或低于预先确定的阈值的异常数额可能会被核查。有几种类型的数据清理依赖于数据的类型,如电话号码,电子邮件地址,雇主等。<font color = '#ff8000'>异常值检查 outlier detection</font>的定量方法可以用来去除可能的输入错误的数据。<font color = '#ff8000'>文本数据拼写检查器 Textual data spell checkers</font>可以用来减少拼写错误单词的数量,但是很难判断这些单词本身是否正确。<ref>{{cite journal|last=Hellerstein|first=Joseph|title=Quantitative Data Cleaning for Large Databases|journal=EECS Computer Science Division|date=27 February 2008|page=3|url=http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf|accessdate=26 October 2013}}</ref>
+
一旦经过处理和组织,就会发现数据可能不完整、重复或含有错误。由于输入和存储数据的方式的问题,因此我们需要进行数据清理。'''数据筛选'''是预防和纠正这些错误的过程。常见的任务包括匹配记录、识别不准确的数据、监控现有数据的整体质量、处理数据重复和分割列等。<ref>{{cite web|title=Data Cleaning|url=http://research.microsoft.com/en-us/projects/datacleaning/|publisher=Microsoft Research|accessdate=26 October 2013}}</ref>这样的数据问题也可以通过很多种分析技术来识别。例如,利用财务信息,可以将特定变量的与被所有数据认为可靠的单独公布的数字进行比较。<ref name="Koomey1">[http://www.perceptualedge.com/articles/b-eye/quantitative_data.pdf Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006]</ref> 高于或低于预先确定的阈值的异常数额可能会被核查。有几种类型的数据清理依赖于数据的类型,如电话号码,电子邮件地址,雇主等。'''<font color = '#ff8000'>异常值检查 outlier detection</font>'''的定量方法可以用来去除可能的输入错误的数据。'''<font color = '#ff8000'>文本数据拼写检查器 Textual data spell checkers</font>'''可以用来减少拼写错误单词的数量,但是很难判断这些单词本身是否正确。<ref>{{cite journal|last=Hellerstein|first=Joseph|title=Quantitative Data Cleaning for Large Databases|journal=EECS Computer Science Division|date=27 February 2008|page=3|url=http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf|accessdate=26 October 2013}}</ref>
    
<br>
 
<br>
 +
 
===探索性数据分析===
 
===探索性数据分析===
 
数据被筛选之后就可以进行分析。分析者可能会运用各种被称为探索性数据分析的技术着手理解数据中包含的信息。<ref>[http://www.perceptualedge.com/articles/ie/the_right_graph.pdf Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004]</ref><ref>[http://cll.stanford.edu/~willb/course/behrens97pm.pdf Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997]</ref> 发现的过程可能导致额外的数据清洗或数据请求,因此这些活动可能具有迭代性质。在描述统计学量,例如平均值或中位数时,就可以用来帮助理解数据。数据可视化还可以被用于检查图形格式的数据,以获得关于数据中的信息的额外的洞察力。<ref name="Schutt & O'Neil"/>
 
数据被筛选之后就可以进行分析。分析者可能会运用各种被称为探索性数据分析的技术着手理解数据中包含的信息。<ref>[http://www.perceptualedge.com/articles/ie/the_right_graph.pdf Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004]</ref><ref>[http://cll.stanford.edu/~willb/course/behrens97pm.pdf Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997]</ref> 发现的过程可能导致额外的数据清洗或数据请求,因此这些活动可能具有迭代性质。在描述统计学量,例如平均值或中位数时,就可以用来帮助理解数据。数据可视化还可以被用于检查图形格式的数据,以获得关于数据中的信息的额外的洞察力。<ref name="Schutt & O'Neil"/>
7,129

个编辑