更改

数据挖掘 (查看源代码)

2020年8月24日 (一) 20:29的版本

添加11字节、 2020年8月24日 (一) 20:29

第189行：第189行：

在使用数据挖掘算法之前，必须先组装目标数据集。由于数据挖掘只能发现数据中实际存在的模式，目标数据集必须足够大以包含这些模式，同时保持足够简洁以便在可接受的时间限制内进行挖掘。数据的公共源是数据集市或数据仓库。在数据挖掘之前，对多变量数据集进行预处理是必不可少的。然后清理目标集。数据清理去除了包含噪声的观测值和缺失数据的观测值。

−

===Data mining===

+

===数据挖掘 Data mining===

Data mining involves six common classes of tasks:<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |authorlink1=Usama Fayyad |last2=Piatetsky-Shapiro |first2=Gregory|authorlink2=Gregory Piatetsky-Shapiro |last3=Smyth |first3=Padhraic |title=From Data Mining to Knowledge Discovery in Databases |year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |accessdate = 17 December 2008 }}</ref>

第210行：第210行：

* [[Automatic summarization|Summarization]] – providing a more compact representation of the data set, including visualization and report generation.

−

===Results validation===

Yillia Jing

463

个编辑

更改

数据挖掘 (查看源代码)

2020年8月24日 (一) 20:29的版本

导航菜单

搜索