数据挖掘可能会在无意中被误用,然后产生看似重要的结果; 但这些结果实际上并不能用来预测未来的行为,也不能在新的数据样本上进行复现,而且用处不大。这通常是由于做出太多的假设,而没有进行适当的'''<font color="#ff8000">统计假设检验 Statistical Hypothesis Testing</font>'''。在机器学习中,这种问题可以被简称为'''<font color="#ff8000">过拟合 Overfitting</font>''',但相同的问题可能会在过程的不同阶段出现,因此哪怕在完全适用的情况下,合理进行训练/测试分割这一种方法也可能不足以防止这种情况的发生。<ref name=hawkins>{{cite journal | last1 = Hawkins | first1 = Douglas M | year = 2004 | title = The problem of overfitting | url = | journal = Journal of Chemical Information and Computer Sciences | volume = 44 | issue = 1| pages = 1–12 | doi=10.1021/ci0342472| pmid = 14741005 }}</ref> | 数据挖掘可能会在无意中被误用,然后产生看似重要的结果; 但这些结果实际上并不能用来预测未来的行为,也不能在新的数据样本上进行复现,而且用处不大。这通常是由于做出太多的假设,而没有进行适当的'''<font color="#ff8000">统计假设检验 Statistical Hypothesis Testing</font>'''。在机器学习中,这种问题可以被简称为'''<font color="#ff8000">过拟合 Overfitting</font>''',但相同的问题可能会在过程的不同阶段出现,因此哪怕在完全适用的情况下,合理进行训练/测试分割这一种方法也可能不足以防止这种情况的发生。<ref name=hawkins>{{cite journal | last1 = Hawkins | first1 = Douglas M | year = 2004 | title = The problem of overfitting | url = | journal = Journal of Chemical Information and Computer Sciences | volume = 44 | issue = 1| pages = 1–12 | doi=10.1021/ci0342472| pmid = 14741005 }}</ref> |