更改

跳到导航 跳到搜索
删除479字节 、 2020年9月25日 (五) 19:44
第76行: 第76行:     
数据挖掘可能会在无意中被误用,然后产生看似重要的结果; 但这些结果实际上并不能用来预测未来的行为,也不能在新的数据样本上进行复现,而且用处不大。这通常是由于做出太多的假设,而没有进行适当的'''<font color="#ff8000">统计假设检验 Statistical Hypothesis Testing</font>'''。在机器学习中,这种问题可以被简称为'''<font color="#ff8000">过拟合 Overfitting</font>''',但相同的问题可能会在过程的不同阶段出现,因此哪怕在完全适用的情况下,合理进行训练/测试分割这一种方法也可能不足以防止这种情况的发生。<ref name=hawkins>{{cite journal | last1 = Hawkins | first1 = Douglas M | year = 2004 | title = The problem of overfitting | url = | journal = Journal of Chemical Information and Computer Sciences | volume = 44 | issue = 1| pages = 1–12 | doi=10.1021/ci0342472| pmid = 14741005 }}</ref>
 
数据挖掘可能会在无意中被误用,然后产生看似重要的结果; 但这些结果实际上并不能用来预测未来的行为,也不能在新的数据样本上进行复现,而且用处不大。这通常是由于做出太多的假设,而没有进行适当的'''<font color="#ff8000">统计假设检验 Statistical Hypothesis Testing</font>'''。在机器学习中,这种问题可以被简称为'''<font color="#ff8000">过拟合 Overfitting</font>''',但相同的问题可能会在过程的不同阶段出现,因此哪怕在完全适用的情况下,合理进行训练/测试分割这一种方法也可能不足以防止这种情况的发生。<ref name=hawkins>{{cite journal | last1 = Hawkins | first1 = Douglas M | year = 2004 | title = The problem of overfitting | url = | journal = Journal of Chemical Information and Computer Sciences | volume = 44 | issue = 1| pages = 1–12 | doi=10.1021/ci0342472| pmid = 14741005 }}</ref>
  −
{{Missing information|section|non-classification tasks in data mining. It only covers [[machine learning]]|date=September 2011}}
      
从数据中发现知识的最后一步是验证数据挖掘算法产生的模式是否存在于更广泛的数据集中。数据挖掘算法发现的并非所有模式都是有效的,因为对于数据挖掘算法来说,在训练集中发现一般数据集中没有的模式是很常见的,这叫做'''<font color="#ff8000">过拟合 Overfitting</font>'''。为了解决这个问题,评估时会使用一组没有用在训练数据挖掘算法中用到的测试数据。然后将学习到的模式应用到这个'''<font color="#ff8000">测试集 Test Set</font>'''中,并将结果输出与期望的输出进行比较。例如,试图区分“垃圾邮件”和“合法”邮件的数据挖掘算法将根据一组电子邮件'''<font color="#ff8000">训练集 Training Sett</font>'''样本进行训练。训练完毕后,学到的模式将应用于未经训练的那部分电子邮件测试集数据上。然后,可以从这些模式正确分类的电子邮件数量来衡量这些模式的准确性。可以使用几种统计方法可以用来评估算法,如'''<font color="#ff8000">ROC 曲线 ROC curves</font>'''。
 
从数据中发现知识的最后一步是验证数据挖掘算法产生的模式是否存在于更广泛的数据集中。数据挖掘算法发现的并非所有模式都是有效的,因为对于数据挖掘算法来说,在训练集中发现一般数据集中没有的模式是很常见的,这叫做'''<font color="#ff8000">过拟合 Overfitting</font>'''。为了解决这个问题,评估时会使用一组没有用在训练数据挖掘算法中用到的测试数据。然后将学习到的模式应用到这个'''<font color="#ff8000">测试集 Test Set</font>'''中,并将结果输出与期望的输出进行比较。例如,试图区分“垃圾邮件”和“合法”邮件的数据挖掘算法将根据一组电子邮件'''<font color="#ff8000">训练集 Training Sett</font>'''样本进行训练。训练完毕后,学到的模式将应用于未经训练的那部分电子邮件测试集数据上。然后,可以从这些模式正确分类的电子邮件数量来衡量这些模式的准确性。可以使用几种统计方法可以用来评估算法,如'''<font color="#ff8000">ROC 曲线 ROC curves</font>'''。
  −
  --[[用户:Thingamabob|Thingamabob]]([[用户讨论:Thingamabob|讨论]]) 【审校】“为了克服这个问题,评估使用一组测试数据,而数据挖掘算法并没有在这些测试数据上进行训练”改为“为了解决这个问题,评估时会使用一组没有用在训练数据挖掘算法中用到的测试数据”
      
如果学习的模式不能达到预期的标准,那么就需要重新评估和修改预处理和数据挖掘的步骤。如果所学的模式确实符合所需的标准,那么最后一步就是对习得的模式进行解释并将其转化为知识。
 
如果学习的模式不能达到预期的标准,那么就需要重新评估和修改预处理和数据挖掘的步骤。如果所学的模式确实符合所需的标准,那么最后一步就是对习得的模式进行解释并将其转化为知识。
863

个编辑

导航菜单