更改

添加7字节 、 2021年12月30日 (四) 19:19
第370行: 第370行:  
==后向剪枝条件==
 
==后向剪枝条件==
 
[[File:decisiontree_postpruning.png]]
 
[[File:decisiontree_postpruning.png]]
 +
 
在训练集上正确率随着叶子节点的增加而增加,但模型在验证数据集上,叶子节点数超过某个阈值后泛化能力反而会减弱。有时我们要在正向分支过程上创造远多于我们所需要的节点(如使用层数停止准则),然后根据一定规则,使用验证数据集进行后向剪枝。
 
在训练集上正确率随着叶子节点的增加而增加,但模型在验证数据集上,叶子节点数超过某个阈值后泛化能力反而会减弱。有时我们要在正向分支过程上创造远多于我们所需要的节点(如使用层数停止准则),然后根据一定规则,使用验证数据集进行后向剪枝。
   第417行: 第418行:  
依次加入这些叶子结点,我们得到从0%到100%观测的序列,这中间预测正确的A事件的概率(预测性能)从一个很高的值<math>P^*_A</math>下降到<math>P_A</math>,这样考察前面尽量少的一部分比例的观测点可以提取出尽量多的A事件。这条轨道上的每一个值比上<math>P_A</math>得到了一条新的轨道,称为Lift曲线,在100%观测处轨道下降到1。一条值恒为1的水平线称为基准线(Baseline)。
 
依次加入这些叶子结点,我们得到从0%到100%观测的序列,这中间预测正确的A事件的概率(预测性能)从一个很高的值<math>P^*_A</math>下降到<math>P_A</math>,这样考察前面尽量少的一部分比例的观测点可以提取出尽量多的A事件。这条轨道上的每一个值比上<math>P_A</math>得到了一条新的轨道,称为Lift曲线,在100%观测处轨道下降到1。一条值恒为1的水平线称为基准线(Baseline)。
    +
</br>
    
=模型性能诊断=
 
=模型性能诊断=
7,129

个编辑