其中损失函数<math> L(\mathcal{X}, \mathcal{Y}) </math> 描述了样本的不纯度带来的损失。对于一个子节点<math>b</math>,给定样本数,如果其中样本的标签都相同, 那么样本纯度很高, 对应的损失函数值低;如果样本标签随机分布, 那么样本纯度很低,对应的损失函数值高。给定<math> \mathcal{Y}</math>在分类集上的概率密度,如果标签都相同,那么不管样本数的多少,纯度都很高,损失为0;如果标签随机分布,纯度很低,那么样本总数越多,带来的损失就越大。 | 其中损失函数<math> L(\mathcal{X}, \mathcal{Y}) </math> 描述了样本的不纯度带来的损失。对于一个子节点<math>b</math>,给定样本数,如果其中样本的标签都相同, 那么样本纯度很高, 对应的损失函数值低;如果样本标签随机分布, 那么样本纯度很低,对应的损失函数值高。给定<math> \mathcal{Y}</math>在分类集上的概率密度,如果标签都相同,那么不管样本数的多少,纯度都很高,损失为0;如果标签随机分布,纯度很低,那么样本总数越多,带来的损失就越大。 |