当前位置:  开发笔记 > 编程语言 > 正文

重复行如何影响决策树?

如何解决《重复行如何影响决策树?》经验,为你挑选了1个好方法。

我正在使用Rpart {}为分类变量构建决策树,我想知道是否应该使用仅有一组唯一行的完整数据集.



1> Gordon Linof..:

我回答这是关于决策树的一般问题,而不是R实现.

决策树的参数通常基于记录计数 - 最小叶子大小和最小分割搜索大小.此外,在构建树时,纯度度量会受节点大小的影响.如果您有重复的记录,那么您将隐含地对这些行中的值加权.

这既不好也不坏.您只需要了解要构建的数据和模型.如果重复的值来自不同的实验运行,那么它们应该没问题.

在某些情况下,重复(或等效权重)可能非常糟糕.例如,如果您对数据进行过采样以在目标上获得平衡样本,那么额外的行将会出现问题.单个叶子可能最终由原始数据中的单个实例组成 - 并且过度拟合将是一个问题.

推荐阅读
mobiledu2402852413
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有