我正在使用Rpart {}为分类变量构建决策树,我想知道是否应该使用仅有一组唯一行的完整数据集.
我回答这是关于决策树的一般问题,而不是R实现.
决策树的参数通常基于记录计数 - 最小叶子大小和最小分割搜索大小.此外,在构建树时,纯度度量会受节点大小的影响.如果您有重复的记录,那么您将隐含地对这些行中的值加权.
这既不好也不坏.您只需要了解要构建的数据和模型.如果重复的值来自不同的实验运行,那么它们应该没问题.
在某些情况下,重复(或等效权重)可能非常糟糕.例如,如果您对数据进行过采样以在目标上获得平衡样本,那么额外的行将会出现问题.单个叶子可能最终由原始数据中的单个实例组成 - 并且过度拟合将是一个问题.