我手上有一个分类问题,我想用机器学习算法解决这个问题(可能是贝叶斯或马尔可夫,问题与要使用的分类器无关).鉴于一些培训实例,我正在寻找一种方法来衡量已实施的分类器的性能,同时考虑数据过度拟合问题.
那就是:给定N [1..100]训练样本,如果我在每个样本上运行训练算法,并使用这个相同的样本来测量适应度,它可能会陷入数据过度拟合问题 - 分类器会知道训练实例的确切答案,没有太多的预测能力,使健身结果无用.
一个明显的解决方案是将手工标记的样品分成训练和测试样品; 我想学习选择具有统计学意义的训练样本的方法.
白皮书,书籍指针和PDF非常感谢!
您可以使用10倍交叉验证.我相信这是分类算法性能评估的标准方法.
基本思想是将学习样本分成10个子集.然后使用一个子集用于测试数据,其他子集用于列车数据.对每个子集重复此操作,并计算最终的平均性能.