当前位置:  开发笔记 > 编程语言 > 正文

测量分类算法的性能

如何解决《测量分类算法的性能》经验,为你挑选了1个好方法。

我手上有一个分类问题,我想用机器学习算法解决这个问题(可能是贝叶斯或马尔可夫,问题与要使用的分类器无关).鉴于一些培训实例,我正在寻找一种方法来衡量已实施的分类器的性能,同时考虑数据过度拟合问题.

那就是:给定N [1..100]训练样本,如果我在每个样本上运行训练算法,并使用这个相同的样本来测量适应度,它可能会陷入数据过度拟合问题 - 分类器会知道训练实例的确切答案,没有太多的预测能力,使健身结果无用.

一个明显的解决方案是将手工标记的样品分成训练和测试样品; 我想学习选择具有统计学意义的训练样本的方法.

白皮书,书籍指针和PDF非常感谢!



1> Rockcoder..:

您可以使用10倍交叉验证.我相信这是分类算法性能评估的标准方法.

基本思想是将学习样本分成10个子集.然后使用一个子集用于测试数据,其他子集用于列车数据.对每个子集重复此操作,并计算最终的平均性能.


http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross-validation(直接链接到你链接的wiki文章中的k-fold交叉验证)
推荐阅读
mylvfamily
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有