当前位置:  开发笔记 > 前端 > 正文

libsvm中的Holdout与K折叠交叉验证

如何解决《libsvm中的Holdout与K折叠交叉验证》经验,为你挑选了1个好方法。

我正在使用libsvm进行分类任务.我有10倍交叉验证,其中F1得分为0.80.但是,当我将训练数据集分成两部分时(一部分用于训练,另一部分用于测试,我将其称为保持测试集),F1分数降至0.65.分割比例为.8至.2.

那么,我的问题是,在进行k折交叉验证与保持测试之间是否有任何显着差异?这两种技术中的哪一种会产生一种概括良好的模型?在这两种情况下,我的数据集都会缩放.



1> lejlot..:

存在巨大差异,但精确分析需要大量统计数据.有关深入理解,请参阅Hastie,Tibshirani和Friedman 的"统计学习要素:数据挖掘,推理和预测".

简而言之 :

单列车测试分割是模型质量的不可靠测量(除非你有非常大的数据集)

考虑到训练集可以代表基础分布,重复训练分裂会收敛到真实分数,但在实践中它们往往过于乐观

CV往往比列车测试拆分给的分数更低型号的质量并为您提供合理的答案,但是以较高的计算复杂性为代价.

如果您有大量数据(> 50 000个样本),那么列车测试分割可能就足够了

如果你有足够的时间,CV几乎总是一种更好(不太乐观)的方法来衡量分类器的质量

除了这两个方法之外还有更多方法,您可能还想查看err0.632系列中的方法(bootstrap)

推荐阅读
云聪京初瑞子_617
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有