我正在使用libsvm进行分类任务.我有10倍交叉验证,其中F1得分为0.80.但是,当我将训练数据集分成两部分时(一部分用于训练,另一部分用于测试,我将其称为保持测试集),F1分数降至0.65.分割比例为.8至.2.
那么,我的问题是,在进行k折交叉验证与保持测试之间是否有任何显着差异?这两种技术中的哪一种会产生一种概括良好的模型?在这两种情况下,我的数据集都会缩放.
存在巨大差异,但精确分析需要大量统计数据.有关深入理解,请参阅Hastie,Tibshirani和Friedman 的"统计学习要素:数据挖掘,推理和预测".
简而言之 :
单列车测试分割是模型质量的不可靠测量(除非你有非常大的数据集)
考虑到训练集可以代表基础分布,重复训练分裂会收敛到真实分数,但在实践中它们往往过于乐观
CV往往比列车测试拆分给的分数更低型号的质量并为您提供合理的答案多快,但是以较高的计算复杂性为代价.
如果您有大量数据(> 50 000个样本),那么列车测试分割可能就足够了
如果你有足够的时间,CV几乎总是一种更好(不太乐观)的方法来衡量分类器的质量
除了这两个方法之外还有更多方法,您可能还想查看err0.632系列中的方法(bootstrap)