我目前正在研究机器学习问题,而我必须处理非常不平衡的数据集.也就是说,有六个类('1','2'......'6').遗憾的是,例如,对于'1'150个示例/实例,对于'2'90个实例,对于类'3'仅有20个.所有其他类都不能被"训练",因为这些类没有可用的实例.
到目前为止,我发现WEKA(我正在使用的机器学习工具包)提供了这个受监督的"重采样"过滤器.当我使用'noReplacement'= false和'bialToUniformClass'= 1.0来应用此过滤器时,这将产生一个数据集,其中实例的数量很好并且几乎相等(对于类'1','3'和其他保持空虚).
我现在的问题是:WEKA和这个过滤器如何为不同的类生成"新的"/附加实例.
非常感谢您提供任何提示或建议.
干杯朱利安