我是机器学习的新手,而对于我的第一个项目,我想写一个朴素的贝叶斯垃圾邮件过滤器.我想知道是否有任何公开的标记垃圾邮件/非垃圾邮件的培训集,最好是纯文本而不是关系数据库的转储(除非它们打印那些?).
我知道这种公开可用的数据库存在于其他类型的文本分类中,特别是新闻文章文本.我只是无法为电子邮件找到同样的东西.
这是我在寻找的:http://untroubled.org/spam/
这个档案在1998 - 2011年间有大约1GB的压缩累积垃圾邮件.现在我只需要收到非垃圾邮件.因此,我只需使用getmail程序和mattcutts.com上的教程查询我自己的Gmail
当然,据我所知,Spambase是机器学习文献中引用最广泛的垃圾邮件数据集.
我多次使用过这个数据集; 每次我都对这个数据集的格式化和文档化付出了多少努力.
Spambase集的一些特征:
4601个数据点 - 全部完成
每个由58个特征(属性)组成
每个数据点都标有"垃圾邮件"或"无垃圾邮件"
约.40%被标记为垃圾邮件
这些特征都是连续的(与离散的)
代表性特征:大写字母的平均连续序列
Spambase存档在UCI机器学习库中 ; 此外,它还可以在网站上找到优秀的ML /统计计算论文,Hastie等人的统计学习要素.
SpamAssassin有一个包含垃圾邮件和非垃圾邮件的公共语料库,尽管它在几年内还没有更新.阅读readme.html文件以了解其中的内容.
您可以考虑查看TREC垃圾邮件/火腿语料库(我认为是安然通过法院案件公开的电子邮件集合).TREC通常会运行一系列竞争性文本处理任务,因此它可能会为您提供一些比较参考.
缺点是它们以原始mbox格式存储,尽管有许多语言的解析器(Apache Tika就是一个很好的例子).
该网页不是TREC,但这似乎是对数据链接的任务的一个很好的概述:http: //plg.uwaterloo.ca/~gvcormac/spam/