公开可用的垃圾邮件过滤器培训集

作者：php | 2023-06-24 18:22

如何解决《公开可用的垃圾邮件过滤器培训集》经验，为你挑选了4个好方法。

我是机器学习的新手,而对于我的第一个项目,我想写一个朴素的贝叶斯垃圾邮件过滤器.我想知道是否有任何公开的标记垃圾邮件/非垃圾邮件的培训集,最好是纯文本而不是关系数据库的转储(除非它们打印那些？).

我知道这种公开可用的数据库存在于其他类型的文本分类中,特别是新闻文章文本.我只是无法为电子邮件找到同样的东西.

1> JeremyKun..：

这是我在寻找的:http://untroubled.org/spam/

这个档案在1998 - 2011年间有大约1GB的压缩累积垃圾邮件.现在我只需要收到非垃圾邮件.因此,我只需使用getmail程序和mattcutts.com上的教程查询我自己的Gmail

2> doug..：

当然,据我所知,Spambase是机器学习文献中引用最广泛的垃圾邮件数据集.

我多次使用过这个数据集; 每次我都对这个数据集的格式化和文档化付出了多少努力.

Spambase集的一些特征:

4601个数据点 - 全部完成

每个由58个特征(属性)组成

每个数据点都标有"垃圾邮件"或"无垃圾邮件"

约.40%被标记为垃圾邮件

这些特征都是连续的(与离散的)

代表性特征:大写字母的平均连续序列

Spambase存档在UCI机器学习库中 ; 此外,它还可以在网站上找到优秀的ML /统计计算论文,Hastie等人的统计学习要素.

是的,但我想要原始文本,以便我可以决定哪些功能是相关的.这是一次学习经历,所以我想从头开始.

它似乎实际上没有包含电子邮件文本，而是包含一组特定的单词。也许我缺少在哪里找到内容？

3> ViennaMike..：

SpamAssassin有一个包含垃圾邮件和非垃圾邮件的公共语料库,尽管它在几年内还没有更新.阅读readme.html文件以了解其中的内容.

4> 小智..：

您可以考虑查看TREC垃圾邮件/火腿语料库(我认为是安然通过法院案件公开的电子邮件集合).TREC通常会运行一系列竞争性文本处理任务,因此它可能会为您提供一些比较参考.

缺点是它们以原始mbox格式存储,尽管有许多语言的解析器(Apache Tika就是一个很好的例子).

该网页不是TREC,但这似乎是对数据链接的任务的一个很好的概述:http: //plg.uwaterloo.ca/~gvcormac/spam/

推荐阅读

程序员
我得到'32位进程无法访问64位进程的模块.' 异常调用Process.Start()

如何解决《我得到'32位进程无法访问64位进程的模块.'异常调用Process.Start()》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Spring Boot中转义Yaml中的Map键中的一个点

如何解决《在SpringBoot中转义Yaml中的Map键中的一个点》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap 3 datepicker - minDate和maxDate

如何解决《Bootstrap3datepicker-minDate和maxDate》经验，为你挑选了2个好方法。 ... [详细]
程序员
更改背景图像不起作用

如何解决《更改背景图像不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在ExpressJS下检测HTTPS仅适用于4种方法中的1种

如何解决《在ExpressJS下检测HTTPS仅适用于4种方法中的1种》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift:NSArray要设置？

如何解决《Swift:NSArray要设置？》经验，为你挑选了1个好方法。 ... [详细]
程序员
x86装配 - 夹紧rax优化到[0 ..极限)

如何解决《x86装配-夹紧rax优化到[0..极限)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Java中将String datetime转换为Date？

如何解决《在Java中将Stringdatetime转换为Date？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从Postgres数据库中删除用户

如何解决《如何从Postgres数据库中删除用户》经验，为你挑选了4个好方法。 ... [详细]
程序员
格式字符串错误的参数太多

如何解决《格式字符串错误的参数太多》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查数组中的所有值是否以字符串开头

如何解决《检查数组中的所有值是否以字符串开头》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Bootstrap表单上甚至触及表单之前,AngularJS ng-messages显示错误

如何解决《在Bootstrap表单上甚至触及表单之前,AngularJSng-messages显示错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python 3.3.5浮点格式精度

如何解决《Python3.3.5浮点格式精度》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何解决此构建问题 - 无法分配给属性:'date'是一个get get属性

如何解决《如何解决此构建问题-无法分配给属性:'date'是一个getget属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Azure API管理调用时X-ARR-ClientCert标头中没有证书

如何解决《从AzureAPI管理调用时X-ARR-ClientCert标头中没有证书》经验，为你挑选了0个好方法。 ... [详细]
程序员
Apache Flink中的全局排序

如何解决《ApacheFlink中的全局排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
绘制分类热图保持(x,y)值颜色

如何解决《绘制分类热图保持(x,y)值颜色》经验，为你挑选了0个好方法。 ... [详细]
程序员
在javascript中获取对象而不是数组

如何解决《在javascript中获取对象而不是数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
括号内有多行

如何解决《括号内有多行》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java Regex双反斜杠转义特殊字符

如何解决《JavaRegex双反斜杠转义特殊字符》经验，为你挑选了1个好方法。 ... [详细]

php

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章