首页技术笔记网址导航 Json在线解析二维码 Ip地址查询在线流程图

新用户注册 | 会员登录

4赞

349

当前位置: 开发笔记 > 编程语言 > 正文

用于垃圾邮件检测的神经网络

作者：小妖694_807 | 2023-08-27 17:56

如何解决《用于垃圾邮件检测的神经网络》经验，为你挑选了2个好方法。

假设您可以访问一个电子邮件帐户,其中包含过去几年收到的电子邮件的历史记录(~10k封电子邮件),分为2组

真正的邮箱

垃圾邮件

您将如何处理创建可用于垃圾邮件检测的神经网络解决方案的任务 - 基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件？

我们假设电子邮件提取已经到位,我们只需要关注分类部分.

我希望得到回答的要点是:

选择哪个参数作为NN的输入,为什么？

NN的哪种结构最有可能最适合这样的任务？

此外,任何资源建议或现有实现(最好是在C#中)都非常受欢迎

谢谢

编辑

我开始使用神经网络,因为该项目的主要方面是测试NN方法如何用于垃圾邮件检测

此外,仅仅是探索神经网络和垃圾邮件的主题是一个"玩具问题"

Osama Al-Maa.. 24

如果你坚持使用NN ......我会为每封电子邮件计算一些功能

基于角色,基于单词和词汇的功能(我估计这些约为97):

字符总数(C)

alpha字母总数/ C字母字符比率

总数没有数字字符/ C.

空白字符总数/ C

每个字母/ C的频率(键盘的36个字母 - AZ,0-9)

特殊字符的频率(10个字符:*,_,+,=,%,$,@,\,/)

总字数(M)

短字总数/ M两个字母或更少

单词/ C中的字符总数

平均字长

平均.字句长度

平均.句子长度用词

单词长度频率.分布/ M长度为n的单词的比率,n在1和15之间

类型令牌比率.唯一字数/ M

Hapax Legomena Freq.曾经发生过的话

Hapax Dislegomena Freq.两次出现的单词

尤尔的K量度

辛普森的D测量

Sichel的S测量

布鲁内特的W措施

Honore的R测量

标点符号的频率18个标点符号:.,; ？!:() - "«»<> [] {}

您还可以根据格式添加更多功能:颜色,字体,大小......使用.

大多数这些措施可以在网上,论文中,甚至维基百科上找到(它们都是简单的计算,可能基于其他功能).

因此,使用大约100个功能,您需要100个输入,隐藏层中的一些节点数和一个输出节点.

输入需要根据您当前预先分类的语料库进行标准化.

我将它分成两组,一组作为训练组,另一组作为测试组,从不混合它们.也许是50/50比率的列车/测试组具有相似的垃圾邮件/非垃圾邮件比率.

1> Osama Al-Maa..：

如果你坚持使用NN ......我会为每封电子邮件计算一些功能

基于角色,基于单词和词汇的功能(我估计这些约为97):

字符总数(C)

alpha字母总数/ C字母字符比率

总数没有数字字符/ C.

空白字符总数/ C

每个字母/ C的频率(键盘的36个字母 - AZ,0-9)

特殊字符的频率(10个字符:*,_,+,=,%,$,@,\,/)

总字数(M)

短字总数/ M两个字母或更少

单词/ C中的字符总数

平均字长

平均.字句长度

平均.句子长度用词

单词长度频率.分布/ M长度为n的单词的比率,n在1和15之间

类型令牌比率.唯一字数/ M

Hapax Legomena Freq.曾经发生过的话

Hapax Dislegomena Freq.两次出现的单词

尤尔的K量度

辛普森的D测量

Sichel的S测量

布鲁内特的W措施

Honore的R测量

标点符号的频率18个标点符号:.,; ？!:() - "«»<> [] {}

您还可以根据格式添加更多功能:颜色,字体,大小......使用.

大多数这些措施可以在网上,论文中,甚至维基百科上找到(它们都是简单的计算,可能基于其他功能).

因此,使用大约100个功能,您需要100个输入,隐藏层中的一些节点数和一个输出节点.

输入需要根据您当前预先分类的语料库进行标准化.

我将它分成两组,一组作为训练组,另一组作为测试组,从不混合它们.也许是50/50比率的列车/测试组具有相似的垃圾邮件/非垃圾邮件比率.

2> Chad Birch..：

您是否开始使用神经网络？听起来你使用贝叶斯分类很好,这在Paul Graham的几篇文章中有很好的概述:

垃圾邮件计划

更好的贝叶斯过滤

您可以访问的分类历史记录将使用非常强大的语料库来提供贝叶斯算法,您最终可能会获得非常有效的结果.

推荐阅读

程序员
python tornado下载远程文件

如何解决《pythontornado下载远程文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
ef7无法检索子集合的子对象的属性

如何解决《ef7无法检索子集合的子对象的属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从mysql查询中获取关注者/以下列表

如何解决《如何从mysql查询中获取关注者/以下列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Ipython Notebook上使用我的GPU？

如何解决《如何在IpythonNotebook上使用我的GPU？》经验，为你挑选了0个好方法。 ... [详细]
程序员
ng-grid不显示任何数据

如何解决《ng-grid不显示任何数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Git:将多个提交从一个分支合并到另一个分支

如何解决《Git:将多个提交从一个分支合并到另一个分支》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django:模型之间的参考

如何解决《Django:模型之间的参考》经验，为你挑选了0个好方法。 ... [详细]
程序员
我应该在混合的Objective-C/Swift项目中使用Realm Objective-C或Realm Swift吗？

如何解决《我应该在混合的Objective-C/Swift项目中使用RealmObjective-C或RealmSwift吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
运行gulp app时无法找到模块'require-dir'错误:serve rails

如何解决《运行gulpapp时无法找到模块'require-dir'错误:serverails》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用sql语法(没有PHP)在mysql表中插入blob中的图像？

如何解决《如何使用sql语法(没有PHP)在mysql表中插入blob中的图像？》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:初始化程序只能在类型中声明

如何解决《错误:初始化程序只能在类型中声明》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除邮递员缓存

如何解决《删除邮递员缓存》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Github上创建一个库,并通过Android Studio中的gradle依赖项使用它

如何解决《如何在Github上创建一个库,并通过AndroidStudio中的gradle依赖项使用它》经验，为你挑选了2个好方法。 ... [详细]
程序员
在KDB +希望之后你不做一个hclose会发生什么

如何解决《在KDB+希望之后你不做一个hclose会发生什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用c#在折线图中显示标记点

如何解决《如何使用c#在折线图中显示标记点》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在YAML文件中为简单的POJO定义地图？

如何解决《如何在YAML文件中为简单的POJO定义地图？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过命令行获取32位十六进制数字的随机字符串？

如何解决《如何通过命令行获取32位十六进制数字的随机字符串？》经验，为你挑选了4个好方法。 ... [详细]
程序员
获取rails中每个不同记录的所有列

如何解决《获取rails中每个不同记录的所有列》经验，为你挑选了1个好方法。 ... [详细]
程序员
android:从片段打开chrome自定义选项卡

如何解决《android:从片段打开chrome自定义选项卡》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Reactjs条带自定义表单

如何解决《使用Reactjs条带自定义表单》经验，为你挑选了1个好方法。 ... [详细]

小妖694_807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

DevBox开发工具箱 | 专业的在线开发工具网站

京公网安备 11010802040832号 | 京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱版权所有