用于从有意义的文本中分离无意义文本的算法

作者：手机用户2402852307 | 2023-08-31 11:38

如何解决《用于从有意义的文本中分离无意义文本的算法》经验，为你挑选了5个好方法。

我为我的一些程序提供了反馈功能.不幸的是,我忘了包含某种垃圾邮件保护 - 所以用户可以将他们想要的任何内容发送到我的服务器 - 每个反馈都存储在一个巨大的数据库中.

一开始我定期检查这些反馈 - 我过滤掉了可用的和删除的垃圾.问题是:我每天收到900条反馈.只有4-5个真正有用,其他消息大多是2种类型的乱码:

废话:jfvgasdjkfahs kdlfjhasdf(人们在键盘上粉碎他们的头脑)

语言我不明白

到目前为止我做了什么:

我安装了一个过滤器来删除任何包含"asdf","qwer"等的反馈...... - >每天只有700个

我安装了一个文字过滤器来删除任何包含不良语言的东西 - >每天600(不要问 - 但那里有很多奇怪的人)

我过滤掉任何包含我的语言未使用的字母的消息 - >每天400

但每天400仍然太多了.所以我想知道是否有人之前已经处理过这样的问题并且知道某种算法来过滤掉无意义的消息.

真的很感激任何帮助!

1> John Nilsson..：

如何使用贝叶斯垃圾邮件过滤器的一些现有实现而不是实现自己的.我在DSpam上取得了不错的成绩

2> Rob Walker..：

稍微不同的方法是设置系统以将反馈消息通过电子邮件发送到帐户并使用标准垃圾邮件过滤.你可以通过gmail发送它们并让它们过滤掉它.不完美,但也没有太多的努力来实现.

哦,快速和肮脏,hackish和某种程度上彻底恶心......我喜欢它!:d

但Gmail真的会过滤掉一条说"qwerty"的消息吗？即便如此,他们也会查看发件人,主题,邮件服务器等等,这对他的申请来说都是一样的(他们都是从这一个表单发送到Gmail帐户).

如果此方案中的"发件人"地址始终相同,那么Gmail就有可能决定*该地址是垃圾邮件发送者*,因为它会发送大量垃圾邮件.

3> maxaposterio..：

如果您只是期待(或关心)英语评论,那么为什么不在上传的反馈中简单地计算有效单词的数量(相对于某些词典).如果数字超过某个阈值,请接受反馈.如果没有,请将其丢弃.这个简单的启发式方法可以通过添加它们的词典扩展到其他语言.

4> Greg Ogle..：

您可以尝试许多垃圾邮件过滤器使用的贝叶斯算法.

更好的贝叶斯过滤

维基百科的解释

一些开源

5> Tomas Aschan..：

我在我的一个网站(很长时间)的留言簿功能中遇到了垃圾邮件问题.我的解决方案只是添加一个类似验证码的Q&A字段,询问用户"你是垃圾邮件机器人吗？" 任何包含单词"no"的答案(通过"不,我不是","nope"和"根本没有",只是为了好玩......)允许用户发布...

我选择不使用验证码的原因很简单,我的用户想要对网站有一种更"舒适"的感觉,并且验证码感觉太正式了.这更个人=)

推荐阅读

程序员
如何在Sublime Text 3中为ruby设置高亮显示的端到端块？

如何解决《如何在SublimeText3中为ruby设置高亮显示的端到端块？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PhoneGap中Android Marshmallow的应用权限

如何解决《PhoneGap中AndroidMarshmallow的应用权限》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在laravel 5.1迁移中使用外键

如何解决《如何在laravel5.1迁移中使用外键》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS蓝牙背景模式

如何解决《iOS蓝牙背景模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript调整大小不同的图像,只有宽度很重要

如何解决《Javascript调整大小不同的图像,只有宽度很重要》经验，为你挑选了0个好方法。 ... [详细]
程序员
com.datastax.driver.core.exceptions.InvalidQueryException:unconfigured table schema_keyspaces

如何解决《com.datastax.driver.core.exceptions.InvalidQueryException:unconfiguredtableschema_keyspaces》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么我必须明确告诉Spark要缓存什么？

如何解决《为什么我必须明确告诉Spark要缓存什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么(int i = 0 ;; i ++)被认为是无限循环？

如何解决《为什么(inti=0;;i++)被认为是无限循环？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C＃和Unity 3D：当用户移动鼠标时，如何使相机在对象周围移动

如何解决《C＃和Unity3D：当用户移动鼠标时，如何使相机在对象周围移动》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Kubernetes API中启用CORS

如何解决《在KubernetesAPI中启用CORS》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP7 + Symfony 2.8,无法写入会话数据

如何解决《PHP7+Symfony2.8,无法写入会话数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Microsoft Edge中还原会话

如何解决《如何在MicrosoftEdge中还原会话》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Chrome浏览器中的Chrome网站上添加主屏幕横幅广告？

如何解决《如何在Chrome浏览器中的Chrome网站上添加主屏幕横幅广告？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何移动到离子上的下一个输入字段

如何解决《如何移动到离子上的下一个输入字段》经验，为你挑选了0个好方法。 ... [详细]
程序员
Webgl:最远的飞机能见度

如何解决《Webgl:最远的飞机能见度》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用scanf for for循环

如何解决《使用scanfforfor循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数中传递地址和大小的点

如何解决《函数中传递地址和大小的点》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何检查是否存在第二个参数

如何解决《如何检查是否存在第二个参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查序列的列表

如何解决《检查序列的列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将C运行时库与'ld'链接？

如何解决《如何将C运行时库与'ld'链接？》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402852307

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章