我有大约20个左右的活跃博客可以获得相当多的垃圾邮件.由于我讨厌CAPCHA,另一种选择是非常智能的垃圾邮件过滤.我想构建一个简单的REST API,如垃圾邮件检查服务,我会在我的所有博客中使用它.这样我就可以整合IP块并将垃圾邮件检测卸载到第三方,例如Akisment,Mollom,Defensio,并在将来的某个时候编写我自己的垃圾邮件检测,以真正了解一些非常有趣的垃圾邮件检测算法.
我选择的语言是PHP,我认为自己非常精通,我可以深入挖掘并提出解决方案.我觉得这个项目可以作为学习另一种语言的好习惯.想到的最重要的2是Python和Ruby on Rails,因为每个人都在谈论它们,就像我们救世主的下一个故事.由于这主要是一个API,没有管理员或公众面对任何东西,似乎基本的Python运行一个简单的http服务器似乎是要走的路.我错过了什么吗?你,伟大的社区,你会推荐什么?我很想听听您的语言,书籍和最佳实践建议.
这必须扩展,我想记住这一点.现在我可能能够使用第三方的免费计划,但很快我就必须将整个事情扩展到实际上自己思考.现在我想我只会将所有内容存储在MySQL数据库中,直到我可以对它进行真正的分析.谢谢!
我的第一个问题 - 你为什么不只使用你列出的这三种服务之一?它们似乎完全符合您的要求.抱歉是愤世嫉俗,但我怀疑你是否能够在合理的时间内打败设计这些网站使用的算法的软件工程师,特别是考虑到他们的收入来源取决于他们做得多好.
然后,你可能只是比他们更聪明= P.我不是一个要判断的人.无论如何,我推荐python,因为你说的原因 - 你不需要花哨的公共界面,所以python在这方面缺乏优势并不重要.Python也适合进行文本处理,并且它具有很好的内置绑定来使用数据库(例如,sqlite;当然,如果你认为有必要,你可以安装MySQL).
缺点:它可能会变慢,取决于算法的复杂程度.